Ch1. 빅데이터 분석기사 — 자격증 개요와 데이터 분석 기초
빅데이터 분석기사란?
빅데이터 분석기사는 한국데이터산업진흥원(K-DATA)이 주관하는 국가기술자격증입니다. 2021년 첫 시행 이후 데이터 인재 수요 급증과 함께 취업·승진 현장에서 높은 활용도를 보이고 있습니다.
자격증의 핵심 목적은 빅데이터의 수집·저장·처리·분석·시각화 전 과정을 이해하고, 실무에서 데이터 기반 의사결정을 지원할 수 있는 역량을 검증하는 것입니다.
주관 기관: 한국데이터산업진흥원(K-DATA)
자격 종목: 빅데이터 분석기사 (기술사 → 기사 → 산업기사 체계 중 기사 등급)
공식 사이트: www.dataq.or.kr
시험 구조
빅데이터 분석기사 시험은 필기 시험과 실기 시험 두 단계로 구성됩니다.
필기 시험 (4과목)
| 과목 번호 | 과목명 | 출제 범위 |
|---|---|---|
| 1과목 | 빅데이터 분석 기획 | 분석 기획, 분석 방법론, 분석 마스터플랜 |
| 2과목 | 빅데이터 탐색 | 데이터 탐색, 데이터 전처리, 탐색적 분석 |
| 3과목 | 빅데이터 모델링 | 분석 모형 설계, 분석 기법, 고급 분석 기법 |
| 4과목 | 빅데이터 결과 해석 | 분석 모형 평가, 분석 결과 해석, 시각화 |
- 문항 수: 과목당 20문항 (총 80문항)
- 시험 시간: 120분
- 합격 기준: 전 과목 40점 이상, 전체 평균 60점 이상
실기 시험
실기는 작업형(Python/R 코드 작성) 방식으로 진행됩니다.
- 구성: 단답형(10점) + 작업형 1유형(20점) + 작업형 2유형(40점) = 총 70점 만점
- 합격 기준: 60% 이상 (42점 이상)
- 주요 도구: Python (pandas, scikit-learn, statsmodels), R
응시 자격
다음 중 하나에 해당하면 응시 가능합니다.
- 관련 학과 4년제 졸업(예정)자: 전산, 통계, 산업공학, 경영학 등
- 동일 분야 기사 자격 취득자
- 산업기사 + 실무 경력 1년 이상
- 실무 경력 4년 이상 (학력 무관)
- 전문대 졸업 + 실무 경력 2년 이상
실질적으로 비전공자도 실무 경력이나 학점은행제 등을 통해 응시 가능합니다.
빅데이터의 5V 특징
빅데이터를 정의하는 핵심 특성은 처음에는 3V(Volume, Velocity, Variety)로 시작했으나, 현재는 5V가 표준으로 자리잡았습니다.
| 특성 | 영문 | 의미 |
|---|---|---|
| 규모 | Volume | 수십 테라바이트~페타바이트 규모의 방대한 데이터 |
| 속도 | Velocity | 실시간 또는 준실시간으로 생성·처리되는 데이터 속도 |
| 다양성 | Variety | 정형(DB), 반정형(JSON/XML), 비정형(텍스트·이미지) 데이터 혼재 |
| 진실성 | Veracity | 데이터의 정확성, 신뢰성, 품질 — 노이즈·결측치 관리 필요 |
| 가치 | Value | 방대한 데이터에서 비즈니스 가치를 추출하는 것이 최종 목적 |
빅데이터 5V 암기법:
Volume(양) → Velocity(속도) → Variety(다양성) → Veracity(진실성) → Value(가치)
"양속다진가" — 양이 빠르고 다양해야, 진짜 가치가 나온다
데이터의 유형
정형 데이터 (Structured Data)
관계형 데이터베이스(RDBMS)의 테이블처럼 행과 열로 정의된 형식. 쉽게 저장·검색·분석 가능.
- 예시: Oracle, MySQL, Excel 스프레드시트
반정형 데이터 (Semi-Structured Data)
완전한 정형 구조는 아니지만 태그·키-값 쌍 등 구조적 요소를 포함.
- 예시: JSON, XML, CSV, HTML, 로그 파일
비정형 데이터 (Unstructured Data)
사전 정의된 형식 없음. 전체 데이터의 80% 이상 차지.
- 예시: 텍스트 문서, 이메일, 소셜미디어 게시글, 이미지, 동영상, 음성
데이터 분석 프로세스
빅데이터 분석은 일반적으로 다음 6단계 프로세스를 따릅니다.
1. 문제 정의 (Problem Definition)
→ 비즈니스 목표 설정, 분석 목적·범위 명확화
2. 데이터 수집 (Data Collection)
→ 내부 DB, 외부 API, 크롤링, 설문, 센서 등
3. 데이터 전처리 (Data Preprocessing)
→ 결측치 처리, 이상치 제거, 정규화, 인코딩
4. 탐색적 데이터 분석 EDA (Exploratory Data Analysis)
→ 기술통계, 분포 파악, 상관관계, 시각화
5. 모델링 (Modeling)
→ 알고리즘 선택, 학습, 검증, 하이퍼파라미터 튜닝
6. 결과 해석 및 시각화 (Interpretation & Visualization)
→ 인사이트 도출, 보고서 작성, 의사결정 지원
통계 기초
데이터 분석의 근간은 통계학입니다. 빅데이터 분석기사 시험에서도 통계 개념이 전 과목에 걸쳐 출제됩니다.
기술통계 (Descriptive Statistics)
데이터를 요약·정리하는 통계. 추론 없이 있는 데이터를 설명합니다.
중심 경향치(Central Tendency):
평균(Mean) = 모든 값의 합 / 관측치 수
중앙값(Median) = 정렬 후 가운데 값 (이상치에 강건)
최빈값(Mode) = 가장 자주 등장하는 값
산포도(Variability):
범위(Range) = 최댓값 - 최솟값
분산(Variance) = Σ(xi - μ)² / N ← 편차 제곱의 평균
표준편차(Std Dev) = √분산 ← 분산의 제곱근, 원래 단위
사분위범위(IQR) = Q3 - Q1 ← 이상치 탐지에 활용
확률 분포
| 분포 | 특징 | 활용 |
|---|---|---|
| 정규분포 | 종 모양(Bell Curve), μ±σ 규칙 | 자연현상, 측정 오차 |
| 이항분포 | 성공/실패 반복 시행 | 클릭률, 불량률 |
| 포아송분포 | 단위 시간당 사건 발생 횟수 | 콜센터 문의, 교통사고 |
| 균등분포 | 모든 값이 동일한 확률 | 난수 생성 |
정규분포의 경험적 법칙 (68-95-99.7 규칙):
μ ± 1σ 범위: 약 68% 데이터 포함
μ ± 2σ 범위: 약 95% 데이터 포함
μ ± 3σ 범위: 약 99.7% 데이터 포함
가설검정 (Hypothesis Testing)
표본 데이터를 통해 모집단에 대한 주장(가설)을 검정하는 절차입니다.
절차:
1. 귀무가설(H₀) 설정: "차이가 없다" (null hypothesis)
2. 대립가설(H₁) 설정: "차이가 있다" (alternative hypothesis)
3. 유의수준(α) 설정: 보통 0.05 (5%)
4. 검정통계량 계산 및 p-값 산출
5. 판정: p-값 < α → H₀ 기각 (통계적으로 유의함)
1종 오류 vs 2종 오류:
| 구분 | 실제 H₀ 참 | 실제 H₀ 거짓 |
|---|---|---|
| H₀ 채택 | 올바른 결정 | 2종 오류(β) |
| H₀ 기각 | 1종 오류(α) | 올바른 결정 |
1종 오류: 실제로 차이가 없는데 있다고 판단 (False Positive)
2종 오류: 실제로 차이가 있는데 없다고 판단 (False Negative)
상관관계와 인과관계
데이터 분석에서 가장 흔한 오류 중 하나는 상관관계를 인과관계로 혼동하는 것입니다.
상관관계(Correlation): 두 변수가 함께 변하는 경향
인과관계(Causation): 한 변수가 다른 변수의 변화를 일으킴
"아이스크림 판매량과 익사 사고 수는 상관관계가 있다"
→ 아이스크림이 익사를 유발하는 게 아니라,
여름(제3변수)이 두 현상 모두를 증가시키는 것
피어슨 상관계수(r):
- -1 ≤ r ≤ 1
- r = 1: 완전 양의 선형 관계
- r = 0: 선형 관계 없음
- r = -1: 완전 음의 선형 관계
데이터 전처리 핵심 기법
실제 데이터는 불완전하고 노이즈가 많습니다. 전처리 단계가 분석 품질을 결정합니다.
결측치 처리
# 결측치 확인
df.isnull().sum()
# 결측치 처리 방법:
# 1. 삭제 (listwise deletion)
df.dropna()
# 2. 평균/중앙값 대체 (imputation)
df['column'].fillna(df['column'].mean(), inplace=True)
# 3. 최빈값 대체 (범주형)
df['category'].fillna(df['category'].mode()[0], inplace=True)
이상치 탐지
IQR 방법:
Q1 = 25분위수, Q3 = 75분위수
IQR = Q3 - Q1
이상치 범위: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과
Z-score 방법:
|Z| > 3 인 값을 이상치로 판단
Z = (x - μ) / σ
정규화 vs 표준화
Min-Max 정규화: x' = (x - min) / (max - min) → [0, 1] 범위
표준화(Z-score): x' = (x - μ) / σ → 평균 0, 표준편차 1
핵심 개념 카드
빅데이터 5V ★★★★★ : Volume(규모)·Velocity(속도)·Variety(다양성)·Veracity(진실성)·Value(가치). 시험에서 특히 각 V의 정의와 예시 연결 문제 출제. 암기 포인트: “양속다진가”
1종 오류(α) vs 2종 오류(β) ★★★★★ : 1종 = H₀가 참인데 기각 (False Positive). 2종 = H₀가 거짓인데 채택 (False Negative). 유의수준 α가 1종 오류 허용 한계. 암기 포인트: 1종은 “억울한 유죄” (무고한 사람을 범인으로 몰기)
기술통계 vs 추론통계 ★★★★☆ : 기술통계 = 있는 데이터 요약·설명. 추론통계 = 표본으로 모집단 추정·검정. 암기 포인트: 기술(記述) = 묘사, 추론 = 예측
정규화 vs 표준화 ★★★★☆ : Min-Max 정규화는 범위를 [0,1]로 압축 (이상치 민감). 표준화(Z-score)는 평균 0, 표준편차 1로 변환 (분포 무관). 사용 기준: 거리 기반 알고리즘(KNN, SVM)은 표준화 선호
상관관계 ≠ 인과관계 ★★★☆☆ : 두 변수가 함께 움직인다고 인과관계를 주장할 수 없음. 제3의 변수(교란변수) 존재 가능성 항상 고려.
실전 퀴즈
Q1. 빅데이터 5V 중 데이터의 신뢰성·정확성을 의미하는 특성은?
Veracity(진실성). 소셜미디어의 허위 정보, 센서 오작동 데이터처럼 빅데이터에는 노이즈와 오류가 섞여있어 진실성 확보가 중요한 과제입니다.
Q2. 유의수준 0.05에서 검정한 결과 p-값이 0.03이 나왔다. 결론은?
p-값(0.03) < 유의수준(0.05)이므로 귀무가설(H₀) 기각. 즉 통계적으로 유의미한 차이가 있다고 판단합니다. 이때 1종 오류를 범할 확률은 최대 5%입니다.
Q3. 연속형 데이터에서 이상치에 가장 강건한 중심 경향치는?
중앙값(Median). 평균은 극단값(이상치)의 영향을 크게 받지만, 중앙값은 순서에만 의존하므로 이상치가 있는 데이터에서 더 대표성 있는 중심 경향치입니다.
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.