빅데이터 분석기사란?

빅데이터 분석기사는 한국데이터산업진흥원(K-DATA)이 주관하는 국가기술자격증입니다. 2021년 첫 시행 이후 데이터 인재 수요 급증과 함께 취업·승진 현장에서 높은 활용도를 보이고 있습니다.

자격증의 핵심 목적은 빅데이터의 수집·저장·처리·분석·시각화 전 과정을 이해하고, 실무에서 데이터 기반 의사결정을 지원할 수 있는 역량을 검증하는 것입니다.

주관 기관: 한국데이터산업진흥원(K-DATA)
자격 종목: 빅데이터 분석기사 (기술사 → 기사 → 산업기사 체계 중 기사 등급)
공식 사이트: www.dataq.or.kr

시험 구조

빅데이터 분석기사 시험은 필기 시험과 실기 시험 두 단계로 구성됩니다.

필기 시험 (4과목)

과목 번호	과목명	출제 범위
1과목	빅데이터 분석 기획	분석 기획, 분석 방법론, 분석 마스터플랜
2과목	빅데이터 탐색	데이터 탐색, 데이터 전처리, 탐색적 분석
3과목	빅데이터 모델링	분석 모형 설계, 분석 기법, 고급 분석 기법
4과목	빅데이터 결과 해석	분석 모형 평가, 분석 결과 해석, 시각화

문항 수: 과목당 20문항 (총 80문항)
시험 시간: 120분
합격 기준: 전 과목 40점 이상, 전체 평균 60점 이상

실기 시험

실기는 작업형(Python/R 코드 작성) 방식으로 진행됩니다.

구성: 단답형(10점) + 작업형 1유형(20점) + 작업형 2유형(40점) = 총 70점 만점
합격 기준: 60% 이상 (42점 이상)
주요 도구: Python (pandas, scikit-learn, statsmodels), R

응시 자격

다음 중 하나에 해당하면 응시 가능합니다.

관련 학과 4년제 졸업(예정)자: 전산, 통계, 산업공학, 경영학 등
동일 분야 기사 자격 취득자
산업기사 + 실무 경력 1년 이상
실무 경력 4년 이상 (학력 무관)
전문대 졸업 + 실무 경력 2년 이상

실질적으로 비전공자도 실무 경력이나 학점은행제 등을 통해 응시 가능합니다.

빅데이터의 5V 특징

빅데이터를 정의하는 핵심 특성은 처음에는 3V(Volume, Velocity, Variety)로 시작했으나, 현재는 5V가 표준으로 자리잡았습니다.

특성	영문	의미
규모	Volume	수십 테라바이트~페타바이트 규모의 방대한 데이터
속도	Velocity	실시간 또는 준실시간으로 생성·처리되는 데이터 속도
다양성	Variety	정형(DB), 반정형(JSON/XML), 비정형(텍스트·이미지) 데이터 혼재
진실성	Veracity	데이터의 정확성, 신뢰성, 품질 — 노이즈·결측치 관리 필요
가치	Value	방대한 데이터에서 비즈니스 가치를 추출하는 것이 최종 목적

빅데이터 5V 암기법:
Volume(양) → Velocity(속도) → Variety(다양성) → Veracity(진실성) → Value(가치)
"양속다진가" — 양이 빠르고 다양해야, 진짜 가치가 나온다

데이터의 유형

정형 데이터 (Structured Data)

관계형 데이터베이스(RDBMS)의 테이블처럼 행과 열로 정의된 형식. 쉽게 저장·검색·분석 가능.

예시: Oracle, MySQL, Excel 스프레드시트

반정형 데이터 (Semi-Structured Data)

완전한 정형 구조는 아니지만 태그·키-값 쌍 등 구조적 요소를 포함.

예시: JSON, XML, CSV, HTML, 로그 파일

비정형 데이터 (Unstructured Data)

사전 정의된 형식 없음. 전체 데이터의 80% 이상 차지.

예시: 텍스트 문서, 이메일, 소셜미디어 게시글, 이미지, 동영상, 음성

데이터 분석 프로세스

빅데이터 분석은 일반적으로 다음 6단계 프로세스를 따릅니다.

1. 문제 정의 (Problem Definition)
   → 비즈니스 목표 설정, 분석 목적·범위 명확화

2. 데이터 수집 (Data Collection)
   → 내부 DB, 외부 API, 크롤링, 설문, 센서 등

3. 데이터 전처리 (Data Preprocessing)
   → 결측치 처리, 이상치 제거, 정규화, 인코딩

4. 탐색적 데이터 분석 EDA (Exploratory Data Analysis)
   → 기술통계, 분포 파악, 상관관계, 시각화

5. 모델링 (Modeling)
   → 알고리즘 선택, 학습, 검증, 하이퍼파라미터 튜닝

6. 결과 해석 및 시각화 (Interpretation & Visualization)
   → 인사이트 도출, 보고서 작성, 의사결정 지원

통계 기초

데이터 분석의 근간은 통계학입니다. 빅데이터 분석기사 시험에서도 통계 개념이 전 과목에 걸쳐 출제됩니다.

기술통계 (Descriptive Statistics)

데이터를 요약·정리하는 통계. 추론 없이 있는 데이터를 설명합니다.

중심 경향치(Central Tendency):

평균(Mean)     = 모든 값의 합 / 관측치 수
중앙값(Median) = 정렬 후 가운데 값 (이상치에 강건)
최빈값(Mode)   = 가장 자주 등장하는 값

산포도(Variability):

범위(Range)       = 최댓값 - 최솟값
분산(Variance)    = Σ(xi - μ)² / N  ← 편차 제곱의 평균
표준편차(Std Dev) = √분산          ← 분산의 제곱근, 원래 단위
사분위범위(IQR)   = Q3 - Q1        ← 이상치 탐지에 활용

확률 분포

분포	특징	활용
정규분포	종 모양(Bell Curve), μ±σ 규칙	자연현상, 측정 오차
이항분포	성공/실패 반복 시행	클릭률, 불량률
포아송분포	단위 시간당 사건 발생 횟수	콜센터 문의, 교통사고
균등분포	모든 값이 동일한 확률	난수 생성

정규분포의 경험적 법칙 (68-95-99.7 규칙):

μ ± 1σ 범위: 약 68% 데이터 포함
μ ± 2σ 범위: 약 95% 데이터 포함
μ ± 3σ 범위: 약 99.7% 데이터 포함

가설검정 (Hypothesis Testing)

표본 데이터를 통해 모집단에 대한 주장(가설)을 검정하는 절차입니다.

절차:
1. 귀무가설(H₀) 설정: "차이가 없다" (null hypothesis)
2. 대립가설(H₁) 설정: "차이가 있다" (alternative hypothesis)
3. 유의수준(α) 설정: 보통 0.05 (5%)
4. 검정통계량 계산 및 p-값 산출
5. 판정: p-값 < α → H₀ 기각 (통계적으로 유의함)

1종 오류 vs 2종 오류:

구분	실제 H₀ 참	실제 H₀ 거짓
H₀ 채택	올바른 결정	2종 오류(β)
H₀ 기각	1종 오류(α)	올바른 결정

1종 오류: 실제로 차이가 없는데 있다고 판단 (False Positive)
2종 오류: 실제로 차이가 있는데 없다고 판단 (False Negative)

상관관계와 인과관계

데이터 분석에서 가장 흔한 오류 중 하나는 상관관계를 인과관계로 혼동하는 것입니다.

상관관계(Correlation): 두 변수가 함께 변하는 경향
인과관계(Causation):  한 변수가 다른 변수의 변화를 일으킴

"아이스크림 판매량과 익사 사고 수는 상관관계가 있다"
→ 아이스크림이 익사를 유발하는 게 아니라,
  여름(제3변수)이 두 현상 모두를 증가시키는 것

피어슨 상관계수(r):

-1 ≤ r ≤ 1
r = 1: 완전 양의 선형 관계
r = 0: 선형 관계 없음
r = -1: 완전 음의 선형 관계

데이터 전처리 핵심 기법

실제 데이터는 불완전하고 노이즈가 많습니다. 전처리 단계가 분석 품질을 결정합니다.

결측치 처리

# 결측치 확인
df.isnull().sum()

# 결측치 처리 방법:
# 1. 삭제 (listwise deletion)
df.dropna()

# 2. 평균/중앙값 대체 (imputation)
df['column'].fillna(df['column'].mean(), inplace=True)

# 3. 최빈값 대체 (범주형)
df['category'].fillna(df['category'].mode()[0], inplace=True)

이상치 탐지

IQR 방법:
Q1 = 25분위수, Q3 = 75분위수
IQR = Q3 - Q1
이상치 범위: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과

Z-score 방법:
|Z| > 3 인 값을 이상치로 판단
Z = (x - μ) / σ

정규화 vs 표준화

Min-Max 정규화: x' = (x - min) / (max - min) → [0, 1] 범위
표준화(Z-score):  x' = (x - μ) / σ → 평균 0, 표준편차 1

핵심 개념 카드

빅데이터 5V ★★★★★ : Volume(규모)·Velocity(속도)·Variety(다양성)·Veracity(진실성)·Value(가치). 시험에서 특히 각 V의 정의와 예시 연결 문제 출제. 암기 포인트: “양속다진가”

1종 오류(α) vs 2종 오류(β) ★★★★★ : 1종 = H₀가 참인데 기각 (False Positive). 2종 = H₀가 거짓인데 채택 (False Negative). 유의수준 α가 1종 오류 허용 한계. 암기 포인트: 1종은 “억울한 유죄” (무고한 사람을 범인으로 몰기)

기술통계 vs 추론통계 ★★★★☆ : 기술통계 = 있는 데이터 요약·설명. 추론통계 = 표본으로 모집단 추정·검정. 암기 포인트: 기술(記述) = 묘사, 추론 = 예측

정규화 vs 표준화 ★★★★☆ : Min-Max 정규화는 범위를 [0,1]로 압축 (이상치 민감). 표준화(Z-score)는 평균 0, 표준편차 1로 변환 (분포 무관). 사용 기준: 거리 기반 알고리즘(KNN, SVM)은 표준화 선호

상관관계 ≠ 인과관계 ★★★☆☆ : 두 변수가 함께 움직인다고 인과관계를 주장할 수 없음. 제3의 변수(교란변수) 존재 가능성 항상 고려.

실전 퀴즈

Q1. 빅데이터 5V 중 데이터의 신뢰성·정확성을 의미하는 특성은?

Veracity(진실성). 소셜미디어의 허위 정보, 센서 오작동 데이터처럼 빅데이터에는 노이즈와 오류가 섞여있어 진실성 확보가 중요한 과제입니다.

Q2. 유의수준 0.05에서 검정한 결과 p-값이 0.03이 나왔다. 결론은?

p-값(0.03) < 유의수준(0.05)이므로 귀무가설(H₀) 기각. 즉 통계적으로 유의미한 차이가 있다고 판단합니다. 이때 1종 오류를 범할 확률은 최대 5%입니다.

Q3. 연속형 데이터에서 이상치에 가장 강건한 중심 경향치는?

중앙값(Median). 평균은 극단값(이상치)의 영향을 크게 받지만, 중앙값은 순서에만 의존하므로 이상치가 있는 데이터에서 더 대표성 있는 중심 경향치입니다.

Ch1. 빅데이터 분석기사 — 자격증 개요와 데이터 분석 기초