Ch4. ADsP 데이터분석 준전문가 — ADsP 최종 핵심 정리와 모의고사 20문항
최종 정리를 시작하기 전에
ADsP 시험은 암기형 + 계산형 + 개념이해형 문제가 복합적으로 출제됩니다. 이 장에서는 1~3장의 핵심 내용을 시험 관점에서 재정리하고, 실전 모의고사를 통해 최종 점검합니다.
시험 직전 체크리스트:
- CRISP-DM 6단계 순서 암기
- 기술통계 공식 (평균·분산·표준편차·왜도·첨도) 이해
- p-value, 1종·2종 오류 개념 정확히 이해
- 의사결정나무 불순도 지수 (지니계수, 엔트로피) 공식 암기
- 혼동 행렬 기반 평가 지표 계산 (정확도·정밀도·재현율·F1)
- ROC-AUC 해석
- K-Means vs 계층적 군집 비교
제1과목 핵심 정리: 데이터 이해
빅데이터 핵심 개념
빅데이터 3V (반드시 암기):
| V | 영어 | 의미 |
|---|---|---|
| Volume | 규모 | 기존보다 방대한 데이터 양 |
| Velocity | 속도 | 빠른 데이터 생성·처리 속도 |
| Variety | 다양성 | 정형·반정형·비정형 데이터 |
확장: Value(가치), Veracity(정확성) → 5V
데이터 유형:
- 정형 데이터: RDB, Excel 등 구조화된 데이터
- 반정형 데이터: JSON, XML, HTML, 로그 파일
- 비정형 데이터: 텍스트, 이미지, 동영상, 소셜 미디어
데이터 사이언티스트 역량 (3요소)
- 수학·통계: 통계학, 선형대수, 확률론
- IT·프로그래밍: Python, R, SQL, 빅데이터 플랫폼
- 비즈니스: 도메인 지식, 문제 정의, 커뮤니케이션
시험 포인트: 이 세 역량이 교집합을 이루는 영역이 데이터 사이언스입니다.
데이터베이스 기초
| 용어 | 설명 |
|---|---|
| DBMS | 데이터베이스 관리 시스템 |
| 스키마 | 데이터베이스 구조와 제약 조건의 명세 |
| 트랜잭션 | 데이터베이스 작업의 논리적 단위 |
| ACID | 원자성·일관성·격리성·지속성 (트랜잭션 특성) |
| 정규화 | 데이터 중복을 제거하고 일관성을 높이는 과정 |
제2과목 핵심 정리: 데이터 분석 기획
CRISP-DM 완벽 정리
1. 비즈니스 이해 (Business Understanding)
└ 비즈니스 목표, 성공 기준, 프로젝트 계획 수립
2. 데이터 이해 (Data Understanding)
└ 데이터 수집, EDA, 데이터 품질 검증
3. 데이터 준비 (Data Preparation)
└ 데이터 정제, 변환, 파생변수 생성, 통합
4. 모델링 (Modeling)
└ 모델 선택, 테스트 설계, 모델 구축·평가
5. 평가 (Evaluation)
└ 비즈니스 목표 부합성 검토, 다음 단계 결정
6. 전개 (Deployment)
└ 배포, 모니터링, 최종 보고서 작성
핵심: CRISP-DM은 반복적(Iterative) 프로세스로, 어느 단계에서도 이전 단계로 돌아갈 수 있습니다.
분석 방법론 비교
| 방법론 | 단계 | 특징 |
|---|---|---|
| CRISP-DM | 6단계 | 실무 중심, 가장 널리 사용 |
| KDD | 9단계 | 학문 중심, 데이터 전처리 강조 |
| SEMMA | 5단계 | SAS에서 개발, 표본→탐색→변형→모델→평가 |
분석 기획 핵심 용어
| 용어 | 설명 |
|---|---|
| KPI | 핵심성과지표 — 목표 달성을 측정하는 정량 지표 |
| SMART | KPI 설계 원칙 (구체적·측정가능·달성가능·관련성·기한) |
| 데이터 거버넌스 | 데이터를 조직 자산으로 관리하는 정책·프로세스 체계 |
| 메타데이터 | 데이터에 대한 데이터 (속성·정의·출처·이력) |
| CDO | 최고 데이터 책임자 |
| 하향식 접근 | 비즈니스 목표 → 분석 과제 도출 |
| 상향식 접근 | 데이터 탐색 → 인사이트 발굴 |
제3과목 핵심 정리: 데이터 분석
기술통계 공식 총정리
| 통계량 | 공식 | 포인트 |
|---|---|---|
| 평균 (Mean) | Σxᵢ/n | 이상치에 민감 |
| 중앙값 (Median) | 정렬 후 중간값 | 이상치에 강건 |
| 분산 (Variance) | Σ(xᵢ-x̄)²/(n-1) | n-1로 나눔(불편추정) |
| 표준편차 (SD) | √분산 | 원래 단위와 동일 |
| 왜도 (Skewness) | 0=대칭, +=오른꼬리 | 평균·중앙값·최빈값 관계 |
| 첨도 (Kurtosis) | 3=정규, >3=급첨 | 분포의 뾰족함 |
왜도와 평균-중앙값-최빈값 관계:
- 오른꼬리 분포 (양의 왜도): 최빈값 < 중앙값 < 평균
- 왼꼬리 분포 (음의 왜도): 평균 < 중앙값 < 최빈값
- 대칭 분포 (왜도=0): 평균 = 중앙값 = 최빈값
추론통계 핵심 정리
가설검정 체계:
- H₀(귀무가설): 기각 대상, “차이 없음/효과 없음”
- H₁(대립가설): 채택 목표, “차이 있음/효과 있음”
- p-value < α(유의수준, 보통 0.05) → H₀ 기각
오류 유형:
| H₀ 기각 | H₀ 채택 | |
|---|---|---|
| H₀이 참 | 1종 오류 (α) | 올바른 결정 |
| H₀이 거짓 | 올바른 결정 | 2종 오류 (β) |
검정 방법 선택 가이드:
| 상황 | 검정 방법 |
|---|---|
| 하나의 연속형 변수, 기준값과 비교 | 단일 표본 t-검정 |
| 두 독립 집단의 평균 비교 | 독립 표본 t-검정 |
| 동일 대상 전후 비교 | 대응 표본 t-검정 |
| 세 집단 이상 평균 비교 | 일원분산분석(ANOVA) |
| 두 범주형 변수 간 연관성 | 카이제곱 독립성 검정 |
| 범주형 변수와 연속형 변수 | 분산분석(ANOVA) |
회귀분석 핵심 정리
단순선형회귀: Y = β₀ + β₁X + ε
결정계수 R²:
- 0~1 사이 값
- 독립변수가 종속변수 분산을 설명하는 비율
- 1에 가까울수록 좋은 모델
회귀분석 4가지 가정 (LINE):
- Linearity: 선형성
- Independence: 오차 독립성
- Normality: 오차 정규성
- Equal variance: 등분산성
모델 평가 지표 완벽 정리
혼동 행렬:
예측 Positive 예측 Negative
실제 Positive TP FN
실제 Negative FP TN
| 지표 | 공식 | 의미 |
|---|---|---|
| 정확도 | (TP+TN)/(TP+FP+FN+TN) | 전체 중 올바른 예측 |
| 정밀도 | TP/(TP+FP) | Positive 예측 중 실제 Positive |
| 재현율 | TP/(TP+FN) | 실제 Positive 중 올바르게 예측 |
| F1 | 2×(정밀도×재현율)/(정밀도+재현율) | 정밀도와 재현율의 조화 평균 |
| 특이도 | TN/(TN+FP) | 실제 Negative 중 올바르게 예측 |
AUC-ROC 해석:
- AUC ≥ 0.9: 매우 우수
- AUC 0.7~0.9: 적절
- AUC 0.5~0.7: 보통
- AUC = 0.5: 무작위 (쓸모없음)
알고리즘별 특징 비교
| 알고리즘 | 유형 | 장점 | 단점 |
|---|---|---|---|
| 의사결정나무 | 지도/분류·회귀 | 해석 용이, 비선형 처리 | 과적합 취약 |
| 로지스틱 회귀 | 지도/분류 | 확률 출력, 해석 쉬움 | 선형 경계만 |
| K-Means | 비지도/군집 | 빠름, 구현 쉬움 | K 사전 지정, 이상치 민감 |
| 계층적 군집 | 비지도/군집 | K 지정 불필요, 덴드로그램 | 계산 비용 큼 |
| PCA | 비지도/차원축소 | 차원 축소, 시각화 | 해석 어려움 |
| 랜덤 포레스트 | 지도/앙상블 | 과적합 강건, 정확도 높음 | 해석 어려움 |
모의고사 20문항
제1과목: 데이터 이해 (4문항)
[1번] 빅데이터의 3V에 해당하지 않는 것은?
A. Volume
B. Velocity
C. Veracity
D. Variety
[정답] C. Veracity
기본 3V는 Volume(규모), Velocity(속도), Variety(다양성)입니다. Veracity(정확성)는 확장된 5V에 포함되는 개념입니다.
[2번] 데이터 사이언티스트의 핵심 역량 3가지로 올바르게 묶인 것은?
A. 수학·통계, IT·프로그래밍, 비즈니스 도메인
B. 수학·통계, 외국어, 비즈니스 도메인
C. IT·프로그래밍, 외국어, 커뮤니케이션
D. 수학·통계, 빅데이터 플랫폼, 프로젝트 관리
[정답] A
데이터 사이언티스트의 3가지 핵심 역량은 수학·통계 지식, IT·프로그래밍 능력, 비즈니스 도메인 이해입니다.
[3번] 다음 중 비정형 데이터에 해당하지 않는 것은?
A. 소셜 미디어 게시글
B. 유튜브 동영상
C. 관계형 데이터베이스 테이블
D. 고객 상담 전화 녹취록
[정답] C
관계형 데이터베이스 테이블은 행과 열로 구조화된 정형 데이터입니다. 소셜 미디어, 동영상, 음성 녹취록은 비정형 데이터입니다.
[4번] 메타데이터(Metadata)에 대한 설명으로 가장 적절한 것은?
A. 정형 데이터와 비정형 데이터를 합친 대용량 데이터
B. 데이터에 대한 데이터로 데이터의 속성, 출처, 이력 등을 담고 있는 정보
C. 빅데이터 분석에서 도출된 최종 결과물
D. 데이터베이스에서 트랜잭션 처리를 위한 명령어
[정답] B
메타데이터는 “데이터에 대한 데이터”로, 데이터의 정의·속성·출처·이력 등 데이터를 설명하는 정보입니다. 데이터 거버넌스에서 중요한 역할을 합니다.
제2과목: 데이터 분석 기획 (4문항)
[5번] CRISP-DM의 6단계 중 ‘데이터 이해’ 단계의 활동으로 가장 거리가 먼 것은?
A. 초기 데이터 수집
B. 탐색적 데이터 분석(EDA)
C. 데이터 품질 검증
D. 최종 배포 계획 수립
[정답] D
최종 배포 계획 수립은 마지막 단계인 ‘전개(Deployment)’ 단계의 활동입니다. 데이터 이해 단계에서는 데이터 수집, 탐색, 품질 검증이 이루어집니다.
[6번] 다음 중 KPI(핵심성과지표)의 SMART 원칙에 포함되지 않는 것은?
A. Specific(구체적)
B. Measurable(측정 가능)
C. Achievable(달성 가능)
D. Reliable(신뢰할 수 있는)
[정답] D
SMART 원칙은 Specific(구체적), Measurable(측정가능), Achievable(달성가능), Relevant(관련성), Time-bound(기한명확)입니다. Reliable은 포함되지 않습니다.
[7번] 분석 과제 발굴의 하향식 접근(Top-Down)에 대한 설명으로 옳은 것은?
A. 데이터 탐색에서 출발하여 새로운 인사이트를 발굴한다
B. 경영진의 전략 목표에서 출발하여 분석 과제를 도출한다
C. 현장 직원의 문제 인식에서 출발하는 방식이다
D. 정해진 가설 없이 자유롭게 데이터를 탐색한다
[정답] B
하향식 접근은 경영진의 전략 목표나 비즈니스 목표에서 출발하여 분석 과제를 도출합니다. A와 D는 상향식 접근에 해당합니다.
[8번] CRISP-DM에 대한 설명 중 틀린 것은?
A. 데이터 마이닝의 표준 프로세스 모델이다
B. 비즈니스 중심의 실무 지향 방법론이다
C. 한 번 시작하면 단계를 건너뛸 수 없는 엄격한 순서를 따른다
D. 어느 단계에서도 이전 단계로 돌아갈 수 있는 반복적 프로세스다
[정답] C
CRISP-DM의 가장 중요한 특징은 비선형(Non-linear) 반복 프로세스라는 점입니다. 단계를 건너뛸 수 있고, 어느 단계에서도 이전 단계로 돌아갈 수 있습니다.
제3과목: 데이터 분석 (12문항)
[9번] 데이터 [3, 5, 5, 7, 9, 11]의 중앙값은?
A. 5
B. 6
C. 7
D. 8
[정답] B. 6
6개 데이터를 오름차순 정렬 → [3, 5, 5, 7, 9, 11]. 짝수 개이므로 3번째(5)와 4번째(7) 값의 평균 = (5+7)/2 = 6입니다.
[10번] 오른쪽 꼬리 분포(Right-skewed Distribution)에서 평균, 중앙값, 최빈값의 크기 관계로 옳은 것은?
A. 평균 < 중앙값 < 최빈값
B. 최빈값 < 중앙값 < 평균
C. 평균 = 중앙값 = 최빈값
D. 중앙값 < 최빈값 < 평균
[정답] B. 최빈값 < 중앙값 < 평균
오른쪽 꼬리(양의 왜도) 분포에서는 큰 값들이 오른쪽으로 뻗어 있어 평균이 가장 크게 영향을 받습니다. 순서는 최빈값 < 중앙값 < 평균입니다.
[11번] 유의수준 0.05에서 p-value = 0.12가 나왔을 때의 해석으로 옳은 것은?
A. 귀무가설을 기각하고, 결과는 통계적으로 유의하다
B. 귀무가설을 채택하고, 결과는 통계적으로 유의하지 않다
C. 유의수준을 0.10으로 낮춰서 다시 검정해야 한다
D. p-value가 0.12이므로 12%의 확률로 효과가 있다
[정답] B
p-value(0.12) > α(0.05)이므로 귀무가설을 기각하지 않습니다(채택). 결과는 통계적으로 유의하지 않습니다. D는 p-value의 잘못된 해석입니다.
[12번] 의사결정나무에서 사용하는 불순도 지수가 아닌 것은?
A. 지니 계수 (Gini Index)
B. 엔트로피 (Entropy)
C. 분산 감소 (Variance Reduction)
D. 상관계수 (Correlation Coefficient)
[정답] D. 상관계수
의사결정나무의 불순도 지수로는 지니 계수(CART), 엔트로피(ID3, C4.5), 분산 감소(회귀 나무)가 사용됩니다. 상관계수는 두 변수 간의 선형 관계를 측정하는 통계량으로, 불순도 지수가 아닙니다.
[13번] K-Means 군집분석에 대한 설명으로 틀린 것은?
A. 군집 수 K를 사전에 지정해야 한다
B. 초기 중심점 선택에 따라 결과가 달라질 수 있다
C. 계층적 구조(덴드로그램)를 생성한다
D. 엘보우 방법으로 최적 K를 결정할 수 있다
[정답] C. 계층적 구조(덴드로그램)를 생성한다
덴드로그램은 계층적 군집분석(Hierarchical Clustering)에서 생성되는 트리 구조입니다. K-Means는 파티셔닝(분할) 방법으로 덴드로그램을 생성하지 않습니다.
[14번] 혼동 행렬에서 TP=50, FP=10, FN=20, TN=120일 때 정확도(Accuracy)는?
A. 0.75
B. 0.83
C. 0.85
D. 0.71
[정답] C. 0.85
정확도 = (TP+TN)/(TP+FP+FN+TN) = (50+120)/(50+10+20+120) = 170/200 = 0.85
[15번] 다음 중 비지도 학습 알고리즘으로만 묶인 것은?
A. 의사결정나무, 로지스틱 회귀
B. K-Means, PCA
C. 랜덤 포레스트, SVM
D. K-Means, 로지스틱 회귀
[정답] B. K-Means, PCA
K-Means(군집분석)와 PCA(주성분분석)는 모두 레이블 없는 데이터로 학습하는 비지도 학습 알고리즘입니다. 의사결정나무, 로지스틱 회귀, 랜덤 포레스트, SVM은 지도 학습입니다.
[16번] PCA(주성분분석)에 대한 설명으로 옳지 않은 것은?
A. 데이터의 분산을 최대한 보존하면서 차원을 축소한다
B. 고차원 데이터를 저차원으로 변환하여 시각화에 활용된다
C. 다중공선성 문제를 해결하는 데 활용될 수 있다
D. 주성분의 수가 많을수록 설명력이 낮아진다
[정답] D
주성분을 더 많이 사용할수록 누적 설명 분산 비율이 높아집니다. 즉 주성분 수가 많을수록 설명력은 증가합니다. 다만 모든 주성분을 사용하면 차원 축소의 의미가 없어집니다.
[17번] 연관규칙 분석에서 향상도(Lift)가 1보다 클 때의 의미로 옳은 것은?
A. A와 B는 서로 독립적인 관계이다
B. A를 구매하면 B를 구매할 가능성이 낮아진다
C. A를 구매하면 B를 구매할 가능성이 무작위보다 높다
D. A와 B의 지지도가 0임을 의미한다
[정답] C
Lift > 1은 A와 B가 양의 연관관계에 있음을 의미합니다. 즉, A를 구매했을 때 B를 구매할 확률이 B의 기본 구매 확률(무작위)보다 높습니다. Lift = 1은 독립, Lift < 1은 음의 연관관계입니다.
[18번] 모델의 ‘과적합(Overfitting)’ 상태를 올바르게 설명한 것은?
A. 훈련 데이터와 테스트 데이터 모두 성능이 낮은 상태
B. 훈련 데이터에 너무 맞춰져 새로운 데이터에 일반화되지 않는 상태
C. 모델이 너무 단순하여 데이터의 패턴을 충분히 학습하지 못한 상태
D. 훈련 데이터와 테스트 데이터 성능이 동일하게 낮은 상태
[정답] B
과적합은 모델이 훈련 데이터에는 매우 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에서는 성능이 급격히 떨어지는 현상입니다. A와 D는 과소적합에 해당합니다.
[19번] AUC-ROC 곡선에서 X축과 Y축이 나타내는 것으로 옳은 것은?
A. X축: 재현율, Y축: 정밀도
B. X축: FPR(거짓 양성률), Y축: TPR(참 양성률)
C. X축: 정확도, Y축: F1 점수
D. X축: 특이도, Y축: 민감도
[정답] B
ROC 곡선의 X축은 FPR(False Positive Rate = 1-특이도), Y축은 TPR(True Positive Rate = 재현율 = 민감도)입니다. D에서 특이도와 민감도의 관계에서, X축은 1-특이도이므로 정확히는 B가 맞습니다.
[20번] 표본분산 공식에서 n-1로 나누는 이유로 가장 적절한 것은?
A. 계산을 편리하게 하기 위해
B. 표본분산이 모분산의 불편추정량(Unbiased Estimator)이 되도록 하기 위해
C. 표본 크기를 항상 홀수로 만들기 위해
D. 중앙값을 기준으로 분산을 계산하기 위해
[정답] B
표본분산에서 n 대신 n-1(자유도)로 나누는 이유는 표본분산이 모분산의 불편추정량이 되도록 하기 위함입니다. n으로 나누면 평균적으로 모분산보다 작게 추정됩니다(편향). n-1로 나누면 이 편향을 교정합니다.
시험 당일 최종 전략
시간 배분 (50분 = 50문항)
- 1문항당 평균 60초
- 어려운 문제는 표시하고 넘어가기
- 마지막 10분: 모르는 문제 재검토 및 빈칸 없이 마킹
과목별 마지막 확인 포인트
1과목 (10문항):
- 빅데이터 3V vs 5V 구분
- 정형/반정형/비정형 데이터 예시
- 데이터 사이언티스트 3대 역량
2과목 (10문항):
- CRISP-DM 6단계 순서와 각 단계 활동
- SMART 원칙 (KPI 설계)
- 하향식 vs 상향식 접근 차이
3과목 (30문항):
- 왜도·첨도 해석 + 평균/중앙값/최빈값 관계
- p-value 해석 (< α → H₀ 기각)
- 1종·2종 오류 구분
- 혼동 행렬 4가지 지표 계산 공식
- K-Means vs 계층적 군집 특징 비교
- 과적합 vs 과소적합 특징
실전 퀴즈 5문항
Q1. ADsP 시험의 합격 기준을 설명하시오.
정답: 전체 평균 60점 이상이면서, 각 과목별 40점 이상을 모두 충족해야 합니다. 전체 평균이 60점 이상이더라도 특정 과목에서 40점 미만이면 과락으로 불합격 처리됩니다.
Q2. 정밀도(Precision)와 재현율(Recall)의 트레이드오프를 설명하고, 각각이 중요한 실제 상황을 하나씩 제시하시오.
정답: 임계값(Threshold)을 높이면 정밀도는 올라가고 재현율은 낮아지며, 반대로 임계값을 낮추면 재현율은 올라가고 정밀도는 낮아집니다.
재현율이 중요한 상황: 암 진단 — 실제 환자를 놓치는(FN) 것이 더 위험하므로 재현율 최대화
정밀도가 중요한 상황: 스팸 필터 — 정상 메일이 스팸으로 분류되는(FP) 것이 더 불편하므로 정밀도 최대화
Q3. CRISP-DM에서 “데이터 준비” 단계와 “데이터 이해” 단계의 주요 활동을 각각 3가지씩 설명하시오.
정답:
데이터 이해 단계: ① 초기 데이터 수집 ② 탐색적 데이터 분석(EDA) — 데이터 분포·패턴 파악 ③ 데이터 품질 검증 — 결측치·이상치·중복 확인
데이터 준비 단계: ① 데이터 정제 — 결측치·이상치 처리 ② 변수 변환·파생 변수 생성 ③ 데이터 통합 및 형식 변환 (분석에 적합한 구조로 재구성)
Q4. 표본 크기 n=200일 때 중심극한정리(Central Limit Theorem)를 적용할 수 있는 이유를 설명하시오.
정답: 중심극한정리에 의하면 표본 크기 n이 충분히 클 때(일반적으로 n ≥ 30), 모집단의 분포와 무관하게 표본 평균의 분포는 정규분포에 근사합니다.
n=200은 충분히 큰 표본이므로, 모집단이 정규분포가 아니더라도(예: 지수분포, 균등분포 등) 표본 평균은 정규분포 N(μ, σ²/n)에 근사적으로 따릅니다. 이를 통해 t-검정 등 정규성을 가정하는 통계 방법을 적용할 수 있습니다.
Q5. K-Means 군집분석의 한계점 3가지를 설명하고, 각각의 대안을 제시하시오.
정답:
① K 사전 지정 필요: K를 미리 알 수 없는 경우 문제가 됩니다. 대안: 엘보우 방법, 실루엣 점수로 최적 K 탐색 / 계층적 군집분석 사용
② 초기 중심점에 따른 불안정성: 초기 중심점 선택에 따라 다른 결과가 나올 수 있습니다. 대안: K-Means++ (개선된 초기화 방법) 사용, 여러 번 실행 후 최적 결과 선택
③ 비구형 군집 탐지 어려움: 원형이 아닌 군집(아치형, 동심원 등)을 잘 탐지하지 못합니다. 대안: DBSCAN(밀도 기반), 스펙트럴 군집분석 사용
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.