Ch2. ADsP 데이터분석 준전문가 — 데이터 분석 — 통계 기초
통계란 무엇인가
**통계(Statistics)**는 데이터를 수집·정리·분석·해석하여 의사결정에 활용하는 학문입니다. 데이터 분석의 수학적 기반이 되며, ADsP 3과목에서 가장 많은 비중을 차지합니다.
통계의 두 갈래
| 구분 | 기술통계 (Descriptive Statistics) | 추론통계 (Inferential Statistics) |
|---|---|---|
| 목적 | 데이터를 요약·기술 | 표본으로 모집단 추론 |
| 대상 | 수집된 데이터 전체 | 표본 → 모집단 |
| 결과물 | 평균, 분산, 그래프 | 가설검정, 신뢰구간, p-value |
| 예시 | ”이번 달 평균 매출은 500만 원이다" | "A/B 테스트 결과가 통계적으로 유의하다” |
기술통계 (Descriptive Statistics)
중심경향치
데이터의 중심을 나타내는 통계량입니다.
평균(Mean) 가장 일반적인 중심경향치로, 모든 값의 합을 개수로 나눈 값입니다.
- 장점: 모든 데이터를 반영
- 단점: 이상치(Outlier)에 민감
중앙값(Median) 데이터를 크기순으로 정렬했을 때 가운데 위치하는 값입니다.
- 홀수 개: 중간 위치의 값
- 짝수 개: 중간 두 값의 평균
- 이상치에 강건(Robust)
최빈값(Mode) 데이터에서 가장 자주 등장하는 값입니다.
- 범주형 데이터에도 적용 가능
- 복수의 최빈값이 존재할 수 있음
시험 포인트: 왜도(Skewness)와 중심경향치의 관계 — 오른쪽 꼬리 분포(양의 왜도)에서는 평균 > 중앙값 > 최빈값 순서
산포도 (Measures of Dispersion)
데이터가 얼마나 퍼져 있는지를 나타냅니다.
범위(Range) 최댓값 - 최솟값
분산(Variance) 평균으로부터 각 데이터의 편차 제곱의 평균입니다.
모분산:
표본분산:
표본분산에서 n-1(자유도)로 나누는 이유: 표본에서 모분산을 불편추정(Unbiased Estimation)하기 위함
표준편차(Standard Deviation) 분산의 제곱근으로, 원래 데이터와 동일한 단위를 가집니다.
변동계수(CV, Coefficient of Variation) 단위가 다른 데이터 간 산포도 비교 시 사용합니다.
분포의 형태
왜도 (Skewness) 분포의 비대칭성을 나타냅니다.
| 값 | 의미 | 형태 |
|---|---|---|
| 왜도 = 0 | 대칭 | 정규분포 |
| 왜도 > 0 (양의 왜도) | 오른쪽 꼬리가 긴 분포 | 평균 > 중앙값 > 최빈값 |
| 왜도 < 0 (음의 왜도) | 왼쪽 꼬리가 긴 분포 | 평균 < 중앙값 < 최빈값 |
첨도 (Kurtosis) 분포의 뾰족한 정도를 나타냅니다.
| 값 | 의미 | 형태 |
|---|---|---|
| 첨도 = 3 (초과첨도 = 0) | 정규분포와 동일 | 중첨 (Mesokurtic) |
| 첨도 > 3 (초과첨도 > 0) | 정규분포보다 뾰족 | 급첨 (Leptokurtic) |
| 첨도 < 3 (초과첨도 < 0) | 정규분포보다 완만 | 편첨 (Platykurtic) |
정규분포
**정규분포(Normal Distribution)**는 통계에서 가장 중요한 분포입니다.
정규분포의 특징
- 평균을 중심으로 좌우 대칭인 종(bell) 모양
- 평균 = 중앙값 = 최빈값
- 왜도 = 0, 첨도 = 3
- 이론적으로 -∞ ~ +∞ 범위
68-95-99.7 규칙 (Empirical Rule)
정규분포 N(μ, σ²)에서:
- μ ± 1σ 구간에 데이터의 약 68.27% 포함
- μ ± 2σ 구간에 데이터의 약 95.45% 포함
- μ ± 3σ 구간에 데이터의 약 99.73% 포함
표준정규분포
평균 0, 표준편차 1인 정규분포 N(0,1)입니다.
표준화(Z-점수):
Z-점수의 의미: 해당 값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타냅니다.
추론통계 (Inferential Statistics)
표본과 모집단
| 구분 | 모집단 (Population) | 표본 (Sample) |
|---|---|---|
| 정의 | 관심 있는 전체 집단 | 모집단에서 추출한 일부 |
| 통계량 기호 | 모수 (μ, σ, π) | 통계량 (x̄, s, p) |
| 특징 | 조사하기 어렵거나 불가능 | 실제 분석 대상 |
중심극한정리(Central Limit Theorem) 표본 크기 n이 충분히 클 때(일반적으로 n≥30), 표본평균의 분포는 모집단 분포와 관계없이 정규분포에 근사합니다.
가설검정 (Hypothesis Testing)
가설검정은 표본 데이터를 이용해 모집단에 대한 가설을 검증하는 통계적 방법입니다.
가설의 구성
- 귀무가설 H₀ (Null Hypothesis): 기각하려는 가설, 현상 유지 가설 (“효과가 없다”, “차이가 없다”)
- 대립가설 H₁ (Alternative Hypothesis): 채택하려는 가설, 연구자가 증명하려는 가설 (“효과가 있다”, “차이가 있다”)
가설검정의 4단계
- 가설 설정 (H₀ vs H₁)
- 유의수준 α 설정 (보통 0.05)
- 검정통계량 계산
- p-value와 α 비교 → 결론 도출
p-value 이해하기
p-value는 귀무가설이 참이라는 전제 하에, 현재 표본 결과보다 더 극단적인 결과가 나올 확률입니다.
| p-value | 해석 | 결론 |
|---|---|---|
| p < α (보통 0.05) | 귀무가설 기각 | 통계적으로 유의함 |
| p ≥ α | 귀무가설 채택(기각 실패) | 통계적으로 유의하지 않음 |
주의: p-value가 낮다고 실질적으로 의미 있는 차이라는 뜻은 아닙니다. 통계적 유의성과 실질적 유의성은 구분해야 합니다.
1종 오류와 2종 오류
| 구분 | H₀가 참인데 기각 | H₀가 거짓인데 채택 |
|---|---|---|
| 명칭 | 1종 오류 (α) | 2종 오류 (β) |
| 다른 이름 | False Positive | False Negative |
| 제어 | 유의수준 α 설정으로 통제 | 검정력(1-β)으로 통제 |
주요 통계 검정 방법
t-검정 (t-test)
목적: 두 집단의 평균 차이가 유의한지 검정
종류:
-
단일 표본 t-검정: 표본 평균 vs 특정 기준값
- 예: “이 제품의 평균 수명이 1000시간과 차이가 있는가?”
-
독립 표본 t-검정: 두 독립 집단의 평균 비교
- 예: “남성과 여성의 평균 소비금액 차이가 있는가?”
-
대응 표본 t-검정 (쌍체 t-검정): 동일 대상의 전후 비교
- 예: “교육 프로그램 전후 성적 변화가 있는가?”
적용 조건: 정규성 가정 (표본 크기가 작을 때 중요), 등분산 가정 (독립 표본 t-검정)
카이제곱 검정 (χ² Test)
목적: 범주형 변수 간의 연관성 또는 적합도 검정
종류:
-
독립성 검정: 두 범주형 변수가 서로 독립인지 검정
- 예: “성별과 구매 여부가 독립인가?”
-
적합도 검정: 관측 빈도가 기대 빈도와 일치하는지 검정
- 예: “주사위가 공정한가?”
검정통계량:
여기서 O는 관측 빈도, E는 기대 빈도
F-검정 (ANOVA)
목적: 세 개 이상 집단의 평균 비교
일원분산분석(One-Way ANOVA): 하나의 요인에 따른 집단 비교
- 예: “세 가지 교수법(A, B, C)에 따른 성적 차이가 있는가?”
F-통계량:
F값이 클수록 집단 간 차이가 크다는 의미
상관분석 (Correlation Analysis)
상관관계의 개념
상관관계는 두 변수 간의 선형적 관계의 방향과 강도를 나타냅니다.
주의: 상관관계는 인과관계(Causation)가 아닙니다. “아이스크림 판매량과 익사 사고 건수의 상관관계”는 인과관계가 아닌 공통 원인(더운 날씨)에 의한 것입니다.
피어슨 상관계수 (Pearson’s r)
연속형 변수 간의 선형 상관 정도를 측정합니다.
상관계수 해석:
| r 값 | 해석 |
|---|---|
| r = 1 | 완전한 양의 상관관계 |
| 0.7 ≤ r < 1 | 강한 양의 상관관계 |
| 0.3 ≤ r < 0.7 | 보통의 양의 상관관계 |
| 0 < r < 0.3 | 약한 양의 상관관계 |
| r = 0 | 선형 상관관계 없음 |
| -0.3 < r < 0 | 약한 음의 상관관계 |
| -1 ≤ r < -0.7 | 강한 음의 상관관계 |
스피어만 순위상관계수
순서형 데이터 또는 정규성 가정이 충족되지 않을 때 사용하는 비모수적 상관계수입니다.
회귀분석 기초 (Regression Analysis)
회귀분석의 목적
회귀분석은 독립변수(X)로 종속변수(Y)를 예측하는 통계 모델입니다.
- 단순선형회귀: 독립변수 1개
- 다중선형회귀: 독립변수 여러 개
단순선형회귀 모델
- Y: 종속변수 (반응변수, 결과변수)
- X: 독립변수 (설명변수, 예측변수)
- β₀: 절편 (X=0일 때 Y의 예측값)
- β₁: 기울기 (X가 1 증가할 때 Y의 평균적인 변화)
- ε: 오차항 (잔차)
최소제곱법 (Ordinary Least Squares, OLS)
회귀계수를 추정하는 방법으로, 잔차(실제값 - 예측값)의 제곱합을 최소화합니다.
결정계수 R²
회귀모델이 종속변수의 분산을 얼마나 설명하는지 나타냅니다.
- SST: 전체 제곱합 (Total Sum of Squares)
- SSR: 회귀 제곱합 (Regression Sum of Squares)
- SSE: 잔차 제곱합 (Error Sum of Squares)
R² = 0.75이면 → 독립변수가 종속변수 분산의 75%를 설명
회귀분석 가정
- 선형성: Y와 X 간에 선형 관계 존재
- 독립성: 오차항이 서로 독립 (자기상관 없음)
- 등분산성: 모든 X 값에서 오차의 분산이 동일
- 정규성: 오차항이 정규분포를 따름
비모수 통계
모집단의 분포에 대한 가정 없이 사용하는 통계 방법입니다.
| 모수 검정 | 비모수 대응 | 목적 |
|---|---|---|
| 단일 표본 t-검정 | 부호검정, 윌콕슨 부호순위검정 | 중앙값 검정 |
| 독립 표본 t-검정 | 만-위트니 U 검정 | 두 집단 비교 |
| 일원 ANOVA | 크루스칼-왈리스 검정 | 세 집단 이상 비교 |
핵심 공식 요약
| 통계량 | 공식 | 설명 |
|---|---|---|
| 표본평균 | x̄ = Σxᵢ/n | 산술평균 |
| 표본분산 | s² = Σ(xᵢ-x̄)²/(n-1) | 불편분산 |
| 표준화 | Z = (x-μ)/σ | Z-점수 |
| 상관계수 | r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/(nSₓSᵧ) | 피어슨 r |
| 결정계수 | R² = SSR/SST | 설명력 |
| 카이제곱 | χ² = Σ(O-E)²/E | 적합도/독립성 검정 |
실전 퀴즈 5문항
Q1. 다음 데이터 [2, 4, 4, 4, 5, 5, 7, 9]의 평균, 중앙값, 최빈값을 구하시오.
정답:
- 평균: (2+4+4+4+5+5+7+9)/8 = 40/8 = 5
- 중앙값: 8개 데이터 → 4번째와 5번째 값의 평균 = (4+5)/2 = 4.5
- 최빈값: 4가 3번으로 가장 많이 등장 → 4
Q2. p-value = 0.03이고 유의수준 α = 0.05일 때, 가설검정 결과를 기술하시오.
정답: p-value(0.03) < α(0.05)이므로 귀무가설(H₀)을 기각합니다. 결과가 통계적으로 유의합니다.
즉, 귀무가설이 참일 때 현재와 같거나 더 극단적인 결과가 나올 확률이 3%로, 유의수준 5%보다 낮으므로 귀무가설을 기각합니다.
Q3. 1종 오류(Type I Error)와 2종 오류(Type II Error)를 각각 정의하고, 의학 검사에서의 예시를 드시오.
정답:
1종 오류(α): 귀무가설이 실제로 참인데 기각하는 오류 (False Positive) 의학 예시: 실제로 건강한 사람을 “질병이 있다”고 진단하는 경우
2종 오류(β): 귀무가설이 실제로 거짓인데 채택하는 오류 (False Negative) 의학 예시: 실제로 질병이 있는 사람을 “건강하다”고 진단하는 경우
Q4. 피어슨 상관계수 r = -0.85가 의미하는 것을 설명하시오.
정답: r = -0.85는 두 변수 간에 강한 음의 선형 상관관계가 있음을 의미합니다.
r이 음수이므로 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있습니다. r의 절대값이 0.85로 0.7 이상이므로 상관관계의 강도는 강합니다. 예시: 제품 가격이 오를수록 판매량이 감소하는 관계
Q5. 단순선형회귀에서 결정계수(R²) = 0.82의 의미를 설명하시오.
정답: R² = 0.82는 독립변수(X)가 종속변수(Y)의 전체 변동(분산)의 82%를 설명한다는 의미입니다.
즉, 회귀모델이 종속변수의 변화를 82% 설명하며, 나머지 18%는 모델에 포함되지 않은 다른 요인이나 오차로 인한 것입니다. R²이 1에 가까울수록 모델의 설명력이 높습니다.
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.