분산 분석(ANOVA): 여러 그룹의 차이를 비교하다
O
Oiyo Contributor
분산 분석(ANOVA): 이름 속에 숨겨진 평균 비교
우리는 앞서 두 그룹의 평균을 비교할 때 t-검정을 사용했습니다. 그렇다면 세 그룹 이상의 평균을 비교하고 싶을 땐 어떻게 해야 할까요? t-검정을 여러 번 하면 오류가 커집니다. 이때 필요한 것이 바로 **분산 분석(Analysis of Variance, ANOVA)**입니다.
1. ANOVA의 핵심 원리: ‘분산’으로 ‘평균’을 판단하다
이름은 ‘분산 분석’이지만, 목적은 ‘평균의 차이’를 보는 것입니다. 데이터의 전체 변동을 두 가지로 나눕니다.
- 집단 간 분산 (Between-group Variance): 그룹들이 서로 얼마나 떨어져 있는가? (우리가 알고 싶은 차이)
- 집단 내 분산 (Within-group Variance): 같은 그룹 안에서 데이터들이 얼마나 흩어져 있는가? (우연한 오차)
F-통계량 = 집단 간 분산 / 집단 내 분산
이 F값이 충분히 크면 “그룹 간에 의미 있는 평균 차이가 있다”고 결론 내립니다.
2. ANOVA 테이블 예시
실제 분석 결과는 다음과 같은 테이블 형태로 요약됩니다.
| 변동 요인 | 제곱합 (SS) | 자유도 (df) | F-통계량 | P-value |
|---|---|---|---|---|
| 집단 간 (치료법) | 1,250 | 2 | 12.5 | 0.001 |
| 집단 내 (오차) | 8,400 | 84 | - | - |
| 총 계 | 9,650 | 86 | - | - |
3. ANOVA 이후엔 무엇을 하나요? (사후 검정)
ANOVA에서 “차이가 있다”는 결론이 나왔다고 해서 “어느 그룹과 어느 그룹이 다른지”까지는 알 수 없습니다. 이를 확인하기 위해 **사후 검정(Post-hoc Test)**이라는 추가적인 절차를 거치게 됩니다.
💡 교수님의 팁
ANOVA는 ‘실험 계획법’의 기초입니다. 마케팅에서 세 가지 광고 시안의 효과를 비교하거나, 공장에서 여러 부품의 내구성을 테스트할 때 가장 먼저 사용하는 지도와 같습니다.