다중 회귀 분석: 복잡한 세상의 변수들
O
Oiyo Contributor
다중 회귀 분석: 한 가지 이유만으로는 부족하다
현실 세계의 사건들은 단 하나의 원인으로 설명되지 않습니다. 아파트 가격은 평수뿐만 아니라 연식, 역거리, 학군 등 다양한 요인에 의해 결정됩니다. 통계학은 이를 **다중 회귀 분석(Multiple Linear Regression)**으로 풀어냅니다.
| 구분 | 단순 선형 회귀 | 다중 선형 회귀 |
|---|---|---|
| 독립변수 수 | 1개 | 2개 이상 |
| 모델 식 | y = β₀ + β₁x + ε | y = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε |
| 설명력 | 제한적 (한 변수만 통제) | 높음 (다른 변수 효과 통제 후 순수 효과 추정) |
| 응용 사례 | 학습시간 → 성적 | 성적 = f(학습시간, 수면시간, 결석일수, ...) |
| 주의사항 | 교란변수 미통제 | 다중공선성, 과적합 |
1. 다중 회귀식의 구조와 해석
각 계수는 다른 변수들이 모두 고정되어 있을 때, 해당 변수 가 한 단위 변할 때 종속변수 에 미치는 순수한 한계 효과입니다.
| 변수 (xᵢ) | 계수 (βᵢ) | 해석 |
|---|---|---|
| 전용면적 (㎡) | +250만원 | 다른 조건 동일 시, 1㎡ 증가 → 250만원 상승 |
| 지하철역 거리 (분) | −80만원 | 다른 조건 동일 시, 1분 멀어질수록 80만원 하락 |
| 건축연도 (년도) | +600만원 | 다른 조건 동일 시, 1년 신축일수록 600만원 상승 |
| 상위 학군 여부 (0/1) | +5,000만원 | 학군 우수 지역은 5,000만원 프리미엄 |
2. 다중 공선성 (Multicollinearity)
다중 회귀에서 가장 주의해야 할 함정입니다. 독립변수들 사이에 강한 상관관계가 있을 때 발생합니다.
| 사례 | 공선성 원인 | VIF 수준 | 대응 방법 |
|---|---|---|---|
| 광고비 + 브랜드인지도 | 광고비가 높으면 당연히 인지도도 높음 | VIF > 10 (심각) | 변수 중 하나 제거 |
| 소득 + 소비 | 소득이 높으면 소비도 높음 | VIF 5~10 (주의) | PCA로 차원 축소 |
| 기온 + 계절 더미변수 | 계절이 기온을 포함하는 개념 | VIF > 10 (심각) | 계절 변수 제거 |
| 키 + 몸무게 | 생물학적 연관성 | VIF 3~5 (경미) | 모델 목적에 따라 판단 |
각 독립변수의 VIF = 1/(1−R²ⱼ), 여기서 R²ⱼ는 해당 변수를 나머지 변수들로 회귀한 결정계수입니다. VIF > 10 이면 다중공선성이 심각하다고 판단하며, 해당 변수 제거, 능형회귀(Ridge), PCA 등으로 대처합니다.
3. 모델 품질 평가: 조정된 (Adjusted )
단순 는 변수를 추가할수록 자동으로 상승하는 문제가 있습니다. 조정된 는 불필요한 변수 추가에 패널티를 부여하여 모델의 실질적인 설명력을 측정합니다.
| 모델 | 변수 | R² | 조정된 R² | 판정 |
|---|---|---|---|---|
| 모델 1 | 전용면적만 | 0.72 | 0.71 | 기준 |
| 모델 2 | + 역거리 추가 | 0.84 | 0.83 | 실질 개선 ✅ |
| 모델 3 | + 층수 추가 | 0.87 | 0.86 | 약간 개선 ✅ |
| 모델 4 | + 관리비(무관) 추가 | 0.87 | 0.85 | 오히려 하락 ❌ |
좋은 회귀 모델은 ‘변수가 많은 모델’이 아니라 가장 적은 핵심 변수로 현상을 가장 잘 설명하는 모델 입니다. AIC(아카이케 정보기준)나 BIC(베이즈 정보기준) 지표는 이 효율성에 기반해 모델을 선택하는 데 사용됩니다.