Statistics Chapter 6 약 3분

다중 회귀 분석: 복잡한 세상의 변수들

O
Oiyo Contributor

다중 회귀 분석: 한 가지 이유만으로는 부족하다

현실 세계의 사건들은 단 하나의 원인으로 설명되지 않습니다. 아파트 가격은 평수뿐만 아니라 연식, 역거리, 학군 등 다양한 요인에 의해 결정됩니다. 통계학은 이를 **다중 회귀 분석(Multiple Linear Regression)**으로 풀어냅니다.

단순 회귀 vs 다중 회귀 비교
구분단순 선형 회귀다중 선형 회귀
독립변수 수1개2개 이상
모델 식y = β₀ + β₁x + εy = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε
설명력제한적 (한 변수만 통제)높음 (다른 변수 효과 통제 후 순수 효과 추정)
응용 사례학습시간 → 성적성적 = f(학습시간, 수면시간, 결석일수, ...)
주의사항교란변수 미통제다중공선성, 과적합

1. 다중 회귀식의 구조와 해석

y=β0+β1x1+β2x2++βkxk+ϵy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \epsilon

βi\beta_i 계수는 다른 변수들이 모두 고정되어 있을 때, 해당 변수 xix_i가 한 단위 변할 때 종속변수 yy에 미치는 순수한 한계 효과입니다.

아파트 가격 결정 모델 — 다중 회귀 계수 해석 예시
변수 (xᵢ)계수 (βᵢ)해석
전용면적 (㎡)+250만원다른 조건 동일 시, 1㎡ 증가 → 250만원 상승
지하철역 거리 (분)−80만원다른 조건 동일 시, 1분 멀어질수록 80만원 하락
건축연도 (년도)+600만원다른 조건 동일 시, 1년 신축일수록 600만원 상승
상위 학군 여부 (0/1)+5,000만원학군 우수 지역은 5,000만원 프리미엄

2. 다중 공선성 (Multicollinearity)

다중 회귀에서 가장 주의해야 할 함정입니다. 독립변수들 사이에 강한 상관관계가 있을 때 발생합니다.

다중 공선성 사례와 탐지 방법
사례공선성 원인VIF 수준대응 방법
광고비 + 브랜드인지도광고비가 높으면 당연히 인지도도 높음VIF > 10 (심각)변수 중 하나 제거
소득 + 소비소득이 높으면 소비도 높음VIF 5~10 (주의)PCA로 차원 축소
기온 + 계절 더미변수계절이 기온을 포함하는 개념VIF > 10 (심각)계절 변수 제거
키 + 몸무게생물학적 연관성VIF 3~5 (경미)모델 목적에 따라 판단

각 독립변수의 VIF = 1/(1−R²ⱼ), 여기서 R²ⱼ는 해당 변수를 나머지 변수들로 회귀한 결정계수입니다. VIF > 10 이면 다중공선성이 심각하다고 판단하며, 해당 변수 제거, 능형회귀(Ridge), PCA 등으로 대처합니다.


3. 모델 품질 평가: 조정된 R2R^2 (Adjusted R2R^2)

Rˉ2=1(1R2)(n1)nk1\bar{R}^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1}

단순 R2R^2는 변수를 추가할수록 자동으로 상승하는 문제가 있습니다. 조정된 R2R^2는 불필요한 변수 추가에 패널티를 부여하여 모델의 실질적인 설명력을 측정합니다.

변수 추가에 따른 R² vs 조정된 R² 비교 (아파트 예시)
모델변수조정된 R²판정
모델 1전용면적만0.720.71기준
모델 2+ 역거리 추가0.840.83실질 개선 ✅
모델 3+ 층수 추가0.870.86약간 개선 ✅
모델 4+ 관리비(무관) 추가0.870.85오히려 하락 ❌

좋은 회귀 모델은 ‘변수가 많은 모델’이 아니라 가장 적은 핵심 변수로 현상을 가장 잘 설명하는 모델 입니다. AIC(아카이케 정보기준)나 BIC(베이즈 정보기준) 지표는 이 효율성에 기반해 모델을 선택하는 데 사용됩니다.

새 글 알림 받기

최신 글을 이메일로 받아보세요. 스팸 없음, 언제든 취소 가능.

구독하기 →
[object Object]

관련 글