상관관계와 회귀분석: 관계의 과학
O
Oiyo Contributor
상관관계와 회귀분석: 데이터의 연결고리
데이터는 혼자 존재하지 않습니다. 키와 몸무게, 교육 수준과 소득, 기온과 아이스크림 판매량처럼 서로 영향을 주고받는 경우가 많습니다. 통계학은 이 ‘관계’를 수치화하고 미래를 예측하는 데 활용합니다.
| 구분 | 상관관계 (Correlation) | 회귀분석 (Regression) |
|---|---|---|
| 질문 | 두 변수가 관련이 있는가? | 하나의 변수로 다른 변수를 예측할 수 있는가? |
| 결과물 | 상관계수 r (-1 ~ +1) | 회귀방정식 y = ax + b |
| 방향성 | 없음 (X↔Y 동등) | 있음 (X → Y, 독립변수 → 종속변수) |
| 활용 예시 | 키와 몸무게의 관련성 측정 | 공부시간으로 시험점수 예측 |
1. 상관관계의 수치화 — 피어슨 상관계수 ()
두 변수가 함께 변하는 정도를 나타냅니다. 상관계수 은 -1에서 +1 사이의 값을 가집니다.
| r 값 범위 | 관계의 방향 | 강도 해석 | 사례 |
|---|---|---|---|
| r ≈ +1.0 | 양의 상관 | 완전 양의 상관 | 측정 오차 없는 물리 실험 |
| +0.7 ~ +0.9 | 양의 상관 | 강한 양의 상관 | 학습시간 → 성적 |
| +0.3 ~ +0.7 | 양의 상관 | 중간 수준 | 소득 → 주택 규모 |
| −0.1 ~ +0.1 | 없음 | 거의 무상관 | 신발 사이즈 → 지능 |
| −0.3 ~ −0.7 | 음의 상관 | 중간 수준 | 실업률 → 소비 지출 |
| r ≈ −1.0 | 음의 상관 | 완전 음의 상관 | 결근율 → 생산성 |
아이스크림 판매량과 익사 사고 건수는 강한 양의 상관관계가 있지만, 아이스크림이 익사를 유발하지 않습니다. **기온(여름)**이라는 제3의 변수(교란변수, Confounding Variable)가 두 현상에 동시에 영향을 준 것입니다. 인과관계를 주장하려면 무작위 통제 실험(RCT) 또는 도구변수법 등의 별도 방법론이 필요합니다.
2. 단순 선형 회귀분석 (Simple Linear Regression)
상관관계가 단순히 “관련이 있다”를 보여준다면, 회귀분석은 “얼마나 관련이 있고, 미래를 어떻게 예측하는가”를 보여줍니다.
최소자승법(OLS: Ordinary Least Squares)을 사용하여 잔차(Residuals)의 제곱합을 최소화하는 계수를 추정합니다.
| 공부 시간 (x) | 실제 점수 (y) | 예측 점수 (ŷ) | 잔차 (y−ŷ) |
|---|---|---|---|
| 2시간 | 55점 | 58점 | −3점 |
| 5시간 | 75점 | 73점 | +2점 |
| 8시간 | 92점 | 88점 | +4점 |
| 10시간 | 95점 | 98점 | −3점 |
3. 회귀모델의 성능 평가: (결정계수)
는 0에서 1 사이의 값으로, 회귀모델이 데이터 변동의 몇 %를 설명하는지 나타냅니다.
| R² 범위 | 설명력 | 활용 분야 | 판단 기준 |
|---|---|---|---|
| 0.9 이상 | 매우 높음 (90%+) | 물리·공학 실험 | 뛰어난 모델 |
| 0.7 ~ 0.9 | 높음 | 경제학 계량 모델 | 우수한 모델 |
| 0.5 ~ 0.7 | 중간 | 사회과학 연구 | 수용 가능 |
| 0.3 ~ 0.5 | 낮음 | 심리학·마케팅 | 참고 수준 |
| 0.3 미만 | 매우 낮음 | 복잡 시스템 | 개선 필요 |
베타(β) 계수: 금융공학에서 개별 주식의 시장 민감도를 측정하는 CAPM의 β는 개별 주식 수익률을 시장 수익률에 단순 회귀한 기울기입니다. 신용점수 모형: 금융기관의 대출 심사에 사용하는 신용점수는 다중 로지스틱 회귀분석의 산물입니다.
4. 회귀분석의 한계와 주의사항
| 함정 | 내용 | 탐지 방법 |
|---|---|---|
| 다중공선성 | 독립변수들이 서로 강하게 상관됨 → 계수 추정 불안정 | VIF(분산팽창지수) 확인 |
| 이분산성 | 잔차의 분산이 일정하지 않음 | 잔차 산점도 확인 |
| 자기상관 | 시계열 데이터에서 잔차가 독립적이지 않음 | Durbin-Watson 검정 |
| 과적합 | 훈련 데이터에만 잘 맞고 새 데이터 예측 실패 | 교차검증(Cross-Validation) |
| 외삽의 오류 | 데이터 범위 밖의 예측은 신뢰 불가 | 예측 구간(Prediction Interval) 명시 |