Ch7. 상관분석과 회귀분석 — 두 변수 사이의 관계 분석
상관관계 vs 인과관계
상관관계(Correlation): 두 변수가 함께 변하는 경향
인과관계(Causation): 한 변수가 다른 변수를 직접 유발
“상관관계는 인과관계를 의미하지 않는다”
예: 아이스크림 판매량과 익사 사고는 양의 상관 → 공통 원인(여름)
피어슨 상관계수 (Pearson’s r)
두 연속형 변수 간 선형 관계의 강도와 방향.
r = Σ[(xᵢ - x̄)(yᵢ - ȳ)] / √[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]
범위: -1 ≤ r ≤ 1
| r 값 | 해석 |
|---|---|
| r = 1 | 완전한 양의 선형 관계 |
| 0.7 ≤ r < 1 | 강한 양의 상관 |
| 0 < r < 0.7 | 약한/보통 양의 상관 |
| r = 0 | 선형 관계 없음 |
| r < 0 | 음의 상관 |
주의: r은 선형 관계만 측정. 비선형 관계는 r=0이어도 강한 관계 가능.
스피어만 상관계수: 순위 기반, 비선형 관계도 측정 가능.
단순선형회귀 (Simple Linear Regression)
X로 Y를 예측하는 선형 모형.
Y = β₀ + β₁X + ε
β₀: y절편 (X=0일 때 Y 예측값)
β₁: 기울기 (X 1단위 증가 시 Y 변화량)
ε: 오차항 (잔차)
최소제곱법 (OLS: Ordinary Least Squares)
잔차 제곱합을 최소화하는 β₀, β₁ 추정.
β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)² = r × (sy/sx)
β₀ = ȳ - β₁x̄
결정계수 (R²)
R² = (회귀에 의해 설명된 변동) / (전체 변동)
= 1 - SSE/SST
범위: 0 ≤ R² ≤ 1
R²=0.85: X 변수가 Y 변동의 85%를 설명
R²=r² (단순회귀에서)
회귀 모형의 가정
- 선형성: 독립·종속 변수 간 선형 관계
- 독립성: 오차항이 독립
- 등분산성(Homoscedasticity): 오차 분산이 일정
- 정규성: 오차항이 정규분포
잔차 분석: 산점도, Q-Q plot으로 가정 검토.
다중회귀 (Multiple Regression)
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
조정 R² (Adjusted R²): 설명 변수 증가로 인한 R² 과대 추정 보정.
다중공선성(Multicollinearity): 설명 변수들 간 강한 상관 → 계수 추정 불안정. VIF로 진단.
핵심 개념 카드
피어슨 상관계수(r) ★★★★★ : -1~1 사이의 값. 절댓값이 클수록 강한 선형 관계. 상관 ≠ 인과. 암기 포인트: |r| → 0(무관), 0.7 이상(강), 1(완전)
결정계수(R²) ★★★★★ : 회귀식이 Y 변동의 몇 %를 설명하는지. R²=0.8이면 80% 설명. 암기 포인트: R² = 설명된 분산 비율
최소제곱법(OLS) ★★★★☆ : 관측값과 예측값 차이(잔차)의 제곱합을 최소화하는 회귀선 결정 방법. 암기 포인트: OLS = 잔차 제곱합 최소화
실전 퀴즈
Q. 공부 시간(X)과 시험 점수(Y)의 상관계수 r=0.85, β₁=2.0이다. 공부 시간 1시간 증가 시 점수 변화는?
β₁=2.0이므로 공부 시간 1시간 증가 → 시험 점수 2.0점 증가 예측.
Q. R²=0.64인 회귀모형에서 상관계수 r은?
r = √R² = √0.64 = 0.8. (단, 단순회귀에서만 성립. 양의 기울기이면 r=+0.8)
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.