강의 챕터 7 약 3분

Ch7. 상관분석과 회귀분석 — 두 변수 사이의 관계 분석

O
OIYO 편집부 기여자
7/10

상관관계 vs 인과관계

상관관계(Correlation): 두 변수가 함께 변하는 경향
인과관계(Causation): 한 변수가 다른 변수를 직접 유발

“상관관계는 인과관계를 의미하지 않는다”
예: 아이스크림 판매량과 익사 사고는 양의 상관 → 공통 원인(여름)


피어슨 상관계수 (Pearson’s r)

두 연속형 변수 간 선형 관계의 강도와 방향.

r = Σ[(xᵢ - x̄)(yᵢ - ȳ)] / √[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]

범위: -1 ≤ r ≤ 1
r 값해석
r = 1완전한 양의 선형 관계
0.7 ≤ r < 1강한 양의 상관
0 < r < 0.7약한/보통 양의 상관
r = 0선형 관계 없음
r < 0음의 상관

주의: r은 선형 관계만 측정. 비선형 관계는 r=0이어도 강한 관계 가능.

스피어만 상관계수: 순위 기반, 비선형 관계도 측정 가능.


단순선형회귀 (Simple Linear Regression)

X로 Y를 예측하는 선형 모형.

Y = β₀ + β₁X + ε

β₀: y절편 (X=0일 때 Y 예측값)
β₁: 기울기 (X 1단위 증가 시 Y 변화량)
ε: 오차항 (잔차)

최소제곱법 (OLS: Ordinary Least Squares)

잔차 제곱합을 최소화하는 β₀, β₁ 추정.

β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)²  = r × (sy/sx)

β₀ = ȳ - β₁x̄

결정계수 (R²)

R² = (회귀에 의해 설명된 변동) / (전체 변동)
   = 1 - SSE/SST

범위: 0 ≤ R² ≤ 1

R²=0.85: X 변수가 Y 변동의 85%를 설명
R²=r² (단순회귀에서)


회귀 모형의 가정

  1. 선형성: 독립·종속 변수 간 선형 관계
  2. 독립성: 오차항이 독립
  3. 등분산성(Homoscedasticity): 오차 분산이 일정
  4. 정규성: 오차항이 정규분포

잔차 분석: 산점도, Q-Q plot으로 가정 검토.


다중회귀 (Multiple Regression)

Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε

조정 R² (Adjusted R²): 설명 변수 증가로 인한 R² 과대 추정 보정.

다중공선성(Multicollinearity): 설명 변수들 간 강한 상관 → 계수 추정 불안정. VIF로 진단.


핵심 개념 카드

피어슨 상관계수(r) ★★★★★ : -1~1 사이의 값. 절댓값이 클수록 강한 선형 관계. 상관 ≠ 인과. 암기 포인트: |r| → 0(무관), 0.7 이상(강), 1(완전)

결정계수(R²) ★★★★★ : 회귀식이 Y 변동의 몇 %를 설명하는지. R²=0.8이면 80% 설명. 암기 포인트: R² = 설명된 분산 비율

최소제곱법(OLS) ★★★★☆ : 관측값과 예측값 차이(잔차)의 제곱합을 최소화하는 회귀선 결정 방법. 암기 포인트: OLS = 잔차 제곱합 최소화


실전 퀴즈

Q. 공부 시간(X)과 시험 점수(Y)의 상관계수 r=0.85, β₁=2.0이다. 공부 시간 1시간 증가 시 점수 변화는?

β₁=2.0이므로 공부 시간 1시간 증가 → 시험 점수 2.0점 증가 예측.

Q. R²=0.64인 회귀모형에서 상관계수 r은?

r = √R² = √0.64 = 0.8. (단, 단순회귀에서만 성립. 양의 기울기이면 r=+0.8)

O

OIYO 편집부

Content Editor

지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.