Ch4. 표본분포와 중심극한정리 — 표본으로 모집단을 추론하는 원리

모집단과 표본

모집단(Population): 연구 대상이 되는 전체 집합
표본(Sample): 모집단의 일부를 선택한 것

왜 표본을 사용하는가?

모수(Parameter): 모집단의 특성값 (μ, σ)
통계량(Statistic): 표본에서 계산한 값 (x̄, s)

같은 모집단에서 크기 n인 표본을 반복해서 추출할 때, 표본평균 x̄는 분포를 가집니다.

모집단: μ, σ²이라 할 때

표본평균 x̄ ~ N(μ, σ²/n)

기댓값: E(x̄) = μ
분산:   Var(x̄) = σ²/n
표준오차: SE = σ/√n

핵심: 표본 크기 n이 커질수록 표본평균의 변동(표준오차)이 작아짐.

통계학에서 가장 중요한 정리.

모집단의 분포에 관계없이, n이 충분히 크면(보통 n ≥ 30) 표본평균의 분포는 정규분포에 근사한다.

x̄ ~ N(μ, σ²/n)  (n이 충분히 클 때)

표준화: Z = (x̄ - μ) / (σ/√n)

의미: 모집단이 정규분포가 아니어도 (균일분포, 이항분포 등) 표본이 크면 표본평균은 정규분포를 따름.

SE = σ/√n  (모표준편차 알 때)
SE = s/√n  (표본표준편차 추정)

표준편차 vs 표준오차:

n이 4배가 되면 표준오차는 절반으로 줄어듦.

표본 비율 p̂ = 표본 성공 횟수 / n

기댓값: E(p̂) = p
분산:   Var(p̂) = p(1-p)/n
표준오차: √[p(1-p)/n]

CLT에 의해 n이 크면 p̂는 정규분포에 근사.

중심극한정리(CLT) ★★★★★ : 모집단 분포 무관하게 n≥30이면 표본평균은 N(μ, σ²/n)에 근사. 통계적 추론의 근거. 암기 포인트: n이 크면 표본평균 → 정규분포

표준오차(SE) ★★★★★ : 표본평균의 표준편차. SE = σ/√n. n이 클수록 SE 작아짐 → 추정 정확도 향상. 암기 포인트: SE = σ/√n, n 4배 → SE 절반

모수 vs 통계량 ★★★★☆ : 모수(μ, σ)는 고정된 모집단 값. 통계량(x̄, s)은 표본마다 달라지는 추정값. 암기 포인트: 모수=모집단, 통계량=표본

Q. 표준편차 15인 모집단에서 n=225인 표본의 표준오차는?

SE = 15/√225 = 15/15 = 1. 표본평균의 변동이 표준편차 1 수준으로 줄어듦.

Q. 모집단이 오른쪽 편포를 가진다. n=50인 표본평균의 분포는?

중심극한정리에 의해 n=50이면 모집단 분포에 무관하게 표본평균의 분포는 정규분포에 근사. 기댓값 = 모평균, 표준편차 = 모표준편차/√50.