사회조사분석사 2급 완전정복 — 2강: 사회통계 분석

기술통계

기술통계 (Descriptive Statistics):
→ 자료를 요약·정리하는 통계 기법

중심 경향 측도:
→ 평균 (Mean): 모든 값의 합 / n
  이상치(Outlier)에 민감
→ 중앙값 (Median): 크기 순 정렬 시 중간값
  이상치에 강건 (Robust)
→ 최빈값 (Mode): 가장 자주 나타나는 값
  범주형 자료에 유용

산포도 측도:
→ 범위 (Range): 최대 - 최소
→ 분산 (Variance): 평균으로부터 편차 제곱의 평균
  모분산 σ² = Σ(xi-μ)² / N
  표본분산 s² = Σ(xi-x̄)² / (n-1)  ← n-1: 자유도 보정
→ 표준편차 (SD): 분산의 제곱근 (단위 복원)
→ 변동계수 (CV): SD / 평균 × 100
  단위 다른 집단 비교에 유용

분포 형태:
→ 왜도 (Skewness): 분포의 비대칭 정도
  양의 왜도: 오른쪽 꼬리 → 최빈값 < 중앙값 < 평균
  음의 왜도: 왼쪽 꼬리 → 평균 < 중앙값 < 최빈값
→ 첨도 (Kurtosis): 분포의 뾰족함 정도
  정규분포 첨도 = 3 (또는 초과첨도 = 0)
  양의 초과첨도: 정규보다 뾰족 (꼬리 두꺼움)

5수 요약 (Five-Number Summary):
→ 최솟값, Q1, 중앙값, Q3, 최댓값
→ 사분위범위 (IQR) = Q3 - Q1
→ 이상치 기준: Q1 - 1.5×IQR 미만 / Q3 + 1.5×IQR 초과

확률분포

이산형 확률분포:

이항분포 (Binomial):
→ n번 시행, 매 시행 성공 확률 p
→ X ~ B(n, p)
→ E(X) = np, Var(X) = np(1-p)
→ 예: 동전 10번 던질 때 앞면 나오는 횟수

포아송분포 (Poisson):
→ 단위 시간·공간에서 사건 발생 횟수
→ X ~ P(λ), λ = 평균 발생률
→ E(X) = Var(X) = λ
→ 예: 1시간당 고객 방문 횟수

연속형 확률분포:

정규분포 (Normal):
→ X ~ N(μ, σ²) — 종형 곡선
→ 표준정규분포 Z = (X - μ) / σ ~ N(0, 1)
→ 68-95-99.7 규칙 (1σ, 2σ, 3σ 범위)
→ 중심극한정리: 표본 크기 증가 → 표본 평균 분포 → 정규 근사

t분포:
→ 표본 크기 작거나 모분산 미지일 때
→ 자유도 (df) = n-1
→ 자유도 커질수록 → 정규분포 근사

F분포:
→ 두 집단 분산 비교
→ 분산분석(ANOVA)에 사용
→ 자유도: (분자 df, 분모 df)

카이제곱(χ²)분포:
→ 범주형 자료 분석
→ 적합도 검정, 독립성 검정
→ 항상 양수·비대칭 (자유도 커질수록 정규 근사)

가설 검정

가설 검정 절차:
① 귀무가설(H₀) vs 대립가설(H₁) 설정
② 유의수준(α) 설정 (0.05 또는 0.01)
③ 검정 통계량 계산
④ 기각역 또는 p-값 비교
⑤ 의사결정 (H₀ 기각 또는 채택)

오류 유형:
→ 1종 오류(α): H₀ 참인데 기각 (거짓 양성)
  유의수준 = 1종 오류 확률 통제
→ 2종 오류(β): H₀ 거짓인데 채택 (거짓 음성)
→ 검정력 (1-β): H₀ 거짓일 때 올바르게 기각할 확률
→ 상충관계: α 낮추면 β 증가 (표본 크기로 해결)

p-값 해석:
→ p-값: H₀ 하에서 관측된 통계량 이상의 값이 나올 확률
→ p < α → H₀ 기각
→ p ≥ α → H₀ 채택 (기각하지 않음)
→ 주의: p-값은 효과 크기가 아님

주요 검정 종류:

단일 표본 t-검정:
→ 모집단 평균 = 특정 값 검정

독립 표본 t-검정:
→ 두 독립 집단 평균 비교
→ 등분산 검정 (Levene's test) 선행

대응 표본 t-검정 (Paired t-test):
→ 동일 집단 사전·사후 평균 비교

분산분석 (ANOVA):
→ 3개 이상 집단 평균 비교
→ F = 집단 간 분산 / 집단 내 분산
→ 사후 검정: Tukey, Scheffé, Bonferroni

상관 및 회귀분석

상관분석:

피어슨 상관계수 (r):
→ 두 연속형 변수의 선형 관계 강도·방향
→ r 범위: -1 ~ +1
→ |r| 해석: 0.1 약한, 0.3 중간, 0.5 강한 (Cohen)
→ 주의: 상관 ≠ 인과

스피어만 순위 상관계수:
→ 순위형 또는 비정규 연속형 자료
→ 순위 변환 후 피어슨 계산

단순 선형회귀:
→ Y = β₀ + β₁X + ε
→ 최소제곱법 (OLS): 잔차 제곱합 최소화
→ β₁ = r × (Sy/Sx): 기울기
→ 결정계수 R²: 총 분산 중 모형이 설명하는 비율

회귀 진단:
→ 잔차 정규성: Q-Q 플롯
→ 등분산성: 잔차 vs 적합값 플롯
→ 독립성: Durbin-Watson 통계량
→ 다중공선성: VIF > 10 이면 문제

다중회귀 (Multiple Regression):
→ Y = β₀ + β₁X₁ + β₂X₂ + ... + ε
→ 수정 R²: 독립변수 개수 증가에 따른 과대추정 보정
→ F-검정: 전체 모형 유의성
→ t-검정: 개별 회귀계수 유의성

로지스틱 회귀:
→ 종속변수가 이분형 (0/1)
→ log(p/1-p) = β₀ + β₁X
→ 승산비 (Odds Ratio): exp(β₁)

비모수 통계

비모수 통계 사용 조건:
→ 정규성 가정 위반
→ 순위·서열 자료
→ 소표본

주요 비모수 검정:

맨-휘트니 U 검정 (Mann-Whitney U):
→ 두 독립 집단 중앙값 비교
→ 독립 t-검정의 비모수 대안

윌콕슨 부호 순위 검정 (Wilcoxon):
→ 대응 표본(사전·사후) 비교
→ 대응 t-검정의 비모수 대안

크루스칼-왈리스 검정 (Kruskal-Wallis):
→ 3개 이상 독립 집단 비교
→ 일원 ANOVA의 비모수 대안

카이제곱 독립성 검정:
→ 두 범주형 변수의 연관성 검정
→ 기대도수: (행 합계 × 열 합계) / 전체
→ 기대도수 5 미만 셀 > 20%: 피셔 정확 검정 사용

맥니마 검정 (McNemar):
→ 대응 이분형 자료 비교
→ 사전·사후 의견 변화 분석

프리드만 검정 (Friedman):
→ 반복 측정 자료 (3회 이상)
→ 반복측정 ANOVA의 비모수 대안

자주 묻는 질문

Q. 유의수준 0.05가 0.01보다 기각하기 쉬운 이유는 무엇인가요? A. 유의수준은 1종 오류(귀무가설이 참인데 기각할 확률)를 얼마나 허용할지 결정하는 임계치입니다. α = 0.05라면 p-값이 0.05 미만이면 기각하고, α = 0.01이라면 p-값이 0.01 미만이어야 기각합니다. 0.05는 더 넓은 기각 영역을 허용하므로 귀무가설을 기각하기 더 쉽습니다. 기준을 엄격히 하면(α 낮춤) 1종 오류는 줄지만 2종 오류(실제 효과를 놓침)가 증가합니다.

Q. 결정계수(R²)가 높으면 좋은 회귀 모형인가요? A. R²이 높다고 해서 좋은 모형은 아닙니다. 독립변수를 무의미하게 추가해도 R²은 증가하므로, 수정 R²(Adjusted R²)로 비교해야 합니다. 또한 R²는 선형 관계의 정도만 측정하므로, 비선형 관계에서는 의미가 제한됩니다. 더 중요한 것은 회귀 가정(잔차 정규성·등분산성·독립성) 충족 여부, 이론적 타당성, 과적합 여부입니다. R² 0.3이라도 이론적으로 의미 있는 모형이 R² 0.9의 과적합 모형보다 나을 수 있습니다.