Ch2. ADsP 데이터분석 준전문가 — 데이터 분석 — 통계 기초

통계란 무엇인가

**통계(Statistics)**는 데이터를 수집·정리·분석·해석하여 의사결정에 활용하는 학문입니다. 데이터 분석의 수학적 기반이 되며, ADsP 3과목에서 가장 많은 비중을 차지합니다.

통계의 두 갈래

구분	기술통계 (Descriptive Statistics)	추론통계 (Inferential Statistics)
목적	데이터를 요약·기술	표본으로 모집단 추론
대상	수집된 데이터 전체	표본 → 모집단
결과물	평균, 분산, 그래프	가설검정, 신뢰구간, p-value
예시	”이번 달 평균 매출은 500만 원이다"	"A/B 테스트 결과가 통계적으로 유의하다”

기술통계 (Descriptive Statistics)

중심경향치

데이터의 중심을 나타내는 통계량입니다.

평균(Mean) 가장 일반적인 중심경향치로, 모든 값의 합을 개수로 나눈 값입니다.

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i$

장점: 모든 데이터를 반영
단점: 이상치(Outlier)에 민감

중앙값(Median) 데이터를 크기순으로 정렬했을 때 가운데 위치하는 값입니다.

홀수 개: 중간 위치의 값
짝수 개: 중간 두 값의 평균
이상치에 강건(Robust)

최빈값(Mode) 데이터에서 가장 자주 등장하는 값입니다.

범주형 데이터에도 적용 가능
복수의 최빈값이 존재할 수 있음

시험 포인트: 왜도(Skewness)와 중심경향치의 관계 — 오른쪽 꼬리 분포(양의 왜도)에서는 평균 > 중앙값 > 최빈값 순서

산포도 (Measures of Dispersion)

데이터가 얼마나 퍼져 있는지를 나타냅니다.

범위(Range) 최댓값 - 최솟값

분산(Variance) 평균으로부터 각 데이터의 편차 제곱의 평균입니다.

모분산: $\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$

표본분산: $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

표본분산에서 n-1(자유도)로 나누는 이유: 표본에서 모분산을 불편추정(Unbiased Estimation)하기 위함

표준편차(Standard Deviation) 분산의 제곱근으로, 원래 데이터와 동일한 단위를 가집니다.

$\sigma = \sqrt{\sigma^2}, \quad s = \sqrt{s^2}$

변동계수(CV, Coefficient of Variation) 단위가 다른 데이터 간 산포도 비교 시 사용합니다.

$CV = \frac{s}{\bar{x}} \times 100\%$

분포의 형태

왜도 (Skewness) 분포의 비대칭성을 나타냅니다.

값	의미	형태
왜도 = 0	대칭	정규분포
왜도 > 0 (양의 왜도)	오른쪽 꼬리가 긴 분포	평균 > 중앙값 > 최빈값
왜도 < 0 (음의 왜도)	왼쪽 꼬리가 긴 분포	평균 < 중앙값 < 최빈값

첨도 (Kurtosis) 분포의 뾰족한 정도를 나타냅니다.

값	의미	형태
첨도 = 3 (초과첨도 = 0)	정규분포와 동일	중첨 (Mesokurtic)
첨도 > 3 (초과첨도 > 0)	정규분포보다 뾰족	급첨 (Leptokurtic)
첨도 < 3 (초과첨도 < 0)	정규분포보다 완만	편첨 (Platykurtic)

정규분포

**정규분포(Normal Distribution)**는 통계에서 가장 중요한 분포입니다.

정규분포의 특징

평균을 중심으로 좌우 대칭인 종(bell) 모양
평균 = 중앙값 = 최빈값
왜도 = 0, 첨도 = 3
이론적으로 -∞ ~ +∞ 범위

68-95-99.7 규칙 (Empirical Rule)

정규분포 N(μ, σ²)에서:

μ ± 1σ 구간에 데이터의 약 68.27% 포함
μ ± 2σ 구간에 데이터의 약 95.45% 포함
μ ± 3σ 구간에 데이터의 약 99.73% 포함

표준정규분포

평균 0, 표준편차 1인 정규분포 N(0,1)입니다.

표준화(Z-점수): $Z = \frac{x - \mu}{\sigma}$

Z-점수의 의미: 해당 값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타냅니다.

추론통계 (Inferential Statistics)

표본과 모집단

구분	모집단 (Population)	표본 (Sample)
정의	관심 있는 전체 집단	모집단에서 추출한 일부
통계량 기호	모수 (μ, σ, π)	통계량 (x̄, s, p)
특징	조사하기 어렵거나 불가능	실제 분석 대상

중심극한정리(Central Limit Theorem) 표본 크기 n이 충분히 클 때(일반적으로 n≥30), 표본평균의 분포는 모집단 분포와 관계없이 정규분포에 근사합니다.

$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$

가설검정 (Hypothesis Testing)

가설검정은 표본 데이터를 이용해 모집단에 대한 가설을 검증하는 통계적 방법입니다.

가설의 구성

귀무가설 H₀ (Null Hypothesis): 기각하려는 가설, 현상 유지 가설 (“효과가 없다”, “차이가 없다”)
대립가설 H₁ (Alternative Hypothesis): 채택하려는 가설, 연구자가 증명하려는 가설 (“효과가 있다”, “차이가 있다”)

가설검정의 4단계

가설 설정 (H₀ vs H₁)
유의수준 α 설정 (보통 0.05)
검정통계량 계산
p-value와 α 비교 → 결론 도출

p-value 이해하기

p-value는 귀무가설이 참이라는 전제 하에, 현재 표본 결과보다 더 극단적인 결과가 나올 확률입니다.

p-value	해석	결론
p < α (보통 0.05)	귀무가설 기각	통계적으로 유의함
p ≥ α	귀무가설 채택(기각 실패)	통계적으로 유의하지 않음

주의: p-value가 낮다고 실질적으로 의미 있는 차이라는 뜻은 아닙니다. 통계적 유의성과 실질적 유의성은 구분해야 합니다.

1종 오류와 2종 오류

구분	H₀가 참인데 기각	H₀가 거짓인데 채택
명칭	1종 오류 (α)	2종 오류 (β)
다른 이름	False Positive	False Negative
제어	유의수준 α 설정으로 통제	검정력(1-β)으로 통제

주요 통계 검정 방법

t-검정 (t-test)

목적: 두 집단의 평균 차이가 유의한지 검정

종류:

단일 표본 t-검정: 표본 평균 vs 특정 기준값
- 예: “이 제품의 평균 수명이 1000시간과 차이가 있는가?”
독립 표본 t-검정: 두 독립 집단의 평균 비교
- 예: “남성과 여성의 평균 소비금액 차이가 있는가?”
대응 표본 t-검정 (쌍체 t-검정): 동일 대상의 전후 비교
- 예: “교육 프로그램 전후 성적 변화가 있는가?”

적용 조건: 정규성 가정 (표본 크기가 작을 때 중요), 등분산 가정 (독립 표본 t-검정)

카이제곱 검정 (χ² Test)

목적: 범주형 변수 간의 연관성 또는 적합도 검정

종류:

독립성 검정: 두 범주형 변수가 서로 독립인지 검정
- 예: “성별과 구매 여부가 독립인가?”
적합도 검정: 관측 빈도가 기대 빈도와 일치하는지 검정
- 예: “주사위가 공정한가?”

검정통계량: $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

여기서 O는 관측 빈도, E는 기대 빈도

F-검정 (ANOVA)

목적: 세 개 이상 집단의 평균 비교

일원분산분석(One-Way ANOVA): 하나의 요인에 따른 집단 비교

예: “세 가지 교수법(A, B, C)에 따른 성적 차이가 있는가?”

F-통계량: $F = \frac{\text{집단 간 분산}}{\text{집단 내 분산}}$

F값이 클수록 집단 간 차이가 크다는 의미

상관분석 (Correlation Analysis)

상관관계의 개념

상관관계는 두 변수 간의 선형적 관계의 방향과 강도를 나타냅니다.

주의: 상관관계는 인과관계(Causation)가 아닙니다. “아이스크림 판매량과 익사 사고 건수의 상관관계”는 인과관계가 아닌 공통 원인(더운 날씨)에 의한 것입니다.

피어슨 상관계수 (Pearson’s r)

연속형 변수 간의 선형 상관 정도를 측정합니다.

$r = \frac{\sum_{i=1}^(n)(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^(n)(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}}$

상관계수 해석:

r 값	해석
r = 1	완전한 양의 상관관계
0.7 ≤ r < 1	강한 양의 상관관계
0.3 ≤ r < 0.7	보통의 양의 상관관계
0 < r < 0.3	약한 양의 상관관계
r = 0	선형 상관관계 없음
-0.3 < r < 0	약한 음의 상관관계
-1 ≤ r < -0.7	강한 음의 상관관계

스피어만 순위상관계수

순서형 데이터 또는 정규성 가정이 충족되지 않을 때 사용하는 비모수적 상관계수입니다.

회귀분석 기초 (Regression Analysis)

회귀분석의 목적

회귀분석은 독립변수(X)로 종속변수(Y)를 예측하는 통계 모델입니다.

단순선형회귀: 독립변수 1개
다중선형회귀: 독립변수 여러 개

단순선형회귀 모델

$Y = \beta_0 + \beta_1 X + \epsilon$

Y: 종속변수 (반응변수, 결과변수)
X: 독립변수 (설명변수, 예측변수)
β₀: 절편 (X=0일 때 Y의 예측값)
β₁: 기울기 (X가 1 증가할 때 Y의 평균적인 변화)
ε: 오차항 (잔차)

최소제곱법 (Ordinary Least Squares, OLS)

회귀계수를 추정하는 방법으로, 잔차(실제값 - 예측값)의 제곱합을 최소화합니다.

$\text{RSS} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 \rightarrow \text{최소화}$

결정계수 R²

회귀모델이 종속변수의 분산을 얼마나 설명하는지 나타냅니다.

$R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = \frac{\text{SSR}}{\text{SST}}$

SST: 전체 제곱합 (Total Sum of Squares)
SSR: 회귀 제곱합 (Regression Sum of Squares)
SSE: 잔차 제곱합 (Error Sum of Squares)

R² = 0.75이면 → 독립변수가 종속변수 분산의 75%를 설명

회귀분석 가정

선형성: Y와 X 간에 선형 관계 존재
독립성: 오차항이 서로 독립 (자기상관 없음)
등분산성: 모든 X 값에서 오차의 분산이 동일
정규성: 오차항이 정규분포를 따름

비모수 통계

모집단의 분포에 대한 가정 없이 사용하는 통계 방법입니다.

모수 검정	비모수 대응	목적
단일 표본 t-검정	부호검정, 윌콕슨 부호순위검정	중앙값 검정
독립 표본 t-검정	만-위트니 U 검정	두 집단 비교
일원 ANOVA	크루스칼-왈리스 검정	세 집단 이상 비교

핵심 공식 요약

통계량	공식	설명
표본평균	x̄ = Σxᵢ/n	산술평균
표본분산	s² = Σ(xᵢ-x̄)²/(n-1)	불편분산
표준화	Z = (x-μ)/σ	Z-점수
상관계수	r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/(nSₓSᵧ)	피어슨 r
결정계수	R² = SSR/SST	설명력
카이제곱	χ² = Σ(O-E)²/E	적합도/독립성 검정

실전 퀴즈 5문항

Q1. 다음 데이터 [2, 4, 4, 4, 5, 5, 7, 9]의 평균, 중앙값, 최빈값을 구하시오.

정답:

평균: (2+4+4+4+5+5+7+9)/8 = 40/8 = 5

중앙값: 8개 데이터 → 4번째와 5번째 값의 평균 = (4+5)/2 = 4.5

최빈값: 4가 3번으로 가장 많이 등장 → 4

Q2. p-value = 0.03이고 유의수준 α = 0.05일 때, 가설검정 결과를 기술하시오.

정답: p-value(0.03) < α(0.05)이므로 귀무가설(H₀)을 기각합니다. 결과가 통계적으로 유의합니다.

즉, 귀무가설이 참일 때 현재와 같거나 더 극단적인 결과가 나올 확률이 3%로, 유의수준 5%보다 낮으므로 귀무가설을 기각합니다.

Q3. 1종 오류(Type I Error)와 2종 오류(Type II Error)를 각각 정의하고, 의학 검사에서의 예시를 드시오.

정답:

1종 오류(α): 귀무가설이 실제로 참인데 기각하는 오류 (False Positive) 의학 예시: 실제로 건강한 사람을 “질병이 있다”고 진단하는 경우

2종 오류(β): 귀무가설이 실제로 거짓인데 채택하는 오류 (False Negative) 의학 예시: 실제로 질병이 있는 사람을 “건강하다”고 진단하는 경우

Q4. 피어슨 상관계수 r = -0.85가 의미하는 것을 설명하시오.

정답: r = -0.85는 두 변수 간에 강한 음의 선형 상관관계가 있음을 의미합니다.

r이 음수이므로 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있습니다. r의 절대값이 0.85로 0.7 이상이므로 상관관계의 강도는 강합니다. 예시: 제품 가격이 오를수록 판매량이 감소하는 관계

Q5. 단순선형회귀에서 결정계수(R²) = 0.82의 의미를 설명하시오.

정답: R² = 0.82는 독립변수(X)가 종속변수(Y)의 전체 변동(분산)의 82%를 설명한다는 의미입니다.

즉, 회귀모델이 종속변수의 변화를 82% 설명하며, 나머지 18%는 모델에 포함되지 않은 다른 요인이나 오차로 인한 것입니다. R²이 1에 가까울수록 모델의 설명력이 높습니다.