통계학이란

통계학(Statistics): 데이터를 수집·정리·분석·해석하여 불확실한 상황에서 의사결정을 지원하는 학문.

기술통계(Descriptive Statistics): 데이터를 요약·정리하는 통계
추론통계(Inferential Statistics): 표본으로 모집단을 추론하는 통계

중심 경향 측도

데이터가 어디에 모여 있는지 나타내는 지표.

평균 (Mean)

산술평균 = (모든 값의 합) / (데이터 개수)

장점: 계산이 직관적
단점: 극단값(이상치)에 민감

중앙값 (Median)

데이터를 크기 순서로 나열했을 때 가장 가운데 값.
홀수 개: 중간 위치 값
짝수 개: 중간 두 값의 평균

장점: 이상치에 강건(robust)
활용: 부동산 가격, 소득 분포 등

최빈값 (Mode)

가장 많이 나타나는 값. 여러 개일 수 있음.
활용: 범주형 데이터(의류 사이즈, 선호 색상)

평균·중앙값·최빈값의 관계

분포 형태	관계
정규분포 (대칭)	평균 = 중앙값 = 최빈값
우측 편포 (양의 왜도)	최빈값 < 중앙값 < 평균
좌측 편포 (음의 왜도)	평균 < 중앙값 < 최빈값

산포도 측도

데이터가 얼마나 퍼져 있는지 나타내는 지표.

범위 (Range)

범위 = 최댓값 - 최솟값

단순하지만 이상치에 매우 민감.

분산 (Variance)

모분산 σ² = Σ(Xᵢ - μ)² / N
표본분산 s² = Σ(xᵢ - x̄)² / (n-1)

편차 제곱의 평균. 단위가 원래 데이터 단위의 제곱이라 해석이 어려움.

표준편차 (Standard Deviation)

σ = √분산 (모집단)
s = √표본분산 (표본)

분산의 제곱근. 원래 데이터와 같은 단위.

활용:

주식 변동성 (표준편차가 클수록 위험)
품질 관리 (규격 ±3σ 내 불량률)

변동계수 (Coefficient of Variation)

CV = (표준편차 / 평균) × 100%

단위가 다른 두 집단의 산포 비교에 활용.

사분위수와 상자 그림

사분위수(Quartile):

Q1 (25%): 하위 25% 위치
Q2 (50%): 중앙값
Q3 (75%): 상위 25% 위치
IQR = Q3 - Q1 (사분위 범위)

이상치 판별: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과

왜도와 첨도

왜도(Skewness): 분포의 비대칭 정도

양의 왜도(+): 오른쪽 꼬리가 길다
음의 왜도(-): 왼쪽 꼬리가 길다

첨도(Kurtosis): 분포의 뾰족함

정규분포 첨도 = 3 (또는 초과첨도 = 0)
첨도 > 3: 뾰족하고 꼬리가 두터운 분포 (리스크 집중)

핵심 개념 카드

평균 vs 중앙값 ★★★★★ : 이상치가 있을 때 중앙값이 더 대표값. 소득 분포 분석에 중앙값을 선호하는 이유. 암기 포인트: 이상치 있으면 → 중앙값이 더 적절

표준편차 ★★★★★ : 데이터가 평균으로부터 평균적으로 얼마나 떨어져 있는지. 클수록 데이터가 많이 퍼짐. 암기 포인트: 표준편차 = 평균 편차의 크기

IQR (사분위 범위) ★★★★☆ : Q3 - Q1. 중간 50% 데이터의 범위. 이상치 탐지와 상자 그림 작성에 활용. 암기 포인트: IQR = Q3 - Q1, 이상치 = ±1.5×IQR 기준

실전 퀴즈

Q. 한 기업의 직원 연봉이 [3000, 3200, 3100, 3050, 15000]만 원이다. 평균과 중앙값 중 어느 것이 더 대표값인가?

중앙값(3100만 원)이 더 대표값. 15000만 원(CEO)은 극단값으로 평균을 크게 왜곡. 중앙값은 이상치 영향을 받지 않음.

Q. 두 주식 A(평균수익 10%, 표준편차 5%)와 B(평균수익 20%, 표준편차 8%)의 위험-수익 비교를 변동계수로 하라.

A의 CV = 5/10 = 50%, B의 CV = 8/20 = 40%. B가 수익 1단위당 변동성이 낮아 상대적으로 효율적.

Ch1. 기술통계학 — 데이터를 요약하는 평균·분산·표준편차