Ch1. 기술통계학 — 데이터를 요약하는 평균·분산·표준편차
통계학이란
통계학(Statistics): 데이터를 수집·정리·분석·해석하여 불확실한 상황에서 의사결정을 지원하는 학문.
기술통계(Descriptive Statistics): 데이터를 요약·정리하는 통계
추론통계(Inferential Statistics): 표본으로 모집단을 추론하는 통계
중심 경향 측도
데이터가 어디에 모여 있는지 나타내는 지표.
평균 (Mean)
산술평균 = (모든 값의 합) / (데이터 개수)
장점: 계산이 직관적
단점: 극단값(이상치)에 민감
중앙값 (Median)
데이터를 크기 순서로 나열했을 때 가장 가운데 값.
홀수 개: 중간 위치 값
짝수 개: 중간 두 값의 평균
장점: 이상치에 강건(robust)
활용: 부동산 가격, 소득 분포 등
최빈값 (Mode)
가장 많이 나타나는 값. 여러 개일 수 있음.
활용: 범주형 데이터(의류 사이즈, 선호 색상)
평균·중앙값·최빈값의 관계
| 분포 형태 | 관계 |
|---|---|
| 정규분포 (대칭) | 평균 = 중앙값 = 최빈값 |
| 우측 편포 (양의 왜도) | 최빈값 < 중앙값 < 평균 |
| 좌측 편포 (음의 왜도) | 평균 < 중앙값 < 최빈값 |
산포도 측도
데이터가 얼마나 퍼져 있는지 나타내는 지표.
범위 (Range)
범위 = 최댓값 - 최솟값
단순하지만 이상치에 매우 민감.
분산 (Variance)
모분산 σ² = Σ(Xᵢ - μ)² / N
표본분산 s² = Σ(xᵢ - x̄)² / (n-1)
편차 제곱의 평균. 단위가 원래 데이터 단위의 제곱이라 해석이 어려움.
표준편차 (Standard Deviation)
σ = √분산 (모집단)
s = √표본분산 (표본)
분산의 제곱근. 원래 데이터와 같은 단위.
활용:
- 주식 변동성 (표준편차가 클수록 위험)
- 품질 관리 (규격 ±3σ 내 불량률)
변동계수 (Coefficient of Variation)
CV = (표준편차 / 평균) × 100%
단위가 다른 두 집단의 산포 비교에 활용.
사분위수와 상자 그림
사분위수(Quartile):
- Q1 (25%): 하위 25% 위치
- Q2 (50%): 중앙값
- Q3 (75%): 상위 25% 위치
- IQR = Q3 - Q1 (사분위 범위)
이상치 판별: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과
왜도와 첨도
왜도(Skewness): 분포의 비대칭 정도
- 양의 왜도(+): 오른쪽 꼬리가 길다
- 음의 왜도(-): 왼쪽 꼬리가 길다
첨도(Kurtosis): 분포의 뾰족함
- 정규분포 첨도 = 3 (또는 초과첨도 = 0)
- 첨도 > 3: 뾰족하고 꼬리가 두터운 분포 (리스크 집중)
핵심 개념 카드
평균 vs 중앙값 ★★★★★ : 이상치가 있을 때 중앙값이 더 대표값. 소득 분포 분석에 중앙값을 선호하는 이유. 암기 포인트: 이상치 있으면 → 중앙값이 더 적절
표준편차 ★★★★★ : 데이터가 평균으로부터 평균적으로 얼마나 떨어져 있는지. 클수록 데이터가 많이 퍼짐. 암기 포인트: 표준편차 = 평균 편차의 크기
IQR (사분위 범위) ★★★★☆ : Q3 - Q1. 중간 50% 데이터의 범위. 이상치 탐지와 상자 그림 작성에 활용. 암기 포인트: IQR = Q3 - Q1, 이상치 = ±1.5×IQR 기준
실전 퀴즈
Q. 한 기업의 직원 연봉이 [3000, 3200, 3100, 3050, 15000]만 원이다. 평균과 중앙값 중 어느 것이 더 대표값인가?
중앙값(3100만 원)이 더 대표값. 15000만 원(CEO)은 극단값으로 평균을 크게 왜곡. 중앙값은 이상치 영향을 받지 않음.
Q. 두 주식 A(평균수익 10%, 표준편차 5%)와 B(평균수익 20%, 표준편차 8%)의 위험-수익 비교를 변동계수로 하라.
A의 CV = 5/10 = 50%, B의 CV = 8/20 = 40%. B가 수익 1단위당 변동성이 낮아 상대적으로 효율적.
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.