표본분포와 중심극한정리 — 추론통계의 출발점
모집단과 표본의 관계, 표본평균·표본비율의 분포, 중심극한정리(CLT), 그리고 정규·t·F·χ²·이항·포아송 분포 간의 유도·근사 관계를 정리합니다.
왜 표본분포가 필요한가?
품질 현장에서는 모집단 전체를 측정할 수 없습니다. 그래서 표본(Sample)을 추출해 모집단(Population)을 추론합니다.
모집단 (N개, 모수 μ·σ 미지)
↓ 랜덤 추출
표본 (n개, 통계량 x̄·s 계산)
↓ 추론
모집단 모수 추정 → 신뢰구간, 가설검정
이때 핵심 질문이 생깁니다.
"표본마다 x̄가 다르게 나오는데, 그 x̄들은 어떤 분포를 따르는가?"
이것이 표본분포(Sampling Distribution) 의 문제입니다.
1. 표본평균 x̄의 분포
모집단이 평균 μ, 분산 σ²를 갖는다면, n개를 랜덤 추출한 표본평균 x̄의 분포는:
E(x̄) = μ ← 표본평균의 기댓값은 모평균과 같다 (불편성)
Var(x̄) = σ² / n ← 표본이 클수록 흩어짐이 줄어든다
SE = σ / √n ← 표준오차 (Standard Error)
표준오차(SE)의 의미: 표본평균이 모평균 주위에서 얼마나 흔들리는지를 나타냅니다.
n이 4배 커지면 SE는 2배 작아집니다.
| n | SE (σ=10일 때) |
|---|---|
| 4 | 10/√4 = 5.0 |
| 16 | 10/√16 = 2.5 |
| 100 | 10/√100 = 1.0 |
2. 중심극한정리 (CLT, Central Limit Theorem)
통계학에서 가장 중요한 정리 중 하나입니다.
정의
모집단의 분포 형태가 무엇이든(정규·균일·지수·이항…),
표본 크기 n이 충분히 크면 표본평균 x̄의 분포는
정규분포 N(μ, σ²/n)에 수렴한다.
x̄ ~ N(μ, σ²/n) (n이 충분히 클 때)
표준화: Z = (x̄ - μ) / (σ/√n) ~ N(0, 1)
n은 얼마나 커야 하나?
| 모집단 분포 | 필요한 n |
|---|---|
| 정규분포에 가까운 경우 | n ≥ 10~15 이면 충분 |
| 보통의 경우 | n ≥ 30 (일반 기준) |
| 심하게 비대칭(지수분포 등) | n ≥ 50~100 |
💡 품질기술사 기준: 보통 n ≥ 30을 CLT 적용 기준으로 봅니다.
CLT 이전 vs 이후
n이 작을 때 n이 충분히 클 때
────────────────── ─────────────────────────
모집단이 정규? 어떤 분포든 상관없음
→ 정규 가정 필요 → x̄는 항상 정규분포 근사
σ를 알아야 함 → Z 통계량 사용
σ 모름 → t 통계량 사용 (n이 작을수록 t 분포 사용)
SPC와 CLT의 연결
관리도에서 부분군(Subgroup) 크기 n = 4~5를 사용하는 이유가 CLT와 연결됩니다.
개별 공정값이 정규분포가 아니어도,
부분군 평균 x̄는 n=4~5에서 이미 근사 정규분포를 따릅니다.
→ X̄-R 관리도의 UCL/LCL 계산이 유효한 이유
3. 표본비율 p̂의 분포
불량률처럼 비율 데이터도 표본마다 달라집니다.
모집단 불량률: p (미지)
표본 불량률: p̂ = x/n (x: 표본 내 불량 수)
E(p̂) = p
Var(p̂) = p(1-p)/n
SE(p̂) = √[p(1-p)/n]
CLT에 의해 n이 충분히 크면:
p̂ ~ N(p, p(1-p)/n)
적용 조건: np ≥ 5, n(1-p) ≥ 5
→ 이것이 p 관리도의 이론적 기반입니다.
4. 확률분포 관계도
각 분포는 독립적이지 않고, 유도·근사·특수 케이스 관계로 연결됩니다.
확률분포 관계도
4-1. 정규분포 → t·F·χ² 유도
| 분포 | 유도 관계 |
|---|---|
| χ²(ν) | 표준정규 Z₁, …, Zᵥ의 제곱합: χ²= Z₁²+…+Zᵥ² |
| t(ν) | Z / √(χ²/ν) 의 비: Z ~ N(0,1), χ² ~ χ²(ν) |
| F(ν₁,ν₂) | 두 χ²의 비: (χ₁²/ν₁) / (χ₂²/ν₂) |
정규분포 N(0,1)
│
├── 제곱합 → χ²(ν) 분포
│ │
│ └── 비 → F(ν₁, ν₂) 분포
│
└── χ²와의 비 → t(ν) 분포
(ν→∞이면 t→Z, 즉 표준정규로 수렴)
4-2. 이산분포 근사 관계
| 출발 분포 | 조건 | 근사 분포 |
|---|---|---|
| 이항 B(n, p) | n 크고(>50), p 작음(<0.1) | Poisson(λ = np) |
| 이항 B(n, p) | n 크고(np≥5, nq≥5) | N(np, npq) |
| 포아송 Poisson(λ) | λ 큼(>10) | N(λ, λ) |
| 초기하 | n/N < 0.05 | 이항 B(n, p) |
초기하분포
│ n/N < 0.05
↓
이항분포 B(n,p)
│ n>50, p<0.1 │ np≥5, nq≥5
↓ ↓
포아송 Poisson(np) 정규분포 N(np, npq)
│ λ > 10
↓
정규분포 N(λ, λ)
💡 시험 포인트: 이항→포아송 조건(n 크고 p 작음)과 이항→정규 조건(np≥5, nq≥5)은 혼동하기 쉬운 단골 문제입니다.
5. 추정·검정에서 분포 선택 가이드
중심극한정리 이후 실전에서 분포를 선택하는 기준:
| 상황 | σ 알고 있음 | σ 모름 |
|---|---|---|
| 모평균 추정 (대표본 n≥30) | Z 검정/구간 | Z 검정/구간 (CLT로 근사) |
| 모평균 추정 (소표본 n<30) | Z 검정 | t 검정 |
| 모분산 추정 | — | χ² 검정 |
| 두 모분산 비교 | — | F 검정 |
| 불량률 추정 | — | Z 근사 (np≥5, nq≥5 시) |
6. CLT 계산 예시
문제: 어떤 부품 길이의 모집단 평균 μ = 50mm, σ = 4mm.
n = 16개 표본을 추출할 때, x̄가 49mm 이하일 확률은?
풀이:
CLT에 의해: x̄ ~ N(50, 4²/16) = N(50, 1²)
SE = σ/√n = 4/√16 = 1
Z = (x̄ - μ) / SE = (49 - 50) / 1 = -1.0
P(x̄ ≤ 49) = P(Z ≤ -1.0) = 1 - Φ(1.0)
= 1 - 0.8413 = 0.1587
→ 약 15.87%
문제 2: n = 25로 늘리면 P(x̄ ≤ 49)는?
SE = 4/√25 = 0.8
Z = (49 - 50) / 0.8 = -1.25
P(Z ≤ -1.25) = 1 - 0.8944 = 0.1056
→ 약 10.56% (n이 커질수록 극단값 발생 확률 감소)
관련 학습
- 중심과 산포 통계량 — μ·σ·SE의 기초
- 계량형 확률 분포 — 정규·t·F·χ² 분포 상세
- 계수형 확률 분포 — 이항·포아송·초기하 상세
- 샘플링 검사 — CLT의 실무 적용
- 관리도 완전 가이드 — SPC에서의 CLT 활용