표본분포와 중심극한정리 — 추론통계의 출발점 | 학습 위키

왜 표본분포가 필요한가?

품질 현장에서는 모집단 전체를 측정할 수 없습니다. 그래서 표본(Sample)을 추출해 모집단(Population)을 추론합니다.

모집단 (N개, 모수 μ·σ 미지)
   ↓ 랜덤 추출
표본 (n개, 통계량 x̄·s 계산)
   ↓ 추론
모집단 모수 추정 → 신뢰구간, 가설검정

이때 핵심 질문이 생깁니다.

"표본마다 x̄가 다르게 나오는데, 그 x̄들은 어떤 분포를 따르는가?"

이것이 표본분포(Sampling Distribution) 의 문제입니다.

1. 표본평균 x̄의 분포

모집단이 평균 μ, 분산 σ²를 갖는다면, n개를 랜덤 추출한 표본평균 x̄의 분포는:

E(x̄) = μ          ← 표본평균의 기댓값은 모평균과 같다 (불편성)
Var(x̄) = σ² / n   ← 표본이 클수록 흩어짐이 줄어든다
SE = σ / √n        ← 표준오차 (Standard Error)

표준오차(SE)의 의미: 표본평균이 모평균 주위에서 얼마나 흔들리는지를 나타냅니다.
n이 4배 커지면 SE는 2배 작아집니다.

n	SE (σ=10일 때)
4	10/√4 = 5.0
16	10/√16 = 2.5
100	10/√100 = 1.0

2. 중심극한정리 (CLT, Central Limit Theorem)

통계학에서 가장 중요한 정리 중 하나입니다.

정의

모집단의 분포 형태가 무엇이든(정규·균일·지수·이항…),
표본 크기 n이 충분히 크면 표본평균 x̄의 분포는
정규분포 N(μ, σ²/n)에 수렴한다.

x̄ ~ N(μ, σ²/n)   (n이 충분히 클 때)

표준화: Z = (x̄ - μ) / (σ/√n) ~ N(0, 1)

n은 얼마나 커야 하나?

모집단 분포	필요한 n
정규분포에 가까운 경우	n ≥ 10~15 이면 충분
보통의 경우	n ≥ 30 (일반 기준)
심하게 비대칭(지수분포 등)	n ≥ 50~100

💡 품질기술사 기준: 보통 n ≥ 30을 CLT 적용 기준으로 봅니다.

CLT 이전 vs 이후

n이 작을 때           n이 충분히 클 때
──────────────────    ─────────────────────────
모집단이 정규?         어떤 분포든 상관없음
→ 정규 가정 필요       → x̄는 항상 정규분포 근사

σ를 알아야 함         → Z 통계량 사용
σ 모름                → t 통계량 사용 (n이 작을수록 t 분포 사용)

SPC와 CLT의 연결

관리도에서 부분군(Subgroup) 크기 n = 4~5를 사용하는 이유가 CLT와 연결됩니다.

개별 공정값이 정규분포가 아니어도,
부분군 평균 x̄는 n=4~5에서 이미 근사 정규분포를 따릅니다.
→ X̄-R 관리도의 UCL/LCL 계산이 유효한 이유

3. 표본비율 p̂의 분포

불량률처럼 비율 데이터도 표본마다 달라집니다.

모집단 불량률: p (미지)
표본 불량률: p̂ = x/n  (x: 표본 내 불량 수)

E(p̂) = p
Var(p̂) = p(1-p)/n
SE(p̂) = √[p(1-p)/n]

CLT에 의해 n이 충분히 크면:

p̂ ~ N(p, p(1-p)/n)

적용 조건: np ≥ 5,  n(1-p) ≥ 5

→ 이것이 p 관리도의 이론적 기반입니다.

4. 확률분포 관계도

각 분포는 독립적이지 않고, 유도·근사·특수 케이스 관계로 연결됩니다.

확률분포 관계도

수학적 유도근사 (이산형 간)정규 근사 (CLT)

4-1. 정규분포 → t·F·χ² 유도

분포	유도 관계
χ²(ν)	표준정규 Z₁, …, Zᵥ의 제곱합: χ²= Z₁²+…+Zᵥ²
t(ν)	Z / √(χ²/ν) 의 비: Z ~ N(0,1), χ² ~ χ²(ν)
F(ν₁,ν₂)	두 χ²의 비: (χ₁²/ν₁) / (χ₂²/ν₂)

정규분포 N(0,1)
    │
    ├── 제곱합 → χ²(ν) 분포
    │               │
    │               └── 비 → F(ν₁, ν₂) 분포
    │
    └── χ²와의 비 → t(ν) 분포
                      (ν→∞이면 t→Z, 즉 표준정규로 수렴)

4-2. 이산분포 근사 관계

출발 분포	조건	근사 분포
이항 B(n, p)	n 크고(>50), p 작음(<0.1)	Poisson(λ = np)
이항 B(n, p)	n 크고(np≥5, nq≥5)	N(np, npq)
포아송 Poisson(λ)	λ 큼(>10)	N(λ, λ)
초기하	n/N < 0.05	이항 B(n, p)

초기하분포
    │ n/N < 0.05
    ↓
이항분포 B(n,p)
    │ n>50, p<0.1            │ np≥5, nq≥5
    ↓                         ↓
포아송 Poisson(np)      정규분포 N(np, npq)
    │ λ > 10
    ↓
정규분포 N(λ, λ)

💡 시험 포인트: 이항→포아송 조건(n 크고 p 작음)과 이항→정규 조건(np≥5, nq≥5)은 혼동하기 쉬운 단골 문제입니다.

5. 추정·검정에서 분포 선택 가이드

중심극한정리 이후 실전에서 분포를 선택하는 기준:

상황	σ 알고 있음	σ 모름
모평균 추정 (대표본 n≥30)	Z 검정/구간	Z 검정/구간 (CLT로 근사)
모평균 추정 (소표본 n<30)	Z 검정	t 검정
모분산 추정	—	χ² 검정
두 모분산 비교	—	F 검정
불량률 추정	—	Z 근사 (np≥5, nq≥5 시)

6. CLT 계산 예시

문제: 어떤 부품 길이의 모집단 평균 μ = 50mm, σ = 4mm.
n = 16개 표본을 추출할 때, x̄가 49mm 이하일 확률은?

풀이:

CLT에 의해: x̄ ~ N(50, 4²/16) = N(50, 1²)
SE = σ/√n = 4/√16 = 1

Z = (x̄ - μ) / SE = (49 - 50) / 1 = -1.0

P(x̄ ≤ 49) = P(Z ≤ -1.0) = 1 - Φ(1.0)
           = 1 - 0.8413 = 0.1587

→ 약 15.87%

문제 2: n = 25로 늘리면 P(x̄ ≤ 49)는?

SE = 4/√25 = 0.8
Z = (49 - 50) / 0.8 = -1.25

P(Z ≤ -1.25) = 1 - 0.8944 = 0.1056

→ 약 10.56% (n이 커질수록 극단값 발생 확률 감소)