중심과 산포를 나타내는 통계량
품질 데이터를 요약하는 대표값(평균·중앙값·최빈값)과 산포 지표(범위·분산·표준편차·CV·왜도·첨도)를 정리합니다. 품질기술사 시험의 통계적 기초 단골 영역입니다.
왜 통계량이 필요한가?
품질 데이터는 수십~수만 개의 측정값으로 구성됩니다. 이를 그대로 다루기 어렵기 때문에 대표값(중심) 과 산포 지표(퍼짐 정도) 로 요약합니다.
데이터 집합 → 중심 통계량: "어디쯤에 몰려 있나?"
→ 산포 통계량: "얼마나 흩어져 있나?"
1. 중심 통계량 (Measures of Central Tendency)
1-1. 평균 (Mean)
모평균 (μ) — 모집단 전체의 산술 평균:
μ = (Σxᵢ) / N
표본평균 (x̄) — 표본의 산술 평균:
x̄ = (Σxᵢ) / n
- 모든 데이터를 반영하므로 이상값(Outlier)에 민감합니다.
- 계량형(연속) 데이터에 주로 사용합니다.
1-2. 중앙값 (Median, Me)
데이터를 크기 순으로 나열했을 때 정중앙에 위치하는 값입니다.
| 데이터 수 | 계산 방법 |
|---|---|
| 홀수 (n = 2k+1) | (k+1)번째 값 |
| 짝수 (n = 2k) | k번째와 (k+1)번째 값의 평균 |
- 이상값에 강건(Robust) 합니다.
- 비대칭 분포(소득, 불량률 등)에서 평균보다 대표성이 높습니다.
1-3. 최빈값 (Mode, Mo)
데이터에서 가장 자주 나타나는 값입니다.
- 범주형·이산형 데이터에 유용합니다.
- 분포가 두 개의 봉우리를 가지면 이봉 분포(Bimodal) 라고 합니다.
1-4. 세 통계량의 관계
| 분포 형태 | 관계 |
|---|---|
| 정규(대칭) 분포 | Mean = Median = Mode |
| 우편향 분포 (오른쪽 꼬리) | Mode < Median < Mean |
| 좌편향 분포 (왼쪽 꼬리) | Mean < Median < Mode |
💡 시험 포인트: 정규분포에서 세 값이 일치한다는 사실, 비대칭일 때 순서는 자주 출제됩니다.
2. 산포 통계량 (Measures of Dispersion)
2-1. 범위 (Range, R)
R = 최댓값 - 최솟값
- 계산이 가장 간단합니다.
- 이상값에 극도로 민감하며, 소규모 표본(n ≤ 10)에서 주로 사용합니다.
- X̄-R 관리도에서 R이 공정 산포 추정에 사용됩니다.
2-2. 분산 (Variance)
모분산 (σ²) — 모집단 전체의 분산:
σ² = Σ(xᵢ - μ)² / N
표본분산 (s²) — 표본 분산 (불편추정량, n-1로 나눔):
s² = Σ(xᵢ - x̄)² / (n - 1)
⚠️ n vs n-1: 표본분산에서 n-1로 나누는 이유는 자유도(Degrees of Freedom) 보정 때문입니다.
n개 표본에서 x̄를 사용하면 독립 정보가 n-1개로 줄어드므로 n-1로 나눠야 σ²의 불편추정량이 됩니다.
2-3. 표준편차 (Standard Deviation)
분산의 제곱근으로, 원래 데이터와 단위가 같습니다.
모표준편차: σ = √(σ²) = √[ Σ(xᵢ - μ)² / N ]
표본표준편차: s = √(s²) = √[ Σ(xᵢ - x̄)² / (n-1) ]
- 정규분포에서 μ ± 1σ 구간에 68.27%, μ ± 2σ에 95.45%, μ ± 3σ에 99.73%의 데이터가 포함됩니다.
- SPC의 관리한계선(UCL/LCL) 은 μ ± 3σ를 기준으로 합니다.
2-4. 변동계수 (CV, Coefficient of Variation)
표준편차를 평균으로 나눈 상대적 산포 지표:
CV = (σ / μ) × 100 (%)
또는 CV = (s / x̄) × 100 (%)
- 단위가 다른 두 데이터의 산포를 비교할 때 사용합니다.
- 예: 공장 A (평균 100mm, σ = 2mm → CV = 2%)
공장 B (평균 10mm, σ = 0.5mm → CV = 5%) → B가 상대적으로 산포 큼
3. 분포의 형태 지표
3-1. 왜도 (Skewness, γ₁)
분포의 비대칭 정도를 나타냅니다.
γ₁ = E[(X - μ)³] / σ³
| 값 | 의미 |
|---|---|
| γ₁ = 0 | 대칭 분포 (정규분포 포함) |
| γ₁ > 0 | 양(+)의 편향: 오른쪽 꼬리가 길다 (우편향) |
| γ₁ < 0 | 음(-)의 편향: 왼쪽 꼬리가 길다 (좌편향) |
실무 예시: 불량률 분포는 대부분 우편향 (대부분 낮은 값, 가끔 높은 값)
3-2. 첨도 (Kurtosis, γ₂)
분포의 뾰족함(꼬리의 두께) 을 나타냅니다.
γ₂ = E[(X - μ)⁴] / σ⁴ - 3
(정규분포를 기준으로 3을 빼서 초과첨도로 표현)
| 값 | 분포 형태 | 이름 |
|---|---|---|
| γ₂ = 0 | 정규분포와 동일 | 정규첨도 (Mesokurtic) |
| γ₂ > 0 | 정규보다 뾰족, 꼬리 두꺼움 | 급첨 (Leptokurtic) |
| γ₂ < 0 | 정규보다 납작, 꼬리 얇음 | 완첨 (Platykurtic) |
💡 실무 의미: 꼬리가 두꺼운 분포(γ₂ > 0)는 극단값이 자주 발생하므로 불량 위험이 높습니다.
4. 통계량 요약 비교표
| 통계량 | 기호 | 특징 | 이상값 민감도 |
|---|---|---|---|
| 평균 | μ, x̄ | 모든 데이터 반영 | 높음 |
| 중앙값 | Me | 순위 기반 | 낮음 |
| 최빈값 | Mo | 가장 자주 나타나는 값 | 낮음 |
| 범위 | R | 최대 - 최소 | 매우 높음 |
| 분산 | σ², s² | 편차 제곱의 평균 | 높음 |
| 표준편차 | σ, s | 분산의 제곱근 | 높음 |
| 변동계수 | CV | 상대 산포 (단위 없음) | 높음 |
| 왜도 | γ₁ | 비대칭 방향 | — |
| 첨도 | γ₂ | 뾰족함 정도 | — |
5. 계산 예시
데이터: 10, 12, 14, 14, 16, 18, 30 (n = 7)
| 통계량 | 계산 | 결과 |
|---|---|---|
| 합계 | 10+12+14+14+16+18+30 | 114 |
| 평균 x̄ | 114 / 7 | 16.29 |
| 중앙값 Me | 크기 순 4번째 값 | 14 |
| 최빈값 Mo | 가장 많이 나타난 값 | 14 |
| 범위 R | 30 - 10 | 20 |
| 표본분산 s² | Σ(xᵢ - x̄)² / 6 | 40.90 |
| 표본표준편차 s | √40.90 | 6.40 |
| CV | 6.40 / 16.29 × 100% | 39.3% |
30이 이상값으로 의심됩니다. 이상값 제거 후 평균은 14.0으로 크게 변하지만, 중앙값은 14로 동일합니다.
관련 학습
- 공정능력지수 Cp/Cpk — σ를 활용한 공정능력 계산
- 관리도 완전 가이드 — x̄와 R의 실무 적용
- 계량형 확률 분포 — 정규분포와 t·F·χ² 분포