중심과 산포를 나타내는 통계량

왜 통계량이 필요한가?

품질 데이터는 수십~수만 개의 측정값으로 구성됩니다. 이를 그대로 다루기 어렵기 때문에 대표값(중심) 과 산포 지표(퍼짐 정도) 로 요약합니다.

데이터 집합 → 중심 통계량: "어디쯤에 몰려 있나?"
             → 산포 통계량: "얼마나 흩어져 있나?"

1. 중심 통계량 (Measures of Central Tendency)

1-1. 평균 (Mean)

모평균 (μ) — 모집단 전체의 산술 평균:

μ = (Σxᵢ) / N

표본평균 (x̄) — 표본의 산술 평균:

x̄ = (Σxᵢ) / n

모든 데이터를 반영하므로 이상값(Outlier)에 민감합니다.
계량형(연속) 데이터에 주로 사용합니다.

1-2. 중앙값 (Median, Me)

데이터를 크기 순으로 나열했을 때 정중앙에 위치하는 값입니다.

데이터 수	계산 방법
홀수 (n = 2k+1)	(k+1)번째 값
짝수 (n = 2k)	k번째와 (k+1)번째 값의 평균

이상값에 강건(Robust) 합니다.
비대칭 분포(소득, 불량률 등)에서 평균보다 대표성이 높습니다.

1-3. 최빈값 (Mode, Mo)

데이터에서 가장 자주 나타나는 값입니다.

범주형·이산형 데이터에 유용합니다.
분포가 두 개의 봉우리를 가지면 이봉 분포(Bimodal) 라고 합니다.

1-4. 세 통계량의 관계

분포 형태	관계
정규(대칭) 분포	Mean = Median = Mode
우편향 분포 (오른쪽 꼬리)	Mode < Median < Mean
좌편향 분포 (왼쪽 꼬리)	Mean < Median < Mode

💡 시험 포인트: 정규분포에서 세 값이 일치한다는 사실, 비대칭일 때 순서는 자주 출제됩니다.

2. 산포 통계량 (Measures of Dispersion)

2-1. 범위 (Range, R)

R = 최댓값 - 최솟값

계산이 가장 간단합니다.
이상값에 극도로 민감하며, 소규모 표본(n ≤ 10)에서 주로 사용합니다.
X̄-R 관리도에서 R이 공정 산포 추정에 사용됩니다.

2-2. 분산 (Variance)

모분산 (σ²) — 모집단 전체의 분산:

σ² = Σ(xᵢ - μ)² / N

표본분산 (s²) — 표본 분산 (불편추정량, n-1로 나눔):

s² = Σ(xᵢ - x̄)² / (n - 1)

⚠️ n vs n-1: 표본분산에서 n-1로 나누는 이유는 자유도(Degrees of Freedom) 보정 때문입니다.
n개 표본에서 x̄를 사용하면 독립 정보가 n-1개로 줄어드므로 n-1로 나눠야 σ²의 불편추정량이 됩니다.

2-3. 표준편차 (Standard Deviation)

분산의 제곱근으로, 원래 데이터와 단위가 같습니다.

모표준편차: σ = √(σ²) = √[ Σ(xᵢ - μ)² / N ]
표본표준편차: s = √(s²) = √[ Σ(xᵢ - x̄)² / (n-1) ]

정규분포에서 μ ± 1σ 구간에 68.27%, μ ± 2σ에 95.45%, μ ± 3σ에 99.73%의 데이터가 포함됩니다.
SPC의 관리한계선(UCL/LCL) 은 μ ± 3σ를 기준으로 합니다.

2-4. 변동계수 (CV, Coefficient of Variation)

표준편차를 평균으로 나눈 상대적 산포 지표:

CV = (σ / μ) × 100 (%)
또는 CV = (s / x̄) × 100 (%)

단위가 다른 두 데이터의 산포를 비교할 때 사용합니다.
예: 공장 A (평균 100mm, σ = 2mm → CV = 2%)
공장 B (평균 10mm, σ = 0.5mm → CV = 5%) → B가 상대적으로 산포 큼

3. 분포의 형태 지표

3-1. 왜도 (Skewness, γ₁)

분포의 비대칭 정도를 나타냅니다.

γ₁ = E[(X - μ)³] / σ³

값	의미
γ₁ = 0	대칭 분포 (정규분포 포함)
γ₁ > 0	양(+)의 편향: 오른쪽 꼬리가 길다 (우편향)
γ₁ < 0	음(-)의 편향: 왼쪽 꼬리가 길다 (좌편향)

실무 예시: 불량률 분포는 대부분 우편향 (대부분 낮은 값, 가끔 높은 값)

3-2. 첨도 (Kurtosis, γ₂)

분포의 뾰족함(꼬리의 두께) 을 나타냅니다.

γ₂ = E[(X - μ)⁴] / σ⁴ - 3

(정규분포를 기준으로 3을 빼서 초과첨도로 표현)

값	분포 형태	이름
γ₂ = 0	정규분포와 동일	정규첨도 (Mesokurtic)
γ₂ > 0	정규보다 뾰족, 꼬리 두꺼움	급첨 (Leptokurtic)
γ₂ < 0	정규보다 납작, 꼬리 얇음	완첨 (Platykurtic)

💡 실무 의미: 꼬리가 두꺼운 분포(γ₂ > 0)는 극단값이 자주 발생하므로 불량 위험이 높습니다.

4. 통계량 요약 비교표

통계량	기호	특징	이상값 민감도
평균	μ, x̄	모든 데이터 반영	높음
중앙값	Me	순위 기반	낮음
최빈값	Mo	가장 자주 나타나는 값	낮음
범위	R	최대 - 최소	매우 높음
분산	σ², s²	편차 제곱의 평균	높음
표준편차	σ, s	분산의 제곱근	높음
변동계수	CV	상대 산포 (단위 없음)	높음
왜도	γ₁	비대칭 방향	—
첨도	γ₂	뾰족함 정도	—

5. 계산 예시

데이터: 10, 12, 14, 14, 16, 18, 30 (n = 7)

통계량	계산	결과
합계	10+12+14+14+16+18+30	114
평균 x̄	114 / 7	16.29
중앙값 Me	크기 순 4번째 값	14
최빈값 Mo	가장 많이 나타난 값	14
범위 R	30 - 10	20
표본분산 s²	Σ(xᵢ - x̄)² / 6	40.90
표본표준편차 s	√40.90	6.40
CV	6.40 / 16.29 × 100%	39.3%

30이 이상값으로 의심됩니다. 이상값 제거 후 평균은 14.0으로 크게 변하지만, 중앙값은 14로 동일합니다.