상관·회귀분석 — 관계의 방향·강도·예측 모델
피어슨 상관계수, 단순·다중 선형회귀, 결정계수 R², 회귀계수 유의성 검정(t·F검정), 잔차 분석까지 품질기술사 핵심 내용을 정리합니다.
상관분석과 회귀분석의 차이
두 가지는 모두 변수 간 관계를 다루지만 목적이 다릅니다.
| 구분 | 상관분석 | 회귀분석 |
|---|---|---|
| 목적 | 관계의 강도·방향 측정 | 예측 모델 수립 |
| 출력 | 상관계수 r | 회귀방정식 ŷ = b₀ + b₁x |
| 인과 | 전제 안 함 | 독립·종속 변수 구분 |
| 대칭성 | x↔y 결과 동일 | x, y 역할 고정 |
💡 인과관계 주의: 상관이 높다고 인과관계가 있는 것은 아닙니다.
"아이스크림 판매량과 익사 사고 수"는 상관 높음 → 공통 원인(더운 날씨)이 있을 뿐입니다.
1. 산점도 (Scatter Plot)
상관·회귀분석의 첫 단계는 반드시 산점도 확인입니다.
y ↑
│ ● ●
│ ● ● ●
│ ● ●●
└──────────── x
양의 상관 (우상향)
y ↑
│ ● ●
│ ●● ●
│ ● ● ●
└──────────── x
음의 상관 (우하향)
y ↑
│ ● ● ●
│● ● ● ●
│ ● ●
└──────────── x
상관 없음 (무작위)
선형 관계가 아닌 곡선 관계, 이상값(Outlier), 군집 구조 등을 육안으로 먼저 파악합니다.
2. 피어슨 상관계수 (Pearson's r)
두 변수 X, Y의 선형 관계 강도와 방향을 -1에서 +1 사이 값으로 나타냅니다.
r = Σ(xᵢ - x̄)(yᵢ - ȳ) / √[Σ(xᵢ - x̄)² × Σ(yᵢ - ȳ)²]
= Sxy / √(Sxx × Syy)
해석 기준
| r 값 | 해석 |
|---|---|
| 0.9 ≤ |r| ≤ 1.0 | 매우 강한 상관 |
| 0.7 ≤ |r| < 0.9 | 강한 상관 |
| 0.4 ≤ |r| < 0.7 | 중간 상관 |
| |r| < 0.4 | 약한 상관 (실무에서 거의 무의미) |
| r = 0 | 선형 상관 없음 (비선형 관계는 있을 수 있음) |
| r = +1 | 완전 양의 선형 관계 |
| r = -1 | 완전 음의 선형 관계 |
상관계수 유의성 검정
표본 크기가 작으면 우연히 높은 r이 나올 수 있으므로 검정이 필요합니다.
H₀: ρ = 0 (모상관계수 = 0)
H₁: ρ ≠ 0
검정 통계량: t = r√(n-2) / √(1-r²) ~ t(n-2)
n에 따른 유의성: r = 0.5이어도 n = 10이면 유의하지 않을 수 있습니다.
3. 단순 선형회귀 (Simple Linear Regression)
X → Y를 예측하는 일차 방정식 모델입니다.
Y = β₀ + β₁X + ε (모집단 모형)
ŷ = b₀ + b₁x (표본으로 추정)
β₀, b₀: 절편 (Intercept)
β₁, b₁: 기울기 (Slope)
ε: 오차항 (Error)
최소제곱법 (OLS, Ordinary Least Squares)
잔차(Residual)의 제곱합을 최소화하는 b₀, b₁을 구합니다.
잔차 eᵢ = yᵢ - ŷᵢ
최소화 대상: SSE = Σeᵢ² = Σ(yᵢ - ŷᵢ)²
계수 추정 공식:
b₁ = Sxy / Sxx = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)²
b₀ = ȳ - b₁x̄
분산 분해 (ANOVA 분해)
SST = SSR + SSE
SST: 총 변동 = Σ(yᵢ - ȳ)² (Total)
SSR: 회귀로 설명된 변동 = Σ(ŷᵢ - ȳ)² (Regression)
SSE: 잔차 변동 = Σ(yᵢ - ŷᵢ)² (Error)
4. 결정계수 R²
회귀모형이 데이터를 얼마나 잘 설명하는지 나타내는 지표입니다.
R² = SSR / SST = 1 - SSE/SST
범위: 0 ≤ R² ≤ 1
| R² | 의미 |
|---|---|
| R² = 1.0 | 완벽한 예측 (모든 점이 회귀선 위) |
| R² = 0.8 | y 변동의 80%를 x로 설명 가능 |
| R² = 0.0 | x가 y를 전혀 설명하지 못함 |
⚠️ 주의: R²은 단순회귀에서 r² (상관계수의 제곱)과 같습니다.
다중회귀에서 변수를 늘리면 R²이 무조건 증가 → 수정 R²(Adjusted R²) 사용
수정 R² = 1 - (1-R²)(n-1)/(n-k-1)
k: 독립변수 수
5. 회귀계수 유의성 검정
F 검정 (모형 전체 유의성)
H₀: β₁ = 0 (x가 y를 설명하지 못함)
H₁: β₁ ≠ 0
F = MSR / MSE = (SSR/1) / (SSE/(n-2)) ~ F(1, n-2)
t 검정 (개별 계수 유의성)
H₀: βⱼ = 0
t = bⱼ / SE(bⱼ) ~ t(n-k-1)
p값 < α 이면 해당 변수가 유의함
ANOVA 표 (단순회귀)
| 요인 | SS | df | MS | F |
|---|---|---|---|---|
| 회귀 (Regression) | SSR | 1 | MSR = SSR/1 | MSR/MSE |
| 잔차 (Error) | SSE | n-2 | MSE = SSE/(n-2) | — |
| 합계 | SST | n-1 | — | — |
6. 회귀 가정과 잔차 분석
선형회귀는 다음 4가지 가정이 충족되어야 유효합니다.
LINE 가정:
L — Linearity (선형성): x와 y의 관계가 선형
I — Independence (독립성): 잔차 간 독립
N — Normality (정규성): 잔차가 정규분포
E — Equal Variance (등분산성): x 값 전체에서 분산 일정 (등분산)
잔차 분석 방법:
| 그래프 | 확인하는 가정 | 이상 패턴 |
|---|---|---|
| 잔차 vs 적합값 | 선형성·등분산성 | 깔때기 모양 → 등분산 위반 |
| 잔차의 정규확률도 | 정규성 | 직선에서 벗어남 → 정규성 위반 |
| 잔차 vs 순서 | 독립성 | 패턴/추세 → 자기상관 |
7. 다중 선형회귀 (Multiple Linear Regression)
독립변수가 2개 이상인 경우입니다.
Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε
다중공선성 (Multicollinearity)
독립변수들 사이에 강한 상관관계가 있으면 계수 추정이 불안정해집니다.
진단 지표: VIF (Variance Inflation Factor)
VIF = 1 / (1 - Rⱼ²)
VIF < 5 → 문제없음
VIF ≥ 10 → 다중공선성 심각
변수 선택법
| 방법 | 절차 |
|---|---|
| 전진 선택 (Forward) | 유의한 변수를 하나씩 추가 |
| 후진 제거 (Backward) | 전체에서 유의하지 않은 변수 제거 |
| 단계적 선택 (Stepwise) | 전진+후진 반복 |
8. 품질에서의 활용
| 활용 사례 | 독립변수 (X) | 종속변수 (Y) |
|---|---|---|
| 공정 조건 최적화 | 온도, 압력, 속도 | 인장강도, 불량률 |
| MSA 직선성 분석 | 기준값 | 측정값 편차 |
| 수율 예측 | 재료 배합비 | 수율(%) |
| SPC 이상 원인 추적 | 원자재 특성 | 공정 특성치 |
9. 계산 예시
데이터: 온도(X)와 인장강도(Y) 5쌍 (20, 40), (25, 45), (30, 55), (35, 60), (40, 70)
x̄ = 30, ȳ = 54
Sxx = Σ(xᵢ-30)² = 100+25+0+25+100 = 250
Sxy = Σ(xᵢ-30)(yᵢ-54) = (-10)(-14)+(-5)(-9)+(0)(1)+(5)(6)+(10)(16)
= 140 + 45 + 0 + 30 + 160 = 375
b₁ = 375/250 = 1.5
b₀ = 54 - 1.5×30 = 9
회귀방정식: ŷ = 9 + 1.5x
해석: 온도 1°C 상승 → 인장강도 1.5 MPa 증가
r = Sxy/√(Sxx × Syy) → R² 계산 후 모형 유의성 검정
관련 학습
- 가설검정 — t·F검정의 이론적 기초
- 고전 실험계획법 (DOE) — 회귀의 확장: 다인자 실험
- QC 7가지 도구 — 산점도 실무 활용