상관·회귀분석 — 관계의 방향·강도·예측 모델 | 학습 위키

상관분석과 회귀분석의 차이

두 가지는 모두 변수 간 관계를 다루지만 목적이 다릅니다.

구분	상관분석	회귀분석
목적	관계의 강도·방향 측정	예측 모델 수립
출력	상관계수 r	회귀방정식 ŷ = b₀ + b₁x
인과	전제 안 함	독립·종속 변수 구분
대칭성	x↔y 결과 동일	x, y 역할 고정

💡 인과관계 주의: 상관이 높다고 인과관계가 있는 것은 아닙니다.
"아이스크림 판매량과 익사 사고 수"는 상관 높음 → 공통 원인(더운 날씨)이 있을 뿐입니다.

1. 산점도 (Scatter Plot)

상관·회귀분석의 첫 단계는 반드시 산점도 확인입니다.

  y ↑
    │     ●  ●
    │   ●   ●  ●
    │ ●  ●●
    └──────────── x
    양의 상관 (우상향)

  y ↑
    │ ●  ●
    │  ●●  ●
    │    ●  ● ●
    └──────────── x
    음의 상관 (우하향)

  y ↑
    │  ● ●  ●
    │●   ● ●  ●
    │  ●  ●
    └──────────── x
    상관 없음 (무작위)

선형 관계가 아닌 곡선 관계, 이상값(Outlier), 군집 구조 등을 육안으로 먼저 파악합니다.

2. 피어슨 상관계수 (Pearson's r)

두 변수 X, Y의 선형 관계 강도와 방향을 -1에서 +1 사이 값으로 나타냅니다.

r = Σ(xᵢ - x̄)(yᵢ - ȳ) / √[Σ(xᵢ - x̄)² × Σ(yᵢ - ȳ)²]
  = Sxy / √(Sxx × Syy)

해석 기준

r 값	해석
0.9 ≤ \|r\| ≤ 1.0	매우 강한 상관
0.7 ≤ \|r\| < 0.9	강한 상관
0.4 ≤ \|r\| < 0.7	중간 상관
\|r\| < 0.4	약한 상관 (실무에서 거의 무의미)
r = 0	선형 상관 없음 (비선형 관계는 있을 수 있음)
r = +1	완전 양의 선형 관계
r = -1	완전 음의 선형 관계

상관계수 유의성 검정

표본 크기가 작으면 우연히 높은 r이 나올 수 있으므로 검정이 필요합니다.

H₀: ρ = 0 (모상관계수 = 0)
H₁: ρ ≠ 0

검정 통계량: t = r√(n-2) / √(1-r²)  ~  t(n-2)

n에 따른 유의성: r = 0.5이어도 n = 10이면 유의하지 않을 수 있습니다.

3. 단순 선형회귀 (Simple Linear Regression)

X → Y를 예측하는 일차 방정식 모델입니다.

Y = β₀ + β₁X + ε     (모집단 모형)
ŷ = b₀ + b₁x         (표본으로 추정)

β₀, b₀: 절편 (Intercept)
β₁, b₁: 기울기 (Slope)
ε: 오차항 (Error)

최소제곱법 (OLS, Ordinary Least Squares)

잔차(Residual)의 제곱합을 최소화하는 b₀, b₁을 구합니다.

잔차 eᵢ = yᵢ - ŷᵢ

최소화 대상: SSE = Σeᵢ² = Σ(yᵢ - ŷᵢ)²

계수 추정 공식:

b₁ = Sxy / Sxx = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)²

b₀ = ȳ - b₁x̄

분산 분해 (ANOVA 분해)

SST = SSR + SSE

SST: 총 변동 = Σ(yᵢ - ȳ)²       (Total)
SSR: 회귀로 설명된 변동 = Σ(ŷᵢ - ȳ)²  (Regression)
SSE: 잔차 변동 = Σ(yᵢ - ŷᵢ)²    (Error)

4. 결정계수 R²

회귀모형이 데이터를 얼마나 잘 설명하는지 나타내는 지표입니다.

R² = SSR / SST = 1 - SSE/SST

범위: 0 ≤ R² ≤ 1

R²	의미
R² = 1.0	완벽한 예측 (모든 점이 회귀선 위)
R² = 0.8	y 변동의 80%를 x로 설명 가능
R² = 0.0	x가 y를 전혀 설명하지 못함

⚠️ 주의: R²은 단순회귀에서 r² (상관계수의 제곱)과 같습니다.
다중회귀에서 변수를 늘리면 R²이 무조건 증가 → 수정 R²(Adjusted R²) 사용

수정 R² = 1 - (1-R²)(n-1)/(n-k-1)
k: 독립변수 수

5. 회귀계수 유의성 검정

F 검정 (모형 전체 유의성)

H₀: β₁ = 0 (x가 y를 설명하지 못함)
H₁: β₁ ≠ 0

F = MSR / MSE = (SSR/1) / (SSE/(n-2))  ~  F(1, n-2)

t 검정 (개별 계수 유의성)

H₀: βⱼ = 0

t = bⱼ / SE(bⱼ)  ~  t(n-k-1)

p값 < α 이면 해당 변수가 유의함

ANOVA 표 (단순회귀)

요인	SS	df	MS	F
회귀 (Regression)	SSR	1	MSR = SSR/1	MSR/MSE
잔차 (Error)	SSE	n-2	MSE = SSE/(n-2)	—
합계	SST	n-1	—	—

6. 회귀 가정과 잔차 분석

선형회귀는 다음 4가지 가정이 충족되어야 유효합니다.

LINE 가정:
  L — Linearity (선형성): x와 y의 관계가 선형
  I — Independence (독립성): 잔차 간 독립
  N — Normality (정규성): 잔차가 정규분포
  E — Equal Variance (등분산성): x 값 전체에서 분산 일정 (등분산)

잔차 분석 방법:

그래프	확인하는 가정	이상 패턴
잔차 vs 적합값	선형성·등분산성	깔때기 모양 → 등분산 위반
잔차의 정규확률도	정규성	직선에서 벗어남 → 정규성 위반
잔차 vs 순서	독립성	패턴/추세 → 자기상관

7. 다중 선형회귀 (Multiple Linear Regression)

독립변수가 2개 이상인 경우입니다.

Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε

다중공선성 (Multicollinearity)

독립변수들 사이에 강한 상관관계가 있으면 계수 추정이 불안정해집니다.

진단 지표: VIF (Variance Inflation Factor)
VIF = 1 / (1 - Rⱼ²)

VIF < 5  → 문제없음
VIF ≥ 10 → 다중공선성 심각

변수 선택법

방법	절차
전진 선택 (Forward)	유의한 변수를 하나씩 추가
후진 제거 (Backward)	전체에서 유의하지 않은 변수 제거
단계적 선택 (Stepwise)	전진+후진 반복

8. 품질에서의 활용

활용 사례	독립변수 (X)	종속변수 (Y)
공정 조건 최적화	온도, 압력, 속도	인장강도, 불량률
MSA 직선성 분석	기준값	측정값 편차
수율 예측	재료 배합비	수율(%)
SPC 이상 원인 추적	원자재 특성	공정 특성치

9. 계산 예시

데이터: 온도(X)와 인장강도(Y) 5쌍 (20, 40), (25, 45), (30, 55), (35, 60), (40, 70)

x̄ = 30,  ȳ = 54

Sxx = Σ(xᵢ-30)² = 100+25+0+25+100 = 250
Sxy = Σ(xᵢ-30)(yᵢ-54) = (-10)(-14)+(-5)(-9)+(0)(1)+(5)(6)+(10)(16)
    = 140 + 45 + 0 + 30 + 160 = 375

b₁ = 375/250 = 1.5
b₀ = 54 - 1.5×30 = 9

회귀방정식: ŷ = 9 + 1.5x
해석: 온도 1°C 상승 → 인장강도 1.5 MPa 증가

r = Sxy/√(Sxx × Syy) → R² 계산 후 모형 유의성 검정