Stats & AI tech blog - '일단 시도함'
[통계] 표준화계수(beta)와 비표준화계수(B) 본문
회귀 분석에서 계수를 해석할 때는 목적에 따라 표준화계수(beta)와 비표준화계수(B)를 구분해서 해석해야 한다.
1. 비표준화 계수 (Unstandardized Coefficients)
일반적으로 우리가 알고 있는 모형식에 사용하는 계수는 비표준화계수(B)이고, 이를 통해 실질적인 의미를 해석할 수 있다.
예를 들어, $혈압 = (0.868*몸무게) + 65.543$인 회귀식을 통해 몸무게가 1kg 증가할 때, 혈압은 0.868 증가한다는 해석을 얻을 수 있다.
즉, 비표준화계수(B)는 단위를 유지해서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타낸다.
- 비표준화 계수는 회귀 분석에서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타내며, 원래의 단위(예: 원, kg, cm 등)를 유지한 상태에서 계산된다.
- 일반적으로 회귀 방정식에서 \(\beta\)로 나타낸다.
- 해석: 독립 변수 \(X\)가 1 단위 증가할 때, 종속 변수 \(Y\)가 \(\beta\)만큼 변한다.
$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \epsilon$$
여기서 \(\beta_1\)는 \(X_1\)의 비표준화 계수로, \(X_1\)이 1 단위 증가할 때 \(Y\)의 변화량을 의미.
2. 표준화 계수 (Standardized Coefficients)
표준화계수(beta)는 단위를 제거해서 여러 독립 변수들이 종속 변수에 미치는 영향을 상대적으로 비교할 수 있다.
예를 들어, $혈압 = (1.231*몸무게) + (-1.564*나이) + 50.134$인 회귀식에서 사용된 계수는 비표준화되어 있기 때문에, 몸무게와 나이 변수의 단위는 각각 1kg, 1살으로 다르다. 이렇게 단위가 다를 경우 어떤 변수가 혈압에 더 영향을 미치는지 비교하기 어려운데, 표준화계수(beta)는 독립 변수와 종속 변수를 각각 표준화(평균 0, 표준 편차 1)하여 단위를 제거한 후 계산한다.
따라서, 표준화계수(beta)가 각각 몸무게는 0.463, 나이는 -0.641이라면 상대적으로 혈압에 미치는 영향이 나이가 몸무게보다 크다(|0.463|<|-0.641|)라고 해석할 수 있다.
- 표준화 계수는 각 변수의 단위가 서로 다를 때 비교를 용이하게 하기 위해, 독립 변수와 종속 변수를 각각 표준화(평균 0, 표준편차 1)한 후 계산된 계수이다. 이를 통해 변수들의 상대적인 영향을 비교할 수 있다.
- \(\beta^*\)로 나타내며, "베타 계수"라고도 불린다.
- 해석: 표준화된 독립 변수 \(X\)가 1 표준편차 증가할 때, 종속 변수 \(Y\)가 \(\beta^*\) 표준편차만큼 변한다.
$$Z_Y = \beta^*_1 Z_{X_1} + \beta^*_2 Z_{X_2} + \dots + \epsilon$$
여기서 \(\beta^*_1\)는 \(X_1\)의 표준화 계수로, \(X_1\)의 표준편차가 1 증가할 때 \(Y\)의 표준편차 변화량을 의미.
3. 목적에 따른 사용
- 비표준화 계수
실질적인 의미를 해석하고자 할 때, 예를 들어 "광고비를 100만 원 증가시키면 매출이 얼마나 증가하는가?"를 알고 싶을 때 사용. - 표준화 계수
각 독립 변수가 종속 변수에 미치는 상대적 중요도를 비교하고자 할 때 사용.
'Statistics & AI > Basic Concept' 카테고리의 다른 글
[통계] 정확도(Accuracy) vs 정밀도(Precision) (1) | 2024.11.10 |
---|---|
[통계] 모형별 신뢰구간 계산 방법 (PLS, Wald, Score) (0) | 2024.08.20 |
[통계] 실험 설계 (반복 시행, 무작위화) (0) | 2024.07.31 |
[ML/DL] Stepwise Feature Selection (단계적 변수 선택법) (0) | 2024.07.29 |
[ML/DL] 편향(Bias)과 분산(Variance) (0) | 2024.05.21 |