Stats & AI tech blog - '일단 시도함'

[통계] 표준화계수(beta)와 비표준화계수(B) 본문

Statistics & AI/Basic Concept

[통계] 표준화계수(beta)와 비표준화계수(B)

justdoit ok? 2024. 8. 20. 13:32

 

회귀 분석에서 계수를 해석할 때는 목적에 따라 표준화계수(beta)비표준화계수(B)를 구분해서 해석해야 한다.

 

 

1. 비표준화 계수 (Unstandardized Coefficients)

일반적으로 우리가 알고 있는 모형식에 사용하는 계수는 비표준화계수(B)이고, 이를 통해 실질적인 의미를 해석할 수 있다.

예를 들어, $혈압 = (0.868*몸무게) + 65.543$인 회귀식을 통해 몸무게가 1kg 증가할 때, 혈압은 0.868 증가한다는 해석을 얻을 수 있다. 

즉, 비표준화계수(B)는 단위를 유지해서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타낸다.

  • 비표준화 계수는 회귀 분석에서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타내며, 원래의 단위(예: 원, kg, cm 등)를 유지한 상태에서 계산된다.
  • 일반적으로 회귀 방정식에서 \(\beta\)로 나타낸다.
  • 해석: 독립 변수 \(X\)가 1 단위 증가할 때, 종속 변수 \(Y\)가 \(\beta\)만큼 변한다.

$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \epsilon$$
여기서 \(\beta_1\)는 \(X_1\)의 비표준화 계수로, \(X_1\)이 1 단위 증가할 때 \(Y\)의 변화량을 의미.

 

2. 표준화 계수 (Standardized Coefficients)

표준화계수(beta) 단위를 제거해서 여러 독립 변수들이 종속 변수에 미치는 영향을 상대적으로 비교할 수 있다.

 

예를 들어, $혈압 =  (1.231*몸무게) + (-1.564*나이) + 50.134$인 회귀식에서 사용된 계수는 비표준화되어 있기 때문에, 몸무게와 나이 변수의 단위는 각각 1kg, 1살으로 다르다. 이렇게 단위가 다를 경우 어떤 변수가 혈압에 더 영향을 미치는지 비교하기 어려운데, 표준화계수(beta)는 독립 변수와 종속 변수를 각각 표준화(평균 0, 표준 편차 1)하여 단위를 제거한 후 계산한다.

 

따라서, 표준화계수(beta)가 각각 몸무게는 0.463, 나이는 -0.641이라면 상대적으로 혈압에 미치는 영향이 나이가 몸무게보다 크다(|0.463|<|-0.641|)라고 해석할 수 있다.

 

  • 표준화 계수는 각 변수의 단위가 서로 다를 때 비교를 용이하게 하기 위해, 독립 변수와 종속 변수를 각각 표준화(평균 0, 표준편차 1)한 후 계산된 계수이다. 이를 통해 변수들의 상대적인 영향을 비교할 수 있다.
  • \(\beta^*\)로 나타내며, "베타 계수"라고도 불린다.
  • 해석: 표준화된 독립 변수 \(X\)가 1 표준편차 증가할 때, 종속 변수 \(Y\)가 \(\beta^*\) 표준편차만큼 변한다.

$$Z_Y = \beta^*_1 Z_{X_1} + \beta^*_2 Z_{X_2} + \dots + \epsilon$$
여기서 \(\beta^*_1\)는 \(X_1\)의 표준화 계수로, \(X_1\)의 표준편차가 1 증가할 때 \(Y\)의 표준편차 변화량을 의미.

 


3. 목적에 따른 사용

  • 비표준화 계수
    실질적인 의미를 해석하고자 할 때, 예를 들어 "광고비를 100만 원 증가시키면 매출이 얼마나 증가하는가?"를 알고 싶을 때 사용.

  • 표준화 계수
    각 독립 변수가 종속 변수에 미치는 상대적 중요도를 비교하고자 할 때 사용.