Stats & AI tech blog - '일단 시도함'

[ML/DL] Logistic Regression Analysis (로지스틱 회귀분석) (1) 본문

Statistics & AI/Regression

[ML/DL] Logistic Regression Analysis (로지스틱 회귀분석) (1)

justdoit ok? 2023. 11. 29. 21:24

1. 로지스틱 회귀분석이란?

종속변수가 범주형(이항, 다항)인 경우에 사용하는 일반화 선형모형(generalized linear model)의 한 종류이다. 
어떤 사건 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률을 예측하여 0.5이상인 경우 발생, 0.5 이하인 경우 미발생으로 예측하는 것으로 일종의 분류(classification) 기법으로 볼 수 있다.

흔히 로지스틱 회귀분석은 종속변수가 이항인 경우를 지칭하고, 종속변수의 범주가 두 개 이상인 경우를 다항 로지스틱 회귀라고 한다.

 

 

2. 기본 가정

1) 대표본

2) 종속변수가 이항분포

3) 종속변수와 독립변수 간의 로짓 선형 관계

4) 오차항의 독립성

5) 다중공선성이 없다

 

 

3. 로지스틱 함수

로지스틱 함수는 종속변수의 결과 값이 [0,1] 사이에 있도록 한다. 이것은 오즈비(Odds Ratio)를 로짓 변환(Logit Transformation)함으로써 얻어진다.

 

  • 오즈 (Odds)
    : 특정 조건에서 사건 미발생 확률 대비 사건 발생 확률
    $$ \frac{p}{1-p} = e^{\beta_0 + \beta_1x}$$
    x = 1 일 때 오즈 : $ \frac{ p(y=1|x=1) }{1- p(y=0|x=1) }$
    x = 0 일 때 오즈 : $ \frac{ p(y=1|x=0) }{1- p(y=0|x=0) }$

 

  • 오즈비 (OR, Odds Ratio)
    : 특정 요인의 여부에 따른 이벤트 발생 확률을 비교하는 것으로 말그대로 오즈 간의 비율을 말한다.

    $$ OR = \frac{ \frac{ p(y=1|x=1) }{1- p(y=0|x=1) } }{ \frac{ p(y=1|x=0) }{1- p(y=0|x=0) } } $$

    오즈비가 1.5라는 것은 미노출 시 사건 발생 확률보다 노출 시 사건 발생 확률이 1.5배 높다는 것을 의미한다.

 

  • 로짓 변환 (Logit Transformation)
    : 오즈에 로그를 취한 함수로서 입력 값의 범위가 [0,1] 일 때 출력 값의 범위를 $(-\infty, +\infty)$로 조정한다.

    $$f(x) = logit(x) = 1/(1+e^{-x})$$
    $$ln(\frac{p}{1-p}) = \beta_0+\beta_1x_1+...+\beta_nx_n$$

 

4) 확률 커브 (Probability Curve)

 : 독립변수 x에 따라 사건 y가 일어날 확률을 그래프로 표현한 것이다.

$$p(y|x) = \frac{e^{\beta_0 + \beta_1x}}{1+e^{\beta_0 + \beta_1x}}$$

[출처] https://en.wikipedia.org/wiki/Logistic_regression

 

* R에서 확률 곡선 그리기

2023.12.24 - [Data Analysis/R] - [R] Logistic Regression Probability Curve

 

[R] Logistic Regression Probability Curve

2023.11.29 - [Data Analysis/Statistics] - [R] Logit Transform (로짓 변환) [R] Logit Transform (로짓 변환) Logit Transform (로짓 변환) 1) 로짓 변환 (Logit Transform) : 로지스틱 회귀분석을 위해 오즈비에 로그를 취한 함수

meowstudylog.tistory.com

 

 

 

4) 로지스틱 분석 예제

2024.01.15 - [Data Analysis/R] - [R] Logistic Regression (로지스틱 회귀분석)