Stats & AI tech blog - '일단 시도함'

[ML/DL] Regression Model Interpretation (회귀 모델 결과 해석) 본문

Statistics & AI/Regression

[ML/DL] Regression Model Interpretation (회귀 모델 결과 해석)

justdoit ok? 2024. 2. 14. 14:18

1. Linear Model

  • Residuals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델
  • Coefficients
    • Estimate : 변수들에 부여된 가중치
    • Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임
    • t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준
  • Performance Measures
    • Residual Standard Error : 잔차의 표준편차, 작을수록 좋다
    • Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하다.
    • F-Statistic : 적어도 하나의 변수 가중치가 0과 비교하여 유의미하게 다른지 검정. 모델을 평가에 도움을 주는 테스트로 p-value가 유의하지 않으면 모델 자체가 유의하지 않음
  • Residual plot
    • 잔차의 평균(합계)가 0 
    • 잔차의 분포가 normal distribution <- QQ-Plot, Jarque-Bera Test 
    • 모든 잔차가 independent <- Durbin-Watson Test
    • 잔차의 분산이 일정 <- Studentized Residuals

 

 

2. Generalized Linear Model

  • Residuals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델
  • Coefficients
    • Estimate : 변수들에 부여된 가중치
    • Std.Error : 추정치의 정확도를 보여주고 z-value 계산에 쓰임
    • z-value & Pr(>|z|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준
  • Null Deviance : 오직 intercept만으로 반응 변수가 얼마나 잘 예측되었는가를 보여줌
  • Residual Deviance : 예측 변수들과 함께 반응 변수가 얼마나 잘 예측되었는가. 작을수록 좋음
  • Chi-Square statistic : 모델이 유용한지 검정
    $\chi^2$ = Null deviance - Residual deviance, p degree of freedom
    카이제곱 통계량의 p-value를 통해 intercept만을 사용한 모델과 비교하여 얼마나 잘 적합되었는지 확인

  • AIC : 같은 데이터를 사용한 여러 모델을 비교할 때 적절

 

 

 

* Interpret lm() outputs

https://www.learnbymarketing.com/tutorials/linear-regression-in-r/

* Interpret glm() outputs

https://statmath.wu.ac.at/courses/heather_turner/index.html