Stats & AI tech blog - '일단 시도함'

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법) 본문

Statistics & AI/Basic Concept

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법)

justdoit ok? 2024. 7. 29. 11:26

 

이번 포스팅에서는 회귀 모형 등에서 변수를 선택하는 기법인 Stepwise 변수 선택법에 대해 알아보려한다.

 

Stepwise 기법은 통계적 모델링에서 변수 선택 과정을 자동화하는 방법 중 하나인데,

회귀 분석과 같은 모델링에서 효율적으로 변수 선택을 가능하게 하고 과적합(overfitting) 방지에 도움을 준다.

 

 

1. Stepwise 기법 종류 및 절차

stepwise 기법에는 전진 선택법후진 제거법, 그리고 이 두 가지를 결합한 방식이 존재한다.

 

  • 전진 선택법 (Forward Selection)
    아무런 변수가 포함되지 않은 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 모델에 추가할 변수를 하나씩 선택한다.

    장점 : 단순하고 직관적이며 계산 비용이 적다. 초기 단계에서 과적합을 방지할 수 있다.
    단점 : 초기에 선택한 변수가 부정확할 경우 최적의 모델을 찾기 어려우며, 변수들 간의 상호작용과 다중공선성 문제를 고려하지 않을 수 있다.


  • 후진 제거법 (Backward Elimination)
    모든 변수가 포함된 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 변수를 제거한다.

    장점 : 모든 변수를 포함한 모델에서 시작하므로 변수 간 상호작용을 고려할 가능성이 있다.
    단점 : 계산 비용이 높으며 과적합 위험이 있다. 또 초기 모델에 다중공선성이 있으면 모델 신뢰성이 떨어질 수 있다.


  • 스텝와이즈 선택법 (Stepwise Selection)
    전진 선택법과 후진 제거법을 결합한 방식으로, 각 단계에서 변수를 추가할 때마다 기존에 추가된 변수들이 여전히 모델에 유의한지 검토한다.

    장점 : 균형 잡힌 변수 선택을 제공하며, 과적합을 방지한다.
    단점 : 계산 비용이 높고, 다중공선성을 고려하지 않을 수 있다.

 

 

 

 

2. 변수 선택 기준

각 단계에서 변수를 선택할 때 사용할 수 있는 기준에는 여러 가지가 있다. 일반적으로 모델의 적합성을 중요시 하는 경우 AIC, BIC, 결정 계수 등을 사용하고, 각 변수의 유의성을 중요시 하는 경우 p-value를 사용한다.

 

  • 통계적 유의성 (Statistical Significance)
       - 변수의 p-value를 기준으로 선택.
       - 일반적으로 p-value가 0.05 이하인 변수를 선택.
       - 해당 변수가 모델에서 유의한지 여부를 평가하는 데 사용됨.

  • AIC (Akaike Information Criterion)
       - 모델의 적합도와 복잡성을 동시에 고려.
       - AIC 값이 낮을수록 더 좋은 모델로 간주됨.
       - 변수 선택 시 AIC 값이 최소가 되는 모델을 선택.

  • BIC (Bayesian Information Criterion)
       - AIC와 유사하지만, 모델 복잡성에 더 큰 페널티를 부과.
       - BIC 값이 낮을수록 더 좋은 모델로 간주됨.
       - 변수 선택 시 BIC 값이 최소가 되는 모델을 선택.

  • Adjusted R² (조정된 결정 계수)
       - R² 값을 변수의 수에 따라 조정한 지표.
       - 변수의 수가 증가해도 과도한 적합을 방지.
       - 조정된 R² 값이 높은 모델을 선택.

  • Mallows' Cp
       - 회귀 분석에서 모델의 예측력을 평가하는 기준.
       - Cp 값이 변수의 수와 비슷하거나 작을 때 좋은 모델로 간주.
       - Cp 값을 최소화하는 변수를 선택.

  • Cross-Validation (교차 검증)
       - 데이터를 여러 번 나누어 모델을 평가하는 방법.
       - 각 분할에서의 성능을 평균하여 변수 선택에 사용.
       - 과적합을 방지하고 모델의 일반화 성능을 평가하는 데 유용.

  • AUC (Area Under the Curve)
       - 분류 모델에서 ROC 곡선 아래의 면적을 기준으로 변수 선택.
       - AUC 값이 높을수록 좋은 모델로 간주.
       - 주로 이진 분류 문제에서 사용.