Recent Posts
Stats & AI tech blog - '일단 시도함'
[ML/DL] Stepwise Feature Selection (단계적 변수 선택법) 본문
Statistics & AI/Basic Concept
[ML/DL] Stepwise Feature Selection (단계적 변수 선택법)
justdoit ok? 2024. 7. 29. 11:26
이번 포스팅에서는 회귀 모형 등에서 변수를 선택하는 기법인 Stepwise 변수 선택법에 대해 알아보려한다.
Stepwise 기법은 통계적 모델링에서 변수 선택 과정을 자동화하는 방법 중 하나인데,
회귀 분석과 같은 모델링에서 효율적으로 변수 선택을 가능하게 하고 과적합(overfitting) 방지에 도움을 준다.
1. Stepwise 기법 종류 및 절차
stepwise 기법에는 전진 선택법과 후진 제거법, 그리고 이 두 가지를 결합한 방식이 존재한다.
- 전진 선택법 (Forward Selection)
아무런 변수가 포함되지 않은 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 모델에 추가할 변수를 하나씩 선택한다.
장점 : 단순하고 직관적이며 계산 비용이 적다. 초기 단계에서 과적합을 방지할 수 있다.
단점 : 초기에 선택한 변수가 부정확할 경우 최적의 모델을 찾기 어려우며, 변수들 간의 상호작용과 다중공선성 문제를 고려하지 않을 수 있다. - 후진 제거법 (Backward Elimination)
모든 변수가 포함된 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 변수를 제거한다.
장점 : 모든 변수를 포함한 모델에서 시작하므로 변수 간 상호작용을 고려할 가능성이 있다.
단점 : 계산 비용이 높으며 과적합 위험이 있다. 또 초기 모델에 다중공선성이 있으면 모델 신뢰성이 떨어질 수 있다. - 스텝와이즈 선택법 (Stepwise Selection)
전진 선택법과 후진 제거법을 결합한 방식으로, 각 단계에서 변수를 추가할 때마다 기존에 추가된 변수들이 여전히 모델에 유의한지 검토한다.
장점 : 균형 잡힌 변수 선택을 제공하며, 과적합을 방지한다.
단점 : 계산 비용이 높고, 다중공선성을 고려하지 않을 수 있다.
2. 변수 선택 기준
각 단계에서 변수를 선택할 때 사용할 수 있는 기준에는 여러 가지가 있다. 일반적으로 모델의 적합성을 중요시 하는 경우 AIC, BIC, 결정 계수 등을 사용하고, 각 변수의 유의성을 중요시 하는 경우 p-value를 사용한다.
- 통계적 유의성 (Statistical Significance)
- 변수의 p-value를 기준으로 선택.
- 일반적으로 p-value가 0.05 이하인 변수를 선택.
- 해당 변수가 모델에서 유의한지 여부를 평가하는 데 사용됨. - AIC (Akaike Information Criterion)
- 모델의 적합도와 복잡성을 동시에 고려.
- AIC 값이 낮을수록 더 좋은 모델로 간주됨.
- 변수 선택 시 AIC 값이 최소가 되는 모델을 선택. - BIC (Bayesian Information Criterion)
- AIC와 유사하지만, 모델 복잡성에 더 큰 페널티를 부과.
- BIC 값이 낮을수록 더 좋은 모델로 간주됨.
- 변수 선택 시 BIC 값이 최소가 되는 모델을 선택. - Adjusted R² (조정된 결정 계수)
- R² 값을 변수의 수에 따라 조정한 지표.
- 변수의 수가 증가해도 과도한 적합을 방지.
- 조정된 R² 값이 높은 모델을 선택. - Mallows' Cp
- 회귀 분석에서 모델의 예측력을 평가하는 기준.
- Cp 값이 변수의 수와 비슷하거나 작을 때 좋은 모델로 간주.
- Cp 값을 최소화하는 변수를 선택. - Cross-Validation (교차 검증)
- 데이터를 여러 번 나누어 모델을 평가하는 방법.
- 각 분할에서의 성능을 평균하여 변수 선택에 사용.
- 과적합을 방지하고 모델의 일반화 성능을 평가하는 데 유용. - AUC (Area Under the Curve)
- 분류 모델에서 ROC 곡선 아래의 면적을 기준으로 변수 선택.
- AUC 값이 높을수록 좋은 모델로 간주.
- 주로 이진 분류 문제에서 사용.
'Statistics & AI > Basic Concept' 카테고리의 다른 글
[통계] 모형별 신뢰구간 계산 방법 (PLS, Wald, Score) (0) | 2024.08.20 |
---|---|
[통계] 표준화계수(beta)와 비표준화계수(B) (0) | 2024.08.20 |
[통계] 실험 설계 (반복 시행, 무작위화) (0) | 2024.07.31 |
[ML/DL] 편향(Bias)과 분산(Variance) (0) | 2024.05.21 |
[ML/DL] Loss function (손실함수) & Gradient Descent (경사하강법) (0) | 2024.04.01 |