[ML/DL] Stepwise Feature Selection (단계적 변수 선택법)

Recent Posts

Tags more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Archives

Today

Total

관리 메뉴

zimslog

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법) 본문

Data Analysis/Basic Concept

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법)

zimslog 2024. 7. 29. 11:26

이번 포스팅에서는 회귀 모형 등에서 변수를 선택하는 기법인 Stepwise 변수 선택법에 대해 알아보려한다.

Stepwise 기법은 통계적 모델링에서 변수 선택 과정을 자동화하는 방법 중 하나인데,

회귀 분석과 같은 모델링에서 효율적으로 변수 선택을 가능하게 하고 과적합(overfitting) 방지에 도움을 준다.

1. Stepwise 기법 종류 및 절차

stepwise 기법에는 전진 선택법과 후진 제거법, 그리고 이 두 가지를 결합한 방식이 존재한다.

전진 선택법 (Forward Selection)
아무런 변수가 포함되지 않은 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 모델에 추가할 변수를 하나씩 선택한다.

장점 : 단순하고 직관적이며 계산 비용이 적다. 초기 단계에서 과적합을 방지할 수 있다.
단점 : 초기에 선택한 변수가 부정확할 경우 최적의 모델을 찾기 어려우며, 변수들 간의 상호작용과 다중공선성 문제를 고려하지 않을 수 있다.
후진 제거법 (Backward Elimination)
모든 변수가 포함된 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 변수를 제거한다.

장점 : 모든 변수를 포함한 모델에서 시작하므로 변수 간 상호작용을 고려할 가능성이 있다.
단점 : 계산 비용이 높으며 과적합 위험이 있다. 또 초기 모델에 다중공선성이 있으면 모델 신뢰성이 떨어질 수 있다.
스텝와이즈 선택법 (Stepwise Selection)
전진 선택법과 후진 제거법을 결합한 방식으로, 각 단계에서 변수를 추가할 때마다 기존에 추가된 변수들이 여전히 모델에 유의한지 검토한다.

장점 : 균형 잡힌 변수 선택을 제공하며, 과적합을 방지한다.
단점 : 계산 비용이 높고, 다중공선성을 고려하지 않을 수 있다.

2. 변수 선택 기준

각 단계에서 변수를 선택할 때 사용할 수 있는 기준에는 여러 가지가 있다. 일반적으로 모델의 적합성을 중요시 하는 경우 AIC, BIC, 결정 계수 등을 사용하고, 각 변수의 유의성을 중요시 하는 경우 p-value를 사용한다.

통계적 유의성 (Statistical Significance)
   - 변수의 p-value를 기준으로 선택.
   - 일반적으로 p-value가 0.05 이하인 변수를 선택.
   - 해당 변수가 모델에서 유의한지 여부를 평가하는 데 사용됨.
AIC (Akaike Information Criterion)
   - 모델의 적합도와 복잡성을 동시에 고려.
   - AIC 값이 낮을수록 더 좋은 모델로 간주됨.
   - 변수 선택 시 AIC 값이 최소가 되는 모델을 선택.
BIC (Bayesian Information Criterion)
   - AIC와 유사하지만, 모델 복잡성에 더 큰 페널티를 부과.
   - BIC 값이 낮을수록 더 좋은 모델로 간주됨.
   - 변수 선택 시 BIC 값이 최소가 되는 모델을 선택.
Adjusted R² (조정된 결정 계수)
   - R² 값을 변수의 수에 따라 조정한 지표.
   - 변수의 수가 증가해도 과도한 적합을 방지.
   - 조정된 R² 값이 높은 모델을 선택.
Mallows' Cp
   - 회귀 분석에서 모델의 예측력을 평가하는 기준.
   - Cp 값이 변수의 수와 비슷하거나 작을 때 좋은 모델로 간주.
   - Cp 값을 최소화하는 변수를 선택.
Cross-Validation (교차 검증)
   - 데이터를 여러 번 나누어 모델을 평가하는 방법.
   - 각 분할에서의 성능을 평균하여 변수 선택에 사용.
   - 과적합을 방지하고 모델의 일반화 성능을 평가하는 데 유용.
AUC (Area Under the Curve)
   - 분류 모델에서 ROC 곡선 아래의 면적을 기준으로 변수 선택.
   - AUC 값이 높을수록 좋은 모델로 간주.
   - 주로 이진 분류 문제에서 사용.

'Data Analysis > Basic Concept' 카테고리의 다른 글

[통계] 모형별 신뢰구간 계산 방법 (PLS, Wald, Score) (0)	2024.08.20
[통계] 표준화계수(beta)와 비표준화계수(B) (0)	2024.08.20
[통계] 실험 설계 (반복 시행, 무작위화) (0)	2024.07.31
[ML/DL] 편향(Bias)과 분산(Variance) (0)	2024.05.21
[ML/DL] Loss function (손실함수) & Gradient Descent (경사하강법) (0)	2024.04.01

'Data Analysis/Basic Concept' Related Articles

zimslog

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법) 본문

[ML/DL] Stepwise Feature Selection (단계적 변수 선택법)

1. Stepwise 기법 종류 및 절차

2. 변수 선택 기준

'Data Analysis > Basic Concept' 카테고리의 다른 글

티스토리툴바