목록불균형 데이터 (2)
Stats & AI tech blog - '일단 시도함'
1. SMOTE(synthetic minority oversampling technique)란?데이터 불균형을 해결하기 위해 소수 범주의 개체 수를 늘리는 오버샘플링(Oversamping)기법 중 하나이다.기존 Oversampling기법과는 달리 데이터를 랜덤복원추출로 생성하지 않고, KNN기반으로 소수 범주의 데이터들을 적절하게 조합하여 새로운 데이터를 만들어 낸다. 2. SMOTE 절차소수 범주(minority class)의 데이터 하나를 선택한다.소수 범주 중에서 해당 데이터와 가까운 k개를 선택한다.관측치들 간의 거리를 계산한다.랜덤하게 선택된 0~1 사이의 값을 곱한다.직선 위에 새로운 데이터를 생성한다. 3. SMOTE 한계점 - 실제 소수 범주의 특성을 온전하게 반영하지 않을 수 있다..
1. 불균형 데이터란?우리가 관심있어하는 종속변수가 범주형 데이터일 때, 범주 항목의 비율이 불균형한 데이터를 말한다.관심있는 비정상 관측치가 정상 관측치보다 적은 경우가 실무에서는 굉장히 많다.임상 데이터에서 특정 질병의 정상 / 비정상 환자제조업에서 제품의 양품 / 불량품통신업에서 유지 / 이탈 고객금융업에서 정상 / 비정상 거래많은 비율을 차지하는 범주를 '다수 범주 (majority class)', 적은 비율을 차지하는 범주를 '소수 범주 (minority class)' 라고 한다. 2. 불균형 데이터 문제점불균형 데이터로 훈련한 모델은 소수 범주를 제대로 분류하지 못할 가능성이 크다.이런 경우 애초에 정상 데이터가 많으니까 모두 정상으로 분류하더라도 높은 정확도를 가지게 된다. (비정상은 하..