목록2024/02/23 (2)
Stats & AI tech blog - '일단 시도함'
1. 불균형 데이터란?우리가 관심있어하는 종속변수가 범주형 데이터일 때, 범주 항목의 비율이 불균형한 데이터를 말한다.관심있는 비정상 관측치가 정상 관측치보다 적은 경우가 실무에서는 굉장히 많다.임상 데이터에서 특정 질병의 정상 / 비정상 환자제조업에서 제품의 양품 / 불량품통신업에서 유지 / 이탈 고객금융업에서 정상 / 비정상 거래많은 비율을 차지하는 범주를 '다수 범주 (majority class)', 적은 비율을 차지하는 범주를 '소수 범주 (minority class)' 라고 한다. 2. 불균형 데이터 문제점불균형 데이터로 훈련한 모델은 소수 범주를 제대로 분류하지 못할 가능성이 크다.이런 경우 애초에 정상 데이터가 많으니까 모두 정상으로 분류하더라도 높은 정확도를 가지게 된다. (비정상은 하..
라이브러리 & 데이터 불러오기# librarysetwd("C:/Users/PC2/Documents/Rcode")req 변수명 변경# 충돌 에러 (unused argument error) 발생할 경우 패키지 명시해주기data %>% dplyr::rename(Annaul_Income = 'Annual Income (k$)', Spending_Score = 'Spending Score (1-100)') 변수 타입 변경# 동시에 여러 컬럼 변경data[,1:11] % mutate_if(is.character, as.factor) Factor 변수 처리 # factor로 변경# ordered=T는 데이터가 순서형임을 뜻함data$quarter % mutate(Time = factor(Tim..