목록2024/01/10 (3)
Stats & AI tech blog - '일단 시도함'
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dqvRvP/btsDfjCcHFf/Rrk6ZHEDxqp9RgrhpJIqp1/img.png)
데이터 집계 및 피벗 # count Patients a % group_by(age_group2, year) %>% summarise(n_patient = n()) # pivot wider b % dcast(year ~ ..., value.var = 'n_patient') patient_id year age_group2 1 0005969 2014 61-75 2 0010250 2019 >=76 3 0013541 2011 >=76 4 0013600 2011 46-60 5 0024285 2016 46-60 6 0025533 2018 61-75 > head(a)# A tibb..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bqbjmy/btsDmq6Wlku/ksG2t37flpq8j3YljUWuFk/img.png)
1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..