목록Data Science (38)
zimslog
1. rpart (Recursive Partitioning and Regression Trees) : CART 알고리즘을 사용하여 기본적인 결정 트리를 구현library(rpart)library(rpart.plot)rpartmod 2. party and partykit : 조건부 추론 트리 (Conditional Inference Trees) 를 제공 library(party) partymod 3. C50 : C5.0 알고리즘을 사용하여 결정트리와 부스팅 모델을 제공 library(C50) c50mod 4. tree : 단순하고 기본적인 결정 트리 구현 library(tree) treemod 5. CHAID : CHAID 알고리즘으로 트리 구현install.packages("CHAI..

1. ROC 분석이란?ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다. 2. ROC curve이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR)와 1-특이도 (FPR)을 이용하여 표현한다.양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률 일반적으로 진단 모델의 성능을 높이기 위해 ..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..

1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..

1. 다중대응분석(MCA)이란? 다변량 범주형 자료의 탐색적 분석에 이용되는 차원 축소 기법이다.대응분석(CA)의 확장이며, 범주형 데이터에 대한 주성분분석(PCA)으로 이해할 수 있다. 연속형 자료의 차원 축소 기법인 PCA에서는 공분산을 통해 변수 간의 관계성 파악한다. 관계가 밀접한 변수들의 선형조합으로 정보량이 많은 변수(주성분)를 추출한다. 범주형 자료에서는 공분산을 사용할 수 없기 때문에 범주형 변수의 관계성 지표인 카이제곱 검정통계량을 사용한다. 두 변수의 관계가 밀접할 수록 카이제곱 검정통계량은 커지게 된다. 변수 간 카이제곱 검정통계량으로 만든 행렬을 분해(Decomposition)하여 요인을 찾아내는 것이 대응분석(CA)이고, CA를 여러 변수로 확장한 것이 다중대응분석(MCA)이다. ..

진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기 위한 표 Result10Predict1TP (True Positive)FP (False Positive)0FN (False Negative)TN (True Negative) * TP (True Positive) : 양성으로 진단하고 실제로도 양성인 경우* FP (False Positive) : 양성으로 진단하고 실제로는 음성인 경우* FN (False Negative) : 음성으로 진단하고 실제로는 양성인 경우* TN (True Negative) : 음성으로 진단하고 실제로도 음성인 경우 2. 진단 테스트 지표 민감도 (Sens..

경시적 자료는 한 개체를 반복적으로 관찰하거나 시간의 추이에 따라 표집된 자료이다. 한 개체 내 측정치들 간에 연관성이 존재하므로 공분산이 0이 아니게 되며 변이를 구성하는 요소를 통해 공분산 구조를 추정한다. 평균 함수를 통한 경시적 자료 표현$$y_{ij} = \mu(t_{ij}) + \epsilon_{ij}$$ 변이를 구성하는 요소1) 개체 간 변이 (between-individual heterogeneity)2) 개체 내 변이 (within-individual variation)3) 측정 오차 (measurement error) 개체 내 변이1) 자기공분산함수 (Auto-covariance function) : 완전 균형 자료인 경우 (동일한 시점에서 동일한 반복 횟수로 측정된 자료)2) 변이..
경시적 자료는 한 개체를 반복적으로 관찰하거나 시간의 추이에 따라 표집된 자료이다. 한 개체 내 측정치들 간에 연관성이 존재하므로 공분산이 0이 아니게 되며 변이를 구성하는 요소를 통해 공분산 구조를 추정한다. 평균 함수를 통한 경시적 자료 표현$$y_{ij} = \mu(t_{ij}) + \epsilon_{ij}$$ 변이를 구성하는 요소1) 개체 간 변이 (between-individual heterogeneity)2) 개체 내 변이 (within-individual variation)3) 측정 오차 (measurement error) 개체 간 변이개체 간 변이는 개체별 랜덤 효과(subject-specific random effect)로 표현할 수 있다. 개체별 랜덤 효과는 일변량 정규분포를 이용하..