목록전체 글 (94)
Stats & AI tech blog - '일단 시도함'
통계 분석을 하다보면 데이터의 각 그룹(ex. 치료군/대조군) 별로 정규성 검정을 하는 경우가 많다.아래 함수를 통해 변수를 동적으로 바꿔가며 group_by를 사용한 shapiro_test를 수행할 수 있다. 1. shapiro_test {rstatix}, group_by {dplyr}library(rstatix)data %>% group_by(group) %>% shapiro_test(ALCAM) # 변수 바꿔가며 테스트 반복 lapply(colnames(permnt)[4:15], function(var){ permnt %>% group_by(cbct) %>% shapiro_test({{var}})}) group variable statistic p ..
1. rpart (Recursive Partitioning and Regression Trees) : CART 알고리즘을 사용하여 기본적인 결정 트리를 구현library(rpart)library(rpart.plot)rpartmod 2. party and partykit : 조건부 추론 트리 (Conditional Inference Trees) 를 제공 library(party) partymod 3. C50 : C5.0 알고리즘을 사용하여 결정트리와 부스팅 모델을 제공 library(C50) c50mod 4. tree : 단순하고 기본적인 결정 트리 구현 library(tree) treemod 5. CHAID : CHAID 알고리즘으로 트리 구현install.packages("CHAI..
1. ROC 분석이란?ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다. 2. ROC curve이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR)와 1-특이도 (FPR)을 이용하여 표현한다.양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률 일반적으로 진단 모델의 성능을 높이기 위해 ..
Kappa 상관계수에 대한 개념 설명은 이전 포스팅 참고.2024.01.11 - [Data Analysis/Statistics] - [통계] Cohen's Kappa (카파 상관계수) [통계] Cohen's Kappa (카파 상관계수)Cohen's Kappa (카파 상관계수) 1) 카파 상관계수란? 범주형 변수 간의 일치도를 측정하는 통계량이다. 예를 들어 n명의 환자에 대한 검사 방법 X와 Y의 결과가 있을 때, 두 검사 방법의 일치도가 어떠meowstudylog.tistory.com 이번 포스팅에서는 R에서 Kappa 상관계수를 통한 일치도를 확인하는 방법에 대해 알아보겠다. 예제)분석 목적 : 2개의 진단 법 간의 일치도를 확인하고자 한다.사용 데이터 : 순서 척도로 이루어진 두 개의 범주형 변수>..
1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.같은 경우지만 범주가 순서형인 경우는 Weighted Cohen's Kappa를 사용한다.n명의 환자를 대상으로 2명의 평가자가 측정하였을 때, 평가자 간 신뢰도 확인n명의 환자를 대상으로 두 가지 검사 방법 X와 Y을 사용할 때, X와 Y의 결과가 얼마나 일치하는지 확인n명의 환자를 대상으로 한 명의 평가자가 두 번 측정하였을 때, 1차와 2차 결과가 얼마나 일치하는지 평가자 내 신뢰도 확인 만약 아래와 같이 비교 군이 3개 이상인 경우는 Fleiss's Kappa를 사용한다.n명의 환자를 대상으로 3명의 평가자가 측정하였을 때, 평가..
1. 일치도 분석이란?임상 연구에서는 두 개 이상의 진단 도구(혹은 평가자)에 의한 결과가 일치하는지에 관심을 가지는 경우가 많다.아래와 같은 질문를 확인하고자 할 때 일치도 분석을 진행한다.기존 측정 장비와 신규로 도입한 측정 장비의 결과가 일치하는가?A 의사가 측정한 결과와 B 의사가 측정한 결과가 일치하는가?같은 메소드로 두 번 측정했을 때 1차 측정 결과와 2차 측정 결과가 일치하는가? 2. 일치도 관련 개념들신뢰도(reliability)측정 도구가 얼마나 일관된 결과를 제공하는지 평가한다.즉, 동일한 조건에서 반복된 측정이 얼마나 안정적이고 일관된 결과를 내는지를 평가한다.내적 신뢰도 / 재검사 신뢰도 / 평가자 간 신뢰도 등이 있다.타당도 (Validity)측정 도구나 방법이 실제로 측정하고자..
데이터 집계 및 피벗 # count Patients a % group_by(age_group2, year) %>% summarise(n_patient = n()) # pivot wider b % dcast(year ~ ..., value.var = 'n_patient') patient_id year age_group2 1 0005969 2014 61-75 2 0010250 2019 >=76 3 0013541 2011 >=76 4 0013600 2011 46-60 5 0024285 2016 46-60 6 0025533 2018 61-75 > head(a)# A tibb..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..
1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..
CCA에 대한 개념 설명은 이전 포스팅 참고하면 된다.2024.01.12 - [Machine Learning/Dimension Reduction] - [통계] CCA, Canonical Correlation Analysis (정준상관분석) 이번 포스팅에서는 "종속변수 y집합"과 "독립변수 x 집합"간의 상관 관계를 확인할 때 사용하는 정준상관분석(CCA)를 R에서 수행하는 방법에 대해 설명한다. 예제)분석 목적 : "학업성취 변수군"과 "학업태도 변수"군 사이의 상관 관계를 확인하고자 한다.데이터 설명 - 종속 변수 y 집합 : 학업 성취 (국어 점수, 수학 점수, 영어점수 등) - 독립 변수 x 집합 : 학업 태도 (공부시간, 집중력, 수업 참여도 등)국어수학영어과학역사공부시간집중도과제수행수업태도806..