목록전체 글 (91)
통계공부합니다
Kappa 상관계수에 대한 개념 설명은 이전 포스팅 참고.2024.01.11 - [Data Analysis/Statistics] - [통계] Cohen's Kappa (카파 상관계수) [통계] Cohen's Kappa (카파 상관계수)Cohen's Kappa (카파 상관계수) 1) 카파 상관계수란? 범주형 변수 간의 일치도를 측정하는 통계량이다. 예를 들어 n명의 환자에 대한 검사 방법 X와 Y의 결과가 있을 때, 두 검사 방법의 일치도가 어떠meowstudylog.tistory.com 이번 포스팅에서는 R에서 Kappa 상관계수를 통한 일치도를 확인하는 방법에 대해 알아보겠다. 예제)분석 목적 : 2개의 진단 법 간의 일치도를 확인하고자 한다.사용 데이터 : 순서 척도로 이루어진 두 개의 범주형 변수>..
1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.같은 경우지만 범주가 순서형인 경우는 Weighted Cohen's Kappa를 사용한다.n명의 환자를 대상으로 2명의 평가자가 측정하였을 때, 평가자 간 신뢰도 확인n명의 환자를 대상으로 두 가지 검사 방법 X와 Y을 사용할 때, X와 Y의 결과가 얼마나 일치하는지 확인n명의 환자를 대상으로 한 명의 평가자가 두 번 측정하였을 때, 1차와 2차 결과가 얼마나 일치하는지 평가자 내 신뢰도 확인 만약 아래와 같이 비교 군이 3개 이상인 경우는 Fleiss's Kappa를 사용한다.n명의 환자를 대상으로 3명의 평가자가 측정하였을 때, 평가..
1. 일치도 분석이란?임상 연구에서는 두 개 이상의 진단 도구(혹은 평가자)에 의한 결과가 일치하는지에 관심을 가지는 경우가 많다.아래와 같은 질문를 확인하고자 할 때 일치도 분석을 진행한다.기존 측정 장비와 신규로 도입한 측정 장비의 결과가 일치하는가?A 의사가 측정한 결과와 B 의사가 측정한 결과가 일치하는가?같은 메소드로 두 번 측정했을 때 1차 측정 결과와 2차 측정 결과가 일치하는가? 2. 일치도 관련 개념들신뢰도(reliability)측정 도구가 얼마나 일관된 결과를 제공하는지 평가한다.즉, 동일한 조건에서 반복된 측정이 얼마나 안정적이고 일관된 결과를 내는지를 평가한다.내적 신뢰도 / 재검사 신뢰도 / 평가자 간 신뢰도 등이 있다.타당도 (Validity)측정 도구나 방법이 실제로 측정하고자..

데이터 집계 및 피벗 # count Patients a % group_by(age_group2, year) %>% summarise(n_patient = n()) # pivot wider b % dcast(year ~ ..., value.var = 'n_patient') patient_id year age_group2 1 0005969 2014 61-75 2 0010250 2019 >=76 3 0013541 2011 >=76 4 0013600 2011 46-60 5 0024285 2016 46-60 6 0025533 2018 61-75 > head(a)# A tibb..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..

1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..
CCA에 대한 개념 설명은 이전 포스팅 참고하면 된다.2024.01.12 - [Machine Learning/Dimension Reduction] - [통계] CCA, Canonical Correlation Analysis (정준상관분석) 이번 포스팅에서는 "종속변수 y집합"과 "독립변수 x 집합"간의 상관 관계를 확인할 때 사용하는 정준상관분석(CCA)를 R에서 수행하는 방법에 대해 설명한다. 예제)분석 목적 : "학업성취 변수군"과 "학업태도 변수"군 사이의 상관 관계를 확인하고자 한다.데이터 설명 - 종속 변수 y 집합 : 학업 성취 (국어 점수, 수학 점수, 영어점수 등) - 독립 변수 x 집합 : 학업 태도 (공부시간, 집중력, 수업 참여도 등)국어수학영어과학역사공부시간집중도과제수행수업태도806..
1. 급내상관계수(ICC)란?두 개 이상의 검사 방법 또는 두 명 이상의 평가자의 측정 결과(연속형)의 일치도를 분석하는 방법이다.예를 들어, 환자의 혈당을 측정하는 두 가지 검사 방법이 있을 때, 두 검사의 측정 결과가 얼마나 일치하는지를 ICC를 통해 확인할 수 있다. 여러 그룹의 연속형 측정 값이 얼마나 일치하는지 확인할 때, 비교 검정이나 상관 분석을 진행하면 된다고 생각할 수 있는데, 비교 검정은 상호 독립적인 두 그룹의 평균 또는 중앙값을 비교하는 방법이며, 상관 분석은 두 측정치간 선형 연관성을 의미할 뿐 일치도와는 개념이 다르다. 일치도는 동일한 사람이 두 개 이상의 검사 방법으로 여러 번 측정하였을 때, 그 측정 결과가 일치하는지를 파악하는 것이므로 반복 측정을 고려하는 적절한 일치도 분..

1. 다중대응분석(MCA)이란? 다변량 범주형 자료의 탐색적 분석에 이용되는 차원 축소 기법이다.대응분석(CA)의 확장이며, 범주형 데이터에 대한 주성분분석(PCA)으로 이해할 수 있다. 연속형 자료의 차원 축소 기법인 PCA에서는 공분산을 통해 변수 간의 관계성 파악한다. 관계가 밀접한 변수들의 선형조합으로 정보량이 많은 변수(주성분)를 추출한다. 범주형 자료에서는 공분산을 사용할 수 없기 때문에 범주형 변수의 관계성 지표인 카이제곱 검정통계량을 사용한다. 두 변수의 관계가 밀접할 수록 카이제곱 검정통계량은 커지게 된다. 변수 간 카이제곱 검정통계량으로 만든 행렬을 분해(Decomposition)하여 요인을 찾아내는 것이 대응분석(CA)이고, CA를 여러 변수로 확장한 것이 다중대응분석(MCA)이다. ..

이전 포스팅에서 로지스틱 회귀 분석 개념에 대해 알아보았다.2023.11.29 - [Machine Learning/Regression] - [머신러닝] Logistic Regression Analysis (로지스틱 회귀분석) 로지스틱 회귀에서는 어떤 사건의 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률 (0~1) 을 예측하였는데,이번 포스팅에서는 R에서 이 확률 곡선을 그리는 방법에 대해 알아보겠다. 1. Probability Curve of each group 아래는 3개 그룹에서 CM_sIgE의 투여량에 따라 food 알러지가 발생할 확률을 그래프로 나타내는 코드이다.for(i in 1:5){ x