목록전체 글 (94)
Stats & AI tech blog - '일단 시도함'
지난 포스팅에서 3개 이상의 범주형 비교군 간 일치도를 확인하는 방법인 플레이스 카파에 대해 알아보았다.2024.11.22 - [Statistics & AI/Correlation] - [통계] Fleiss' kappa (플레이스의 카파) [통계] Fleiss' kappa (플레이스의 카파)Fleiss' kappa (플레이스의 카파) 이전 포스팅에서 카파 상관계수란 무엇인지와 Cohen's kappa에 대해 알아보았다.2024.01.11 - [Statistics & AI/Correlation] - [통계] Cohen's Kappa (코헨의 카파) [통계] Cohen's Kapmeowstudylog.tistory.com 이번 포스팅에서는 예제를 통해 R에서 플레이스 카파(Fleiss' kappa)를 계산..
이전 포스팅에서 카파 상관계수란 무엇인지와 Cohen's kappa에 대해 알아보았다.2024.01.11 - [Statistics & AI/Correlation] - [통계] Cohen's Kappa (코헨의 카파) [통계] Cohen's Kappa (코헨의 카파)Cohen's Kappa (코헨의 카파) 1. 카파 상관계수란? 범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.meowstudylog.tistory.com 이번 포스팅에서는 범주형 자료에서 3명 이상의 평가자를 비교하기 위해 사용하는 Fleiss' kappa에 대해 알아보겠다. 1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계..
1. 다중성 문제(Multiplicity Problem)이란?하나의 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 하는 경우, 모집단에서 실제 차이가 존재하지 않는데 차이를 잘못 발견할 확률은 0.05/2 = 0.025(2.5%)이다. 즉, 실제 차이가 존재하지 않을 때 차이를 발견하지 못할 확률은 0.975(97.5%)가 된다. 반면, 2개의 독립적인 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 해서 2개 중 하나의 평가 변수만 유의해도 효과가 있다고 인정하는 경우에는, 모집단에서 실제 차이가 존재하지 않는 두 평가 변수에서 모두 차이를 확인하지 못할 확률은 0.975*0.975 = 0.95(95%)이다. 즉, α">αα를 0...
지난 포스팅에서 R에서 IPTW와 생존분석을 진행하는 방법에 대해 알아보았다.2024.11.09 - [Programming/R] - [R] IPTW, Inverse Probability of Treatment Weighting (역확률가중치)2024.11.13 - [Programming/R] - [R] Survival Analysis (Kaplan-Meier, Log-rank, Cox PH) 이번 포스팅에서는 R에서 IPTW 가중치를 부여하여 Kaplan-Meier 생존 곡선을 그리는 방법에 대해 알아보겠다. {survival, survminer} 패키지의 survfit, ggsurvplot 함수를 조합하여 그리는 방법과{survey, jskm} 패키지의 svykm, svyjskm함수를 조합하여 그리는 ..
이전 포스팅에서 생존 분석의 개념, Kaplan-Meier 추정과 Log-rank test 그리고 Cox 비례위험모형까지 알아보았다. 이번 포스팅에서는 R에서 생존 분석을 수행하는 방법에 대해 알아보겠다. 분석 절차는 아래와 같다.1. Kaplan-Meier 생존 곡선 2. Log-rank Test3. Cox 비례 위험 모형 1. Kaplan-Meier 생존 곡선 먼저 'survival' 패키지의 survfit() 함수를 사용하여 카플란마이어 생존 곡선을 추정한다.survfit의 종속변수는 Surv(시간, 발생여부) 형식으로 넣어주고, 독립변수로는 group을 넣어 주어 각 그룹의 시간에 따른 발생 확률의 변화를 알아본다. surv_obj 'survminer' 패키지의 ggsurvplot() 함수를..
이전 포스팅에서 PSM 분석에 대한 개념을 알아보았다.2023.12.04 - [Statistics] - [통계] PSM: Propensity Score Matching (성향점수매칭) [통계] PSM: Propensity Score Matching (성향점수매칭)PSM: Propensity Score Matching (성향점수매칭) 1. 성향점수매칭(PSM) 이란? 무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표meowstudylog.tistory.com 이번 포스팅에서는 R에서 PSM을 수행하는 절차에 대해 알아보자! 예시로 사용할 데이터의 원인 변수는 당뇨 여부(DM)이고 종속 변수는 골다공증 여부(Osteoporosis)이다..
반복성(Repeatability)와 재현성(Reproducibility)는 측정이나 실험 결과의 일관성과 신뢰성을 평가하는 중요한 개념이다. 둘 다 여러 번의 측정 결과의 일치도를 의미하지만, 측정 조건의 차이에 따라 의미가 다르다. 1. 반복성(Repeatability)반복성은 동일한 샘플에 대해 동일한 조건(측정 절차, 작업자, 측정 시스템, 작동 조건, 장소)에서 단기간 내에 얻은 결과들이 얼마나 일치하는지를 나타낸다. 단기간 내 동일한 조건에서 측정된 정밀도를 나타내며, 결과의 신뢰성과 일관성을 보장하는 데 중요한 요소이다. 한 사람이 같은 장비로 같은 샘플을 짧은 시간 안에 여러 번 측정했을 때 일관된 결과가 나온다면, 해당 측정은 반복성이 높다고 할 수 있고, 이를 통해 측정 시스템의 내부 ..
정확도(Accuracy)와 정밀도(Precision)는 측정이나 실험 결과의 신뢰성을 평가하는 중요한 개념이다.둘 다 측정 결과의 품질을 나타내는 지표지만 각각의 의미는 다르다. 1. 정확도(Accuracy)정확도란, 특정 조건 하에서 측정된 값이 알려진 참값에 얼마나 가까운지를 나타내는 정도이다. 표적의 중심에 화살을 맞히는 것이 높은 정확도를 가지는 것으로 이해할 수 있다. 예를 들어, 체온계로 사람의 체온을 잴 때 실제 체온에 가깝게 측정할수록 높은 정확도를 가지는 체온계라고 할 수 있다.2. 정밀도(Precision)정밀도는 동일한 조건에서 반복 측정했을 때 결과들이 얼마나 일관되게 나오는지를 의미한다.정밀도는 무작위 오류의 분포에 영향을 받고, 정밀도가 높다고 해서 반드시 참값에 가깝다는 뜻은 ..
이번 포스팅에서는 R에서 IPTW(역확률 가중치)를 수행하는 방법에 대해 알아보겠다.이론적인 설명은 아래 포스팅을 참고하자!2024.11.07 - [Statistics & AI/Propensity Score Analysis] - [통계] IPTW, Inverse Probability of Treatment Weighting (역확률가중치) [통계] IPTW, Inverse Probability of Treatment Weighting (역확률가중치)IPTW, Inverse Probability of Treatment Weighting (역확률가중치) 성향점수분석 기법 중 하나인 처치역확률가중치(IPTW, Inverse Probability of Treatement Weighting)는 가중치를 부여하여..
독립 변수를 바꿔가며 단변량 로지스틱 회귀 모형을 반복해서 만들어야할 때 사용하는 코드이다.개인 라이브러리의 함수로 저장해놓고 쓰기 편리하다. 모델에 사용할 종속 변수와 모든 독립 변수를 포함하는 데이터 프레임과 종속 변수명을 인자로 넣어주면 아래와 같은 결과를 출력한다.> uni_logistic_tb(df, 'Group') y label OR (CI 95%) p.value2 Group Age 1.025 (1.001-1.050) 0.0454 Group Gender1 1.156 (0.613-2.142) 0.6496 Group BSA 0.227 (0.053-0.939)..