목록Total (91)
통계공부합니다
이전 포스팅에서 진단 모델 성능 평가 지표의 개념과 R코드를 알아보았다.2023.12.07 - [Statistics] - [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)2023.12.08 - [Programming/R] - [R] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) 경우에 따라 두 개의 진단 도구 (ex. 기존 진단 도구 vs 신규 진단 도구)의 결과를 비교해야할 때가 있는데, 이번 포스팅에서는 각 지표를 비교하는 방법에 대해 알아보겠다. 동일한 환자를 대상으로 진단 방법 A, B 시행한 데이터에서 두 ..
이전 포스팅에서 진단 모델의 성능 평가 지표 개념에 대해 알아보았다.2023.12.07 - [Data Analysis/Statistics] - Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)Diagnostic Testing (진단 테스트) 진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기meowstudylog.tistory.com 오늘 포스..

진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기 위한 표 Result10Predict1TP (True Positive)FP (False Positive)0FN (False Negative)TN (True Negative) * TP (True Positive) : 양성으로 진단하고 실제로도 양성인 경우* FP (False Positive) : 양성으로 진단하고 실제로는 음성인 경우* FN (False Negative) : 음성으로 진단하고 실제로는 양성인 경우* TN (True Negative) : 음성으로 진단하고 실제로도 음성인 경우 2. 진단 테스트 지표 민감도 (Sens..
1. 성향점수매칭(PSM) 이란?무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표본 추출 과정에서 적절한 랜덤화가 이루어지지 않았을 경우에는 특정 공변량(covariate)에 의해 통계 분석 결과가 왜곡되는 선택 편향(selection bias)이 발생할 수 있다. 이런 공변량들은 실험군과 대조군 사이의 결과 차이를 규명하는데 혼란 변수로 작용하게 된다. PSM은 주요 관심인 독립변수가 종속변수에 미치는 영향을 평가하고자 할 때, 그 관계에 영향을 미칠 수 있는 공변량의 편향(bias)를 줄이고자 사용되는 통계기법이다. 2. PSM 절차1) 성향 점수 계산처치 변수를 종속변수로, 혼란 변수을 독립변수로 두고 로지스틱 회귀 분석 등의 ..

경시적 자료는 한 개체를 반복적으로 관찰하거나 시간의 추이에 따라 표집된 자료이다. 한 개체 내 측정치들 간에 연관성이 존재하므로 공분산이 0이 아니게 되며 변이를 구성하는 요소를 통해 공분산 구조를 추정한다. 평균 함수를 통한 경시적 자료 표현$$y_{ij} = \mu(t_{ij}) + \epsilon_{ij}$$ 변이를 구성하는 요소1) 개체 간 변이 (between-individual heterogeneity)2) 개체 내 변이 (within-individual variation)3) 측정 오차 (measurement error) 개체 내 변이1) 자기공분산함수 (Auto-covariance function) : 완전 균형 자료인 경우 (동일한 시점에서 동일한 반복 횟수로 측정된 자료)2) 변이..

1. 로지스틱 회귀분석이란?종속변수가 범주형(이항, 다항)인 경우에 사용하는 일반화 선형모형(generalized linear model)의 한 종류이다. 어떤 사건 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률을 예측하여 0.5이상인 경우 발생, 0.5 이하인 경우 미발생으로 예측하는 것으로 일종의 분류(classification) 기법으로 볼 수 있다.흔히 로지스틱 회귀분석은 종속변수가 이항인 경우를 지칭하고, 종속변수의 범주가 두 개 이상인 경우를 다항 로지스틱 회귀라고 한다. 2. 기본 가정1) 대표본2) 종속변수가 이항분포3) 종속변수와 독립변수 간의 로짓 선형 관계4) 오차항의 독립성5) 다중공선성이 없다 3. 로지스틱 함수로지스틱 함수는 종속변수의 결과 값이 [0,1] 사이에 있..
코드 위아래로 이동 : Alt+↑ / Alt+↓코드 자동 추천 : Tab or Ctrl + Space 문장 자동완성 : Tab스크립트 처음부터 현재 줄까지 실행 : Ctrl + Alt + B현재 줄부터 스크립트 끝까지 실행 : Ctrl + Alt + E스크립트 전체 실행 : Ctrl + Alt + R들여쓰기 자동 맞춤 : Ctrl+I or Ctrl+Shift+A주석 처리 (#) : Ctrl + Shift + C체인연산자 (%>%) : Ctrl + Shift + M화살표 (현재 줄 선택 : Ctrl + Shift + L현재 줄 맨앞으로 이동 : Home현재 줄 끝으로 이동 : End스크립트 맨앞으로 이동 : Ctrl + Home스크립트 끝으로 이동 : Ctrl + End
1. apply행 단위 또는 열 단위 연산을 가능하게 한다. input 데이터로 모두 같은 타입의 변수형을 가진 배열(Array), 매트릭스(Matrix), 데이터 프레임(Dataframe)이 가능하다.연산결과는 매트릭스 또는 벡터 형태로 출력된다. * 행 단위, 열 단위 평균 구하기# calculate row meanapply(data, 1, mean)# calculate column meanapply(data, 2, mean) 2. sapplyfor문을 대체하여 주로 쓰이며, 연산 결과는 벡터 또는 행렬 형태로 출력된다. sapply( , simplify = F) 인 경우 또는 input 데이터가 길이가 다른 리스트인 경우, lapply( ) 와 동일하게 리스트 형태로 출력된다. * 특정 열의 데이..
경시적 자료는 한 개체를 반복적으로 관찰하거나 시간의 추이에 따라 표집된 자료이다. 한 개체 내 측정치들 간에 연관성이 존재하므로 공분산이 0이 아니게 되며 변이를 구성하는 요소를 통해 공분산 구조를 추정한다. 평균 함수를 통한 경시적 자료 표현$$y_{ij} = \mu(t_{ij}) + \epsilon_{ij}$$ 변이를 구성하는 요소1) 개체 간 변이 (between-individual heterogeneity)2) 개체 내 변이 (within-individual variation)3) 측정 오차 (measurement error) 개체 간 변이개체 간 변이는 개체별 랜덤 효과(subject-specific random effect)로 표현할 수 있다. 개체별 랜덤 효과는 일변량 정규분포를 이용하..

1. 기술통계량 확인#요약통계량 확인summary(data)#summary보다 많이 보여줌library(psych)describe(data[, c("Age", "difftime")])#좀 더 많이 보여줌library(pastecs)round(stat.desc(data[, c("Age", "difftime")], basic = T, desc = T, norm = T, p= 0.9)) 2. 기술통계량 테이블 (finalfit, knitr)# finalfit :: summary_factorlistexplanatory = c("age.factor", "sex.factor", "obstruct.factor") #설명변수dependent = 'mort_5yr' #독립변수(그룹)colon_s %>% summary..