목록Data Analysis (42)
zimslog

데이터 집계 및 피벗 # count Patients a % group_by(age_group2, year) %>% summarise(n_patient = n()) # pivot wider b % dcast(year ~ ..., value.var = 'n_patient') patient_id year age_group2 1 0005969 2014 61-75 2 0010250 2019 >=76 3 0013541 2011 >=76 4 0013600 2011 46-60 5 0024285 2016 46-60 6 0025533 2018 61-75 > head(a)# A tibb..
CCA에 대한 개념 설명은 이전 포스팅 참고하면 된다.2024.01.12 - [Machine Learning/Dimension Reduction] - [통계] CCA, Canonical Correlation Analysis (정준상관분석) 이번 포스팅에서는 "종속변수 y집합"과 "독립변수 x 집합"간의 상관 관계를 확인할 때 사용하는 정준상관분석(CCA)를 R에서 수행하는 방법에 대해 설명한다. 예제)분석 목적 : "학업성취 변수군"과 "학업태도 변수"군 사이의 상관 관계를 확인하고자 한다.데이터 설명 - 종속 변수 y 집합 : 학업 성취 (국어 점수, 수학 점수, 영어점수 등) - 독립 변수 x 집합 : 학업 태도 (공부시간, 집중력, 수업 참여도 등)국어수학영어과학역사공부시간집중도과제수행수업태도806..
1. 급내상관계수(ICC)란?두 개 이상의 검사 방법 또는 두 명 이상의 평가자의 측정 결과(연속형)의 일치도를 분석하는 방법이다.예를 들어, 환자의 혈당을 측정하는 두 가지 검사 방법이 있을 때, 두 검사의 측정 결과가 얼마나 일치하는지를 ICC를 통해 확인할 수 있다. 여러 그룹의 연속형 측정 값이 얼마나 일치하는지 확인할 때, 비교 검정이나 상관 분석을 진행하면 된다고 생각할 수 있는데, 비교 검정은 상호 독립적인 두 그룹의 평균 또는 중앙값을 비교하는 방법이며, 상관 분석은 두 측정치간 선형 연관성을 의미할 뿐 일치도와는 개념이 다르다. 일치도는 동일한 사람이 두 개 이상의 검사 방법으로 여러 번 측정하였을 때, 그 측정 결과가 일치하는지를 파악하는 것이므로 반복 측정을 고려하는 적절한 일치도 분..

이전 포스팅에서 로지스틱 회귀 분석 개념에 대해 알아보았다.2023.11.29 - [Machine Learning/Regression] - [머신러닝] Logistic Regression Analysis (로지스틱 회귀분석) 로지스틱 회귀에서는 어떤 사건의 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률 (0~1) 을 예측하였는데,이번 포스팅에서는 R에서 이 확률 곡선을 그리는 방법에 대해 알아보겠다. 1. Probability Curve of each group 아래는 3개 그룹에서 CM_sIgE의 투여량에 따라 food 알러지가 발생할 확률을 그래프로 나타내는 코드이다.for(i in 1:5){ x
이전 포스팅에서 진단 모델 성능 평가 지표의 개념과 R코드를 알아보았다.2023.12.07 - [Statistics] - [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)2023.12.08 - [Programming/R] - [R] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) 경우에 따라 두 개의 진단 도구 (ex. 기존 진단 도구 vs 신규 진단 도구)의 결과를 비교해야할 때가 있는데, 이번 포스팅에서는 각 지표를 비교하는 방법에 대해 알아보겠다. 동일한 환자를 대상으로 진단 방법 A, B 시행한 데이터에서 두 ..
이전 포스팅에서 진단 모델의 성능 평가 지표 개념에 대해 알아보았다.2023.12.07 - [Data Analysis/Statistics] - Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)Diagnostic Testing (진단 테스트) 진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기meowstudylog.tistory.com 오늘 포스..
1. 성향점수매칭(PSM) 이란?무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표본 추출 과정에서 적절한 랜덤화가 이루어지지 않았을 경우에는 특정 공변량(covariate)에 의해 통계 분석 결과가 왜곡되는 선택 편향(selection bias)이 발생할 수 있다. 이런 공변량들은 실험군과 대조군 사이의 결과 차이를 규명하는데 혼란 변수로 작용하게 된다. PSM은 주요 관심인 독립변수가 종속변수에 미치는 영향을 평가하고자 할 때, 그 관계에 영향을 미칠 수 있는 공변량의 편향(bias)를 줄이고자 사용되는 통계기법이다. 2. PSM 절차1) 성향 점수 계산처치 변수를 종속변수로, 혼란 변수을 독립변수로 두고 로지스틱 회귀 분석 등의 ..

1. 로지스틱 회귀분석이란?종속변수가 범주형(이항, 다항)인 경우에 사용하는 일반화 선형모형(generalized linear model)의 한 종류이다. 어떤 사건 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률을 예측하여 0.5이상인 경우 발생, 0.5 이하인 경우 미발생으로 예측하는 것으로 일종의 분류(classification) 기법으로 볼 수 있다.흔히 로지스틱 회귀분석은 종속변수가 이항인 경우를 지칭하고, 종속변수의 범주가 두 개 이상인 경우를 다항 로지스틱 회귀라고 한다. 2. 기본 가정1) 대표본2) 종속변수가 이항분포3) 종속변수와 독립변수 간의 로짓 선형 관계4) 오차항의 독립성5) 다중공선성이 없다 3. 로지스틱 함수로지스틱 함수는 종속변수의 결과 값이 [0,1] 사이에 있..
코드 위아래로 이동 : Alt+↑ / Alt+↓코드 자동 추천 : Tab or Ctrl + Space 문장 자동완성 : Tab스크립트 처음부터 현재 줄까지 실행 : Ctrl + Alt + B현재 줄부터 스크립트 끝까지 실행 : Ctrl + Alt + E스크립트 전체 실행 : Ctrl + Alt + R들여쓰기 자동 맞춤 : Ctrl+I or Ctrl+Shift+A주석 처리 (#) : Ctrl + Shift + C체인연산자 (%>%) : Ctrl + Shift + M화살표 (현재 줄 선택 : Ctrl + Shift + L현재 줄 맨앞으로 이동 : Home현재 줄 끝으로 이동 : End스크립트 맨앞으로 이동 : Ctrl + Home스크립트 끝으로 이동 : Ctrl + End
1. apply행 단위 또는 열 단위 연산을 가능하게 한다. input 데이터로 모두 같은 타입의 변수형을 가진 배열(Array), 매트릭스(Matrix), 데이터 프레임(Dataframe)이 가능하다.연산결과는 매트릭스 또는 벡터 형태로 출력된다. * 행 단위, 열 단위 평균 구하기# calculate row meanapply(data, 1, mean)# calculate column meanapply(data, 2, mean) 2. sapplyfor문을 대체하여 주로 쓰이며, 연산 결과는 벡터 또는 행렬 형태로 출력된다. sapply( , simplify = F) 인 경우 또는 input 데이터가 길이가 다른 리스트인 경우, lapply( ) 와 동일하게 리스트 형태로 출력된다. * 특정 열의 데이..