목록Programming (44)
Stats & AI tech blog - '일단 시도함'
21. Recyclable and Low Fat Products SELECT product_id FROM Products WHERE SUM(low_fats, recyclable) = 2 low_fats = TRUE AND recyclable = TRUE 22. Warehouse Manger SELECT W.name, SUM(Width*Lenght*Height*unit) as volume FROM Warehouse W JOIN Products P ON W.product_id = P.product_id GROUP BY W.name 23. Average Time of Process per Machine //기계별 프로세스 처리량 구하고 그걸 다 더하고 SELECT machine_id, avg(process_t..
11. Classes More Than 5 Students (COUNT DISTINCT)SELECT classFROM CoursesGROUP BY classHAVING COUNT(**Distinct**(student)) >= 512. Not Boring Movies//boring이 아닌 odd넘버 정렬은 rating descSELECT id, movie, description, ratingFROM cinemaWHERE description != 'boring' AND id%2 = 1ORDER BY rating desc13. Swap Salary (UPDATE)UPDATE salary SET sex = IF(sex= 'm', 'f', 'm')UPDATE salary SET sex = CASE WHEN se..
1. Combine Two Table (LEFT JOIN) Person, Address 두 테이블 SELECT A.FirstName, A.LastName, B.City, B.State FROM Person A LEFT JOIN Address B ON A.PersonId = B.PersonId // 그냥 JOIN = INNER JOIN 2. Second Hightest Salary (LIMIT, OFFSET) SELECT E.Salary FROM Employee E ORDER BY E.Salary desc LIMIT 1 OFFSET 1 //LIMIT A 출력할 행의 수 //OFFSET B 몇 번째 ROW부터 출력할지 //=LIMIT B, A //SQL에서 첫번쨰 ROW = 0 //USING SUBQUERY..
통계 분석을 하다보면 데이터의 각 그룹(ex. 치료군/대조군) 별로 정규성 검정을 하는 경우가 많다.아래 함수를 통해 변수를 동적으로 바꿔가며 group_by를 사용한 shapiro_test를 수행할 수 있다. 1. shapiro_test {rstatix}, group_by {dplyr}library(rstatix)data %>% group_by(group) %>% shapiro_test(ALCAM) # 변수 바꿔가며 테스트 반복 lapply(colnames(permnt)[4:15], function(var){ permnt %>% group_by(cbct) %>% shapiro_test({{var}})}) group variable statistic p ..
1. rpart (Recursive Partitioning and Regression Trees) : CART 알고리즘을 사용하여 기본적인 결정 트리를 구현library(rpart)library(rpart.plot)rpartmod 2. party and partykit : 조건부 추론 트리 (Conditional Inference Trees) 를 제공 library(party) partymod 3. C50 : C5.0 알고리즘을 사용하여 결정트리와 부스팅 모델을 제공 library(C50) c50mod 4. tree : 단순하고 기본적인 결정 트리 구현 library(tree) treemod 5. CHAID : CHAID 알고리즘으로 트리 구현install.packages("CHAI..
Kappa 상관계수에 대한 개념 설명은 이전 포스팅 참고.2024.01.11 - [Data Analysis/Statistics] - [통계] Cohen's Kappa (카파 상관계수) [통계] Cohen's Kappa (카파 상관계수)Cohen's Kappa (카파 상관계수) 1) 카파 상관계수란? 범주형 변수 간의 일치도를 측정하는 통계량이다. 예를 들어 n명의 환자에 대한 검사 방법 X와 Y의 결과가 있을 때, 두 검사 방법의 일치도가 어떠meowstudylog.tistory.com 이번 포스팅에서는 R에서 Kappa 상관계수를 통한 일치도를 확인하는 방법에 대해 알아보겠다. 예제)분석 목적 : 2개의 진단 법 간의 일치도를 확인하고자 한다.사용 데이터 : 순서 척도로 이루어진 두 개의 범주형 변수>..
데이터 집계 및 피벗 # count Patients a % group_by(age_group2, year) %>% summarise(n_patient = n()) # pivot wider b % dcast(year ~ ..., value.var = 'n_patient') patient_id year age_group2 1 0005969 2014 61-75 2 0010250 2019 >=76 3 0013541 2011 >=76 4 0013600 2011 46-60 5 0024285 2016 46-60 6 0025533 2018 61-75 > head(a)# A tibb..
CCA에 대한 개념 설명은 이전 포스팅 참고하면 된다.2024.01.12 - [Machine Learning/Dimension Reduction] - [통계] CCA, Canonical Correlation Analysis (정준상관분석) 이번 포스팅에서는 "종속변수 y집합"과 "독립변수 x 집합"간의 상관 관계를 확인할 때 사용하는 정준상관분석(CCA)를 R에서 수행하는 방법에 대해 설명한다. 예제)분석 목적 : "학업성취 변수군"과 "학업태도 변수"군 사이의 상관 관계를 확인하고자 한다.데이터 설명 - 종속 변수 y 집합 : 학업 성취 (국어 점수, 수학 점수, 영어점수 등) - 독립 변수 x 집합 : 학업 태도 (공부시간, 집중력, 수업 참여도 등)국어수학영어과학역사공부시간집중도과제수행수업태도806..
이전 포스팅에서 로지스틱 회귀 분석 개념에 대해 알아보았다.2023.11.29 - [Machine Learning/Regression] - [머신러닝] Logistic Regression Analysis (로지스틱 회귀분석) 로지스틱 회귀에서는 어떤 사건의 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률 (0~1) 을 예측하였는데,이번 포스팅에서는 R에서 이 확률 곡선을 그리는 방법에 대해 알아보겠다. 1. Probability Curve of each group 아래는 3개 그룹에서 CM_sIgE의 투여량에 따라 food 알러지가 발생할 확률을 그래프로 나타내는 코드이다.for(i in 1:5){ x
이전 포스팅에서 진단 모델 성능 평가 지표의 개념과 R코드를 알아보았다.2023.12.07 - [Statistics] - [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)2023.12.08 - [Programming/R] - [R] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) 경우에 따라 두 개의 진단 도구 (ex. 기존 진단 도구 vs 신규 진단 도구)의 결과를 비교해야할 때가 있는데, 이번 포스팅에서는 각 지표를 비교하는 방법에 대해 알아보겠다. 동일한 환자를 대상으로 진단 방법 A, B 시행한 데이터에서 두 ..