목록Total (94)
Stats & AI tech blog - '일단 시도함'
성향점수분석 기법 중 하나인 처치역확률가중치(IPTW, Inverse Probability of Treatement Weighting)는 가중치를 부여하여 혼란 변수를 보정하는 기법이다. 성향점수매칭(PSM) 기법과 달리 매칭이 필요없으므로 데이터 손실 없이 전체 표본을 사용할 수 있다는 장점이 있다. IPTW 계산은 아래 절차대로 수행된다. 1. 공변량 선정2. 성향점수추정3. 공통지지영역 점검4. IPTW 계산5. 공변량 균형성 점검 1. 공변량 선정먼저 IPTW를 통해 보정할 공변량을 선정해야 한다.보정이 필요한 공변량은 원인 배치 변수 또는 결과 변수와 관련된 변수가 되어야 한다. 예를 들어, 치료 여부(Treatment)가 완치 여부(Outcomes)에 미치는 영향을 파악하고자 하는 연구에서 성..
https://school.programmers.co.kr/learn/challenges?order=recent&levels=4&languages=mysql 코딩테스트 연습 | 프로그래머스 스쿨개발자 취업의 필수 관문 코딩테스트를 철저하게 연습하고 대비할 수 있는 문제를 총망라! 프로그래머스에서 선발한 문제로 유형을 파악하고 실력을 업그레이드해 보세요!school.programmers.co.kr 1. 특정 세대의 대장균찾기SELECT A.IDFROM ECOLI_DATA AJOIN ECOLI_DATA BON A.PARENT_ID = B.IDJOIN ECOLI_DATA CON B.PARENT_ID = C.IDWHERE ISNULL(C.PARENT_ID)ORDER BY ID 2. 연간 평가점수에 해당하는 평가..
https://school.programmers.co.kr/learn/challenges?order=recent&languages=mysql&page=1&levels=3 코딩테스트 연습 | 프로그래머스 스쿨개발자 취업의 필수 관문 코딩테스트를 철저하게 연습하고 대비할 수 있는 문제를 총망라! 프로그래머스에서 선발한 문제로 유형을 파악하고 실력을 업그레이드해 보세요!school.programmers.co.kr 1. 대장균의 크기에 따라 분류하기 2SELECT A.ID, IF(PCT 2. 대장균의 크기에 따라 분류하기 1SELECT ID, IF(SIZE_OF_COLONY 3. 대장균들의 자식의 수 구하기SELECT A.ID, IF(ISNULL(B.CHILD_COUNT), 0, B.CHILD_COUN..
https://school.programmers.co.kr/learn/challenges?order=recent&levels=2&languages=mysql 코딩테스트 연습 | 프로그래머스 스쿨개발자 취업의 필수 관문 코딩테스트를 철저하게 연습하고 대비할 수 있는 문제를 총망라! 프로그래머스에서 선발한 문제로 유형을 파악하고 실력을 업그레이드해 보세요!school.programmers.co.kr 11. 재구매가 일어난 상품과 회원 리스트 구하기 (GROUP BY, HAVING)SELECT USER_ID, PRODUCT_IDFROM ONLINE_SALEGROUP BY USER_ID, PRODUCT_IDHAVING COUNT(*) > 1ORDER BY USER_ID ASC, PRODUCT_ID DESC 1..
https://school.programmers.co.kr/learn/challenges?order=recent&levels=2&languages=mysql 코딩테스트 연습 | 프로그래머스 스쿨개발자 취업의 필수 관문 코딩테스트를 철저하게 연습하고 대비할 수 있는 문제를 총망라! 프로그래머스에서 선발한 문제로 유형을 파악하고 실력을 업그레이드해 보세요!school.programmers.co.kr 1. 부모의 형질을 모두 가지는 대장균 찾기 (비트 연산)SELECT A.ID, A.GENOTYPE, B.GENOTYPE AS PARENT_GENOTYPEFROM ECOLI_DATA AJOIN ECOLI_DATA BON A.PARENT_ID = B.IDWHERE A.GENOTYPE & B.GENOTYPE = B...
https://school.programmers.co.kr/learn/challenges?order=recent&levels=1&languages=mysql 코딩테스트 연습 | 프로그래머스 스쿨개발자 취업의 필수 관문 코딩테스트를 철저하게 연습하고 대비할 수 있는 문제를 총망라! 프로그래머스에서 선발한 문제로 유형을 파악하고 실력을 업그레이드해 보세요!school.programmers.co.kr 1. 특정 형질을 가지는 대장균 찾기 (비트 연산)SELECT COUNT(ID) AS COUNTFROM ECOLI_DATAWHERE (GENOTYPE&2 = 0) AND (GENOTYPE&1 = 1 OR GENOTYPE&4 = 4) 2. 가장 큰 물고기 10마리 구하기 (ORDER BY, LIMIT)SELEC..
오늘은 신뢰구간을 계산하는 여러 방법에 대해 알아보도록 하겠다. 결과 해석에서 신뢰구간은 점 추정치로만으로 파악할 수 없는 정보(추정된 효과 크기, 방향, 불확실성 등)를 포함하기 때문에 매우 중요한데, 어떤 데이터와 모델을 쓰느냐에 따라 계산 방법이 다르게 적용될 수 있다. 이번 포스팅에서는 주요한 신뢰구간 계산 방법인 Wlad, PLS, Score 방법에 대해 설명하겠다. 1. Wald 신뢰구간일반적으로 알고 있는 계산 방법이다. Wald 신뢰구간은 추정된 모수에 대해 정규 분포를 가정하고 계산된다.주로 단순한 모델에서의 신뢰구간을 계산할 때 사용되고, 모수의 표준오차(SE)를 활용한다.계산 방법 \[ \hat{\theta} \pm z_{\alpha/2} \times SE(\hat{..
회귀 분석에서 계수를 해석할 때는 목적에 따라 표준화계수(beta)와 비표준화계수(B)를 구분해서 해석해야 한다. 1. 비표준화 계수 (Unstandardized Coefficients)일반적으로 우리가 알고 있는 모형식에 사용하는 계수는 비표준화계수(B)이고, 이를 통해 실질적인 의미를 해석할 수 있다.예를 들어, $혈압 = (0.868*몸무게) + 65.543$인 회귀식을 통해 몸무게가 1kg 증가할 때, 혈압은 0.868 증가한다는 해석을 얻을 수 있다. 즉, 비표준화계수(B)는 단위를 유지해서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타낸다.비표준화 계수는 회귀 분석에서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타내며, 원래의 단위(예: 원, kg, cm 등)를 유지한 상태에서..
이번 포스팅에서는 실험 설계 단계에서 고려해야 할 사항에 대해 알아보도록 하겠다. 통계 분석을 잘 한다 하더라도, 부적절한 실험을 통해 얻어진 결과는 신뢰할 수 없기 때문에 실험 설계 과정은 *매우* 중요하다. 실험 설계 단계의 가장 핵심은 반복 시행과 무작위화이다.추가로 간결성의 원칙, 검정력, 인위적 반복, 비직교성 등의 개념도 함께 이해해야 한다. 1. 간결성의 원칙특정 현상에 대한 설명들이 여러 개 존재할 경우, 가장 단순한 것을 선택해야 한다는 원칙이다. 통계 모형에서는 아래의 의미를 포함한다.모형은 되도록 적은 수의 모수를 포함.비선형 모형보다는 선형 모형을 사용.되도록 작은 수의 가정을 고려할 수 있는 실험을 선택.복잡한 설명보다는 단순한 설명을 선택. 2. 반복 시행 같은 시행이 이루..
이번 포스팅에서는 회귀 모형 등에서 변수를 선택하는 기법인 Stepwise 변수 선택법에 대해 알아보려한다. Stepwise 기법은 통계적 모델링에서 변수 선택 과정을 자동화하는 방법 중 하나인데,회귀 분석과 같은 모델링에서 효율적으로 변수 선택을 가능하게 하고 과적합(overfitting) 방지에 도움을 준다. 1. Stepwise 기법 종류 및 절차stepwise 기법에는 전진 선택법과 후진 제거법, 그리고 이 두 가지를 결합한 방식이 존재한다. 전진 선택법 (Forward Selection)아무런 변수가 포함되지 않은 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 모델에 추가할 변수를 하나씩 선택한다.장점 : 단순하고 직관적이며 계산 비용이 적다. 초기 단계에서 과..