목록Statistics & AI/Basic Concept (9)
Stats & AI tech blog - '일단 시도함'
1. 다중성 문제(Multiplicity Problem)이란?하나의 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 하는 경우, 모집단에서 실제 차이가 존재하지 않는데 차이를 잘못 발견할 확률은 0.05/2 = 0.025(2.5%)이다. 즉, 실제 차이가 존재하지 않을 때 차이를 발견하지 못할 확률은 0.975(97.5%)가 된다. 반면, 2개의 독립적인 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 해서 2개 중 하나의 평가 변수만 유의해도 효과가 있다고 인정하는 경우에는, 모집단에서 실제 차이가 존재하지 않는 두 평가 변수에서 모두 차이를 확인하지 못할 확률은 0.975*0.975 = 0.95(95%)이다. 즉, α">αα를 0...
반복성(Repeatability)와 재현성(Reproducibility)는 측정이나 실험 결과의 일관성과 신뢰성을 평가하는 중요한 개념이다. 둘 다 여러 번의 측정 결과의 일치도를 의미하지만, 측정 조건의 차이에 따라 의미가 다르다. 1. 반복성(Repeatability)반복성은 동일한 샘플에 대해 동일한 조건(측정 절차, 작업자, 측정 시스템, 작동 조건, 장소)에서 단기간 내에 얻은 결과들이 얼마나 일치하는지를 나타낸다. 단기간 내 동일한 조건에서 측정된 정밀도를 나타내며, 결과의 신뢰성과 일관성을 보장하는 데 중요한 요소이다. 한 사람이 같은 장비로 같은 샘플을 짧은 시간 안에 여러 번 측정했을 때 일관된 결과가 나온다면, 해당 측정은 반복성이 높다고 할 수 있고, 이를 통해 측정 시스템의 내부 ..
정확도(Accuracy)와 정밀도(Precision)는 측정이나 실험 결과의 신뢰성을 평가하는 중요한 개념이다.둘 다 측정 결과의 품질을 나타내는 지표지만 각각의 의미는 다르다. 1. 정확도(Accuracy)정확도란, 특정 조건 하에서 측정된 값이 알려진 참값에 얼마나 가까운지를 나타내는 정도이다. 표적의 중심에 화살을 맞히는 것이 높은 정확도를 가지는 것으로 이해할 수 있다. 예를 들어, 체온계로 사람의 체온을 잴 때 실제 체온에 가깝게 측정할수록 높은 정확도를 가지는 체온계라고 할 수 있다.2. 정밀도(Precision)정밀도는 동일한 조건에서 반복 측정했을 때 결과들이 얼마나 일관되게 나오는지를 의미한다.정밀도는 무작위 오류의 분포에 영향을 받고, 정밀도가 높다고 해서 반드시 참값에 가깝다는 뜻은 ..
오늘은 신뢰구간을 계산하는 여러 방법에 대해 알아보도록 하겠다. 결과 해석에서 신뢰구간은 점 추정치로만으로 파악할 수 없는 정보(추정된 효과 크기, 방향, 불확실성 등)를 포함하기 때문에 매우 중요한데, 어떤 데이터와 모델을 쓰느냐에 따라 계산 방법이 다르게 적용될 수 있다. 이번 포스팅에서는 주요한 신뢰구간 계산 방법인 Wlad, PLS, Score 방법에 대해 설명하겠다. 1. Wald 신뢰구간일반적으로 알고 있는 계산 방법이다. Wald 신뢰구간은 추정된 모수에 대해 정규 분포를 가정하고 계산된다.주로 단순한 모델에서의 신뢰구간을 계산할 때 사용되고, 모수의 표준오차(SE)를 활용한다.계산 방법 \[ \hat{\theta} \pm z_{\alpha/2} \times SE(\hat{..
회귀 분석에서 계수를 해석할 때는 목적에 따라 표준화계수(beta)와 비표준화계수(B)를 구분해서 해석해야 한다. 1. 비표준화 계수 (Unstandardized Coefficients)일반적으로 우리가 알고 있는 모형식에 사용하는 계수는 비표준화계수(B)이고, 이를 통해 실질적인 의미를 해석할 수 있다.예를 들어, $혈압 = (0.868*몸무게) + 65.543$인 회귀식을 통해 몸무게가 1kg 증가할 때, 혈압은 0.868 증가한다는 해석을 얻을 수 있다. 즉, 비표준화계수(B)는 단위를 유지해서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타낸다.비표준화 계수는 회귀 분석에서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타내며, 원래의 단위(예: 원, kg, cm 등)를 유지한 상태에서..
이번 포스팅에서는 실험 설계 단계에서 고려해야 할 사항에 대해 알아보도록 하겠다. 통계 분석을 잘 한다 하더라도, 부적절한 실험을 통해 얻어진 결과는 신뢰할 수 없기 때문에 실험 설계 과정은 *매우* 중요하다. 실험 설계 단계의 가장 핵심은 반복 시행과 무작위화이다.추가로 간결성의 원칙, 검정력, 인위적 반복, 비직교성 등의 개념도 함께 이해해야 한다. 1. 간결성의 원칙특정 현상에 대한 설명들이 여러 개 존재할 경우, 가장 단순한 것을 선택해야 한다는 원칙이다. 통계 모형에서는 아래의 의미를 포함한다.모형은 되도록 적은 수의 모수를 포함.비선형 모형보다는 선형 모형을 사용.되도록 작은 수의 가정을 고려할 수 있는 실험을 선택.복잡한 설명보다는 단순한 설명을 선택. 2. 반복 시행 같은 시행이 이루..
이번 포스팅에서는 회귀 모형 등에서 변수를 선택하는 기법인 Stepwise 변수 선택법에 대해 알아보려한다. Stepwise 기법은 통계적 모델링에서 변수 선택 과정을 자동화하는 방법 중 하나인데,회귀 분석과 같은 모델링에서 효율적으로 변수 선택을 가능하게 하고 과적합(overfitting) 방지에 도움을 준다. 1. Stepwise 기법 종류 및 절차stepwise 기법에는 전진 선택법과 후진 제거법, 그리고 이 두 가지를 결합한 방식이 존재한다. 전진 선택법 (Forward Selection)아무런 변수가 포함되지 않은 초기 모델에서 시작하며, 선택 기준을 만족하는 변수가 없을 때까지 각 단계마다 모델에 추가할 변수를 하나씩 선택한다.장점 : 단순하고 직관적이며 계산 비용이 적다. 초기 단계에서 과..
이번 포스팅에서는 통계학에서 중요한 개념인 편향(bias)과 분산(variance)에 대해 알아보고자 한다. 1. 편향과 분산편향이란, 추정 결과가 한쪽으로 치우쳐있는 경향을 말한다.머신러닝에서는 편향을 통해 예측값들이 정답에서 얼마나 멀리 떨어져 있는지를 나타낼 수 있다. 분산이란, 데이터들이 흩어져있는 정도를 의미한다.머신러닝에서는 분산을 통해 어떤 포인트에 대한 모델 예측 결과의 가변성을 나타낸다. 위쪽 첫 번째 과녁은 모든 결과가 원점에 가깝게 모여져 있다. 이런 경우는 낮은 편향, 낮은 분산을 가진다.위쪽 두 번째 그림은 모든 결과가 원점 중심으로 퍼져있다. 이런 경우는 낮은 편향을 가지지만 상대적으로 높은 분산을 가진다. 아래쪽 첫 번째 그림은 모든 결과가 원점에서 떨어진 거리에 가깝게 모여..
1. 손실함수 (Loss function)머신러닝에서 모델을 학습한다는 말은 예측값과 실제값의 오차를 최소화하는 모델 파라미터를 찾는 것이라고 할 수 있다. 여기서 말하는 오차(Error)를 손실(Loss) 또는 비용(Cost)이라고도 하고,오차를 정의한 함수를 손실함수(Loss function) 또는 비용함수(Cost function)이라고 한다. 대표적인 손실함수로는 MSE, RMSE 등이 있는데 일반적인 선형 회귀의 성능 지표로 잘 알려져있다.이진크로스엔트로피(binary cross entropy)도 분류 문제에서 일반적으로 사용되는 손실함수이고, 그 밖에도 오차를 정의하는 여러 함수들이 존재한다. MSE, Mean Square Error$$\frac{1}{n}\sum^{n}_{i=1}(y_i=\h..