Stats & AI tech blog - '일단 시도함'
[논문] Minimum Recall-Based Loss Functionfor Imbalanced Time Series Classification 본문
[논문] Minimum Recall-Based Loss Functionfor Imbalanced Time Series Classification
justdoit ok? 2024. 7. 3. 16:58
* ChatGPT를 이용한 논문 해석입니다.
1. Abstract
논문의 초록은 불균형 시계열 분류 문제에 대해 다루고 있습니다.
특히, 이 논문에서는 정확성보다는 클래스별 최소 재현율(minimum recall)을 최대화하는 시계열 분류기를 학습하는 방법을 제안합니다. 이를 통해 모든 클래스에 동일한 중요성을 부여하는 분류기를 얻을 수 있습니다.
최소 재현율은 미분 가능한 함수가 아니기 때문에 일반적인 그래디언트 기반 학습 방법을 사용할 수 없습니다. 따라서 우리는 최소 재현율 함수의 여러 부드러운 근사치(smooth approximations)를 적용하고 평가합니다. 철저한 실험적 평가를 통해 우리의 접근 방식이 불균형 시계열 분류에서 사용되는 최첨단 방법들의 성능을 개선하고, 정확성의 약간의 손실만으로 소수 클래스(minority classes)에 대해 더 높은 재현율 값을 얻을 수 있음을 보여줍니다.
요약하면, 이 논문은 불균형 시계열 데이터를 다룰 때 정확성보다 모든 클래스의 재현율을 균등하게 고려하는 신경망 기반 접근 방식을 제안하며, 실험을 통해 이 접근 방식의 효과를 입증합니다.
2. Proposed Method
A. 문제 설명
가장 일반적인 분류기들은 클래스 분포가 균등하다는 가정을 기반으로 설계됩니다.
구체적으로 말하자면, 이들은 분류 정확도를 최대화하기 위해 훈련되거나 다른 말로 하면 분류 오류를 최소화하려고 합니다. 따라서 ITSC(불균형 클래스 분포 문제)에서는 분류기가 종종 다수 클래스에 편향되어 있으며 소수 클래스를 완전히 무시하는 경향이 있습니다.
이로 인해 정확도는 불균형한 상황에서 분류기를 학습하는 데 적절한 측정 방법이 아닙니다.
따라서 ITSC 문제에서의 목표는 클래스 불균형이 존재하는 상황에서도 소수 클래스를 올바르게 분류하는 데 집중하면서도 다수 클래스의 정확도에 지나치게 영향을 미치지 않도록 분류기를 설계하는 것입니다.
B. 클래스 불균형 다루기 위한 최소 재현율
구체적으로, 우리는 분류기를 훈련할 때 정확도가 아닌 클래스의 최소 재현율을 최대화하려고 합니다. 대부분의 전통적인 분류기가 설계된 방식이기 때문에 이와 같은 방식을 선택합니다. 이를 위해 우리는 손실 함수를 명시적으로 정의하는 신경망 분류기를 선택합니다.
구체적으로, 우리는 최소 재현율 함수의 다양한 부드러운 (미분 가능한) 근사화를 탐색하는 것을 제안합니다. 이는 다른 연구에서 효과적으로 입증되었습니다.
C. 최소 재현율 함수의 부드러운 근사
m개의 다른 클래스 {C1,...,Cm}와
N개의 시계열 {ts1, ts2, ..., tsN} 및
각각의 클래스 레이블 C = {cts1, cts2, ..., ctsN}
로 정의된 클래스 불균형 시계열 분류 문제를 고려합니다. 이 중 ni는 클래스 Ci의 인스턴스입니다. 따라서 N = Σi=1m ni입니다. 우리의 목표는 시계열 ts의 클래스 레이블 cts를 가능한 정확하게 예측할 수 있는 분류기 f를 구축하는 것입니다.
각 클래스에 대해 T Sj는 클래스 Cj에 속하는 T S의 시계열 하위 집합을 나타냅니다 (T Sj = {ts | cts = Cj}). 이를 통해 분류기가 클래스 Ci에 대해 얻는 재현율 값인 recallCi는 다음과 같이 정의됩니다.
\[ \text{recallCi} = \frac{\sum_{ts \in T Si} 1_{Ci}(f(ts))}{ni} \]
여기서 1Ci는 클래스 Ci의 인디케이터 함수입니다. 따라서 최소 재현율은 다음과 같이 계산됩니다.
\[ \text{Minimum recall} = \min(\text{recallC1}, \text{recallC2}, ..., \text{recallCm}) \]
이를 고려하여, 우리는 먼저 재현율의 평균과 곱셈과 같은 가장 명백한 최소 재현율 함수의 근사화를 탐구합니다.
분석된 최소 재현율의 근사화는 다음과 같습니다:
1. 재현율의 평균 (Mean recall)
\[ \text{Mean recall} = \frac{\sum_{i=1}^{m} \text{recall}_{C_i}}{m} \]
평균 재현율은 모든 클래스 재현율에 동등한 중요성을 부여합니다. 그러나 일부 클래스의 재현율이 낮을 때 최소 재현율만큼 민감하지 않습니다.
2. 재현율의 곱셈 (Product recall)
\[ \text{Product recall} = \prod_{i=1}^{m} \text{recallCi} \]
재현율 값은 [0, 1]에 있으므로, 그들의 곱은 항상 재현율의 최소값보다 낮을 것입니다. 또한, 클래스 수가 많을수록 곱셈 재현율을 높이는 것이 어려울 수 있으며, 이는 결과적으로 학습 과정을 느리게 만들고 적절한 해결책을 찾지 못할 수 있습니다.
3. 소프트맥스 근사화 (Softmax approximation)
\[ \text{Softmax}(α) = \frac{\sum_{i=1}^{m} \text{recallCi} \cdot \exp(-α \cdot \text{recallCi})}{\sum_{i=1}^{m} \exp(-α \cdot \text{recallCi})} \]
소프트맥스 함수는 재현율의 최소값과 유사하지만, 모든 클래스의 재현율 값이 서로 근접할 때 이와 같은 근사화는 최소 재현율보다 높은 값을 얻습니다. α 값을 높이면 가장 낮은 재현율을 가진 클래스에 할당되는 가중치가 증가하고, 다른 클래스에 할당되는 가중치는 감소합니다. 따라서 앞서 언급한대로 α 값을 조정함으로써 소프트맥스 근사화와 최소 재현율 사이의 유사성 수준을 조절할 수 있습니다.
4. 로그합 지수 근사화 (LogSumExp approximation)
\[ \text{LSE}(α) = \frac{1}{-α} \log \left( \sum_{i=1}^{m} \exp(-α \cdot \text{recallCi}) \right) \]
일부 클래스의 재현율이 낮을 때, LSE 근사화는 최소 재현율 함수에 잘 맞습니다. 그러나 모든 클래스의 재현율이 증가할수록, LSE의 기울기는 감소하며 최소 재현율 함수와 다릅니다.
5. P-노름 근사화
: L∞-노름 또는 최대 노름은 p → ∞일 때 Lp-노름의 한계이며, p → −∞일 때 최소 함수와 동일합니다. 따라서 최소 재현율은 다음 함수로 근사화될 수 있습니다.
\[ \text{P-norm}(α) = \left( \sum_{i=1}^{m} |\text{recallCi}|^{-α} \right)^{\frac{1}{-α}} \]
이 함수는 최소 재현율 함수와 유사하지만, 재현율 값이 낮을 때 거의 미분 가능할 수 있습니다. 이는 기울기 하강 학습 방법에서 문제를 일으킬 수 있습니다.
이 정의된 부드러운 근사화는 분류기를 학습할 때 최소 재현율을 대체하는 함수로 사용됩니다. 따라서 각각의 부드러운 근사화는 미분 가능한 손실 함수를 생성합니다. 여기서부터는 단순화를 위해 근사화 대신 생성된 손실 함수에 대해 이야기할 것입니다.
3. Experimental Framework
A. 실험의 목적
실험의 주요 목적은 세 가지입니다:
1. 최소 재현율의 최적 부드러운 근사치 식별: Section II-C에서 제시된 최소 재현율의 다양한 부드러운 근사치를 평가하여 가장 효과적인 것을 찾습니다.
2. 성능 비교: 선택된 손실 함수를 불균형 문제를 다루기 위한 최신 방법들과 비교합니다.
3. α 파라미터의 민감도 분석: 제안된 매개변수화된 부드러운 손실 함수의 α 파라미터가 분류 결과에 미치는 영향을 연구합니다.
B. 벤치마크 데이터셋
--생략--
C. 실험에 사용된 신경망 분류기
제안된 접근 방식은 사용된 신경망 분류기에 독립적입니다. 사용되는 분류기들은 수정 가능한 손실 함수를 명시적으로 정의해야 하며, 단변량 및 다변량 시계열 분류 문제를 처리할 수 있어야 합니다. 따라서, 대표적으로 두 가지 최상의 시계열 신경망 분류기를 선택합니다: 다변량 장단기 메모리 완전 합성곱 네트워크(MLSTM-FCN)와 잔차 네트워크(Resnet).
선택된 모든 분류기는 Adam 확률적 최적화 알고리즘을 사용하여 최대 60 에포크 동안 훈련됩니다. 10 에포크 동안 분류기가 개선되지 않으면 훈련이 중단될 수 있습니다. 네트워크가 정확성을 최대화하도록 훈련될 때, 이진 분류 문제에는 이진 크로스 엔트로피(BCE) 손실, 다중 클래스 문제에는 크로스 엔트로피(CE) 손실이 사용됩니다.
초기 실험을 기반으로, MLSTM-FCN 분류기의 배치 크기는 128과 훈련 세트 인스턴스 수 중 최소값으로 설정됩니다. Resnet 분류기의 경우, 원본 논문에 따라 배치 크기는 64와 훈련 세트 인스턴스 수의 1/10 중 최소값으로 설정됩니다.
또한, 학습률은 초기값 0.001에서 시작하여, 35에서 42 에포크 동안 0.0001로 감소하고, 마지막 에포크까지 0.00001로 다시 감소합니다. ResNet 분류기의 경우, 총 1,500 에포크를 사용합니다.
IV. 결과 및 논의
MLSTM-FCN 및 Resnet 분류기의 확률적 특성과 비교 작업에 사용된 관련 연구를 고려하여, 각 방법은 각 데이터셋에 대해 10번씩 실행되었습니다. 실험 결과는 모든 실행의 평균 및 표준 편차로 측정되었으며, 정확도(acc)와 최소 재현율(minRec) 모두를 포함합니다. 정확도(acc)는 분류기의 전체 성능을 평가하고, 소수 클래스를 예측하려 할 때 다수 클래스의 분류가 영향을 받는지 확인합니다. 최소 재현율(minRec)은 소수 클래스가 제대로 분류되는지 여부를 나타냅니다.
A. 다양한 최소 재현율 기반 손실 함수의 성능 비교
이 실험의 목표는 다음과 같습니다:
1. ITSC(불균형 시계열 분류) 문제에 대해 최소 재현율 기반 손실 함수로 분류기를 훈련하는 것이 정확도를 최대화하기 위해 훈련하는 것보다 더 높은 최소 재현율 값을 얻는지 확인합니다. 단, 전체 정확도는 크게 감소하지 않아야 합니다.
2. Section II-C에서 제시한 다양한 부드러운 손실 함수의 성능을 분석하고 최적의 손실 함수를 결정합니다.
이를 위해, 모든 벤치마크 데이터셋에 대해 제안된 손실 함수와 기존의 정확도 기반 손실 함수로 MLSTM-FCN 및 Resnet 분류기를 훈련합니다. 학습 문제를 피하기 위해 모든 매개변수화된 근사치의 α 파라미터를 10으로 설정합니다.
표 II에 따르면, 정확도 측면에서 정확도 기반 손실 함수로 학습된 MLS가 대부분의 데이터셋에서 최고의 결과를 얻습니다. 그러나 이 경우, LSE, 평균, 곱, 소프트맥스 손실 함수로 학습된 MLS와의 차이는 통계적으로 유의미하지 않습니다(그림 2 참조). 한편, 최소 재현율 열에서는 LSE 손실 함수가 가장 두드러진 손실 함수이며, 소프트맥스 및 곱 손실 함수가 그 뒤를 잇습니다. 이는 그림 3에서도 확인할 수 있으며, 최소 재현율 측면에서 LSE 손실 함수로 학습된 MLS 분류기가 나머지 모든 방법과 유의미한 차이를 보입니다. 단, 소프트맥스 및 곱 손실 함수와는 유의미한 차이가 없습니다. 또한, 두 그림 모두에서 MLSTM-FCN(MLS) 분류기가 거의 모든 손실 함수에서 Resnet(RES)보다 더 나은 결과를 얻는 것을 볼 수 있습니다.
이 결과는 제안된 접근 방식이 우리의 기대를 충족함을 시사합니다. 특히, 최소 재현율 기반 손실 함수로 학습된 MLS 분류기는 정확도를 최대화하기 위해 학습된 경우보다 더 높은 최소 재현율 값을 얻을 수 있습니다. 또한, 여러 데이터셋에서 정확도 기반 손실 함수로 학습된 MLS 분류기의 최소 재현율 값이 0.00±0.00으로 나타나, 최소 하나의 클래스에서 어떤 테스트 인스턴스도 올바르게 예측하지 못한 경우가 있습니다. 반면, 최소 재현율 기반 손실 함수로 학습된 MLS 분류기는 상당히 더 많은 데이터셋에서 최소 재현율 값이 0보다 높게 나타났으며, 정확도 값의 유의미한 감소 없이 결과를 얻었습니다.
비록 P-노름 손실 함수가 최소 재현율 함수를 가장 가깝게 나타내지만, 최고의 결과를 얻지는 못했습니다. 이는 클래스의 재현율이 가까운 경우 P-노름 근사치의 거의 비미분성 때문이라고 생각됩니다. 앞서 설명한 대로, 이 비미분성은 그래디언트 기반 최적화 알고리즘으로 학습할 때 어려움을 초래하여 느린 수렴 및 최적 이하의 솔루션을 야기할 수 있습니다.
그 외에도, LSE, 소프트맥스 및 곱 손실 함수는 ITSC 문제를 다루기에 가장 효과적인 손실 함수입니다. 이는 최소 재현율과 정확도 성능 측면에서 최고의 성능을 보이는 손실 함수와 유의미한 차이가 없기 때문입니다. 또한, LSE 손실 함수로 학습된 MLS 분류기가 다른 두 방법보다 더 많은 데이터셋에서 최고 결과를 얻으므로, 이를 최적의 제안 방법으로 간주할 수 있습니다.
B. 최신 방법들과의 비교
- 시계열에 특화되지 않은 오버샘플링 방법들: SMOTE와 ADASYN. 이들은 다차원 시계열을 처리하도록 설계되지 않았기 때문에, 다차원 데이터셋의 모든 차원을 하나의 벡터로 연결하여 원래 다차원 인스턴스를 단일 차원 인스턴스로 변환합니다.
- 시계열에 특화된 오버샘플링 방법들: SPO, INOS, MOGT. 이들은 다차원 시계열이나 다중 클래스 문제를 처리하도록 설계되지 않았습니다. 따라서, 다차원 데이터셋에 적용하기 위해 위에서 설명한 비특화 오버샘플링 방법과 동일한 과정을 따릅니다. 다중 클래스 ITSC 문제에 이러한 방법들을 적용하기 위해, 일대다 전략(one-versus-all strategy)을 사용합니다. 이는 덜 채워진 클래스 중 하나를 소수 클래스로 선택하고 나머지 클래스를 다수 클래스로 그룹화하여 이진 문제를 생성하는 방식입니다. 이 방법으로 소수 클래스를 다수 클래스와 동일한 인스턴스 수를 가질 때까지 오버샘플링합니다. 이 전략을 모든 소수 클래스에 적용하여 각 클래스의 인스턴스 수를 동일하게 만든 후, 분류기를 학습합니다.
- 비용 민감 방법들: CS-CNN과 K3-CNN. 이들은 이진 분류 문제에 제한되어 있습니다. 따라서 다중 클래스 분류 문제에 적용하기 위해, 먼저 이러한 방법들이 사용한 정확도 및 G-평균과 같은 오분류 비용 계산 방법을 다중 클래스 문제에 대해 계산해야 합니다. 그런 다음, 얻어진 오분류 비용을 가장 많이 샘플된 클래스를 제외한 모든 클래스에 적용합니다. K3-CNN의 경우, 원래 연구에서 최고의 결과를 제공한 매개변수를 사용합니다. 즉, 배치 크기는 512와 훈련 세트의 인스턴스 수 중 최소값으로 설정하고, 학습률은 0.001로 고정하며 Adam 최적화기의 eps 매개변수는 1e−8로 설정합니다.
표 III에서, minRec 열에 대해 제안된 접근 방식이 대부분의 데이터셋에서 강조되는 것을 볼 수 있습니다. 이는 그림 4에서도 확인할 수 있으며, minRec 측면에서 제안된 접근 방식이 나머지 최신 방법들과 유의미한 차이로 가장 좋은 결과를 얻는 것을 보여줍니다. 반면에, acc 측면에서는 거의 모든 방법 간에 유의미한 차이가 없습니다.
이 결과를 바탕으로, LSE 손실 함수로 학습된 MLS 분류기가 불균형에도 불구하고 모든 클래스의 재현율 값을 최대화할 수 있으며, 동시에 전체 정확도와 최소 재현율 모두에서 높은 값을 얻을 수 있음을 결론지을 수 있습니다.
C. 학습된 분류기의 α 파라미터에 대한 민감도
앞서 언급했듯이, 최소 재현율 함수의 매개변수화된 부드러운 근사치(Softmax, LSE 및 P-노름 함수)는 α라는 파라미터에 따라 달라집니다. 이 파라미터는 이 함수들이 최소 재현율 함수와 얼마나 유사한지를 결정하며, 따라서 학습된 분류기에도 영향을 미칩니다. α가 높을수록 근사치가 더 좋아지지만, α가 높으면 이러한 함수들은 거의 미분 불가능해져서 그래디언트 하강 학습 방법에서 수치 문제(예: 폭발적 그래디언트 문제)를 일으킬 수 있습니다. 이 실험에서는 α 파라미터의 민감도를 분석하고, α 값이 데이터셋의 불균형 정도(ID)에 따라 어떻게 변하는지 분석하고자 합니다.
이를 위해 α 값을 1, 5, 10, 20, 40, 60, 80, 100, 120으로 설정하여 실험을 수행합니다.
각 α 값과 각 데이터셋에 대해 우리의 방법론을 적용합니다.
- 데이터셋의 ID가 증가함에 따라 모든 α 값에 대한 최소 재현율의 평균이 감소합니다. 그러나 정확도는 모든 ID에서 거의 일정하게 유지됩니다.
- 모든 데이터셋에서 정확도는 α 값이 낮을 때 높고, α 값이 높을 때 낮습니다. 최소 재현율 측면에서, ID가 낮은 데이터셋에서는 낮은 α 값으로 최고의 결과를 얻습니다. 그러나 ID가 증가함에 따라 이러한 경향은 반대로 바뀌며, 높은 α 값으로 최고의 결과를 얻습니다.
- 정확도와 최소 재현율의 표준 편차는 α 값이 높을 때 낮은 α 값보다 높습니다. 그러나 이 표준 편차는 ID가 높은 데이터셋보다 ID가 낮은 데이터셋에서 더 낮습니다.
결론적으로, 가장 적절한 α 파라미터는 데이터셋의 ID에 따라 다를 것입니다.
구체적으로, ID가 낮은 데이터셋에서는 낮은 α 값으로 최고의 최소 재현율 결과를 얻습니다.
반대로, 데이터셋의 ID가 증가함에 따라 높은 α 값과 낮은 α 값으로 얻은 결과의 차이가 줄어듭니다.
마지막으로, ID가 높은 데이터셋에서는 높은 α 값으로 최고의 결과를 얻습니다. 그러나 선택된 α 값이 너무 높으면 정확도가 감소하고 얻은 결과의 변동성이 커질 수 있습니다.
이 탐색적 분석에서, 문제가 매우 불균형한 경우 최소 재현율 함수에 가장 잘 맞는 함수(높은 α 값을 가진 함수)가 클래스의 재현율 측면에서 더 균형 잡힌 결과를 얻는다는 결론을 내릴 수 있습니다. 이는 이 함수들이 소수 클래스에 대해 낮은 재현율을 얻는 분류기를 더 강하게 벌주기 때문에 발생할 수 있습니다. 따라서, 분류기는 손실 함수를 줄이기 위해 소수 클래스를 정확하게 분류하는 법을 배우게 됩니다. 결과적으로, 분류기는 낮은 α 값을 사용할 때보다 더 높은 최소 재현율 값을 얻습니다.
V. 결론
이 논문의 목표는 ITSC(불균형 시계열 분류) 문제를 해결하기 위한 방법을 개발하는 것으로, 이는 단순히 일차원 또는 이진 문제뿐만 아니라 다차원 또는 다중 클래스 문제에도 적용될 수 있습니다. 이를 염두에 두고, 우리는 대부분의 전통적인 분류기들이 하는 정확도 최대화 대신 클래스별 최소 재현율을 최대화하는 시계열 신경망 분류기를 학습하는 방법을 제안합니다. 최소 재현율은 미분 가능하지 않기 때문에 우리는 최소 재현율 함수를 다양한 부드러운 근사치(미분 가능)로 대체할 것을 제안합니다. 이를 통해 클래스 불균형에도 불구하고 모든 클래스의 재현율 값을 동시에 최대화하려는 분류기를 얻을 수 있습니다.
제안된 부드러운 근사치 함수들은 다양한 불균형 정도를 가진 데이터셋에서 불균형을 처리하기 위해 다른 최신 방법들과 실험적으로 비교 평가됩니다. 얻어진 결과는 LSE 손실 함수로 학습된 MLSTM-FCN 분류기가 우리의 목표를 성공적으로 달성하고 대부분의 경우 다른 방법들보다 우수한 성능을 보이며, 전체 정확도의 감소 없이 가장 높은 최소 재현율 값을 얻는다는 것을 보여줍니다. 또한, LSE 손실 함수가 최소 재현율 함수의 매개변수화된 근사치에서 생성되기 때문에, 학습된 분류기의 결과에 대한 이 α 파라미터의 민감도를 분석합니다. 데이터셋의 불균형 정도가 높을수록 적절한 결과를 얻기 위해 α 파라미터의 값이 높아야 하지만, α 값이 너무 높으면 결과의 변동성이 증가하고 정확도가 감소할 수 있습니다.
따라서 향후 연구는 LSE 매개변수화 근사치 함수에 대해 가장 적절한 α 파라미터를 선택하는 방법을 개발하여 다수 클래스의 정확도에 큰 영향을 미치지 않으면서 소수 클래스를 적절히 분류할 수 있는 분류기를 얻는 데 초점을 맞출 수 있습니다. 또한, 이 접근 방식은 ITSC 문제에 특화되어 제시되었지만, 시계열 데이터 외의 다른 문제와 유형의 데이터에도 적용할 수 있습니다. 따라서 또 다른 연구 방향으로는 불균형 데이터를 가진 다른 시나리오, 예를 들어 불균형 (의료) 이미지 분류 문제에 이 접근 방식을 적용해 보는 것이 있을 수 있습니다.
'Paper Review' 카테고리의 다른 글
[논문] Accurate Image Super-Resolution Using Very Deep Convolutional Networks (VDS (0) | 2024.04.18 |
---|