여러가지 검정법

K-Fold-Cross-Validation

  • K-fold-Cross-Validation
    • 내용
      • data set을 k개의 fold로 나누어준다.
      • k-1개에 대해서 학습을 하고 1에대해서 test
      • 이 과정을 k번 반복한다.
      • 나왔던 k개의 test값을 평균해주면 final test값이 나온다.(범주형 반응변수이면 가장 많이 나온게 나온다.)
    • 결론
      • 분석의 성능을 높이지 못하지만 과적합을 방지할 수 있다.
      • 전체 데이터에서 k-fold-CV를 사용하는 방법도 있지만 test데이터와 train데이터를 나눠서 train데이터로 k-fold-cv를 진행하면서 hyper parameter를 조절한 후 마지막으로 test데이터로 검정하는 방법도 있다.
      • 데이터가 충분할 때 사용
  • time series 상황에서 K-fold-Cross-Validation 출처

    ###### 출처 : Soumya Shrivastava

    • time series에서는 fold를 섞어서 사용할 수 없기 때문에 과거데이터 일부를 이용해서 예측한 후 과거 데이터에 예측했던 데이터를 포함해서 예측하는 식으로 진행한다.
  • hold out

    • 내용 hold out은 train data와 test데이터로 한 번 나눠서 진행한다.
  • stratified kfold
    • 내용
      • k-fold와 비슷하지만 label의 비율을 동일하게 만든다
      • ex) 5fold로 할 때 각 fold별로 반응변수의 참값이 20%들어가게 만든다.
      • Imbalance 데이터에 많이 사용
    • 결론
      • T아카데미 강사님은 k-fold랑 stratified k fold를 혼합해서 사용
  • group k fold
    • 내용
      • group을 어떤 것으로 설정할 것인지.
      • week1, week2, week3이런식으로 fold를 만들거나 월별로 fold를 만들어서 검정
  • References


Comments