여러가지 검정법
K-Fold-Cross-Validation
- K-fold-Cross-Validation
- 내용
- data set을 k개의 fold로 나누어준다.
- k-1개에 대해서 학습을 하고 1에대해서 test
- 이 과정을 k번 반복한다.
- 나왔던 k개의 test값을 평균해주면 final test값이 나온다.(범주형 반응변수이면 가장 많이 나온게 나온다.)
- 결론
- 분석의 성능을 높이지 못하지만 과적합을 방지할 수 있다.
- 전체 데이터에서 k-fold-CV를 사용하는 방법도 있지만 test데이터와 train데이터를 나눠서 train데이터로 k-fold-cv를 진행하면서 hyper parameter를 조절한 후 마지막으로 test데이터로 검정하는 방법도 있다.
- 데이터가 충분할 때 사용
- 내용
-
time series 상황에서 K-fold-Cross-Validation
###### 출처 : Soumya Shrivastava
- time series에서는 fold를 섞어서 사용할 수 없기 때문에 과거데이터 일부를 이용해서 예측한 후 과거 데이터에 예측했던 데이터를 포함해서 예측하는 식으로 진행한다.
-
hold out
- 내용 hold out은 train data와 test데이터로 한 번 나눠서 진행한다.
- stratified kfold
- 내용
- k-fold와 비슷하지만 label의 비율을 동일하게 만든다
- ex) 5fold로 할 때 각 fold별로 반응변수의 참값이 20%들어가게 만든다.
- Imbalance 데이터에 많이 사용
- 결론
- T아카데미 강사님은 k-fold랑 stratified k fold를 혼합해서 사용
- 내용
- group k fold
- 내용
- group을 어떤 것으로 설정할 것인지.
- week1, week2, week3이런식으로 fold를 만들거나 월별로 fold를 만들어서 검정
- 내용
-
References
Comments