필요하다고 생각되는 머신러닝 개념을 정리.!
책 참고)
<데이터 과학을 위한 통계>
<텐서플로2와 머신러닝으로 시작하는 자연어처리>
- 앙상블 기법이란?
: 여러 개의 학습 알고리즘을 사용해 더 좋은 성능을 얻는 방법
- 부트스트랩
: 관측 데이터로부터 반복해서 표본추출하는 과정으로써, 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산한다.
: 표본을 수천, 수백만 번 복제하는 것이라고 생각할 수 있다.
: 표본으로부터 얻어지는 모든 정보를 포함하는 가상 모집단을 얻을 수 있는 것이다.
- 배깅
: 여러 개의 학습 알고리즘, 모델을 통해 각각 결과를 예측하고 모든 결과를 동등하게 보고 취합해서 결과를 얻는 방식
: 예를 들어 분류 및 회귀 트리를 사용할 때, 여러 부트스트랩 샘플을 가지고 트리를 여러 개 만든 다음 각 트리에서 나온 예측값을 평균 내는 것이 일반적으로 단일 트리를 사용하는 것보다 효과적. -> 여러 개의 의사결정 트리 결괏값의 평균을 통해 결과를 얻는 것임.
- 부스팅
: 각 결과를 순차적으로 취합하면서 단순히 하나씩 취합하는 방법이 아니라 이전 알고리즘, 모델이 학습 후 잘못 예측한 부분에 가중치를 줘서 다시 모델로 가서 학습하는 방식
-- XG 부스트
: 부스팅 기법 중 트리 부스팅(Tree Boosting) 기법을 활용한 모델
이때, 트리 부스팅이란? : 여러 개의 의사결정 트리를 사용하는 동시에(랜덤 포레스트) 부스팅 방식을 적용
/ 따라서, 단순히 결과를 평균내는 것이 아니라 결과를 보고 오답에 대한 가중치 부여 & 가중치가 적용된 오답에 대해서는 관심을 가지고 정답이 될 수 있도록 결과를 만들고 해당 결과에 대한 다른 오답을 찾아 다시 똑같은 작업을 반복적으로 진행
: 위에서 설명한 트리 부스팅 방식에 경사 하강법을 통해 최적화하는 방법.
: 연산량을 줄이기 위해 의사결정 트리를 구성할 때 병렬 처리를 사용해 빠른 시간에 학습이 가능.
'머신러닝&딥러닝 > 머신러닝' 카테고리의 다른 글
| [불균형자료 (Imbalanced data)] 처리 (0) | 2022.03.16 |
|---|
댓글