B.D.A
[BDA 데이터 분석 모델링반 (ML 1) 16회차] 랜덤 포레스트
SeonHo Yoo
2024. 8. 13. 23:31
앙상블 학습, 부트스트랩 샘플링 개념에 대해 알아본다.
기존 의사결정트리는 하나의 트리구조, 규칙기반의 단일모델이기에 변동성이 크다는 문제를 가지고 있다. 이를 보완하기 위해 여러 개의 결정트리를 결합하여 예측 성능을 향상하고, 분류, 회귀 문제를 모두 사용할 수 있도록 한다.
앙상블 학습
앙상블 학습은 여러 개의 모델 또는 여러 개의 데이터 셋을 통합하여 모델을 만드는 방식으로, 크게 배깅, 부스팅, 스태킹 방법이 있다.
부트스트랩 샘플링(Bootstrap Sampling)
신뢰성을 높이기 위해 자주 사용하는 기법으로, 원본 데이터 셋에서 무작위로 데이터를 선택하여 새로운 샘플을 여러 번 생성하는 방법이다. 과정 안에서 중복을 허용한다는 점이 특징이다.
역할
신뢰구간 및 표준 오차 추정 : 무작위 샘플링을 통해 각 샘플에 대해 관심 있는 통계량을 계산하고, 이를 기반으로 신뢰구간 표준오차를 추정한다.
데이터 분포 추정 : 부트스트랩 샘플링은 데이터의 분포를 직접적으로 가정하지 않기 때문에 비정형적인 경우도 가능하다.
표본의 크기가 작을 때 활용 : 표본 크기가 작아도 부트스태랩 샘플링을 통해 여러 번의 샘플링을 수행할 수 있다.
OOB(Out of Bag) 샘플 평가
원본 데이터 셋의 일부 데이터 포인트는 선택되지 않고 샘플에 포함되지 않는다. 이러한 데이터 포인트를 OOB 샘플이라 하며, 모델 학습에 사용되지 않았으므로 평가에 사용한다.