[Data Science] Emsemble

less than 1 minute read

Ensemble

이번시간에는 Emsemble에 대하여 알아보도록 하겠습니다.

Ensemble(앙상블)은 말그대로 조화라는 의미입니다. 즉 기존모델들과 어우러져 더 좋은 성과를 얻을수 있는 방법을 의미합니다.

Voting

Voting은 성격이 같은 모델이 같은 데이터 샘플링으로 학습하고 나온 결과 값을 가지고 투표하여 결정하는 방식입니다. Voting에는 하기와 같은 세가지 방식이 있습니다.

  1. Hard Voting

    • Hard Voting 은 각각의 모델이 예측하는 값중에 많이나온 값을 기준으로 예측값을 정하는 방법입니다.

      image-20201113172232675

  2. Soft Voting

    • Soft Voting 은 각각의 모델이 class별로 예측한 확률값의 평균으로 가장 높은 확률 평균을 가진 값을 예측값으로 정하는 방법입니다.

      image-20201113172222057

  3. Weighted Voting

    • Soft Voting개념에서 좀더 예측가능성이 높은데 가중치를 주어 계산하여 예측값을 정하는 방법입니다.

      image-20201113172239476

Bagging

Bagging은 성격이 같은 모델이 다른 데이터 샘플링으로 학습하고 나온 결과 값을 가지고 투표하여 결정하는 방식입니다.

가장 대표적인 모델이 Random Forest입니다.

Boosting

모델이 오분류한 데이터에 대하여 가중치를 부여하여 오분류한 데이터다 분류가 잘될수 있도록 하는 방법입니다.

Leave a comment