데싸로그7 [ML] 앙상블 (Ensenble) 의사결정 나무는 과적합에 취약하다는 단점이 존재합니다. 이 포스팅에서는 과적합을 해결하기 위한 방법인 앙상블 (Ensemble) 알고리즘을 소개합니다. 앙상블 (Ensemble) 앙상블 (Ensemble)을 통일, 조화를 뜻하는 프랑스어로, 여러 악기의 소리가 어우러지는 협주를 뜻합니다. 많은 종류와 수의 작은 악기소리가 조화를 이루어 더욱 더 웅장하고 아름다운 소리를 만들어냅니다. 물론 그래서는 안 되겠지만, 한 명의 아주 작은 실수는 다른 소리에 묻히기도 합니다. 기계학습에서의 앙상블도 이와 비슷합니다. 여러 개의 단일 모델 (weak learner)들이 모여 투표 (voting)를 통해 더욱 더 강력한 strong learner를 구성합니다. 많은 모델이 있기 때문에, 한 모델에서 예측을 엇나가게 .. 2022. 3. 13. [ML] 의사결정나무의 문제점 ID3, C4.5, CART까지, 의사결정나무 생성을 위한 기본적인 알고리즘을 정리했습니다. 의사결정나무의 단점: 과적합 (Overfitting)에 취약 의사결정나무 알고리즘은 간단하면서도 효과적인 알고리즘이지만, 실제로 사용하기 어려운 치명적인 문제가 있습니다. 바로 과적합 (Overfitting)에 취약하다는 것입니다. Regression tree의 예시에서 모든 학습 데이터가 개별 구간을 갖도록 의사결정 나무가 생성된다면, 이 모델은 과적합된 모델이라고 할 수 있습니다. 과적합이 발생하면, 모형이 새로운 값에 대응하는 능력이 떨어지기 때문에, 처음 본 데이터가 들어왔을 때 모형이 엉뚱한 값을 뱉어냅니다. 따라서 이러한 과적합을 막기 위해, 의사결정나무의 학습을 일부러 방해하는 사전 가지치기 (pre.. 2022. 3. 12. [ML] CART 알고리즘 이전 포스팅에서는 의사결정 나무에서 엔트로피를 불순도로 사용하는 ID3와 C4.5 알고리즘을 정리해보았습니다. 이번 포스팅에서는 엔트로피 외에 다른 불순도 지표를 사용하는 CART 알고리즘에 대해 정리해보도록 하겠습니다. CART (Classification And Regression Tree) CART는 ID3 알고리즘과 비슷한 시기에, 별도로 개발된 알고리즘으로 Classification And Regression Tree의 약자입니다. 이름 그대로 Classification뿐 아니라 Regression도 가능하다는 것을 포함해서, ID3나 C4.5 알고리즘과 비교했을 때 몇 가지 차이점이 존재합니다. 불순도: Gini index Binary tree Regression tree 위 세가지 항목에 대.. 2022. 3. 11. [ML] C4.5 알고리즘 이전 포스팅에서는 의사결정 나무의 가장 기본적인 알고리즘인 ID3 알고리즘을 예시를 통해 정리했습니다. 이번 포스팅에서 소개할 C4.5는 ID3에서 여러 가지가 개선된 알고리즘입니다. C4.5 알고리즘 C4.5 알고리즘이 ID3알고리즘에 비해 개선된 점은 아래와 같이 요약할 수 있습니다. 정교한 불순도 지표 (Information gain ratio) 활용 범주형 변수뿐 아니라 연속형 변수를 사용 가능 결측치가 포함된 데이터도 사용 가능 과적합을 방지하기 위한 가지치기 4가지 개선점이 어떻게 적용되었는지 하나씩 살펴보도록 하겠습니다. 개선점 1: 정교한 불순도 지표 \[ IG(S,A)=H(S)-H(S,A) \] ID3 알고리즘에서는 각 시점에서 모든 지표에 대한 분기 전후의 엔트로피를 기반으로 Infor.. 2022. 3. 10. 이전 1 2 다음