728x90 반응형 머신러닝2 지도학습 > 의사결정나무 : CART, C5.0, C4.5, CHAID - R code 데이터 마이닝 파트 중 지도학습의 한 분야인 의사결정 나무에 대해 CART, C5.0, C4.5, CHAID, 분리기준 (카이 제곱 통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기(pruning)에 대해 알아보자. 의사결정나무는 분류 및 회귀 문제 모두에 사용되는 기계 학습 알고리즘의 한 유형이다. 의사결정나무는 간단히 말해 가장 중요한 변수를 기반으로 데이터를 더 작은 하위 집합으로 재귀적으로(Recursive하게) 분할하고 결국 클래스 레이블 또는 예측 값을 나타내는 터미널 노드(terminal node, 리프)에 도달하는 방식으로 작동한다. 또한 의사결정나무는 그래픽으로 표현할 수 있어 모델 뒤에 숨겨진 논리를 쉽게 이해할 수 있다. R에서는 의사결정 트리를 구현하기.. 2023. 2. 1. 머신러닝 알고리즘 공부하기 (1) - R을 통한 knn(K nearest neighbor) 머신러닝 방법 중에는 KNN(K Nearest Neighbor) 기법이 있다. 이는 쉽게 생각해서 K번째 최근접 이웃이라는 뜻이다. 여기서 근접의 개념을 이해하기 위해서는 거기를 어떻게 구할 것이냐의 이해가 있어야 하는데, 여기에서는 유클리디언 거리를 사용한다. 유클리디언 거리공식은 아래와 같다. 그림을 통해 생각해보자 이미 파란색, 빨간색, 초록색 그룹으로 구별되어 있는 집단이 있다고 생각해보자. 여기서 새로운 노란색 점이 생기면, 이를 어떤 집단으로 구별해야 하는지를 정해야 한다. 이때 가장 가까운 k개의 점을 봐서 노란점은 무슨 집단에 들어가야 한다고 정해주는 것이 knn 방법이다. 위의 그림의 경우 파란색 집단과는 3개, 노란색과는 2개, 초록색과는 1개의 최근접 점이 있으므로 파란색으로 분류가 .. 2021. 1. 5. 이전 1 다음 728x90 반응형