본문 바로가기
728x90
반응형

ADP 준비6

지도학습 > 의사결정나무 : CART, C5.0, C4.5, CHAID - R code 데이터 마이닝 파트 중 지도학습의 한 분야인 의사결정 나무에 대해 CART, C5.0, C4.5, CHAID, 분리기준 (카이 제곱 통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기(pruning)에 대해 알아보자. 의사결정나무는 분류 및 회귀 문제 모두에 사용되는 기계 학습 알고리즘의 한 유형이다. 의사결정나무는 간단히 말해 가장 중요한 변수를 기반으로 데이터를 더 작은 하위 집합으로 재귀적으로(Recursive하게) 분할하고 결국 클래스 레이블 또는 예측 값을 나타내는 터미널 노드(terminal node, 리프)에 도달하는 방식으로 작동한다. 또한 의사결정나무는 그래픽으로 표현할 수 있어 모델 뒤에 숨겨진 논리를 쉽게 이해할 수 있다. R에서는 의사결정 트리를 구현하기.. 2023. 2. 1.
차원 분석 - 주성분 분석, 요인 분석, 다차원 척도법 차원 분석이란 기본적으로 다수의 데이터로 인해 의미 있는 무언가를 뽑아내기 어려운 경우 데이터의 차원을 축소하는 방식으로 사용하게 된다. 데이터의 차원을 축소하는 이유는 데이터셋에 많은 변수가 포함되는 경우 분석의 복잡성이 증가하고, 이로부터 의미있는 정보를 찾기에 어려움이 생기 때문이다. 이런 경우 데이터셋에 포함된 여러 변수를 소수의 해석 가능한 변수로 축소할 필요가 있다. 주성분분석(Principal Component Analysis), 요인분석(Factor Analysis), 다차원 척도법(Multidimensional Scaling) 등은 데이터의 차원을 줄여주어 데이터의 복잡성을 감소시킨다. 1. 주성분 분석 - 서로 상관관계를 갖는 많은 변수를 상관관계가 없는 소수의 변수로 변환하는 차원축소.. 2023. 1. 15.
728x90
반응형