728x90 반응형 Business Analytics/R로 기본내용 공부하기6 [R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) R로 데이터 분석을 진행할 때는 기본적으로 데이터에 대한 진단을 진행해야 합니다. 데이터 진단의 방법은 아래와 같습니다. 1. 데이터 확인하기 데이터는 기본적으로 연속형 데이터거나 범주형 데이터입니다. dlookr 패키지의 diagnose 계열 함수들을 활용하면, 데이터에 대한 진단값을 확인해볼 수 있습니다. dlookr 패키지의 활용 방안은 아래와 같습니다. 1. 데이터 진단(EDA 차원) 2. 결측치 확인 3. 수치형 데이터에 대해 좀 더 명확히 파악하기 4. 범주형 데이터에 대해 좀 더 명확히 파악하기 5. 아웃라이어에 대해 명확히 파악하기 6. 기술통계량 확인하기 7. 상관관계표 생성하기 #패키지 불러오기 library(dlookr) library(tidyverse) # 데이터 진단하기 # 데이터.. 2022. 11. 19. 머신러닝 알고리즘 공부하기 (1) - R을 통한 knn(K nearest neighbor) 머신러닝 방법 중에는 KNN(K Nearest Neighbor) 기법이 있다. 이는 쉽게 생각해서 K번째 최근접 이웃이라는 뜻이다. 여기서 근접의 개념을 이해하기 위해서는 거기를 어떻게 구할 것이냐의 이해가 있어야 하는데, 여기에서는 유클리디언 거리를 사용한다. 유클리디언 거리공식은 아래와 같다. 그림을 통해 생각해보자 이미 파란색, 빨간색, 초록색 그룹으로 구별되어 있는 집단이 있다고 생각해보자. 여기서 새로운 노란색 점이 생기면, 이를 어떤 집단으로 구별해야 하는지를 정해야 한다. 이때 가장 가까운 k개의 점을 봐서 노란점은 무슨 집단에 들어가야 한다고 정해주는 것이 knn 방법이다. 위의 그림의 경우 파란색 집단과는 3개, 노란색과는 2개, 초록색과는 1개의 최근접 점이 있으므로 파란색으로 분류가 .. 2021. 1. 5. 데이터를 얻을 수 있는 장소 세상에는 다양한 데이터들이 있다. 단순히 공부용으로 정제되어 있는 데이터 뿐만 아니라 세상에 실제로 존재하는 데이터들, 즉 우리가 향후 데이터와 관련된 업무를 실제로 하게 되었을 때 마주하게 될 데이터에 대해 공부할 때도 맛보기 차원에서 확인해보는 것도 좋은 공부이다. 공공데이터 포털 https://www.data.go.kr/index.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 공공 데이터 포털은 우리나라 정부에서 공적으로 사용가능한 데이터를 모아둔 포털 사이트로 공공기관이 생성 또는 취득하여 관리하고 있는.. 2020. 12. 28. R로 기본적인 데이터 분석하기(1) - 데이터 불러오기 R에서 데이터 분석을 하기 위해서는 우선 기본적으로 외부에 저장되어 있는 데이터를 R로 불러와야 한다. 데이터를 R로 불러오기 위한 방법에는 여러가지가 있는데, 우선 가장 선행되어 해야하는 것은 working directory을 설정해주는 것이다. getwd() # 이릍 통해 현재 어떤 working directory에서 작업중인지 확인한다. setwd("working directory의 파일 경로") #자신만의 working directory을 세팅해준다. setwd()을 수행할 때 이를 쉽게 하기 위해서는 해당 파일을 켜고 검색창을 클릭하는 방법을 추천한다. 이것이 가장 쉽게 working directory을 설정하는 방법이기 때문이다. 예를 들어 iloveyou라는 폴더를 working direct.. 2020. 12. 27. 이전 1 2 다음 728x90 반응형