728x90 반응형 데이터 분석3 [R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) R로 데이터 분석을 진행할 때는 기본적으로 데이터에 대한 진단을 진행해야 합니다. 데이터 진단의 방법은 아래와 같습니다. 1. 데이터 확인하기 데이터는 기본적으로 연속형 데이터거나 범주형 데이터입니다. dlookr 패키지의 diagnose 계열 함수들을 활용하면, 데이터에 대한 진단값을 확인해볼 수 있습니다. dlookr 패키지의 활용 방안은 아래와 같습니다. 1. 데이터 진단(EDA 차원) 2. 결측치 확인 3. 수치형 데이터에 대해 좀 더 명확히 파악하기 4. 범주형 데이터에 대해 좀 더 명확히 파악하기 5. 아웃라이어에 대해 명확히 파악하기 6. 기술통계량 확인하기 7. 상관관계표 생성하기 #패키지 불러오기 library(dlookr) library(tidyverse) # 데이터 진단하기 # 데이터.. 2022. 11. 19. R로 기본적인 데이터 분석하기(1) - 데이터 불러오기 R에서 데이터 분석을 하기 위해서는 우선 기본적으로 외부에 저장되어 있는 데이터를 R로 불러와야 한다. 데이터를 R로 불러오기 위한 방법에는 여러가지가 있는데, 우선 가장 선행되어 해야하는 것은 working directory을 설정해주는 것이다. getwd() # 이릍 통해 현재 어떤 working directory에서 작업중인지 확인한다. setwd("working directory의 파일 경로") #자신만의 working directory을 세팅해준다. setwd()을 수행할 때 이를 쉽게 하기 위해서는 해당 파일을 켜고 검색창을 클릭하는 방법을 추천한다. 이것이 가장 쉽게 working directory을 설정하는 방법이기 때문이다. 예를 들어 iloveyou라는 폴더를 working direct.. 2020. 12. 27. 우리는 왜 R을 배워야 할까? 바야흐로 4차 산업혁명의 시대이다. 많은 사람들이 Digital Transformation에 대해 이야기하며, 데이터에 대해 아는 것은 '생존'의 문제라고 이야기 한다. 그렇다면 데이터에 대해 아는 것이 왜 생존이 된 것일까? 그것은 현재 늘어나는 데이터의 양을 통해 생각해볼 수 있다. Raconteur에서 가보면 하루에 생성되는 데이터의 양을 infographics로 표현해둔 것이 있는데, 여기에 따르면 하루에 생성되는 데이터가 상당함을 알 수 있다. 예컨대, 하루에 전 세계에서 웨어러블 기기를 통해 생성되는 데이터의 양만 해도 약 28PB(Petabyte)이다. 여기서 PB는 1000^5 byte에 달하는 엄청난 양의 데이터이다. https://www.raconteur.net/infographics/.. 2020. 12. 25. 이전 1 다음 728x90 반응형