바야흐로 4차 산업혁명의 시대이다.
많은 사람들이 Digital Transformation에 대해 이야기하며, 데이터에 대해 아는 것은 '생존'의 문제라고 이야기 한다.
그렇다면 데이터에 대해 아는 것이 왜 생존이 된 것일까?
그것은 현재 늘어나는 데이터의 양을 통해 생각해볼 수 있다.
Raconteur에서 가보면 하루에 생성되는 데이터의 양을 infographics로 표현해둔 것이 있는데, 여기에 따르면 하루에 생성되는 데이터가 상당함을 알 수 있다. 예컨대, 하루에 전 세계에서 웨어러블 기기를 통해 생성되는 데이터의 양만 해도 약 28PB(Petabyte)이다. 여기서 PB는 1000^5 byte에 달하는 엄청난 양의 데이터이다.
https://www.raconteur.net/infographics/a-day-in-data/
웨어러블 기계부터 우리가 하루동안 하는 다양한 검색활동 혹은 SNS활동이 데이터화 된다는 것이 무슨 의미일까?
데이터로 '사람'에 대한 분석이 가능해진다는 것이다.
기업의 입장에서는 자신이 물건을 팔아야하는 '소비자'의 성향에 대해 파악하는 것이 무척 중요하다.
예를 들어 기업입장에서 A라는 소비자에 대해 이해할 수 있다면, 그 소비자가 필요로 하는 것을 생산하여 판매할 수 있고, 그 소비자가 어떤 물건을 주문하기 전에 상품을 해당 소비자 근처 매장으로 가져다두거나, 필요할만한 물품에 대한 브로슈어를 소비자에게 보내서 소비자가 해당 물품을 구매하게 할 수 있다. 이러한 데이터를 기반으로 한 전략으로 성공한 대표적인 기업에는 아마존이 있다.
그렇다면, 이것이 우리가 R을 배워야 하는 이유와 무슨 상관이 있을까?
R은 데이터를 분석할 수 있는 좋은 툴이기 때문이다.
R은 우선 open source에 기반한 프로그램이다. 과거 대학교 통계 강의를 들을 때 사용했던 spss는 개인이 비용을 부담해서 사용하기에는 어려움이 있었지만, R을 open source이기 때문에 전 세계 모든 사람이 돈을 내지 않고 사용할 수 있다. 이는 사용자의 증가로 이어져서 많은 사람들이 사용하는 프로그램 언어가 되었다.
두 번째로 R에는 다양한 패키지들이 있는데, 패키지를 사용하여 다양한 통계기법들을 활용할 수 있다. 물론 패키지명이나, 패키지 안의 함수들에 대해 이해하고 있어야 한다는 단점으로 작용할 수도 있으나, 지속적으로 사용하다보면 자주 사용하는 패키지나 함수가 눈에 익어 큰 문제 없이 사용할 수 있다. 또한 그래픽과 관련된 패키지들(예를 들어 ggplot2)도 있어서 이를 사용하면 분석의 결과를 멋진 그래픽으로 만들 수도 있다.
마지막으로 데이터 마이닝이나, 빅데이터 프로세싱, 기계학습 등에서도 활용될 수 있는 좋은 툴이다.
우리 일상 속 다양할 활동들이 데이터화 되어 저장되고 있다. 데이터가 21세기의 석유라는 이야기가 있지만, 여러분도 알다싶이 석유는 정제를 해서 사용할 때 비로소 의미가 있는 것이다. 지금도 세상에는 여러분들이 사용해주기를 바라는 다양한 데이터들이 여러분의 손에 정제되어 세상 속 빛을 받을 그 날을 기다리고 있다. 데이터 분석 세계로 가기 위한 도구인 R, 이 블로그를 통해 함께 배워보면 좋겠다!
'Business Analytics > R로 기본내용 공부하기' 카테고리의 다른 글
[R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) (0) | 2022.11.19 |
---|---|
머신러닝 알고리즘 공부하기 (1) - R을 통한 knn(K nearest neighbor) (0) | 2021.01.05 |
데이터를 얻을 수 있는 장소 (0) | 2020.12.28 |
R로 기본적인 데이터 분석하기(1) - 데이터 불러오기 (0) | 2020.12.27 |
R 시작하기: R 설치하기 (0) | 2020.12.26 |
댓글