728x90 반응형 Business Analytics11 변수 변환 - log 변환, Exp 변환, 박스-콕스 변환(Box-Cox Transformation) 회귀분석을 진행함에 있어서 독립변수를 통해 종속변수를 설명하고자 할 때, 단순히 Raw 한 형태(따로 변환이 없는 상태)의 독립변수는 종속변수에 제대로 Fit하지 못한 경우가 있을 수 있다. 이에 따라 독립변수의 값을 변환하여 회귀모형을 Fitting값을 개선하고자 할 때가 있다. 변환에는 Log변환, Power변환(제곱, 세제곱 등) 등이 있다. (예를 들어 타 분야에서는 잘 하지 않지만, 금융쪽에서는 Mini-Modeling을 통한 변수 변환도 진행한다) 로그나 지수 변환의 경우 변수의 분포가 좌측이나, 우측으로 치우쳐있는 경우 진행하게 된다. 위의 그림과 같이 우측으로 치우친 경우 Exponential 변환을 진행하게 되고, 좌측으로 치우친 경우 log 변환을 진행하게 된다. 각각에 대한 코드는 아.. 2023. 1. 2. R로 하는 가설검정과 확률분포 통계적 검정(Statistical test) 또는 가설검정(Hypothesis test)란, 표본 데이터를 기반으로 하여 우리가 관심을 가지는 모집단에 대한 새로운 주장이 옳고 그름을 확인하는 과정이다. 일반적으로 우리가 관심을 가지는 모든 모집단에 대한 정보를 확인하는 것에는 어려움이 있으므로, 모집단을 충분히 잘 대변해주는 것으로 판단되는 표본 데이터를 바탕으로 가설 검정을 수행하게 된다. 가설검정을 위해 사용하는 중요한 개념은 1) 귀무가설(Null Hypothesis)와 2) 대립가설(Alternative Hypothesis)이다. 1) 귀무가설 귀무가설이란 모집단에 대한 기존의 주장을 의미한다. 가설 검정에서는 귀무가설이 참이라는 가정 하에서 수행된다. 2) 대립가설 대립가설이란 모집단에 대한 .. 2022. 12. 4. R 데이터 불균형 처리(imbalance data) 불균형 데이터란 분류 분석에 있어서 데이터의 분류를 하는 데이터 class가 한쪽으로 치우쳐 있는 상황을 의미한다. 최근에 주변에서 발생하고 있는 가장 대표적인 예시는 코로나 19 검사자에 대한 분석을 진행할 때 음성의 비율이 양성의 비율보다 월등하게 높기 때문에 모델이 제대로 작동하지 않는 상황이 있다(예를 들어 음성의 비율이 99.9%라면, 어떤 분류 모형을 만들었을 때 그 분류모형은 모든 값을 음성으로만 예측하더라도 99.9%의 정확도를 갖는다. 즉 Accuracy는 높은 모형이지만, 현실적으로 크게 의미 없는 모형일 수 있다.) 이를 방지하기 위해 분류를 해야하는 class에 비율을 조정하는 방식을 사용하는데, 이를 불균형 데이터에 대한 처리라 한다. 불균형 데이터의 처리는 크게 3가지 방법이 있.. 2022. 11. 20. [R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) R로 데이터 분석을 진행할 때는 기본적으로 데이터에 대한 진단을 진행해야 합니다. 데이터 진단의 방법은 아래와 같습니다. 1. 데이터 확인하기 데이터는 기본적으로 연속형 데이터거나 범주형 데이터입니다. dlookr 패키지의 diagnose 계열 함수들을 활용하면, 데이터에 대한 진단값을 확인해볼 수 있습니다. dlookr 패키지의 활용 방안은 아래와 같습니다. 1. 데이터 진단(EDA 차원) 2. 결측치 확인 3. 수치형 데이터에 대해 좀 더 명확히 파악하기 4. 범주형 데이터에 대해 좀 더 명확히 파악하기 5. 아웃라이어에 대해 명확히 파악하기 6. 기술통계량 확인하기 7. 상관관계표 생성하기 #패키지 불러오기 library(dlookr) library(tidyverse) # 데이터 진단하기 # 데이터.. 2022. 11. 19. 이전 1 2 3 다음 728x90 반응형