728x90 반응형 Business Analytics/R로 하는 통계검정4 변수 변환 - log 변환, Exp 변환, 박스-콕스 변환(Box-Cox Transformation) 회귀분석을 진행함에 있어서 독립변수를 통해 종속변수를 설명하고자 할 때, 단순히 Raw 한 형태(따로 변환이 없는 상태)의 독립변수는 종속변수에 제대로 Fit하지 못한 경우가 있을 수 있다. 이에 따라 독립변수의 값을 변환하여 회귀모형을 Fitting값을 개선하고자 할 때가 있다. 변환에는 Log변환, Power변환(제곱, 세제곱 등) 등이 있다. (예를 들어 타 분야에서는 잘 하지 않지만, 금융쪽에서는 Mini-Modeling을 통한 변수 변환도 진행한다) 로그나 지수 변환의 경우 변수의 분포가 좌측이나, 우측으로 치우쳐있는 경우 진행하게 된다. 위의 그림과 같이 우측으로 치우친 경우 Exponential 변환을 진행하게 되고, 좌측으로 치우친 경우 log 변환을 진행하게 된다. 각각에 대한 코드는 아.. 2023. 1. 2. R로 하는 가설검정과 확률분포 통계적 검정(Statistical test) 또는 가설검정(Hypothesis test)란, 표본 데이터를 기반으로 하여 우리가 관심을 가지는 모집단에 대한 새로운 주장이 옳고 그름을 확인하는 과정이다. 일반적으로 우리가 관심을 가지는 모든 모집단에 대한 정보를 확인하는 것에는 어려움이 있으므로, 모집단을 충분히 잘 대변해주는 것으로 판단되는 표본 데이터를 바탕으로 가설 검정을 수행하게 된다. 가설검정을 위해 사용하는 중요한 개념은 1) 귀무가설(Null Hypothesis)와 2) 대립가설(Alternative Hypothesis)이다. 1) 귀무가설 귀무가설이란 모집단에 대한 기존의 주장을 의미한다. 가설 검정에서는 귀무가설이 참이라는 가정 하에서 수행된다. 2) 대립가설 대립가설이란 모집단에 대한 .. 2022. 12. 4. R 데이터 불균형 처리(imbalance data) 불균형 데이터란 분류 분석에 있어서 데이터의 분류를 하는 데이터 class가 한쪽으로 치우쳐 있는 상황을 의미한다. 최근에 주변에서 발생하고 있는 가장 대표적인 예시는 코로나 19 검사자에 대한 분석을 진행할 때 음성의 비율이 양성의 비율보다 월등하게 높기 때문에 모델이 제대로 작동하지 않는 상황이 있다(예를 들어 음성의 비율이 99.9%라면, 어떤 분류 모형을 만들었을 때 그 분류모형은 모든 값을 음성으로만 예측하더라도 99.9%의 정확도를 갖는다. 즉 Accuracy는 높은 모형이지만, 현실적으로 크게 의미 없는 모형일 수 있다.) 이를 방지하기 위해 분류를 해야하는 class에 비율을 조정하는 방식을 사용하는데, 이를 불균형 데이터에 대한 처리라 한다. 불균형 데이터의 처리는 크게 3가지 방법이 있.. 2022. 11. 20. R로 하는 비모수검정(Non parametric Statistics) (1) 독립표본 평균검정(윌콕슨 순위합 검정, 크러스칼-왈리스 검정, 프리드만 검정) 추론통계는 모수통계(Parametric Statistics)와 비모수통계(Non parametric Statistics)로 나누어지게 된다. 모수통계는 모집단의 분포를 알고 있다고 가정하고 여기에 맞추어 추론을 진행하게 되는데, 간혹 1) 모집단의 분포에 대해 제대로 알지 못하는 경우, 2) 표본의 크기가 너무 작은 경우(표본 크기가 충분히 큰 경우 중심극한정리를 통해 정규분포를 가정할 수 있음) 3) outlier의 문제가 있는 경우에는 비모수통계를 사용하게 된다. 비모수검정을 진행하는 경우 우선적으로 해당 데이터가 정규성검정을 만족하는지 여부를 파악하게 된다. R에서 데이터의 정규성 검정은 Shapiro-Wilk's Test를 통해 진행하게 된다. x 윌콕슨 순위합 검정(Wilcoxon rank su.. 2022. 9. 12. 이전 1 다음 728x90 반응형