본문 바로가기
728x90
반응형

분류 전체보기31

R 데이터 불균형 처리(imbalance data) 불균형 데이터란 분류 분석에 있어서 데이터의 분류를 하는 데이터 class가 한쪽으로 치우쳐 있는 상황을 의미한다. 최근에 주변에서 발생하고 있는 가장 대표적인 예시는 코로나 19 검사자에 대한 분석을 진행할 때 음성의 비율이 양성의 비율보다 월등하게 높기 때문에 모델이 제대로 작동하지 않는 상황이 있다(예를 들어 음성의 비율이 99.9%라면, 어떤 분류 모형을 만들었을 때 그 분류모형은 모든 값을 음성으로만 예측하더라도 99.9%의 정확도를 갖는다. 즉 Accuracy는 높은 모형이지만, 현실적으로 크게 의미 없는 모형일 수 있다.) 이를 방지하기 위해 분류를 해야하는 class에 비율을 조정하는 방식을 사용하는데, 이를 불균형 데이터에 대한 처리라 한다. 불균형 데이터의 처리는 크게 3가지 방법이 있.. 2022. 11. 20.
[R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) R로 데이터 분석을 진행할 때는 기본적으로 데이터에 대한 진단을 진행해야 합니다. 데이터 진단의 방법은 아래와 같습니다. 1. 데이터 확인하기 데이터는 기본적으로 연속형 데이터거나 범주형 데이터입니다. dlookr 패키지의 diagnose 계열 함수들을 활용하면, 데이터에 대한 진단값을 확인해볼 수 있습니다. dlookr 패키지의 활용 방안은 아래와 같습니다. 1. 데이터 진단(EDA 차원) 2. 결측치 확인 3. 수치형 데이터에 대해 좀 더 명확히 파악하기 4. 범주형 데이터에 대해 좀 더 명확히 파악하기 5. 아웃라이어에 대해 명확히 파악하기 6. 기술통계량 확인하기 7. 상관관계표 생성하기 #패키지 불러오기 library(dlookr) library(tidyverse) # 데이터 진단하기 # 데이터.. 2022. 11. 19.
R로 하는 비모수검정(Non parametric Statistics) (1) 독립표본 평균검정(윌콕슨 순위합 검정, 크러스칼-왈리스 검정, 프리드만 검정) 추론통계는 모수통계(Parametric Statistics)와 비모수통계(Non parametric Statistics)로 나누어지게 된다. 모수통계는 모집단의 분포를 알고 있다고 가정하고 여기에 맞추어 추론을 진행하게 되는데, 간혹 1) 모집단의 분포에 대해 제대로 알지 못하는 경우, 2) 표본의 크기가 너무 작은 경우(표본 크기가 충분히 큰 경우 중심극한정리를 통해 정규분포를 가정할 수 있음) 3) outlier의 문제가 있는 경우에는 비모수통계를 사용하게 된다. 비모수검정을 진행하는 경우 우선적으로 해당 데이터가 정규성검정을 만족하는지 여부를 파악하게 된다. R에서 데이터의 정규성 검정은 Shapiro-Wilk's Test를 통해 진행하게 된다. x 윌콕슨 순위합 검정(Wilcoxon rank su.. 2022. 9. 12.
2022년 군인 월급(장교, 준사관, 부사관, 병/ 사관학교, ROTC, 공군항공과학고등학교 등) "요즘 군대는 옛날 군대랑은 다르지! 월급도 많이 받고, 병영악습도 없고 ..." 사람들이 군인들을 보면서 항상 하는 이야기다. 그렇다면 올해 기준 군인들 및 군인이 되기를 준비하는 사람들이 어느 정도의 월급을 받는지 확인해보도록 하자. 1. 장교 장교로 처음 군대에 입대하게 되면, 법무관, 군의관 등 특이 직렬이 아닌 이상 대부분 소위로 임관하게 된다. 소위 임관 루트에 따라 호봉이 달라지기는 하지만, 가장 기본적인 소위 1호봉의 월급은 약 175만 원 정도이다. 2021년 기준 약 172만 원, 2020년 기준 171만 원에서 상승하고 있기는 하나, 정말 조금씩 올라가고 있는 상황이다. 최근 ROTC 지원률이 날이 갈수록 떨어지고 있는 상황도 이와 무관하지 않을 것 같다(참고: [유용원의 밀리터리 시.. 2022. 6. 12.
728x90
반응형