본문 바로가기

728x90

r7

ADP 통계 문제 및 연습(제 22회차) 22회차 통계 문제 문제1. 금속 성분 함유량 데이터(변수 1개) 제품에 금속 재질 함유량의 분산이 1.3을 넘으면 불량이라고 보고 있는데 제조사별로 차이가 난다고 제보를 받았으며, 분산에 대해 검정을 수행하시오. (유의확률 0.05) 데이처 출처 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/content.csv 1) 연구가설과 귀무가설 작성 연구 가설 : 서로 다른 제조업체의 제품 간 금속 함량의 분산이 1.3과 같다 귀무 가설 : 서로 다른 제조업체의 제품 간 금속 함량의 분산이 1.3과 유의미하게 다르다 2) 양측 검정 시행 library(dplyr) library(data.table) #데이터 불러오기 data 2023. 2. 5.

[R로 하는 데이터 분석] 기초 데이터 확인하기 (데이터 EDA) R로 데이터 분석을 진행할 때는 기본적으로 데이터에 대한 진단을 진행해야 합니다. 데이터 진단의 방법은 아래와 같습니다. 1. 데이터 확인하기 데이터는 기본적으로 연속형 데이터거나 범주형 데이터입니다. dlookr 패키지의 diagnose 계열 함수들을 활용하면, 데이터에 대한 진단값을 확인해볼 수 있습니다. dlookr 패키지의 활용 방안은 아래와 같습니다. 1. 데이터 진단(EDA 차원) 2. 결측치 확인 3. 수치형 데이터에 대해 좀 더 명확히 파악하기 4. 범주형 데이터에 대해 좀 더 명확히 파악하기 5. 아웃라이어에 대해 명확히 파악하기 6. 기술통계량 확인하기 7. 상관관계표 생성하기 #패키지 불러오기 library(dlookr) library(tidyverse) # 데이터 진단하기 # 데이터.. 2022. 11. 19.

R로 하는 비모수검정(Non parametric Statistics) (1) 독립표본 평균검정(윌콕슨 순위합 검정, 크러스칼-왈리스 검정, 프리드만 검정) 추론통계는 모수통계(Parametric Statistics)와 비모수통계(Non parametric Statistics)로 나누어지게 된다. 모수통계는 모집단의 분포를 알고 있다고 가정하고 여기에 맞추어 추론을 진행하게 되는데, 간혹 1) 모집단의 분포에 대해 제대로 알지 못하는 경우, 2) 표본의 크기가 너무 작은 경우(표본 크기가 충분히 큰 경우 중심극한정리를 통해 정규분포를 가정할 수 있음) 3) outlier의 문제가 있는 경우에는 비모수통계를 사용하게 된다. 비모수검정을 진행하는 경우 우선적으로 해당 데이터가 정규성검정을 만족하는지 여부를 파악하게 된다. R에서 데이터의 정규성 검정은 Shapiro-Wilk's Test를 통해 진행하게 된다. x 윌콕슨 순위합 검정(Wilcoxon rank su.. 2022. 9. 12.

머신러닝 알고리즘 공부하기 (1) - R을 통한 knn(K nearest neighbor) 머신러닝 방법 중에는 KNN(K Nearest Neighbor) 기법이 있다. 이는 쉽게 생각해서 K번째 최근접 이웃이라는 뜻이다. 여기서 근접의 개념을 이해하기 위해서는 거기를 어떻게 구할 것이냐의 이해가 있어야 하는데, 여기에서는 유클리디언 거리를 사용한다. 유클리디언 거리공식은 아래와 같다. 그림을 통해 생각해보자 이미 파란색, 빨간색, 초록색 그룹으로 구별되어 있는 집단이 있다고 생각해보자. 여기서 새로운 노란색 점이 생기면, 이를 어떤 집단으로 구별해야 하는지를 정해야 한다. 이때 가장 가까운 k개의 점을 봐서 노란점은 무슨 집단에 들어가야 한다고 정해주는 것이 knn 방법이다. 위의 그림의 경우 파란색 집단과는 3개, 노란색과는 2개, 초록색과는 1개의 최근접 점이 있으므로 파란색으로 분류가 .. 2021. 1. 5.

이전 1 2 다음

728x90

티스토리툴바