22회차 통계 문제
문제1. 금속 성분 함유량 데이터(변수 1개) 제품에 금속 재질 함유량의 분산이 1.3을 넘으면 불량이라고 보고 있는데 제조사별로 차이가 난다고 제보를 받았으며, 분산에 대해 검정을 수행하시오. (유의확률 0.05)
데이처 출처 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/content.csv
1) 연구가설과 귀무가설 작성
연구 가설 : 서로 다른 제조업체의 제품 간 금속 함량의 분산이 1.3과 같다
귀무 가설 : 서로 다른 제조업체의 제품 간 금속 함량의 분산이 1.3과 유의미하게 다르다
2) 양측 검정 시행
library(dplyr)
library(data.table)
#데이터 불러오기
data <- fread("데이터 위치/content.csv")
# data에 있는 content컬럼의 sample variance 구하기
Metal_Content_var <- var(data$content)
# Two-sided test을 통해 분산이 1.3과 유의미하게 차이나는지 확인
critical_value <- qchisq(0.05/2, df = length(data$content) - 1)
# 확인해보기 (1 : 분산이 1.3과 유의미하게 차이가 난다, 0: 분산이 1.3과 유의미한 차이가 나지 않는다.)
ifelse(Metal_Content_var > critical_value || Metal_Content_var < 1.3/critical_value, 1,0)
3) 검정통계량, 가설채택
위의 마지막 코드의 값이 1이므로, 귀무가설을 기각
문제 2.
Lot별 200개에 대한 불량 제품 수량 데이터(변수는 총 2개 - lot번호, 불량제품수)가 있을 때 아래 사항을 계산하시오.
데이터 출처 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/error.csv
1) 불량률 관리도에 따라 관리중심선(CL : Center Line), 관리 상한선(UCL : Upper Control Limit), 하한선(LCL : Lower Control Limit) 구하기
# 데이터 불러오기
data <- fread("데이터 위치\\error.csv")
# error case number에 대해 평균, 표준편차 구하기
mean_defects <- mean(data$error_case_number)
sd_defects <- sd(data$error_case_number)
# center line (CL), upper control limit (UCL), and lower control limit (LCL) 구하기
CL <- mean_defects
UCL <- mean_defects + 3 * sd_defects
LCL <- mean_defects - 3 * sd_defects
2) 관리도 시각화
문제 3. 상품 a와 b가 있을 때 다음과 같은 구매 패턴이 있다고 한다. aa bb aaaa bbbb a b aa bb aa bbb aa bb a b 구매하는 패턴으로 보아 두 상품의 패턴이 임의적인지 확인하라
# 패턴 입력하기
library(randtests)
pattern <- c(1, 4, 4, 1, 1,2,2,2,3,2,2,1,1)
# Run test 수행하기
runs.test(pattern)
# alternative = c("two.sided", "left.sided", "right.sided") # two-sided가 디폴트임
#향후 추가 확인 필요
위의 결과를 통해 확인해볼 때, 귀무가설을 기각하지 못하고, Random이다라는 결론을 내릴 수 있음
혹시 문제 풀이에 이상이 있다면 말씀 부탁드립니다.
문제 출처 : 통계 200문제 — DataManim
'ADP 준비 > 통계' 카테고리의 다른 글
ADP 통계 문제 및 연습(제 23회차) (0) | 2023.02.15 |
---|
댓글