본문 바로가기

Statistical Analysis/R

[R] Chi-square test, 카이제곱 검정

카이제곱 검정은

2개의 명목형 변수를 대상으로 연관성에 대해 확인할 때 사용한다.

 

확인해야 하는 가정은 다음과 같다.

1. 독립성 가정 : 한 명의 대상에게서 하나의 관측치를 얻어야 한다.

2. 기대 빈도가 5 미만인 셀은 전체 셀의 20% 미만이어야 한다.

 

기대 빈도라거나 전체 셀의 20% 미만이라는 말이 어색할 수 있다.

2번 가정은 프로그램에서 자체적으로 알려주기도 하니 너무 걱정하지 말자.

 

가설은 다음과 같다.

- 귀무 가설 : 두 변수는 서로 독립적이다.

- 대립 가설 : 두 변수는 서로 독립적이지 않다.


# 데이터 불러오기
sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/09. Chi-square test.csv", header = T)

# table
tab = table(sample)

# chi-sq test
model = chisq.test(tab)

# 기대 빈도
model$expected

# result
model

09. Chi-square test.csv
0.00MB

 

간단한 예제를 살펴보자.

 

# 데이터 불러오기
sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/09. Chi-square test.csv", header = T)

국적과 좋아하는 영화 장르에 대한 설문조사를 했다고 하자.

각각의 숫자는 특정 국가와 특정 장르는 의미한다.

 

# table
tab = table(sample)
tab

빈도표를 확인해보자.

 

# chi-sq test
model = chisq.test(tab)

# 기대 빈도
model$expected

# result
model

기대 빈도가 5 미만인 셀이 존재하지 않는다.

따라서, 가정을 만족한다.

어떤 경우에 가정을 만족하지 않는지는 다음에 알아보자.

 

p-value가 매우 낮으므로 귀무가설을 기각한다.

따라서, 대립 가설인 "국가"와 "선호하는 영화 장르" 간에는 서로 어떤 연관이 있다는 결론을 얻는다.