본문 바로가기

Statistical Analysis/R

[R] Pearson correlation coefficient, 피어슨 상관 계수

피어슨 상관 계수는

두 변수의 선형 상관 관계를 계량화한 수치이다.

결과값은 -1~1 사이의 값을 가지고,

1에 가까울수록 양의 상관 관계를 의미하고,

-1에 가까울수록 음의 상관 관계를 의미한다.

그리고 값이 0에 가까울수록 선형 관계가 없다는 뜻이다.

 

가정은 다음과 같다.

1. 두 변수는 연속형 변수이다.

2. 두 변수는 정규분포를 따른다.

(한 변수만 정규분포여도 된다는 말이 있으나 이론적으로는 둘 다 따라야한다.)

3. 두 변수는 선형 관계를 가진다.

추가적으로 이상치에 영향을 많이 받으니 산점도를 확인해보는 것이 좋다.

 

가설은 다음과 같다.

- 귀무 가설 : 상관 계수는 0이다.

- 대립 가설 : 상관 계수는 0이 아니다.

 

따라서, 상관 분석의 결과로 귀무 가설을 기각하지 못 한다면, 상관 계수가 의미 없다.


# 데이터 불러오기
sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/13. correlation analysis.csv", header = T)

# 산점도
pairs(sample)

# 정규성
apply(sample, 2, shapiro.test)

# Pearson
library(psych)
corr.test(sample,
          use = 'complete',
          method = 'pearson',
          adjust = 'none')

13. correlation analysis.csv
0.01MB

간단한 데이터로 절차만 훑어보자.

 

# 데이터 불러오기
sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/13. correlation analysis.csv", header = T)

# 산점도
pairs(sample)

산점도를 보면 선형 관계를 보기에 큰 문제는 없어 보인다.

 

# 정규성
apply(sample, 2, shapiro.test)

각 변수에 대해 정규성 검정을 해보자.

VAR2를 제외하면 정규성이 맞진 않지만, 그냥 하도록 하자.

실제로 분야에 따라 굳이 체크 안 하는 경우도 많더라..

 

# Pearson
library(psych)
pearson = corr.test(sample,
          use = 'complete',
          method = 'pearson',
          adjust = 'none')
pearson$r
pearson$p

피어슨 상관 분석 결과,

모든 변수 간 상관 계수는 유의한 것으로 나온다.

따라서, 상관 계수를 참고하여 두 변수의 선형 관계를 확인하면 된다.