Statistical Analysis/R (22) 썸네일형 리스트형 [R] Linear Regression, 선형 회귀분석(4) - 고차항/상호작용항 https://sw-tatistics.tistory.com/47?category=1054291 [R] Linear Regression, 선형 회귀분석(3) - 변수 변환 https://sw-tatistics.tistory.com/46 [R] Linear Regression, 선형 회귀분석(2) - 변수 선택법 https://sw-tatistics.tistory.com/42 [R] Linear Regression, 선형 회귀분석(1) 선형 회귀분석은, 독립 변수와 종.. sw-tatistics.tistory.com 이전 포스팅에서 종속 변수를 log변환하여 모형을 만들었다. 그 결과, 잔차 그래프는 조금 더 만족스러웠지만, 성능이 감소했다. 이번엔 떨어진 성능을 올려보도록 하자. 모형의 성능을 향상시키기 .. [R] Linear Regression, 선형 회귀분석(3) - 변수 변환 https://sw-tatistics.tistory.com/46 [R] Linear Regression, 선형 회귀분석(2) - 변수 선택법 https://sw-tatistics.tistory.com/42 [R] Linear Regression, 선형 회귀분석(1) 선형 회귀분석은, 독립 변수와 종속 변수 간 관계를 수리적 함수로 만드는 것이다. 함수로 만드는 목적은 단순 명료하다. 함수로.. sw-tatistics.tistory.com 이전 포스팅에서 변수 선택법을 통해 newpaper 변수를 제거하기로 했다. 잔차 그래프가 썩 마음에 들지 않아 조금 더 해보려 한다. 변수 변환은 도메인 지식에 의해 시행될 때도 있고, 기술/경험적으로 모형의 성능을 향상시키기 위해서 사용되기도 한다. 이번에는 종속 변.. [R] Linear Regression, 선형 회귀분석(2) - 변수 선택법 https://sw-tatistics.tistory.com/42 [R] Linear Regression, 선형 회귀분석(1) 선형 회귀분석은, 독립 변수와 종속 변수 간 관계를 수리적 함수로 만드는 것이다. 함수로 만드는 목적은 단순 명료하다. 함수로 표현함으로써 독립 변수를 이용해 종속 변수를 예측할 수 있고, sw-tatistics.tistory.com 이전 포스팅에서 간단한 회귀 모형을 만들어 보았다. 해당 모형도 통계적 가정이 조금 아쉬울 뿐이지 성능적으로는 나쁘지 않다고 볼수도 있지만... 그래도 개선시킬 여지가 있어보이니 조금만 더 해보자. 모형을 개선시키는 방법에는 여러가지가 있겠지만, 불필요한 독립 변수를 제거하는 것도 하나의 방법이다. 불필요한 변수가 들어간다면, 쓸데없이 모형이 복잡해질.. [R] Linear Regression, 선형 회귀분석(1) 선형 회귀분석은, 독립 변수와 종속 변수 간 관계를 수리적 함수로 만드는 것이다. 함수로 만드는 목적은 단순 명료하다. 함수로 표현함으로써 독립 변수를 이용해 종속 변수를 예측할 수 있고, 독립 변수가 종속 변수에 어떤 영향을 끼치는지 알 수 있다. 회귀 분석의 가정은 다음과 같다. 1. 선형성 : 독립 변수와 종속 변수는 선형 관계를 가진다. 2. 등분산성 : 잔차의 분산은 동일하다. 3. 정규성 : 잔차는 정규성을 가진다. 4. 독립성 : 잔차는 독립적이다. 여기서 잔차라 함은, 종속 변수의 실제 값과 회귀분석 식에 의한 예측 값의 차이이다. 회귀 분석에는 2가지 검정이 포함되어 있다. 첫 번째는 F 검정이다. F검정은 회귀 모형 자체가 유의한 지 검정하는 것이다. 두 번째는 T 검정이다. T검정은 .. [R] Spearman correlation coefficient(스피어만 상관 계수), Kendall Tau coefficient(켄달 타우 계수) 둘 다 동일한 목적을 가지고 있기 때문에 스피어만 상관 계수, 켄달 타우 계수는 동시에 같이 해보려 한다. 피어슨 상관 계수처럼 두 변수 간 상관 관계를 나타내는 수치지만, 조금 다르다. 피어슨 상관 계수는 변수를 연속형으로 취급하기 때문에 선형 관계를 의미하지만, 얘네들은 변수를 순서형으로 취급하기 때문에 거기서 오는 차이가 조금 있다. 우선 가정에서부터 차이가 있다. 1. 두 변수는 적어도 순서형 변수이다. 2. 두 변수는 단조 관계를 가진다. 여기서 말하는 단조 관계라는 것은 산점도를 그렸을 때, 계속 감소하거나 계속 증가하는 형태를 의미한다. 또한, 변수를 순서형으로 취급하기 때문에 이상치에 덜 민감하다. 가설은 피어슨 상관 계수와 동일하다. - 귀무 가설 : 상관 계수는 0이다. - 대립 가설 .. [R] Pearson correlation coefficient, 피어슨 상관 계수 피어슨 상관 계수는 두 변수의 선형 상관 관계를 계량화한 수치이다. 결과값은 -1~1 사이의 값을 가지고, 1에 가까울수록 양의 상관 관계를 의미하고, -1에 가까울수록 음의 상관 관계를 의미한다. 그리고 값이 0에 가까울수록 선형 관계가 없다는 뜻이다. 가정은 다음과 같다. 1. 두 변수는 연속형 변수이다. 2. 두 변수는 정규분포를 따른다. (한 변수만 정규분포여도 된다는 말이 있으나 이론적으로는 둘 다 따라야한다.) 3. 두 변수는 선형 관계를 가진다. 추가적으로 이상치에 영향을 많이 받으니 산점도를 확인해보는 것이 좋다. 가설은 다음과 같다. - 귀무 가설 : 상관 계수는 0이다. - 대립 가설 : 상관 계수는 0이 아니다. 따라서, 상관 분석의 결과로 귀무 가설을 기각하지 못 한다면, 상관 계수.. [R] exact McNemar test, 정확 맥니마 검정 정확 맥니마 검정은... 사실 정확한 표현인지는 잘 모르겠다. 카이제곱 검정에서 가정이 만족되지 못할 때, 정확 검정을 사용하는 느낌이라고만 생각해도 될 듯..? 어쨌든 정확 맥니마 검정도 마찬가지다. 맥니마 검정에서 가정이 만족되지 못할 때 사용한다. 따라서, 만족해야할 가정은 하나이다. 대응표본으로 이루어진 표본에서 2x2 빈도표를 만들 수 있으면 된다. 참고로, 맥니마 검정은 아래 표 기준으로 b+c > 25가 되어야 한다. 이외에 가설이나 과정들은 맥니마 검정과 동일하다고 보면 된다. # 데이터 불러오기 sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/12. exact Mcnemar test.csv", header = T) # table.. [R] McNemar test, 맥니마 검정 맥니마 검정은 2x2 빈도표에서 사용하는 카이제곱 검정이라고 보면 된다. 근데 더 중요한 점은 표본이 대응 표본이라는 점이다. 가정은 다음과 같다. 1. 표본이 대응 표본이다. 2. 아래 빈도표 기준으로 b + c > 25이어야 한다. 가설은 다음과 같다. 간단하게 생각하면, "test1에서 음성일 확률과 test2에서 음성일 확률이 같을까?" 라는 의미로 볼 수 있고, 이는 결국, "test1과 test2가 차이가 있을까?" 라는 뜻으로도 생각할 수 있다. # 데이터 불러오기 sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/11. Mcnemar test.csv", header = T) # table tab = table(sample) tab .. [R] Fisher's exact test, 피셔의 정확 검정 피셔의 정확 검정은 카이제곱 검정의 가정에서 독립성 가정만 충족할 때 사용한다. 따라서, 독립성 가정만 충족하면 사용할 수 있다. 가설은 카이제곱 검정과 동일하다. - 귀무 가설 : 두 변수는 서로 독립적이다. - 대립 가설 : 두 변수는 서로 독립적이지 않다. 카이제곱 검정의 2번 가정이, "기대 빈도가 5 미만인 셀은 전체 셀의 20% 미만이어야 한다"인데, 예제를 통해 이게 무슨 뜻인지 알아보자. # 데이터 불러오기 sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/10. Fisher exact test.csv", header = T) # table tab = table(sample) tab # chi-sq test model = chisq.. [R] Chi-square test, 카이제곱 검정 카이제곱 검정은 2개의 명목형 변수를 대상으로 연관성에 대해 확인할 때 사용한다. 확인해야 하는 가정은 다음과 같다. 1. 독립성 가정 : 한 명의 대상에게서 하나의 관측치를 얻어야 한다. 2. 기대 빈도가 5 미만인 셀은 전체 셀의 20% 미만이어야 한다. 기대 빈도라거나 전체 셀의 20% 미만이라는 말이 어색할 수 있다. 2번 가정은 프로그램에서 자체적으로 알려주기도 하니 너무 걱정하지 말자. 가설은 다음과 같다. - 귀무 가설 : 두 변수는 서로 독립적이다. - 대립 가설 : 두 변수는 서로 독립적이지 않다. # 데이터 불러오기 sample = read.csv("F:/Sw-tastics/Statistics Analysis/example/09. Chi-square test.csv", header = .. 이전 1 2 3 다음