Study Room/Research Methodology

[Research⑨] 가설 설정 및 가설 검정

열린 공동체 사회 2015. 4. 11. 14:22


가설이란
이미 1강에서 충분히 다루었듯이
과학적 조사에 의하여 검정이 가능한 사실로써
두 개 이상의 변수 또는 현상 간의 관계를 검정가능한 형태로 서술한 문장이다.

과학적 연구라는 것 자체가
이러한 가설들을 검정하는 과정이다.

가설에는
귀무 가설 (Null hypothesis; H0)와
대립 가설 (Alternative Hypothesis: H1)이 있다.

귀무 가설이란 기존에 일반적인 사실로 받아들여지고 있는 내용이며,
대립 가설이란 귀무 가설과 반대되는 새롭게 검정하고자 하는  주장이다.

흥미로운 것은 무슨 과학적 연구가
챔피언 타이틀 매치 같은 형태로 진행된다는 것이다.

기존의 연구 내용이 있는데, 
기존에 비해 차이가 있다나 효과가 있다고 증명해내야지,
새로운 가설이 맞다는 것을 인정해준다는 것이다.
(심지어는 동일하다면 기존 연구 내용을 인정해주는 걸로~~)

그래서 가설을 설정할 때는 대립가설을 먼저 설정한 후에
대립 가설에 대응하는 기존의 연구내용을 귀무 가설로 설정하게 된다.
(대립가설과 동의어로 연구가설이라는 말도 사용한다.)

뭔가 거꾸로 된 듯 보이는데.
책에 소개되는 사례를 보면 왜 이렇게 하는지 이해가 간다.

400g짜리 통조림을 수년 동안 생산한 회사에서
실제 중량이 400g이 맞는지 아닌지 확인해 보려고 할 때는 가정해보자.

소비자 단체에서는
'통조림의 무게는 400g보다 작다'는 것을 확인하려고 한다. - 대립 가설

기존의 생각은
'통조림의 무게는 400g보다 크거나 같다. ' 라는 반대의 내용이다. - 귀무가설

기존의 생각과 차이가 있는 내용이 등장하게 되면, 
새로운 주장을 사람들은 받아들여주게 된다.

단, 전제 조건은
두 가설 사이에는 절대 겹쳐서는 안되며, 
두 가설을 합쳤을 때 빠지는 부분이 발생하면 안된다.

+

왜 이런 식으로 접근할까?

이유는 너무나 간단하다.
통계학이라는 학문이 가지는 특성 때문이다.

통계학은 틀린 것은 확인할 수 있다.
하지만, 어떤 내용이 맞는지를 증명해내지는 못한다.

통계학에서 데이터를 돌리면,
이 두 개의 변수는 상관관계가 있는지 없는지만 알려줄뿐
어떤 것이 더 상관관계가 있는지 또는 그 인과관계가 무엇인지 알려주지 못한다.

그래서, 통계학을 사용하는
과학적 분석방법에서는 이런 식으로 가설을 나누고
잘못된 것을 증명해냄으로써, 대립 가설이 맞다는 것을 확인하는 것이다.

이러한 접근이 싫다면,
통계학을 사용하지 않는 연구를 하면 된다.

앞에서 설명한 수 많은 연구들 중에서도
통계학을 사용하지 않는 연구들도 존재하기 때문이다.

하지만, 이 책에서는 통계학을 활용하는 양적인 연구 방법을 주로 다룬다.

+

가설 검정(Test of hypothesis)은
표본을 추출하여 얻은 표본통계량으로 모집단의 모수에 대한
새로운 예상과 가설 등이 옳다고 판단할 수 있는지를 평가하는 것을 말한다. (p.245)

쉽게 말하면,
내가 조사한 데이터를 가지고 전체 모집단에 대입해 봤을 때
새롭게 만든 대립 가설이 맞다고 할 수 있냐고 평가하는 것이다.

이럴 경우 대부분의 접근 것은 귀무 가설이 옳다는 전제 하에
귀무 가설이 옳지 않다고는 것을 증명함으로써 대립가설을 채택하게 만드는 것이다.

실제적으로 많은 연구에서는
이러한 형태의 자신의 세운 가설을 검정하는 과정을 거치게된다.


그래서 대부분의 연구는 

오히려 귀무가설을 중심으로 접근하게 된다.


특히나 재미있는 것은

귀무가설이 완전히 틀리다는 값이 나오지 않는 한 귀무가설이 맞다고 봐준다는 것이다.

(이는 챔피온 타이틀 매치에서 무승부일 경우 챔피온 타이틀 유지와 유사하다.)


그렇다면 완전히 틀리다는 기준은 무엇인가?


그 기준은 귀무가설이 옳다는 전제하에

아주 극단적으로 예외적인 표본의 통계량 값이 나올 가능성이 최대 10% 미만,

대부분의 경우는 5% 미만일 경우에만 귀무가설을 기각시키고 대립가설을 채택한다.


결국은 확률을 가지고 판단한다는 이야기이고,

단순히 통계 수치뿐만 아니라, 표본의 크기에 따라서도 크게 달라진다.


이 때,

귀무가설을 기각할 가능성을

유의수준이라고 하며 α로 표기한다.


+


가설 검정의 방법에는

단측 검정(upper-tail test / lower-tail test)과 양측 검정(two-tail test)가 있다.


단측검정은 큰지 작은지를 판단하는 것이고,

양측검정은 서로 같은지 다른지를 확인하는 것이다.


예를 들면 다음과 같다.

1) 기존 배터리의 평균 수명이 850시간인데, 신제품은 850시간보다 클까? - upper-tail test(단측 검정)

2) 서울 고등학생 평균 영어 성적이 70점인데, 지방 고등학생들은 70점보다 낮을까? - lower-tail test(단측 검정)

3) 10년전 서울의 7월 한낮 평균 기온이 섭씨 30도인데, 요즘에도 여전히 섭씨 30도일까? - 양측 검정


대다수의 경우에서는 양측 검정보다는

단측 검정을 할 수 있도록 가설을 설정하는 경향이 있다.


이유는 동일한 유의수준(α)으로 검정하는 경우

단측검정에서 대립 가설이 채택될 가능성이 높으며, 

단측 검정의 정보가 양측 검정의 정보보다 더 유용하기 때문이다.

(물론 상황에 따라서는 양측 검정을 해야하는 경우가 있기에 이는 잘 판단해야함)


1단계 가설 설정이 끝나면,

2단계 유의수준을 결정하고, (대체로 0.05)

3단계 검정의 종류와 유의 수준을 고려해 임계치를 산출한 후

4단계 가설 채택 여부를 결정하게 된다.


임계치를 산출하게 되면,

이를 표본에서 나온 통계량값과 비교를 해야하는데

비교를 하기 위해서는 사용하는 단위를 동일하게 맞춰야 한다.


대부분의 경우 표본 통계량을 그대로 사용하기보다는

이를 표준화하여 t통계량값으로 변환시킨 다음 이를 t분포상의 임계치와 비교하여 검정한다.

(분산일 경우에는 카이제곱 통계량값이이나 F통계량값으로 치환한 다음 검정한다.)


게 이야기하면 임계치라고 하면

통계로 나온 수치에 대해서 받아들이지 말지 판단하는 기준이라고 보면 되고,

유의수준(α)을 결정하면, 이에 따라서 그냥 산출하면 되는 것이다.





그래프를 살펴 보면,

A1과 A2가 바로 임계치이다.


A1보다 작을 경우, 그리고 A2보다 클 경우에는

임계치를 넘어서기 때문에 귀무가설이 기각이 되고 대립가설이 채택이 되며,


임계치를 넘어서지 않는 A1과 A2 사이에서는

귀무가설이 채택이 되기 때문에 새로 시도한 가설은 기각이 되어 버린다.


+


가설 검정 과정에서

발생할 수 있는 오류에는 1종오류와 2종오류가 있다.


1종 오류(α오류)

실제로는 귀무가설이 옳음에도 불구하고 

매우 예외적인 표본이 추출되어 귀무가설을 기각하고 대립가설을 채택하는 오류이며,


2종 오류(β오류)

대립가설이 옳고 귀무가설이 틀림에도 불구하고

귀무가설을 기각하지 못하고 귀무가설을 채택하게 되는 오류이다.


대부분의 가설 검정 과정은

귀무가설에 집중해서 연구를 하기 때문에,

2종 오류보다는 1종 오류에 더 중점을 두게 되는데,

이 때, 1종 오류가 발생할 실제 확률을 p값(p-value)이라 부른다.



p값(p-value)는

산출된 통계치와 같거나 더 극단적인 값이 나올 확률을 의미하는데,


p값이 유의수준(α)보다 작다는 것은

표본 조사를 통해 얻은 수치가 매우 극단적인 값이라는 이야기이다.


좀 더 쉽게 이야기하면,

귀무가설이 옳다는 전제 하에 연구한다고 했으니,

매우 극단적인 값이 나온다는 이야기는 전제가 잘못됐다는 이야기와 같다. 


그러므로 결론적으로는,

p값이 유의수준(α)보다 작다는 것은

귀무가설이 기각되고, 대립가설이 채택된다는 것이다.
(연구하는 사람 입장에서는 원하는 바를 얻은 것이기 때문에 p값이 작으면 좋은 것이다.)


여기서 주의할 점 중에 하나는

일반적인 통계 패키지에서는 항상 양측검정을 전제로 데이터가 나오기 때문에

단측검정인 경우에는 산출된 p값의 1/2이 진정한 p값임을 유의하여 가설 채택을 해야한다.


이 관점에서 본다면,

유의수준(α)는 1종 오류가 발생할 확률의 최대 허용치가 된다.


그러므로, 유의수준(α)을 결정한다는 것은

1종 오류가 발생할 확률의 최대 허용치를 결정한다는 것이 되고,


p값이 유의수준(α)보다 작다는 의미는

1종 오류가 발생하더라도 그 정도는 봐주겠다는 의미로 볼 수 있다.


이런 관점에서 보면,

p값이 작을수록 귀무가설이 기각될 확률이 높아지므로,

p값은 되도록이면 작을 수록 좋다는 기술적인 결론이 나온다.

(왜 p값이 작을수록 좋은지는 모르더라도, 이 부분은 명확하게 기억해야만 한다.)


+


이제 마지막 남은 과제는

모집단에 대한 가설검정을 진짜로 대입해보는 것이다.

(원래 연구 목적 자체가 모집단을 알아보기 위한 것이였으니 너무나 당연한 일이다.)


가설검정의 방법들에 대해서는

앞에서 언급한 4단계를 거쳐서 이루어지게 된다.


가설 설정 - 유의 수준 결정 - 임계치 산출 - 가설 채택 여부 결정


실전에서 추가로 주의할 점은

모집단의 특성과 검정할 통계량의 종류가 무엇이냐의 문제이다.


1) 모집단의 특성

  - 단일 모집단이냐 두개 이상의 모집단이냐,

  - 단일 모집단일 경우에도 쌍체비교를 할 것이냐 말것이냐,

  - 두개 이상의 집단을 비교할 때는 표본오차를 무엇으로 볼 것인가


2) 검정할 통계량의 종류

  - 평균이나 비율에 대한 가설 검정이냐

  - 분산에 대한 가설 검정이냐


이러한 특징들에 따라서 적용하는 데이터와 방식이 달라지게 된다.


다행히 나의 경우에는

단일 모집단의 평균만 비교하게 될 것이므로~~

추가적으로 복잡한 내용들에 대해서는 그냥 pass 하면 된다.


+


뭐 이렇게 복잡한가...

정리하면서 머리가 많이 아프다...


하지만,

첨단 기술의 발전으로

개념만 명확히 이해하고 있으면 된다.


검정방법에 있어서,

앞에서 언급한 적이 있는

측정된 통계량을 표준화하여 임계치와 비교한 후

귀무가설을 채택할지, 기각할지 결정하는 방식이 정석이나~


이 방법보다는

p값을 구한 후 p값이 유의수준(α)보다 작으면

대립가설을 채택하는 아주 컴팩트한 방법을 사용한다.


유의수준(α)은 대체적으로

0.05 또는 0.1로 설정하기 때문에,

p값만 구하면 가설검증이 가능하다는 이야기다.


그리고 결정적으로

통계패키지(SPSS)에 데이터를 입력하고 돌리면~

p값도 알아서 구해주고, 심지어 그래프 까지 그려준다는...


하지만, 아무리 그렇다고 하여도~


기본 원리를 이해하지 못하면

중간 과정에서 오류가 발생할 수 밖에 없고,

제대로된 데이터를 획득할 수도 없게 되어버린다.


역시 세상에 괜히 배우는 것은 없다~