Study Room/Research Methodology

[Research⑫] 분산분석 (ANOVA)

열린 공동체 사회 2015. 5. 13. 21:28


집단 간의 평균 차이를 검정할 때는  t검정을 활용한다.

하지만, 집단이 3개 이상이 되면 한 번에 분석하기 어려워진다.


이렇게 3개 이상의 집단 간 평균을 검정할 때

사용하는 분석방법이 분산분석(Analysis of Variance) 이다.


흥미로운 점은

평균 차이를 비교하는데, 분산의 개념을 활용한다는 점이다.


평균을 직접 비교하지 않고,

분산을 통한 방식으로 평균 비교가 가능하다는 이야기인데,


그 이유는

집단의 평균들이

멀리 떨어져 분산이 크면 클수록

집단간의 평균들이 서로 다르기 때문이다.


교재에 나온 사례와 표를 보면 좀 더 명확해진다.

(source: 이훈영의 연구방법론 p.359)


그래프를 보면

평균의 차이를 만드는 2가지 요인을 확인할 수 있다.


경영학과의 학년별 평균차이가

경제학과나 행정학과보다 명확하게 나타난다.


집단 평균들 간의 분산이 클수록

그리고, 집단 내 분산이 작아질수록 평균의 차이가 분명해진다. 


'집단 간 분산'과 '집단 내 분산'

이 두가지를 분산값을 이용해 평균을 비교하기에,

이러한 판단 방법을 분산분석이라고 부르게 된 것이다.


+


분산분석은 독립변수와 종속변수의 수에 따라서 분류된다.


(source: 이훈영의 연구방법론 p.363)


일원분산분석은

독립변수 1개에 종속변수도 1개인 경우에

집단간 종속변수의 평균차이를 분석하는 방법이다.


왠지 굉장히 단순한 것으로 예상했으나~~

그 원리와 수식을 읽고 있으려니... 요놈이 좀 만만치 않다.


일단, 분산의 편차에 주목한다.


(source: 이훈영의 연구방법론 p.365)


총 편차는 집단 간 편차와 집단 내 편차의 합으로 표기하며,

절대값 대신 편차를 제곱한 값을 가지고 비교를 하는데,

관측치와 집단의 수에 따라서 크기가 달라지지 않도록

제곱합을 사용하기보다는 평균제곱을 사용하여 분석을 한다.

(평균제곱은 제곱합을 해당 자유도로 나눈 값을 의미함)


이러한 평균 제곱 간의 비

(집단 간 평균 제곱 / 집단 내 평균 제곱)를

검정통계량  F라 하며, 이 차이가 통계적으로 유의한지를

분석함으로써, 평균이 모두 같다는 귀무가설을 검증하게 된다.


유의성 검증 결과

F값이 임계치보다 작을 경우

귀무가설이 채택되고, 모두 같다는 결론에 이르게 되고,

반대일 경우, 모두 같지 않다는 연구 가설을 채택하게 된다.


+


2개의 독립 변수가 종속변수에 영향을 미치는

이원분산분석의 경우에는 좀 더 복잡해진다.


일단, 각각의 독립변수가 종속 변수에 미치는 영향을 주효과라 하며,

2개의 독립변수가 동시에 작용하여 미치는 영향을 상호작용효과라 한다.


주효과 검정만 가능한 이원분산분석이 있고,

주효과와 상호작용효과 검증이 가능한 이원분산분석이 있다.


주효과 검정만 가능한 이원분산분석은

모든 집단에 있는 오직 1개씩의 관측치만 있을 때를 의미한다.


일원분산분석보다 독립변수만 1개 더 늘은 것으로 보면 된다.

그렇기 때문에 전반적인 프로세스가 일원분산분석과 유사하다.

(2개의 일원분산분석을 수행하는 것과 같이 생각해도 될 정도)


결정적인 차이는 2가지 요인의 효과를 동시에 다루기 때문에

2가지 요인에 대한 가설검정을 별도로 구분해야 한다는 점이다.


하지만,

관측치가 2개 이상인 집단이 있을 경우에는

주효과와 상호작용효과의 검증이 가능해진다.


그렇기 때문에

2가지 요인 각각에 대한 개별적 검정과 더불어

두 요인의 상호작용효과에 대한 검정까지 별도로 해야한다.


쉽게 이해하면,

이 번에는 유의성 검증을 3번 해야된다는 이야기다.

(첫 번째 요인, 두 번째 요인, 요인 간의 상호작용효과)


+


내용을 정리하면서,

온갖 복잡한 수식은 모조리 빼버렸다.


이해하기도 어려울뿐더라,

기본개념만 간단하게 정리해두려는 의도와 맞지 않아서이다.

(아마 텍스트만 있는데도 내용이 잘 이해가 안갈 것이다.)


진짜 궁금하신 분들은

이훈영의 연구방법론책을 보면

아주 자세하게 잘 설명이 되어있으니 찾아보시길 바란다.


암튼 이 번에 느낀점은,

로우 데이터를 가지고 이런 식으로 

비교해볼 수 있다는 사실이 놀라왔으며,

그 속에서 다양한 의미를 찾아 낼 수 있다는 점이 매우 흥미로웠다.


특히  IT 회사를 다닐 때

온갖 유저 데이터가 홍수처럼 밀려왔지만

아까운 데이터를 제대로 활용하지 못한 면이 있었는데,

잘 고민해보면 통계에 대한 기초 지식이 좀 더 있었더라면

이런 부분들을 체계적으로 정리할 수 있었다는 생각이 든다.


물론 여기 나오는 수식을 완벽히 이해하지는 못했지만,

나에게는 통계패키지가 있으니까~ 원리만 잘 활용하면 될 듯하다.


이럴 줄 알았으면

퇴사할 때 로우데이터 좀 챙겨놓는 건데,

이런 면에서는 너무 순수하고 정직했다는 생각이 든다.


논문을 쓰기위해서 배우고 있기는 하지만,

사실상 마케팅 데이터 분석할 때 더 잘 써먹을 듯하다.


이런 것을 보면, 학교에서 배운 내용들을

실무에서도 잘만 이용하면 써먹을 것들이 꽤 있는데,

실무에서는 너무 대학 교육은 쓸데 없는 것이라 생각하는 경향이 있다.