Study Room/Research Methodology

[Research⑪] 연관성 분석

열린 공동체 사회 2015. 4. 14. 13:28


연구를 진행할 때,

한 가지 변수만 놓고 연구하는 경우는 별로 없다.

(현실에서도 한 가지만 존재하는 경우는 거의 없다.)


그래서 여러 가지 변수들 간에

어떠한 연관성을 가지고 있는지 확인하는 것은 중요하다.

이렇게 변수들간의 관계를 파악하는 것이 바로 연관성 분석이다.


연관성을 분석하는 방법에는

상관분석과 교차분석이 있는데,


변수가 명목척도/서열척도의 경우에는 교차분석을

변수가 등간척도/비율척도의 경우에는 상관분석을 활용한다.


(source: 이훈영의 연구방법론 p.327) 


+


상관분석(correlation analysis)은

변수 간의 선형관계 정도를 분석하기 때문에,

두 변수 간의 공분산(Covariance)분석으로 시작하게 된다.


공분산은 

동시에 2개 변수 값들을 갖는 개별 관측치들이

각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타낸다.


아주 쉽게 정리해보면,


두 변수들의 측정 값들을 표시해보고,

평균으로부터 얼마나 퍼져있는지를 비교하면

두 변수간의 관계가 어떻게 되어있는지 파악할 수 있는 것이다.


하지만, 문제는 변수의 단위가 항상 동일하지는 않다는 점이다.


같은 키를 나타낸다고 해도

그래프를 cm로 그리냐, inch로 그리냐에 따라 달라지며,

아예 측정 단위가 달라질 경우에는 비교가 불가능해진다.

있는 숫자 그대로 변수들을 비교할 수는 없다는 이야기가 된다.


그렇기 때문에,

값을 표준화 시킬 필요가 있는 것이고,

이렇게 표준화된 공분산 값을 비교해 선형관계로 나타나면

우리는 이를 '두 변수간에 상관관계가 있다'고 이야기하게 된다.


선형 관계가 왜 중요한가?

이는 그래프로 그려보면 쉽게 이해가 간다.



(source: 이훈영의 연구방법론 p.332)


초등학교 때 그래프를 그려본 사람은 쉽게 이해할 수 있다.

첫 번째와 두번째는 대충 봐도~ 둘이 무슨 관계가 있어 보이지만,

세 번째 녀석은 전혀 관계가 없어 보인다.


말 그대로 선을 그어서

서로 간의 관계를 표시할 수 있냐 없냐의 차이인 것이다.


+


그렇다면 표준화된 공분산의 값은 어떻게 구할 수 있을까?


두 변수의 편차를

해당 변수의 표준편차로 나누어 표준 편차 단위로 바꿔준 다음

아들을 서로 곱한 값들의 평균이 평균으로부터 얼마나 떨어졌는지 표기한다.


이 값을 피어슨 상관계수(Peason's correlation coefficient)라 부른다.



산출하는 수식을 보면 무지 복잡한데,


그냥 값은 - 1에서부터 + 1까지 수치를 가지며,

연구의 성격과 자료의 특성에 따라서 달라지지만,

대체적으로 0.3이상이면 상관관계가 존재한다고 평가하는 것만 알아두겠다.


이상 내용을 정리해보면,


상관 계수(correlation coefficient)는

이러한 공분산이 척도 크기에 의한 영향을 받지 않도록

각 변수를 그 변수의 표준편차로 나누어 표준화시킨 변수값을 의미하며,

준화된 공분산 값인 상관계수를 구해서 비교하는 것이 바로 상관분석이다.


피어슨의 상관계수 이외에도

서열 척도의 상관관계를 분석하는 방법으로

스피어만의 서열상관계수과 켄달의 타우 상관계수도 존재하며,


제 3의 변수의 영향을 제거한 상태에서

순수한 상관관계를 분석하는 방법을 편상관분석이라고 부른다.


+


교차분석은

명목/서열 척도롤 측정된 두 변수간의

상호독립성이나 관련성을 알아보기 위한 분석방법이다.


우선 두 변수들의

카테고리들을 이용하여 빈도교차표를 만든 후,

두 변수간에 어떤 독립성 검증을 위한 가설을 설정한다.

두 변수들이 서로 독립적이라는 가정하에 기대빈도교차표를 작성한다.


그리고 나서

실제로 관측된 관측치와

서로 독립적이라는 가정하에 기대되는 관측치가

차이가 많이 날 경우 서로 독립적이지 않다고 판단한다.


내용은 아주 간단하지만,

정교한 비교를 위해서는 역시나 좀 복잡한 수식을 사용하게 된다.


두 빈도 간의 차이를 직접 계산하여 사용하기보다는

이를 제곱하여 구한 차이의 제곱을 기대빈도로 나눈 후 이를 모두 더한

카이제곱 검정통계량값을 사용하여 분석한다.


+


상관분석도 그렇고 교차분석도...

대충 무슨 개념인지는 알겠고 원리는 알겠는데,

수식이 나오기 시작하면 머리가 너무 아파지기 시작한다.


하지만, 감사하게도

SPSS 같은 통계 패키지님들이 계시기에~~


기본 원리만 이해하고

나머지 계산은 패키지님에게 의존하기로 하겠다.