Study Room/Research Methodology

[Research⑭] 요인분석(Factor Analysis)

열린 공동체 사회 2015. 6. 4. 13:01


요인분석은

변수들 간의 상호 연관성을 분석해서

공통적으로 작용하고 있는 요인들을 추출하여

전체자료를 대변할 수 있는 변수의 수를 줄이는 기법이다. 


간단히 이야기하면

중복되는 변수들을 줄여서 보는 사람이 쉽게 파악할 수 있게 만드는 것이다.


변수의 수를 줄이면, 

연구 모형이 간단해 질 수 있고,

정보와 지식을 보다 효과적으로 전달할 수 있기 때문이다.


요인분석을 위해서는 아래 조건들을 만족해야 한다.

1) 사용되는 변수들이 모두 등간척도나 비율척도로 측정한 양적 변수여야 하며,

2) 관찰치들은 서로 독립적이며 정규분포를 이루며, 변수별로 분산은 모두 동일하다는 가정을 만족시켜야한다.

    (응답자의 수는 최소한 변수 수의 3배 이상은 되어야 요인분석이 가능하다.)

3) 입력되는 변수들 간에는 어느 정도 수준 이상의 상관관계가 있어야 한다.


요인분석이 가능한지 확인하는 방법에는

바틀렛(Bartlett)테스트나 KMO(Kaiser-Meyer-Olkin)테스트가 있다.


바틀렛(Bartlett)테스트는

모집단으로부터 추출한 표본의 상관계수행력의 행렬식 값을 계산하여

상관계수행렬이 단위행렬인지 아닌지를 카이제곱분포를 이용해 검정하는 방법이다.


KMO(Kaiser-Meyer-Olkin)테스트는

입력변수들 간의 상관계수제곱들과 편상관계수제곱들을 모두 더한 값 중에서

상관계수제곱의 합이 차지하는 비율 값을 KMO값이라 하며, 이 값이 클수록 요인분석에 적합하다.

(분명한 기준은 없지만, 관습적으로 0.5이상이면 요인분석으로 분석하기에 적절하다고 판단한다.)


+



요인분석은 그 대상에 따라서,

변수일 때는 R-type요인분석을, 응답자일 때는 Q-type요인분석을 하게 되는데,

아무래도 대체적으로 R-type요인분석을 많이하게 된다.


R-type요인분석은 다시 목적에 따라서,

이미 확정한 내용을 검증하는 확인적 요인분석과

새로운 요인을 추출하는 탐색적 요인분석을 하는데,

일반적으로 요인분석이라 하면 대부분 탐색적 요인분석을 의미한다.


요인을 추출할 때는

총분산을 사용하느냐, 공통분산만 사용하느냐의 이슈에 직면하게 되는데,

공통분산과 고유분산, 오차분산의 개념은 아래의 그림에 잘 설명이 되어 있다.


(source: 이훈영의 연구방법론 p.544)


원이 겹치는 부분은 공통분산,

분산 안에 조그만게 표기된 것이 오차분산,

오차분산을 제외한 중복되지 않는 부분은 고유 분산이며,

이러한 것들을 모두 합친 것이 바로 총분산이다.


주성분분석은 n개의 입력변수들이 가지는

총분산을 n개의 주성분으로 다시 나타낸다.

단, 먼저 추출되는 주성분요인일수록 입력변수들이 가지고 있는 총분산을

많이 설명할 수 있도록 주성분요인을 순차적으로 추출하는 방법이다.


공통요인분석은 입력변수들이 가지고 있는

공통분산만을 이용하여 공통요인을 추출하는 방법이다.


일반적인 요인분석에서는 공통요인분석보다는 주성분분석방법을 사용한다.


그 이유는 입력변수의 총분산을 이용함으로써,

정보의 손실을 줄이고 변수들이 가지고 있는 총분산을

가능한 한 많이 설명할 수 있는 요인을 효과적으로 추출할 수 있기 때문이다.


+


추출할 요인 수를 결정하는 방법은

어느 하나만의 방법을 이용하는 것이 아니라,

고유값, 분석에 대한 사전 지식, 변수의 설명력, 스크리테스트 그래프를 보고

종합적으로 판단해서 연구자가 결정하는 것이 바람직하다.


우선 요인의 수는 고유값을 기준으로 선정하고,

고유값이 1이상이 될 경우 요인의 설명력과 스크리테스트 그래프를 다시 확인하게 된다.


요인이 추출되면 요인 적재량(factor loading)이 산출된다.

요인 적재량은 각 변수와 요인 간의 관계 정도를 나타내는 값으로써 일종의 회귀계수값이다.


일반적으로 요인적재량이 0.3이상이면 유의한 관계가 있다고 볼 수 있으며,

요인적재량을 제곱한 값은 회귀분석의 결정계수와 같은 의미를 갖기 때문에

해당변수를 그 요인이 어느 정도로 잘 설명해 주고 있는가를 나타낸다.


일반적으로 특정요인이 설명하는 주요 변수들이 무엇인지,

역으로 특정변수가 어느 요인에 의하여 설명되는지를 명확하게 판단하고 이해하기 어렵다.


그러나 추출된 요인의 축을 적당히 회전시켜 주면

추출된 요인들과 입력변수들 간의 관계를 명확하게 파악하고 이해할 수 있다.


(source: 이훈영의 연구방법론 p.548)


그림에서 보면 변수 X1과 X2는 요인1과 2 모두와 어느 정도 상관관계가 있어

각 변수가 어느 특정한 요인에 속하는가를 단정적으로 판단하기 어렵다.

하지만, 회전을 시켜보면 명확하게 변수 X1과 X2가 요인 2로 묶여짐을 알 수 있다.


이 때 직각으로 회전시키면 직각회전, 

비직각으로 회전시키면 비직각회전이라 부를 수 있는데,

비직각회전은 요인 축간의 관계를 어느 정도 허용하기 때문에 다소 유연한 방법으로

SPSS통계 패키지에는 direct oblimin, oblique, covarimin, quartimin, biquartinin 이 있다.


+


마지막으로 요인분석 결과를 해석하는 방법이다.

일단, 회전된 요인적재량을 행렬로 표기한 후, 제곱을 해서 고유값을 구하면 다음과 같이 나온다.


(source: 이훈영의 연구방법론 p.552)


*고유값이란 추출된 요인이 설명하고 있는 입력변수들의 분산으로

  해당되는 변수들의 요인적재량을 제곱한 값들의 합


*공통성이란 추출된 요인들에 의해서 설명되는 변수의 분산으로 

  변수와 추출된 요인들 간의 요인적재량을 제곱한 값들의 합


이 데이터만 가지고 요인분석을 끝내지는 않는다.

대부분 요인 분석을 통해 얻을 수 있는 요인점수를 활용해 추가적인 분석을 진행한다.


요인점수를 산출하는 방법에는 크게 2가지 방법이 존재한다.

1) 요인분석 과정에서 직접 요인 점수를 산출하는 것으로 가장 일반적인 방법

2) 각각의 요인에 속한다고 판단되는 입력변수값들을 단순히 산술평균하여 사용하는 방법


첫 번째 방법은 가장 일반적이며 정확한 요인점수를 구하는 방법이자만,

연관이 적은 입력변수들도 포함되어 요인의 대표성에 대한 명확한 해석이 어려울 수 있다.


두 번째 방법은 요인값이 요인분석을 통한 값과 정확히 일치하지는 않지만,

요인값에 영향을 미치는 입력변수가 무엇인지를 명확하게 파악할 수 있어 실무적으로 사용하기 편한다.


일차적인 요인분석을 통해서 추출된 요인의 수가 지나치게 많을 경우

이차저인 요인분석을 할 수 있는데, 이때는 일차적 요인분석을 통해서

상관관계가 존재하도록 요인값을 추출해야만 이차적 요인분석을 실시할 수 있다는 점을 유의해야한다.



* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~