[Research⑭] 요인분석(Factor Analysis)

2015.06.04 13:01


요인분석은

변수들 간의 상호 연관성을 분석해서

공통적으로 작용하고 있는 요인들을 추출하여

전체자료를 대변할 수 있는 변수의 수를 줄이는 기법이다. 


간단히 이야기하면

중복되는 변수들을 줄여서 보는 사람이 쉽게 파악할 수 있게 만드는 것이다.


변수의 수를 줄이면, 

연구 모형이 간단해 질 수 있고,

정보와 지식을 보다 효과적으로 전달할 수 있기 때문이다.


요인분석을 위해서는 아래 조건들을 만족해야 한다.

1) 사용되는 변수들이 모두 등간척도나 비율척도로 측정한 양적 변수여야 하며,

2) 관찰치들은 서로 독립적이며 정규분포를 이루며, 변수별로 분산은 모두 동일하다는 가정을 만족시켜야한다.

    (응답자의 수는 최소한 변수 수의 3배 이상은 되어야 요인분석이 가능하다.)

3) 입력되는 변수들 간에는 어느 정도 수준 이상의 상관관계가 있어야 한다.


요인분석이 가능한지 확인하는 방법에는

바틀렛(Bartlett)테스트나 KMO(Kaiser-Meyer-Olkin)테스트가 있다.


바틀렛(Bartlett)테스트는

모집단으로부터 추출한 표본의 상관계수행력의 행렬식 값을 계산하여

상관계수행렬이 단위행렬인지 아닌지를 카이제곱분포를 이용해 검정하는 방법이다.


KMO(Kaiser-Meyer-Olkin)테스트는

입력변수들 간의 상관계수제곱들과 편상관계수제곱들을 모두 더한 값 중에서

상관계수제곱의 합이 차지하는 비율 값을 KMO값이라 하며, 이 값이 클수록 요인분석에 적합하다.

(분명한 기준은 없지만, 관습적으로 0.5이상이면 요인분석으로 분석하기에 적절하다고 판단한다.)


+



요인분석은 그 대상에 따라서,

변수일 때는 R-type요인분석을, 응답자일 때는 Q-type요인분석을 하게 되는데,

아무래도 대체적으로 R-type요인분석을 많이하게 된다.


R-type요인분석은 다시 목적에 따라서,

이미 확정한 내용을 검증하는 확인적 요인분석과

새로운 요인을 추출하는 탐색적 요인분석을 하는데,

일반적으로 요인분석이라 하면 대부분 탐색적 요인분석을 의미한다.


요인을 추출할 때는

총분산을 사용하느냐, 공통분산만 사용하느냐의 이슈에 직면하게 되는데,

공통분산과 고유분산, 오차분산의 개념은 아래의 그림에 잘 설명이 되어 있다.


(source: 이훈영의 연구방법론 p.544)


원이 겹치는 부분은 공통분산,

분산 안에 조그만게 표기된 것이 오차분산,

오차분산을 제외한 중복되지 않는 부분은 고유 분산이며,

이러한 것들을 모두 합친 것이 바로 총분산이다.


주성분분석은 n개의 입력변수들이 가지는

총분산을 n개의 주성분으로 다시 나타낸다.

단, 먼저 추출되는 주성분요인일수록 입력변수들이 가지고 있는 총분산을

많이 설명할 수 있도록 주성분요인을 순차적으로 추출하는 방법이다.


공통요인분석은 입력변수들이 가지고 있는

공통분산만을 이용하여 공통요인을 추출하는 방법이다.


일반적인 요인분석에서는 공통요인분석보다는 주성분분석방법을 사용한다.


그 이유는 입력변수의 총분산을 이용함으로써,

정보의 손실을 줄이고 변수들이 가지고 있는 총분산을

가능한 한 많이 설명할 수 있는 요인을 효과적으로 추출할 수 있기 때문이다.


+


추출할 요인 수를 결정하는 방법은

어느 하나만의 방법을 이용하는 것이 아니라,

고유값, 분석에 대한 사전 지식, 변수의 설명력, 스크리테스트 그래프를 보고

종합적으로 판단해서 연구자가 결정하는 것이 바람직하다.


우선 요인의 수는 고유값을 기준으로 선정하고,

고유값이 1이상이 될 경우 요인의 설명력과 스크리테스트 그래프를 다시 확인하게 된다.


요인이 추출되면 요인 적재량(factor loading)이 산출된다.

요인 적재량은 각 변수와 요인 간의 관계 정도를 나타내는 값으로써 일종의 회귀계수값이다.


일반적으로 요인적재량이 0.3이상이면 유의한 관계가 있다고 볼 수 있으며,

요인적재량을 제곱한 값은 회귀분석의 결정계수와 같은 의미를 갖기 때문에

해당변수를 그 요인이 어느 정도로 잘 설명해 주고 있는가를 나타낸다.


일반적으로 특정요인이 설명하는 주요 변수들이 무엇인지,

역으로 특정변수가 어느 요인에 의하여 설명되는지를 명확하게 판단하고 이해하기 어렵다.


그러나 추출된 요인의 축을 적당히 회전시켜 주면

추출된 요인들과 입력변수들 간의 관계를 명확하게 파악하고 이해할 수 있다.


(source: 이훈영의 연구방법론 p.548)


그림에서 보면 변수 X1과 X2는 요인1과 2 모두와 어느 정도 상관관계가 있어

각 변수가 어느 특정한 요인에 속하는가를 단정적으로 판단하기 어렵다.

하지만, 회전을 시켜보면 명확하게 변수 X1과 X2가 요인 2로 묶여짐을 알 수 있다.


이 때 직각으로 회전시키면 직각회전, 

비직각으로 회전시키면 비직각회전이라 부를 수 있는데,

비직각회전은 요인 축간의 관계를 어느 정도 허용하기 때문에 다소 유연한 방법으로

SPSS통계 패키지에는 direct oblimin, oblique, covarimin, quartimin, biquartinin 이 있다.


+


마지막으로 요인분석 결과를 해석하는 방법이다.

일단, 회전된 요인적재량을 행렬로 표기한 후, 제곱을 해서 고유값을 구하면 다음과 같이 나온다.


(source: 이훈영의 연구방법론 p.552)


*고유값이란 추출된 요인이 설명하고 있는 입력변수들의 분산으로

  해당되는 변수들의 요인적재량을 제곱한 값들의 합


*공통성이란 추출된 요인들에 의해서 설명되는 변수의 분산으로 

  변수와 추출된 요인들 간의 요인적재량을 제곱한 값들의 합


이 데이터만 가지고 요인분석을 끝내지는 않는다.

대부분 요인 분석을 통해 얻을 수 있는 요인점수를 활용해 추가적인 분석을 진행한다.


요인점수를 산출하는 방법에는 크게 2가지 방법이 존재한다.

1) 요인분석 과정에서 직접 요인 점수를 산출하는 것으로 가장 일반적인 방법

2) 각각의 요인에 속한다고 판단되는 입력변수값들을 단순히 산술평균하여 사용하는 방법


첫 번째 방법은 가장 일반적이며 정확한 요인점수를 구하는 방법이자만,

연관이 적은 입력변수들도 포함되어 요인의 대표성에 대한 명확한 해석이 어려울 수 있다.


두 번째 방법은 요인값이 요인분석을 통한 값과 정확히 일치하지는 않지만,

요인값에 영향을 미치는 입력변수가 무엇인지를 명확하게 파악할 수 있어 실무적으로 사용하기 편한다.


일차적인 요인분석을 통해서 추출된 요인의 수가 지나치게 많을 경우

이차저인 요인분석을 할 수 있는데, 이때는 일차적 요인분석을 통해서

상관관계가 존재하도록 요인값을 추출해야만 이차적 요인분석을 실시할 수 있다는 점을 유의해야한다.



* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


열린 공동체 사회 Study Room/Research Methodology Factor analysis, KMO 테스트, research methodology, 고유값, 공통성, 공통요인분석, 바틀렛 테스트, 연구방법론, 요인분석, 주성분분석, 탐색적 요인분석, 확인적 요인분석

  1. Blog Icon
    BlogIcon mm

    관리자의 승인을 기다리고 있는 댓글입니다

[Research⑬] 회귀분석 (Regression Analysis)

2015.05.19 12:33


회귀(regression)이라는 말은

유전학자 프란시스 골턴이 유전의 법칙을 연구하다 나온 명칭이다.


프란시스 골턴은

아버지의 키가 아무리 크다고 할지라도

아들의 키는 아들 세대의 평균으로 접근하는 경향이 있다는 것을 발견했다.

(다행이다... 내 아들은 키가 작지 않을 수도 있다.)


골턴은 이러한 현상을

평균으로의 회귀(regression toward mean)이라 했다.


회귀의 법칙을 활용한다면

전체 평균 값을 가지고 알지 못하는

누군가의 키를 예측해볼 수 있는 것이다.

(남자 평균이 170정도 되니, 소개팅 남의 키도 170 정도 되겠지? 뭐 이런 거)


하지만, 단순히 평균으로만 예측하면,

예측의 정확도가 너무나 떨어지는 경향이 있다.


그래서, 몸무게같이

키에 영향을 주는 다른 요인을 활용하면

좀 더 정확하게 키를 예측해볼 수 있는 것이다.


따라서, 회귀분석이란

변수들 간의 함수 관계를 분석하는 방법 중에 하나로

아래와 같이 정의될 수 있다.


"독립변수가 종속변수에 미치는 영향력의 크기를 파악하여

독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법"

(이훈영의 연구방법론 p.399)


쉽게 생각하면,

몸무게에 따라서, 키의 값은 어떻게 되는가?

담배판매량이 변하면, 폐암환자수는 어떻게 변하는가?

공장의 기계를 바꾸면, 생산량은 어떻게 변하는가?


이런 문제들에 대해서, 두 변수간의 관계를 예측하고 설명하는 것이다.


그러니까 회귀분석은

단순히 둘 사이에 상관관계가 있다에서 끝나는 것이 아니라

어떤 관계인지까지 좀 더 자세히 보는 것이다. (관계의 크기, 유의도, 성격 등)


아주 유용한 분석 방법이며,

사회과학에서 가장 많이 쓰는 이유는 여기에 있다고 한다.


회귀분석도 독립변수의 수와 척도의 종류,

그리고 독립변수와 종속변수의 관계에 따라서 종류가 구분된다. 



(Source: 이훈영의 연구방법론, p.400)


+


그렇다면, 일단 자료가 주어지면

회귀분석을 돌려보면 원하는 관계를 알아낼 수 있을까?


회귀분석도 회귀분석을 할 수 있는 경우가 있고, 없는 경우가 있다.


회귀분석을 하기 위해서는 다음과 같은 전제조건을 필요로 한다.


1) 특정한 독립변수 값에 해당하는 종속변수값들이 정규분포를 해야하며,

    모든 정규분포의 분산은 동일해야 한다.

 

2) 종속 변수값들은 통계적으로 서로 독립적이어야 함


3) 독립변수들이 여러 개인 경우

    이들 독립변수들 간에는 다중공선성이 존재하지 않아야 함

    (다중공선성이란 독립변수간에 서로 영향을 주는 것을 이야기한다.)


어떻게 보면 너무나 당연한 이야기들이다.


정규분포를 하고, 분산이 동일하지 않으면,

규칙성이 일관되지 않으니 당연히 예측하는 것은 무리가 있기 마련이고,


종속 변수나 독립변수들이 지들끼리 서로 영향을 미치면,

독립변수와 종속변수의 관계로만 현상을 분석하는 것이 불가능 하기 때문이다.


하지만, 문제는 이러한 내용을 사전에 파악하기 어렵다는 것이다.

데이터를 돌려봐야지, 정규 분포성이나 등분산성을 알 수 있기 때문에,

일단은 정규 분포를 따르고, 등분산성이 있다는 전제 하에 사후 검증을 해야만 한다.


독립변수들간의 다중 공정성의 문제도

공차 한계를 이용해서 확인해볼 수 있다.


공차 한계란 여러 개의 독립 변수들 중에

하나의 독립변수를 종속변수로 하고 나머지 다른 독립변수들을

독립변수로 한 회귀분석에서 모형의 설명력을 나타내는

결정계수(R2)를 구한 다음 이 값을 1에서 뺀 값(1- R2)을 의미한다. 


쉽게 이야기하면,

서로 영향을 미치는 겹치는 부분이 존재하는지를 확인해보는 것이고,

변수간 겹치는 부분이 많으면 많을수록 회귀분석의 결과를 신뢰할 수 없게 된다.


+


회귀분석의 과정은

독립변수를 X축으로 놓고,

종속변수를 Y축으로 놓은 후에,

독립변수와 종속변수간의 관계를 확인하기 위해서 산점도를 찍어본다.

그런 후 두 변수의 평균이 교차하는 점을 선으로 그어 최적의 회귀선이 확인하는 것이다.


(Source: 이훈영의 연구방법론, p.408)

 

이 때,

최적의 회귀선 도출에 사용되는

가장 대표적인 방법이 최소자승법이다.


최소자승법은 회귀선과 관측치들 간의 차이를 제곱하여 모두 더한 값,

즉 잔차의 제곱합이 최소가 되도록 하는 최적의 직선식을 구하는 방법이다.


뭔가 말이 어렵다.


좀 더 쉽게 풀어보면, 일단 회귀선을 그려본다.

그런 후에 실제 값들과 회귀선의 차이(잔차)를 확인 한다.

(회귀선은 평균을 기준으로 그린 선이기 때문에 차이가 발생할 수도 아닐 수도 있다.)


그리고 나서,

그 차이(잔차)를 그냥 합하는 것이 아니라 제곱을 시킨다.

굳이 그냥 합하지 않고 제곱을 시키는 이유는 잔차가 (+)도 있고 (-)도 있기 때문이다.


이렇게 더한 값이 최소인 선이 바로 회귀선이 되는 것이다.


+


일단 회귀선을 구했다.

그렇다면, 이 회귀선으로 종속변수(Y값)의 변화를 어느 정도 설명할 수 있을까?


이 설명력을 지수로 나타낸 것이 바로 결정계수이다.

결정계수(R2)란 전체 편차중에 회귀선이 설명하여 줄일 수 있는 비율을 의미한다.


더 쉽게 이야기하면,

Y값은 평균과 차이가 발생할 수 밖에 없다.


그  Y값을 추정하는데 있어서,

어느 정도까지는 회귀선으로 설명할 수 있지만,

회귀선으로도 설명할 수 없는 잔차라는 부분이 존재할 수 밖에 없다.


그렇기 때문에,

회귀선이 Y값을 얼마나 설명할 수 있냐를

평균과의 차이 중에 회귀선이 설명할 수 있는 부분이 차지하는 비율로 측정할 수 있다.


그러니,

결정계수 값이 1에 가까울수록 설명력이 높고,

그 만큼 회귀선이 정확한 것이 된다는 것을 검증할 수 있다.


또 하나 남은 이슈는

이러한 회귀모형을 실제적으로 일반화할 수 있는지 확인하는 것이다.

대부분의 자료가 모집단이 아닌 표본이기 때문에, 적합도에 대한 확인이 추가로 필요하다.


회귀식에 대해서 통계적으로 유의한가를 평가하기 위해서는

분산분석의 원리를 이용해 희귀평균제곱(MSR)을 잔차평균제곱(MSE)를 나누어,


회귀선이 전체 평균으로부터 떨어져 있는 정도가

개별 관측치들이 회귀선으로부터 떨어져 있는 정도의 몇 배인가를 나타내는

통계량 F 값을 구한 후 회귀식의 유의성을 검정하는 방식을 따른다.


+


하지만, 이렇게 단순회귀분석은 현실을 설명하기 어렵다.

대다수의 경우가 2개 이상의 독립변수를 가지는 다중회귀분석을 따르기 때문이다.


예를 들면, 키를 예측하기 위해서

몸무게뿐만 아니라 허리둘레를 기준으로 활용하는 것이다.


다행인 것은 뭔가 굉장히 복잡할 것 같지만,

변수가 늘었을 뿐 원리는 단순회귀분석과 동일하다.


하지만, 변수가 여러개이다보니,

여러 개의 변수 중에 어떤 것을 사용할지의 문제 등이 발생한다.


아무래도 다중공선성 같은 문제가 발생할 수 있기에,


독립변수가 많다는 것은 좋은 것이 아니며,

가장 적은 숫자로 가장 많은 부분을 설명할 수 있다면 그것이 최선일 것이다.


그렇기 때문에 변수의 선택 문제가 발생하는데,

일단, 변수들의 통계적 유의성 검정을 해봐야한다.

(유의하지 않은 변수는 당연히 버려야 된다.)


그런 다음 표준화 계수를 구해서

독립변수가 종속변수에 미치는 상대적 영향력을 비교해야한다.


표준화 계수란,

단위와 분포의 평균이 변수마다 다르기 때문에,

이를 비교해보기 위해서 변환한 수치를 의미한다.


표준화 계수는 단순히 비교를 위한 계수이며,

실제로 종속변수값을 구할 때는 표준화 이전의 원래 수치(비표준화 계수)를 이용해야 한다.


그런 다음 독립변수를 선택하는 방법에는

입력(enter), 전진선택(forward selection), 후진제거(backward elimination),

단계선택(stepwise selection), 제거(remove)의 방법이 존재한다.


1) 입력은 임의로 지정한 모든 변수를 독립변수로 사용해 분석해보는 것이고,

2) 전진선택은 가장 중요한 변수순으로 하나씩 선택해 나가는 방법이다.

3) 후진제거방식은 불필요한 변수를 하나씩 제거해 나가는 방식

4) 단계선택방식은 전진과 후진을 결합해서 동시에 진행하는 형태이며,

5) 제거방식은 다른 방식들을 사용해본 후 원하는 특정 변수를 제거하는 방식이다.


+


회귀분석이라는 방식이

등간과 비율 척도만 계산할 수 있지만,

명목과 서열척도도 수치화해서 회귀분석을 할 수 있다.


이렇게 명목척도를 서로 구분하기 위해서 가상으로 만든 변수를 더미변수라 부르며,

더미 변수를 이용한 회귀 분석을 통해서 명목척도도 회귀분석을 해볼 수 있다.


일반적으로 서열척도는 명목척도보다 더 많은 정보를 가지고 있으므로

경우에 따라서는 더미변수로 바꾸지 않고 서열값을 그대로 사용해 분석하기도 한다.


마지막으로,

두 변수가 선형이 아닌 다른 형태의 관계가 있다고 판단되는 경우

독립변수를 치환하여 얻은 새로운 변수를 이용하는 것을 비선형회귀분석이라 부른다.

(경우에 따라서는 종속변수를, 또는 독립변수와 종속변수 모두를 변환할 수도 있음)



* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


열린 공동체 사회 Study Room/Research Methodology Regression, Regression Analysis, research methodology, 연구방법론, 이훈영, 프란시스 골턴, 회귀분석

  1. Blog Icon
    대학생

    우와♥.♥ 사회과학을 공부하는 학생인데 많이배워갑니다

  2. Blog Icon
    석사과정생

    보건학석사논문 쓰고 있는데..제가 궁금했던걸 귀신같이 콕콕 짚어주시네요.
    책에서 설명안되는 부분까지 구어체로 쉽게 알려주셔서 감사드립니다.
    큰 도움됐습니다.
    복 받으소서-^^

  3. Blog Icon
    seol

    대학원 연구방법론 발표해야 되는데, 도움이 많이 될것 같습니다.

  4. Blog Icon
    MJ

    감사합니다. 공부 많이 되었습니다.

  5. Blog Icon
    colli

    설명이 진짜 쉽게 되어있어요. 감사합니다. ^^

  6. Blog Icon
    be

    감사합니다. 도움이 많이 되네요

  7. Blog Icon
    통계학도

    통계학을 전공한 학생입니다. 기존에 수식과 이론만 이해하던 저에게 큰도움이 됐습니다. 잘 보고 갑니다. ^^

[Research⑫] 분산분석 (ANOVA)

2015.05.13 21:28


집단 간의 평균 차이를 검정할 때는  t검정을 활용한다.

하지만, 집단이 3개 이상이 되면 한 번에 분석하기 어려워진다.


이렇게 3개 이상의 집단 간 평균을 검정할 때

사용하는 분석방법이 분산분석(Analysis of Variance) 이다.


흥미로운 점은

평균 차이를 비교하는데, 분산의 개념을 활용한다는 점이다.


평균을 직접 비교하지 않고,

분산을 통한 방식으로 평균 비교가 가능하다는 이야기인데,


그 이유는

집단의 평균들이

멀리 떨어져 분산이 크면 클수록

집단간의 평균들이 서로 다르기 때문이다.


교재에 나온 사례와 표를 보면 좀 더 명확해진다.

(source: 이훈영의 연구방법론 p.359)


그래프를 보면

평균의 차이를 만드는 2가지 요인을 확인할 수 있다.


경영학과의 학년별 평균차이가

경제학과나 행정학과보다 명확하게 나타난다.


집단 평균들 간의 분산이 클수록

그리고, 집단 내 분산이 작아질수록 평균의 차이가 분명해진다. 


'집단 간 분산'과 '집단 내 분산'

이 두가지를 분산값을 이용해 평균을 비교하기에,

이러한 판단 방법을 분산분석이라고 부르게 된 것이다.


+


분산분석은 독립변수와 종속변수의 수에 따라서 분류된다.


(source: 이훈영의 연구방법론 p.363)


일원분산분석은

독립변수 1개에 종속변수도 1개인 경우에

집단간 종속변수의 평균차이를 분석하는 방법이다.


왠지 굉장히 단순한 것으로 예상했으나~~

그 원리와 수식을 읽고 있으려니... 요놈이 좀 만만치 않다.


일단, 분산의 편차에 주목한다.


(source: 이훈영의 연구방법론 p.365)


총 편차는 집단 간 편차와 집단 내 편차의 합으로 표기하며,

절대값 대신 편차를 제곱한 값을 가지고 비교를 하는데,

관측치와 집단의 수에 따라서 크기가 달라지지 않도록

제곱합을 사용하기보다는 평균제곱을 사용하여 분석을 한다.

(평균제곱은 제곱합을 해당 자유도로 나눈 값을 의미함)


이러한 평균 제곱 간의 비

(집단 간 평균 제곱 / 집단 내 평균 제곱)를

검정통계량  F라 하며, 이 차이가 통계적으로 유의한지를

분석함으로써, 평균이 모두 같다는 귀무가설을 검증하게 된다.


유의성 검증 결과

F값이 임계치보다 작을 경우

귀무가설이 채택되고, 모두 같다는 결론에 이르게 되고,

반대일 경우, 모두 같지 않다는 연구 가설을 채택하게 된다.


+


2개의 독립 변수가 종속변수에 영향을 미치는

이원분산분석의 경우에는 좀 더 복잡해진다.


일단, 각각의 독립변수가 종속 변수에 미치는 영향을 주효과라 하며,

2개의 독립변수가 동시에 작용하여 미치는 영향을 상호작용효과라 한다.


주효과 검정만 가능한 이원분산분석이 있고,

주효과와 상호작용효과 검증이 가능한 이원분산분석이 있다.


주효과 검정만 가능한 이원분산분석은

모든 집단에 있는 오직 1개씩의 관측치만 있을 때를 의미한다.


일원분산분석보다 독립변수만 1개 더 늘은 것으로 보면 된다.

그렇기 때문에 전반적인 프로세스가 일원분산분석과 유사하다.

(2개의 일원분산분석을 수행하는 것과 같이 생각해도 될 정도)


결정적인 차이는 2가지 요인의 효과를 동시에 다루기 때문에

2가지 요인에 대한 가설검정을 별도로 구분해야 한다는 점이다.


하지만,

관측치가 2개 이상인 집단이 있을 경우에는

주효과와 상호작용효과의 검증이 가능해진다.


그렇기 때문에

2가지 요인 각각에 대한 개별적 검정과 더불어

두 요인의 상호작용효과에 대한 검정까지 별도로 해야한다.


쉽게 이해하면,

이 번에는 유의성 검증을 3번 해야된다는 이야기다.

(첫 번째 요인, 두 번째 요인, 요인 간의 상호작용효과)


+


내용을 정리하면서,

온갖 복잡한 수식은 모조리 빼버렸다.


이해하기도 어려울뿐더라,

기본개념만 간단하게 정리해두려는 의도와 맞지 않아서이다.

(아마 텍스트만 있는데도 내용이 잘 이해가 안갈 것이다.)


진짜 궁금하신 분들은

이훈영의 연구방법론책을 보면

아주 자세하게 잘 설명이 되어있으니 찾아보시길 바란다.


암튼 이 번에 느낀점은,

로우 데이터를 가지고 이런 식으로 

비교해볼 수 있다는 사실이 놀라왔으며,

그 속에서 다양한 의미를 찾아 낼 수 있다는 점이 매우 흥미로웠다.


특히  IT 회사를 다닐 때

온갖 유저 데이터가 홍수처럼 밀려왔지만

아까운 데이터를 제대로 활용하지 못한 면이 있었는데,

잘 고민해보면 통계에 대한 기초 지식이 좀 더 있었더라면

이런 부분들을 체계적으로 정리할 수 있었다는 생각이 든다.


물론 여기 나오는 수식을 완벽히 이해하지는 못했지만,

나에게는 통계패키지가 있으니까~ 원리만 잘 활용하면 될 듯하다.


이럴 줄 알았으면

퇴사할 때 로우데이터 좀 챙겨놓는 건데,

이런 면에서는 너무 순수하고 정직했다는 생각이 든다.


논문을 쓰기위해서 배우고 있기는 하지만,

사실상 마케팅 데이터 분석할 때 더 잘 써먹을 듯하다.


이런 것을 보면, 학교에서 배운 내용들을

실무에서도 잘만 이용하면 써먹을 것들이 꽤 있는데,

실무에서는 너무 대학 교육은 쓸데 없는 것이라 생각하는 경향이 있다.

열린 공동체 사회 Study Room/Research Methodology anova, research methodology, 분산분석, 상호작용효과, 연구방법론, 이원분산분석, 일원분산분석, 주효과, 집단 간 분산, 집단 내 분산

  1. Blog Icon
    방문객

    ANOVA 공부 중에 들렸습니다. 핵심적인 내용이 모두 잘 설명되어 있는 것 같아 잘 보고 갑니다. 감사합니다.

  2. 방문해주셔서 감사합니다.

  3. Blog Icon
    박창수

    간단한 통계 강의를 위해서 일목요연하게 잘 정리된 자료를 찾다 방문하였습니다. 좋은 자료들을 보게 되어 감사합니다.^^;

  4. 조금이나마 도움이되셨다면 다행이네요~ ^^

  5. 정말 많이 배워갑니다. 즐겨찾기 해놓고 어려운 점 있을 때마다 들르고 있습니다. ^^

  6. 저를 너무 믿진 마시고~ 책을 꼭 찾아보세요~

  7. Blog Icon

    우연치 않게 들르게 되었는데 좋은 내용들을 쉽게 잘 풀어 주셔서 좋네요!

  8. 방문해주셔서 감사합니다~ ^^

  9. Blog Icon
    리메

    도움 많이 되었습니다. 정리한 내용 공유해 주셔서 감사합니다.

  10. Blog Icon
    Jamie

    간단하면서도 명료해서 알기 쉬워요. 감사해요.

  11. 좋은 글 감사합니다!
    포스트 중에 '경영학과의 학년별 평균차이가 경제학과나 행정학과보다 명확하게 나타난다.'
    라고 쓰셨는데,
    그래프를 보면, 저는 경영학과와 경제학과의 학년별 평균 차이가 같다로 생각이 되는데, 이 문장을 어떻게 이해해야 하는지 궁금합니다!

  12. Blog Icon
    알하하

    좋은 자료 감사합니다

[Research⑪] 연관성 분석

2015.04.14 13:28


연구를 진행할 때,

한 가지 변수만 놓고 연구하는 경우는 별로 없다.

(현실에서도 한 가지만 존재하는 경우는 거의 없다.)


그래서 여러 가지 변수들 간에

어떠한 연관성을 가지고 있는지 확인하는 것은 중요하다.

이렇게 변수들간의 관계를 파악하는 것이 바로 연관성 분석이다.


연관성을 분석하는 방법에는

상관분석과 교차분석이 있는데,


변수가 명목척도/서열척도의 경우에는 교차분석을

변수가 등간척도/비율척도의 경우에는 상관분석을 활용한다.


(source: 이훈영의 연구방법론 p.327) 


+


상관분석(correlation analysis)은

변수 간의 선형관계 정도를 분석하기 때문에,

두 변수 간의 공분산(Covariance)분석으로 시작하게 된다.


공분산은 

동시에 2개 변수 값들을 갖는 개별 관측치들이

각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타낸다.


아주 쉽게 정리해보면,


두 변수들의 측정 값들을 표시해보고,

평균으로부터 얼마나 퍼져있는지를 비교하면

두 변수간의 관계가 어떻게 되어있는지 파악할 수 있는 것이다.


하지만, 문제는 변수의 단위가 항상 동일하지는 않다는 점이다.


같은 키를 나타낸다고 해도

그래프를 cm로 그리냐, inch로 그리냐에 따라 달라지며,

아예 측정 단위가 달라질 경우에는 비교가 불가능해진다.

있는 숫자 그대로 변수들을 비교할 수는 없다는 이야기가 된다.


그렇기 때문에,

값을 표준화 시킬 필요가 있는 것이고,

이렇게 표준화된 공분산 값을 비교해 선형관계로 나타나면

우리는 이를 '두 변수간에 상관관계가 있다'고 이야기하게 된다.


선형 관계가 왜 중요한가?

이는 그래프로 그려보면 쉽게 이해가 간다.



(source: 이훈영의 연구방법론 p.332)


초등학교 때 그래프를 그려본 사람은 쉽게 이해할 수 있다.

첫 번째와 두번째는 대충 봐도~ 둘이 무슨 관계가 있어 보이지만,

세 번째 녀석은 전혀 관계가 없어 보인다.


말 그대로 선을 그어서

서로 간의 관계를 표시할 수 있냐 없냐의 차이인 것이다.


+


그렇다면 표준화된 공분산의 값은 어떻게 구할 수 있을까?


두 변수의 편차를

해당 변수의 표준편차로 나누어 표준 편차 단위로 바꿔준 다음

아들을 서로 곱한 값들의 평균이 평균으로부터 얼마나 떨어졌는지 표기한다.


이 값을 피어슨 상관계수(Peason's correlation coefficient)라 부른다.



산출하는 수식을 보면 무지 복잡한데,


그냥 값은 - 1에서부터 + 1까지 수치를 가지며,

연구의 성격과 자료의 특성에 따라서 달라지지만,

대체적으로 0.3이상이면 상관관계가 존재한다고 평가하는 것만 알아두겠다.


이상 내용을 정리해보면,


상관 계수(correlation coefficient)는

이러한 공분산이 척도 크기에 의한 영향을 받지 않도록

각 변수를 그 변수의 표준편차로 나누어 표준화시킨 변수값을 의미하며,

준화된 공분산 값인 상관계수를 구해서 비교하는 것이 바로 상관분석이다.


피어슨의 상관계수 이외에도

서열 척도의 상관관계를 분석하는 방법으로

스피어만의 서열상관계수과 켄달의 타우 상관계수도 존재하며,


제 3의 변수의 영향을 제거한 상태에서

순수한 상관관계를 분석하는 방법을 편상관분석이라고 부른다.


+


교차분석은

명목/서열 척도롤 측정된 두 변수간의

상호독립성이나 관련성을 알아보기 위한 분석방법이다.


우선 두 변수들의

카테고리들을 이용하여 빈도교차표를 만든 후,

두 변수간에 어떤 독립성 검증을 위한 가설을 설정한다.

두 변수들이 서로 독립적이라는 가정하에 기대빈도교차표를 작성한다.


그리고 나서

실제로 관측된 관측치와

서로 독립적이라는 가정하에 기대되는 관측치가

차이가 많이 날 경우 서로 독립적이지 않다고 판단한다.


내용은 아주 간단하지만,

정교한 비교를 위해서는 역시나 좀 복잡한 수식을 사용하게 된다.


두 빈도 간의 차이를 직접 계산하여 사용하기보다는

이를 제곱하여 구한 차이의 제곱을 기대빈도로 나눈 후 이를 모두 더한

카이제곱 검정통계량값을 사용하여 분석한다.


+


상관분석도 그렇고 교차분석도...

대충 무슨 개념인지는 알겠고 원리는 알겠는데,

수식이 나오기 시작하면 머리가 너무 아파지기 시작한다.


하지만, 감사하게도

SPSS 같은 통계 패키지님들이 계시기에~~


기본 원리만 이해하고

나머지 계산은 패키지님에게 의존하기로 하겠다.


열린 공동체 사회 Study Room/Research Methodology correlation analysis, correlation coefficient, Covariance, research methodology, 공분산, 교차분석, 상관계수, 상관분석, 선형관계, 스피어만의 서열상관계수, 연관성 분석, 연구방법론, 카이제곱 검정통계값, 켄달의 타우 상관계수, 편상관분석, 피어슨 상관계수

[Research⑩] 타당성과 신뢰성

2015.04.14 13:25


과학적 연구를 한다고 해도

대부분의 경우 측정하는 과정에서 오차는 발생하게 된다.

그럼으로 오차를 얼마나 줄일 수 있느냐는 항상 관심의 대상이다.


타당성(Validity)이란

올바른 측정 도구와 측정 방법을 사용했느냐의 문제이며,


신뢰성이란

측정대상을 정확하게 선정하여

타당성있는 측정 도구와 방법을 신뢰할 수 있게 사용했냐의 문제이다.


이 두가지에서 검증을 받아야만,

연구한 결과를 과학적 연구 결과라고 이야기할 수 있는 것이다.


+


타당성(Validity)은 예를 들면,

키를 측정하려면 신장계를 이용하고,

몸무계를 측정하려면 체중계를 이용하는 것을 말한다.


타당성이 없다는 것은

IQ를 측정하려고 머리둘레를 확인하거나,

체력을 측정하려고 몸무계를 확인하는 것을 의미한다.


이런 바보가 어디있나 싶겠지만,

실제 연구할 때는 이렇게 명확한 경우는 많지 않다.


대부분의 경우

이렇게도 측정해볼 수도 있고,

저렇게도 측정해볼 수도 있는 경우가 대부분이다.


그렇다고 해서 나온 다양한 결과들이 모두 맞다고 할 수 있을까?

이 중에서 잘못된 측정 도구나 방법을 사용한 경우는 걸러내야 한다.


이 부분을 검증하는 것이 바로 타당성 검증이다.


+


타당성에는 내적 타당성과 외적 타당성이 있다.


내적 타당성(Internal Validity)는

연구 결과를 어느 정도 믿을 수 있는가의 문제이며,


외적 타당성(External Validity)는

연구한 결과가 현실에 얼마나 일반화할 수 있냐의 문제이다.


내적 타당성의 경우

내용이 타당한지, 기준이 타당한지, 개념이 타당한지를 다루며

물론 3가지 다 중요하지만, 내용 타당성 검증에 주로 주목한다.


외적 타당성은

내적 타당성을 확보한 연구 결과를

실제 현실에서 얼마나 일반화할 수 있냐의 문제인데,


재미있는 사실은

외적타당성과 내적 타당성은 서로 trade-off 관계에 있다는 사실이다.


내적 타당성을 높이기 위해서

여러가지 조건들을 완벽하게 통제할수록

실제 현실과는 점차적으로 멀어진다는 이야기이다.


그래서 정확하면서도 현실과 떨어지지 않는 연구...

굉징히 어려운 부분이지만 최대한 이 부분을 맞춰야 한다는 것이다.


그렇다면 타당성을 높이기 위해서는 어떻게 해야할까?

그냥 열심히 공부해서
개념을 확실히 이해해야하고,
가능하면 이미 타당성이 검증된 방법을 사용하면 된다.
(어쩌면 당연한 이야기이지만, 매우 중요한 이야기이다.)

그래서 교수님들은 항상 수 많은 논문을 읽기 만들고,
그리고, 이미 인정받은 방법들을 잘 활용하기를 권하고 있다.
(내공이 쌓여서 폭발하면, 스스로 검증 방법을 제시할 수도 있겠지?)

+


신뢰성(Reliability)은

얼마나 일관성 있게 측정하였는가를 나타내는 것으로

안정성(Stability), 일관성(Consistency)

예측가능성(Predictability), 정확성(Accuracy) 등을 말한다.


신뢰성을 측정한다는 개념을 쉽게 설명하면


동일한 개념을

동일한 측정방법을 사용해서

반복적으로 측정하였을 때 그 결과가 비슷해야 한다는 것이다.


구체적으로 3가지 방법론이 등장하게 된다.


반복적으로 검사를 해보는 재검사법(Test-retest Method)

2개의 집단으로 나눠서 검사를 해보는 반분법(Split-half Method)

그리고 가장 많이 쓰이는 내적 일관성(Internal Consistency Reliability)


내적 일관성은

측정을 위해서 여러 개의 항목을 이용하는 경우에 활용하며

여러 개 중에서 신뢰도를 저해하는 항목을 찾아 제외시키는 방법이다.


일반적으로 크론바하 알파(Cronbach's alpha)라는 계수값을 산출해

0.6 ~ 0.7 이상이 되면 측정항목들이 비교적 신뢰성이 높다고 판단한다. 



신뢰성을 높이기 위해서는

1) 측정 항목의 모호성을 제거해야하고

2) 측정 항목의 수를 늘려야 하고

3) 응답자가 모르는 내용은 측정하지 말아야 하고

4) 검증된 측정방법을 사용해야 한다.


+


이상의 내용들을 정리해보면,

타당성은 측정 도구나 방법에 대한 내용이고,

신뢰성은 타당성을 포함해 측정 자체에서부터 과정까지 포괄 한다. 


이 차이를 교재에서는 그림으로 매우 잘 설명해주고 있다.


(Source: 이훈영의 연구방법론 p.323)


타당성만 문제가 생길 경우에는

항상 동일한 방향으로 체계적인 오차가 발생하기에,

측정 도구를 바꿔서 흔히 이야기하는 영점 조절을 잘 하면 된다.


근데, 신뢰성에 문제가 생길 경우에는

무작위적으로 오차가 발생하기 때문에

측정 상황이나 측정하는 사람에 대해서도 검증해봐야 한다.


결론적으로 이야기하면,

둘 다 높아야지 타당하고 신뢰할 수 있는 결과를 얻게 된다는 것이다.


그리고 앞에서 설명한대로,

둘 다 높이기 위해서는 되도록 검증된 방법을 활용하고,

이를 위해서는 충분히 열심히~~ 공부해야만 가능한 것이다...

(다시 공부하러 가야겠다~~)



열린 공동체 사회 Study Room/Research Methodology research methodology, 내적 일관성, 내적 타당성, 반분법, 신뢰성, 연구방법론, 외적 타당성, 재검사법, 크론바하 알파, 타당성

  1. 와...정말 감사합니다^^ 덕분에 쉽게 이해 했습니다.

  2. Blog Icon
    써니

    설명이 너무 잘 되어 있네여.. 출력하여 갸인적으로 공부할때 참고 하고 싶은데 출력이 안되네요.. ㅠ

  3. 칭찬 감사합니다....

    어짜피 교재에 다 있는 내용이라서요...
    교재를 찾아보시면 될 듯하네요~ ^^

[Research⑨] 가설 설정 및 가설 검정

2015.04.11 14:22


가설이란
이미 1강에서 충분히 다루었듯이
과학적 조사에 의하여 검정이 가능한 사실로써
두 개 이상의 변수 또는 현상 간의 관계를 검정가능한 형태로 서술한 문장이다.

과학적 연구라는 것 자체가
이러한 가설들을 검정하는 과정이다.

가설에는
귀무 가설 (Null hypothesis; H0)와
대립 가설 (Alternative Hypothesis: H1)이 있다.

귀무 가설이란 기존에 일반적인 사실로 받아들여지고 있는 내용이며,
대립 가설이란 귀무 가설과 반대되는 새롭게 검정하고자 하는  주장이다.

흥미로운 것은 무슨 과학적 연구가
챔피언 타이틀 매치 같은 형태로 진행된다는 것이다.

기존의 연구 내용이 있는데, 
기존에 비해 차이가 있다나 효과가 있다고 증명해내야지,
새로운 가설이 맞다는 것을 인정해준다는 것이다.
(심지어는 동일하다면 기존 연구 내용을 인정해주는 걸로~~)

그래서 가설을 설정할 때는 대립가설을 먼저 설정한 후에
대립 가설에 대응하는 기존의 연구내용을 귀무 가설로 설정하게 된다.
(대립가설과 동의어로 연구가설이라는 말도 사용한다.)

뭔가 거꾸로 된 듯 보이는데.
책에 소개되는 사례를 보면 왜 이렇게 하는지 이해가 간다.

400g짜리 통조림을 수년 동안 생산한 회사에서
실제 중량이 400g이 맞는지 아닌지 확인해 보려고 할 때는 가정해보자.

소비자 단체에서는
'통조림의 무게는 400g보다 작다'는 것을 확인하려고 한다. - 대립 가설

기존의 생각은
'통조림의 무게는 400g보다 크거나 같다. ' 라는 반대의 내용이다. - 귀무가설

기존의 생각과 차이가 있는 내용이 등장하게 되면, 
새로운 주장을 사람들은 받아들여주게 된다.

단, 전제 조건은
두 가설 사이에는 절대 겹쳐서는 안되며, 
두 가설을 합쳤을 때 빠지는 부분이 발생하면 안된다.

+

왜 이런 식으로 접근할까?

이유는 너무나 간단하다.
통계학이라는 학문이 가지는 특성 때문이다.

통계학은 틀린 것은 확인할 수 있다.
하지만, 어떤 내용이 맞는지를 증명해내지는 못한다.

통계학에서 데이터를 돌리면,
이 두 개의 변수는 상관관계가 있는지 없는지만 알려줄뿐
어떤 것이 더 상관관계가 있는지 또는 그 인과관계가 무엇인지 알려주지 못한다.

그래서, 통계학을 사용하는
과학적 분석방법에서는 이런 식으로 가설을 나누고
잘못된 것을 증명해냄으로써, 대립 가설이 맞다는 것을 확인하는 것이다.

이러한 접근이 싫다면,
통계학을 사용하지 않는 연구를 하면 된다.

앞에서 설명한 수 많은 연구들 중에서도
통계학을 사용하지 않는 연구들도 존재하기 때문이다.

하지만, 이 책에서는 통계학을 활용하는 양적인 연구 방법을 주로 다룬다.

+

가설 검정(Test of hypothesis)은
표본을 추출하여 얻은 표본통계량으로 모집단의 모수에 대한
새로운 예상과 가설 등이 옳다고 판단할 수 있는지를 평가하는 것을 말한다. (p.245)

쉽게 말하면,
내가 조사한 데이터를 가지고 전체 모집단에 대입해 봤을 때
새롭게 만든 대립 가설이 맞다고 할 수 있냐고 평가하는 것이다.

이럴 경우 대부분의 접근 것은 귀무 가설이 옳다는 전제 하에
귀무 가설이 옳지 않다고는 것을 증명함으로써 대립가설을 채택하게 만드는 것이다.

실제적으로 많은 연구에서는
이러한 형태의 자신의 세운 가설을 검정하는 과정을 거치게된다.


그래서 대부분의 연구는 

오히려 귀무가설을 중심으로 접근하게 된다.


특히나 재미있는 것은

귀무가설이 완전히 틀리다는 값이 나오지 않는 한 귀무가설이 맞다고 봐준다는 것이다.

(이는 챔피온 타이틀 매치에서 무승부일 경우 챔피온 타이틀 유지와 유사하다.)


그렇다면 완전히 틀리다는 기준은 무엇인가?


그 기준은 귀무가설이 옳다는 전제하에

아주 극단적으로 예외적인 표본의 통계량 값이 나올 가능성이 최대 10% 미만,

대부분의 경우는 5% 미만일 경우에만 귀무가설을 기각시키고 대립가설을 채택한다.


결국은 확률을 가지고 판단한다는 이야기이고,

단순히 통계 수치뿐만 아니라, 표본의 크기에 따라서도 크게 달라진다.


이 때,

귀무가설을 기각할 가능성을

유의수준이라고 하며 α로 표기한다.


+


가설 검정의 방법에는

단측 검정(upper-tail test / lower-tail test)과 양측 검정(two-tail test)가 있다.


단측검정은 큰지 작은지를 판단하는 것이고,

양측검정은 서로 같은지 다른지를 확인하는 것이다.


예를 들면 다음과 같다.

1) 기존 배터리의 평균 수명이 850시간인데, 신제품은 850시간보다 클까? - upper-tail test(단측 검정)

2) 서울 고등학생 평균 영어 성적이 70점인데, 지방 고등학생들은 70점보다 낮을까? - lower-tail test(단측 검정)

3) 10년전 서울의 7월 한낮 평균 기온이 섭씨 30도인데, 요즘에도 여전히 섭씨 30도일까? - 양측 검정


대다수의 경우에서는 양측 검정보다는

단측 검정을 할 수 있도록 가설을 설정하는 경향이 있다.


이유는 동일한 유의수준(α)으로 검정하는 경우

단측검정에서 대립 가설이 채택될 가능성이 높으며, 

단측 검정의 정보가 양측 검정의 정보보다 더 유용하기 때문이다.

(물론 상황에 따라서는 양측 검정을 해야하는 경우가 있기에 이는 잘 판단해야함)


1단계 가설 설정이 끝나면,

2단계 유의수준을 결정하고, (대체로 0.05)

3단계 검정의 종류와 유의 수준을 고려해 임계치를 산출한 후

4단계 가설 채택 여부를 결정하게 된다.


임계치를 산출하게 되면,

이를 표본에서 나온 통계량값과 비교를 해야하는데

비교를 하기 위해서는 사용하는 단위를 동일하게 맞춰야 한다.


대부분의 경우 표본 통계량을 그대로 사용하기보다는

이를 표준화하여 t통계량값으로 변환시킨 다음 이를 t분포상의 임계치와 비교하여 검정한다.

(분산일 경우에는 카이제곱 통계량값이이나 F통계량값으로 치환한 다음 검정한다.)


게 이야기하면 임계치라고 하면

통계로 나온 수치에 대해서 받아들이지 말지 판단하는 기준이라고 보면 되고,

유의수준(α)을 결정하면, 이에 따라서 그냥 산출하면 되는 것이다.





그래프를 살펴 보면,

A1과 A2가 바로 임계치이다.


A1보다 작을 경우, 그리고 A2보다 클 경우에는

임계치를 넘어서기 때문에 귀무가설이 기각이 되고 대립가설이 채택이 되며,


임계치를 넘어서지 않는 A1과 A2 사이에서는

귀무가설이 채택이 되기 때문에 새로 시도한 가설은 기각이 되어 버린다.


+


가설 검정 과정에서

발생할 수 있는 오류에는 1종오류와 2종오류가 있다.


1종 오류(α오류)

실제로는 귀무가설이 옳음에도 불구하고 

매우 예외적인 표본이 추출되어 귀무가설을 기각하고 대립가설을 채택하는 오류이며,


2종 오류(β오류)

대립가설이 옳고 귀무가설이 틀림에도 불구하고

귀무가설을 기각하지 못하고 귀무가설을 채택하게 되는 오류이다.


대부분의 가설 검정 과정은

귀무가설에 집중해서 연구를 하기 때문에,

2종 오류보다는 1종 오류에 더 중점을 두게 되는데,

이 때, 1종 오류가 발생할 실제 확률을 p값(p-value)이라 부른다.



p값(p-value)는

산출된 통계치와 같거나 더 극단적인 값이 나올 확률을 의미하는데,


p값이 유의수준(α)보다 작다는 것은

표본 조사를 통해 얻은 수치가 매우 극단적인 값이라는 이야기이다.


좀 더 쉽게 이야기하면,

귀무가설이 옳다는 전제 하에 연구한다고 했으니,

매우 극단적인 값이 나온다는 이야기는 전제가 잘못됐다는 이야기와 같다. 


그러므로 결론적으로는,

p값이 유의수준(α)보다 작다는 것은

귀무가설이 기각되고, 대립가설이 채택된다는 것이다.
(연구하는 사람 입장에서는 원하는 바를 얻은 것이기 때문에 p값이 작으면 좋은 것이다.)


여기서 주의할 점 중에 하나는

일반적인 통계 패키지에서는 항상 양측검정을 전제로 데이터가 나오기 때문에

단측검정인 경우에는 산출된 p값의 1/2이 진정한 p값임을 유의하여 가설 채택을 해야한다.


이 관점에서 본다면,

유의수준(α)는 1종 오류가 발생할 확률의 최대 허용치가 된다.


그러므로, 유의수준(α)을 결정한다는 것은

1종 오류가 발생할 확률의 최대 허용치를 결정한다는 것이 되고,


p값이 유의수준(α)보다 작다는 의미는

1종 오류가 발생하더라도 그 정도는 봐주겠다는 의미로 볼 수 있다.


이런 관점에서 보면,

p값이 작을수록 귀무가설이 기각될 확률이 높아지므로,

p값은 되도록이면 작을 수록 좋다는 기술적인 결론이 나온다.

(왜 p값이 작을수록 좋은지는 모르더라도, 이 부분은 명확하게 기억해야만 한다.)


+


이제 마지막 남은 과제는

모집단에 대한 가설검정을 진짜로 대입해보는 것이다.

(원래 연구 목적 자체가 모집단을 알아보기 위한 것이였으니 너무나 당연한 일이다.)


가설검정의 방법들에 대해서는

앞에서 언급한 4단계를 거쳐서 이루어지게 된다.


가설 설정 - 유의 수준 결정 - 임계치 산출 - 가설 채택 여부 결정


실전에서 추가로 주의할 점은

모집단의 특성과 검정할 통계량의 종류가 무엇이냐의 문제이다.


1) 모집단의 특성

  - 단일 모집단이냐 두개 이상의 모집단이냐,

  - 단일 모집단일 경우에도 쌍체비교를 할 것이냐 말것이냐,

  - 두개 이상의 집단을 비교할 때는 표본오차를 무엇으로 볼 것인가


2) 검정할 통계량의 종류

  - 평균이나 비율에 대한 가설 검정이냐

  - 분산에 대한 가설 검정이냐


이러한 특징들에 따라서 적용하는 데이터와 방식이 달라지게 된다.


다행히 나의 경우에는

단일 모집단의 평균만 비교하게 될 것이므로~~

추가적으로 복잡한 내용들에 대해서는 그냥 pass 하면 된다.


+


뭐 이렇게 복잡한가...

정리하면서 머리가 많이 아프다...


하지만,

첨단 기술의 발전으로

개념만 명확히 이해하고 있으면 된다.


검정방법에 있어서,

앞에서 언급한 적이 있는

측정된 통계량을 표준화하여 임계치와 비교한 후

귀무가설을 채택할지, 기각할지 결정하는 방식이 정석이나~


이 방법보다는

p값을 구한 후 p값이 유의수준(α)보다 작으면

대립가설을 채택하는 아주 컴팩트한 방법을 사용한다.


유의수준(α)은 대체적으로

0.05 또는 0.1로 설정하기 때문에,

p값만 구하면 가설검증이 가능하다는 이야기다.


그리고 결정적으로

통계패키지(SPSS)에 데이터를 입력하고 돌리면~

p값도 알아서 구해주고, 심지어 그래프 까지 그려준다는...


하지만, 아무리 그렇다고 하여도~


기본 원리를 이해하지 못하면

중간 과정에서 오류가 발생할 수 밖에 없고,

제대로된 데이터를 획득할 수도 없게 되어버린다.


역시 세상에 괜히 배우는 것은 없다~

열린 공동체 사회 Study Room/Research Methodology 1종 오류, 2종 오류, Alternative Hypothesis, hypothesis, lower-tail test, Null hypothesis, p-value, p값, research methodology, SPSS, upper-tail test, α오류, β오류, 가설 검정, 귀무 가설, 단측 검정, 대립 가설, 모집단, 상관관계, 쌍체 비교, 양측 검정, 연구가설, 연구방법론, 유의수준, 임계치, 통계량, 통계패키지, 통계학

  1. Blog Icon
    잘보고 갑니다.

    잘보고 가요.검증방식에 대해 찾고 있는데 많은 도움이 됬어요

  2. Blog Icon
    홍준기

    설명이 이해하기 쉽게 되어 있습니다. 감사합니다.

  3. Blog Icon
    허은정

    설명이 너무 좋네요.. 공부할때마다 헷갈렸는데 이제 확실하게 알겠네요

  4. Blog Icon
    잘보고 갑니다.

    잘보고 갑니다. 통계를 잘 모르는 사람도 쉽게 이해할 수 있네요. 많은 도움 받고 갑니다. ^^

  5. Blog Icon
    사경환

    통계관련 업무자로써 올리신 글에 몇군데 말씀을 드리고자 합니다.
    중간에 기존의 가설이 틀려야만 대립가설을 선택하신다고 하셨는데,
    기존이 틀려야만이 아니라, 차이가 있거나 개선이 된다고 설명하시는 것이 더 좋으실듯 합니다.
    과학이 발전하여, 기존보다 보다 세밀한 측정도구가 개발되면서, 기존보다 개선되어 기존 가설보다는 연구자의 가설이 더 좋다라고 설득하는 것입니다.
    즉, 기존이 틀렸다는것이 아니라, 기존에 비해 차이가 있다나 효과가 있다가 올바른 접근법일듯 합니다.

    통계학은 틀린것을 확인할 수 없는 특징을 가진다고 하셨는데, 법률 판단에서도 귀무가설, 대립가설을 적용합니다.
    즉, 판사는 네가 죄인이다.. 가 아니라, 일반인인데. 일정한 임계치를 벗어났으니 죄인이다. 라고 판정하는 것입니다.
    또한, 변호사의 경우, 자기가 지금까지 해온 장점을 설명하는 것이 아니라, 해당 범죄를 하지 않았다고. 설득하는 것입니다.
    따라서, 내가 맞다라고 설득하는 것이 아니라, 당신이 맞다고 가정하되, 일정한 범위를 정하고, 그 범위를 벗어난다면, 내 의견이 맞다라고 설득하는 것으로,

    타인을 설득하는데 매우 효율적인 과학적 도구입니다.

    마지막으로, 가설검정과 가설검증을 혼합하여 사용하시는데, 엄연히 검증과 검정은 다릅니다.
    통계적으로는 판정을 해야 하므로, 가설검정이 올바른 용어입니다.
    심지어 일반 교수분들도 그런 오류를 많이 사용하시니...

    P값과 P값을 혼용하시는데 유의확률은 소문자 p값이 올바릅니다.

    중간에 p값이 유의수준보다 작으면, 대립가설을 채택하신다고 하셨는데, 그렇게 설명하시는게 아니라,
    귀무가설을 기각할 수 있으므로, 대립가설을 채택할 수 있는 것입니다.
    동일하다고 설명할 수 있으시겠으나, 엄연히 타인에게 설득하기 위해서는 귀무가설을 기각할수있므로 대립가설을 채택할 수 있는 것입니다.

    또한, 대립가설 채택이 아니라, 확률적 접근이므로, 대립가설을 채택할 수 있다.가 보다 정확한 해석입니다.

    강의하신 교수님의 연령이 어떻게 되시는지 모르겠으나, SAS의 경우, 제가 알기로 1976년도에 정식 판매된것으로 알고 있습니다.

    그리고, 검정통계량은 손으로 구해도 p값은 절대 손으로 못구합니다.
    엑셀로 해도 거의 못 구합니다. 왜냐하면 등간격이 아니기때문에..
    제가 국내 전국 암산 3위에 입상한 사람으로써 절대로 p값은 종이로는 못구합니다.
    루트를 어떻게 종이로 구해요...87의 루트는 절대 손으로 못 구해요. 값을 암기하는거죠.
    꼭 그런 교수님들께서 진공관, 천공기 등을 이야기 하시더라구요..

  6. 진짜가 나타났네요~~~
    많이배웠습니다. 지적한 내용 반영해서 글에 일부 내용을 수정해야겠네요.

  7. Blog Icon
    지나가는멍청이

    관리자의 승인을 기다리고 있는 댓글입니다

[Research⑧] 추정(estimation)과 표본 크기 산출

2015.03.31 23:43


지난 번에도 이야기했지만,

모든 조사대상자를 다 조사해보면 좋지만,


시간도, 돈도, 능력도 부족하기에

표본(sample)조사를 할 수밖에 없다.


그렇다면, 가장 문제는 표본 조사의 결과를

얼마나 신뢰할 수 있고 일반화할 수 있느냐의 문제에 빠지게 된다.


그렇기 때문에 확률이나 추정이라는 개념이 매우 중요하다.


내가 조사한 표본이 얼마나 정확하고, 

그 결과를 가지고 어떻게 모집단에 대입할 수 있는지...


+


추정(estiamtion)은

표본 조사 결과를 가지고

모집단의 특성을 알아보는 과정을 말한다.


추정은 크게 두 가지 종류로 나눠지는데,
점추정은 하나의 수치로 모집단의 모수를 측정하는 것이고,
구간추정은 하나의 수치가 아닌 특정 구간으로 모수를 측정하는 것이다.

점추정의 경우 선택된 추정량이
모수와 정확하게 일치하는 경우가 거의 없다.
그렇기 때문에 점추정으로 모집단의 모수를 추정하는 데에는 한계가 있다.
(일반적으로, 정확하게 숫자를 맞출 수 있는 경우는 흔치 않다.)

ex) 모집단이 100만명인데, 그 중 100명을 표본으로 뽑아서 키를 쟀더니 평균 170이다.
      그렇다면, 이 170이라는 숫자를 가지고 정확한 모집단의 평균을 추정할 수 있을까? 
      대충 165 ~ 175 정도 되지 않을까? 추정하기 마련이고, 이런 식의 추정이 바로 구간 추정이다.

그래서, 주로 구간추정을 활용해서 사용하게 되며
우리가 흔히 듣는 여론 조사 결과 역시 대체적으로 구간추정으로,
정확한 정보를 확인할 수 없기 때문에 항상 오차범위와 신뢰수준을 밝히고 있다.


(source: 이훈영의 연구방법론 p.230)


신뢰 구간(confidence interval)
실제 모수가 있을 것이라고 예상하는 구간을 말하며,
일반적으로 하한값과 상한값으로 표기한다.

그리고, 신뢰 수준(confidence level)이라 함은
신뢰 구간(confidence interval)에 모수가 위치할 것이라는 믿음을 의미한다.

신뢰수준은
모집단의 모수에 대한 추정이 잘못될 가능성의 정도,
즉 연구자가 허용할 수 있는 허용오차수준(α)에 따라 결정된다.

신뢰 수준이 높아지는 것은 
허용오차수준(α)이 낮아지는 것을 의미하며,

반대로 산뢰 수준이 낮아지면,
허용오차수준(α)이 높아지는 반비례의 관계를 나타낸다.

신뢰 수준은 1-α 로 구할 수 있으며,
일반적으로 90%, 95%, 99%를 자주 사용한다.
(당연히 수치가 높을수록 신뢰할 수 있다는 것이기에 좋은 것이다.)

 신뢰 수준을 낮게하면,
신뢰구간을 좁게 만들을 수 있다. (trade-off 관계)
그러나 신뢰 수준을 낮게할수록 통게적 가치는 떨어지게 마련이다.
 ex) 키 100이상의 대한민국 남성 - 신뢰 수준을 거희 100%에 가깝지만 어디에도 써 먹기 애매하다.

+

모집단의 균(μ)은 중심극한정리에 의해서 
표본 평균(x)을 이용해서 구간추정이 가능하다.

중심극한정리에 따르면,
모집단의 분포와는 관계없이 표본의 크기(n)이 증가함에 따라서
모집단의 균(μ)을 중심으로 구릉 모양의 분포나 종모양의 정규분포를 따른다.

따라서, 표본 평균을 가지고
모집단의 평균(μ)을 추정하는 경우
신뢰구간은 표본 평균(x)를 중심으로 형성되므로,
신뢰구간의 크기는 신뢰수준(1-α)과 표본오차(standard error)에 의해서 결정된다.

표본 평균(x)의 표준 편차를 다른 말로 표준 오차라고 하며,
이는 표본평균의 분산에 루트(√)를 씌운 값, 즉 제곱근값이다.

(source: 이훈영의 연구방법론 p.236)


표본평균의 분산은
표본의 크기(n)가 커질수록 점차 작아지고,
표본오차가 작아짐에 따라 신뢰구간도 좁아지게 된다.

표본의 크기(n)가
30이상이 되면 Z분포를 사용할 수 있으나, 
30이하의 경우에는 t분포를 사용해야 한다. 
(그래서, 그냥 대부분의 추정이나 가설검정에서는 Z분포 대신 t분포를 이용한다.

(source: 이훈영의 연구방법론 p.237)


+

그럼 이제 신뢰구간과 신뢰수준의 개념을 이해했으면,
신뢰 구간을 추정하는 방법에 대해서 알아보자.

신뢰구간을 추정한다는 것은
하한값과 상한값을 구한다는 의미이다.

표본 평균에서 t값과 표준오차의 곱을 빼면 하한값을 구할 수 있으며,
표본 평균에서 t값과 표준오차의 곱을 더하면 상한값을 구할 수 있다.

이를 수식으로 나타내면 아래와 같고,


이를 그래프로 나타내면 아래와 같다.


(source: 이훈영의 연구방법론 p.230)



조금 더 그래프를 가지고 자세히 설명해보자면,

t값이라 하면 아래 그래프에서 색칠된 부분의 값을 의미한다.


t값에 표준오차를 곱하게 되면,

아래와 같이 신뢰구간을 구할 수 있게 되는 것이다.


아래 그래프의 예에서 보면,

허용오차수준이 0.05이기 때문에, t값이 1.812가 나왔다.

여기에 표본오차를 곱해주게 되면, 신뢰구간을 구할 수 있게 되는 것이다.


+


반대로 생각을 해보면,

신뢰구간의 폭과 신뢰수준을 미리 정해놓는다면,

필요한 표본의 크기를 산출해낼 수도 있다.


원칙상으로는 표본 크기를 미리 계획하는 것이 바람직하지만,

실무에서는 표본 크기는 돈과 시간에 비례하기 때문에 필요한 만큼만 조사하고 싶어진다.


신뢰 구간 폭의 1/2를 h라고 하면, 

h를 구하는 공식은 아래와 같이 된다. (표준정규본포 기준)


 

그러므로 식을 뒤집어 보면, 아래와 같이 구할 수 있다.



그렇기 때문에 표본의 크기를 구하기 위해서는 3가지가 필요하다.


1) 신뢰수준 (
1-α) 
2) 신뢰구간의 폭: 추정의 정확도 (h)
3) 모집단의 표준편차 (σ) - 과거 자료 등을 통한 예상치

+

이제, 나온 조사 결과를 가지고
모집단의 특성에 대해서 알아보는 추정 대한 내용을 마무리한다.

다음 번에는 반대의 과정인
모집단를 기준으로 조사를 설계하는 가설 설정과
실제 조사를 통해 나온 결과를 가지고 가설 검증하는 방법에 대해서 알아보겠다.

* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기

열린 공동체 사회 Study Room/Research Methodology confidence interval, confidence level, Estimation, research methodology, sample, T값, 가설설정, 상한값, 신뢰 구간, 신뢰 수준, 연구방법론, 정규분포, 중심극한정리, 추정, 표본, 표본 크기 산출, 표본오차, 하한값, 허용오차수준

[Research⑦] 확률과 확률 변수

2015.03.24 16:23


이번에는 좀 더 복잡한 이야기를 해야겠다.


고등학교 수학시간에

확률부분을 열심히 공부했다면 매우 쉽게 느껴지겠지만

대부분의 사람들이 졸업과 동시에 까먹기에 다소 불편할 수도 있다.


확률(probability)은

경험 또는 실험의 결과로 특정한 사건이나 결과가 발생할 가능성을 말한다.

(뭐 여기서부터 어렵다고 하는 사람은 없겠지만... 아직은 어려우면 안된다)


표본 공간(sample space)은

실험이나 조사를 통해서 나올 수 있는 가능성을 모두 표기한 것을 이야기한다.


그렇다면 왜 확률을 공부해야하는가?


이유는 간단하다.


앞서 이야기한대로, 모든 내용을 다 조사하면 좋지만,

돈도 없고, 시간도 없고, 역량도 부족하니 표본(sample)을 뽑아서 조사한다.

그리고 그 조사가 얼마나 현실에 적용할 수 있는지 확인해야한다.


그래서 확률을 공부해야만 하는 것이다.

내가 조사한 내용이 현실에 적용될 수 있는 확률~

이 것을 알아야~ 내가 연구한 내용이 현실성이 있다고 주장할 수 있는 것이다.


+


확률을  연구하고자 표본공간에 나타난 모든 결과를 

숫자로 나타낸 것이 바로 확률 변수(Ramdom variable)이다. 


한글 번역이 확률 변수라고 해서 좀 헷갈리는데,

오히려 '무작위 변수'라고 했으면 개념의 이해가 더 쉬울 듯하다. 

(지극히 개인적인 생각입니다)


이제부터 본격적인 수학의 세계가 시작된다.


확률변수를 설정한다는 것은 규칙을 만들어주는 것을 의미하는데,

규칙이라는 것이 뭔래 만드는 사람의 마음이라서 어떻게 만드냐에 따라서 당연히 확률 변수는 달라진다.


확률과 확률변수를 같이 적어주면 확률분포가 되는데,

확률분포(probability distribution)는 표나 그림으로도 그릴 수 있고, 수식으로도 표시할 수 있습니다.


확률 변수 X가 x라는 값을 가질 확률을 이야기하는 수식은 다음과 같습니다.


P(X=x) 


간단하게 P(x)로 표기하기도 하는데,

이러한 P(x)는 0보다 크거나 같으며, 모든 P(x)값을 더하면 1이 나옵니다.


확률 변수는 명확하게 나타낼 수 있냐 없냐에 따라서

이산(Discrete)확률변수와 연속(Continous)확률변수로 나뉠 수 있습니다.


(source: 이훈영의 연구방법론 p.209)



또한, 그래프로 확률분포를 나타내는 경우,

확률 분포를 나타내는 함수를 확률 함수(probability function)라고 한다.


그렇다면, 

모든 확률 분포를 정확하게 수식으로 표현할 수 있는가??


있다고 하면 그것은 당연히 거짓말이다~~


상식적으로만 생각해봐도~~

발생할 수 있는 모든 경우의 수를 표기한 것이 표본공간이고~

그 표본공간을 모두 숫자로 표기한 것이 확률 변수이며,

그 확률 변수가 가질 수 있는 값과 그 확률을 표기한 것이 확률분포인데~


그렇다면, 그  출발점이 되는

발생할 수 있는 모든 경우의 수를 표기하는 것이 쉬운 일인가?


그것 조차 어려운데, 

그걸 숫자로 표현해내기는 더 어려우며,

그걸 또 확률과 함께 같이 표기하는 것은 더 어려운 문제이다~


결론적으로 이야기하면

대부분의 확률분포는 수식으로 표현하기 어렵다.


하지만, 어렵다는 것이 불가능한 것은 아니며,

가능하다면 그거라고 연구해봐야한다는 것이다.


+


그나마, 그 가능한 방법들에 대해서

확률 변수와 동일한 기준에 의해서 여러개로 분류할 수 있다.


(source: 이훈영의 연구방법론 p.212)


확률 분포를 연구할 때

중심적으로 봐야 하는 개념은

분산(variance)과 표준편차(Standard Deviation)이다.


분산은 평균을 중심으로 얼마나 데이터들이 퍼져있는가를 의미한다.

분산이 클수록 자료는 평균으로부터 많이 퍼져있는 것이다.


두 확률변수가 어떻게 결합되어 있는지 측정하는 것이 공분산(Co-variance)

두 확률변수가 얼마나 결합되어 있는지 측정하는 것이 상관계수(Coefficient of correlation)이다.


공분산은 0, 0보다 크다, 0보다 작다 라는 3가지로 표현할 수 있는데,


0보다 크다는 것은 확률변수가 같은 방향으로 움직인다.

0보다 작다는 것은 확률변수가 반대 방향으로 움직인다.

0이라는 이야기는 선형적인 상관관계가 없다는 것을 의미한다.


공분산이 크다고 해서,

관계성 크다는 것을 의하는 것은 아니며 단지 방향성만 알 수 있다.


반면에 상관계수는 클수록 관계가 깊다는 관계성을 알려준다.

(1은 직선의 관계를 의미하며, -1은 완전 반대의 관계임을 알려줌)


+


그리고 이 데이터들이

실제로 얼마나 퍼져있는지 산포도를 보는 것이

바로 표준편차이며, 표준편차는 일반적으로 시그마(σ)로 표기한다.


그럼 이제부터 본격적으로 세부적인 확률분포들을 살펴 보겠다.


맨 먼저 등장하는 것이 이항 분포이다.

이항 분포는 독립적으로 반복되는 베르누이 시행을 의미하는데

베르누이 시행은 이분법적으로 성공/실패를 0과 1로 표기하는 것이다.


쉽게 말하면,

성공/실패를 여러번 한후에 그 결과를 표기하는 것을 의미한다.

그래프로 그리면 아래와 같이 나온다.



확률분포의 모양은

시행횟수(n)가 얼마나 많으냐(모수)와 률(p)이 얼마냐 되느냐에 따라서 변하게 된다.

그렇기 때문에 시행횟수(n)에 따라서 확률분포도 달라지기 마련이다.


포아송 분포라는 것도 있는데,

이는 이항분포와 비슷하지만, 시행 횟수가 무지 클 때 사용하는 방법이다.


기본 가정이 필요한데 예를 들면,

은행 창구에 시간당 도착하는 고객의 수가 10명일 확률은?


뭐 이런 식이다~~


같은 사건이 동시에 발생하지 않고 서로 독립적이며,

사건이 발생할 확률은 단위 시간의 길이에 비례하기 때문

극히 작은 단위 시간에서 둘 이상의 사건이 발생할 확률은 0이 된다.



*모든 포아송 분포의 모양은 비대칭이지만, λ 커질수록 점차 대칭에 가까워진다.


이 밖에 초기하분포라는 것도 있는데,

베르누이 시행이 독립적으로 이루어지지 않을 때 적용하는 방식이다.


주머니에 흰공 40개와 검은 공 10개가 들어있을 경우


꼽은 공을 다시 주머니에 넣고

 5개 공을 연속으로 뽑았을 때 모두 흰 공일 확률에는 이항분포를 적용하지만,


꼽은 공을 다시 주머니에 넣지 않고,

동시에 5개의 공을 뽑았을 때 모두 흰 공일 확률에는 초기하분포를 적용한다.


+


이제부터는 본격적으로 연속확률분포에 대해서 알아본다.

(실제적으로 양적 연구방법에서 주로 사용하는 것이 연속확률 분포이다.)


가장 대표적인 것이 바로 정규 분포(Z)이고,

실제로 통계학이라고 하면 가장 많이 본 그래프의 모습이다. 

(현실세계의 많은 무작위 시행들이 대부분 정규분포에 가까운 모습을 보인다.)


정규 분포는 평균(μ)과 분산(σ2)에 따라서

구체적인 분포의 위치와 모양이 결정되며 종모양의 좌우대칭인 분포이다.




6시그마(σ)라는 개념도 여기서 출발하는데,

불량품이 나올 확률이 시그마가 6이라는 것으로, 

백만개 중에 3.4개가 나온는 것을 의미한다. (불량품이 없다는 이야기다)


하지만, 이런 정규분포도

특정 구간 내의 값을 가질 확률을 직접 구하기는 매우 어렵다


그래서, 표준편차를 단위로 하는 표준정규분포로 변화시키면

구하고자 하는 확률값을 비교적 용이하게 구할 수 있게 된다.

(표준정규분포에서는 평균이 0이고, 분산이 1이 된다.)


+


그 다음 등장하는 개념이 지수분포이다.

지수분포는 포아송 분포와 자주 비교가 되는 동전의 앞뒷면 같은 관계이다.


포아송분포를 따를 때 사건들 사이의 간격을 표기한 것이다.


그 동안 나온 분포가 점차 발전한다 볼 수 있다.


베르누이 시행 <  이항 분포 <  포아송 분포 < 지수 분포 


예를 들면,

은행 창구에 고객의 도착 간격이나 

고객당 상담 시간, 다음 고장 날때까지의 시간에 대해서

한 사건이 발생한 후 다음 사건이 발생할 때까지의 시간을 표기하는 것이다.

(여기서 단위 시간당 사건의 발생은 포아송 분포를 따른다)



그래프에서 봐서 알겠지만,

그래프의 모양이 숫자가 커질수록 점차적으로 내려가는 모습을 보인다. 


대표적인 예가 롱테일 경제학에 소개되고 있다.

그 동안 경제학에서는 파레토의 법칙에 의해서

상위 20%가 전체 물건의 80%를 구매하는 형태가 나타났다.

수백개의 CD가 존재하지만, 매장에서 팔리는 CD중 극히 일부였던 것이다.


하지만, 인터넷의 발달로 이런 형태가 바뀌기 시작했다.

매장에 진열도 안되던 CD들이 인터넷의 클릭으로만으로 구매하게 된 것이다.

선택의 범위가 완전히 달라기는 시대가 된 것이다.


이 것이 롱테일 경제학에서 이야기하는 내용이며,

여기서 나오는 내용이 바로 지수분포를 따르는 형태를 설명해준다.


지수분포의 가장 큰 특징은 무기억속성이다. (Memoryless Property)

과거의 결과는 기억하지 않은 체, 데이터가 나타나는 것이다.


+


이 밖에도 t분포, 카이제곱분포, F분포 등이 있다.


t분포의 경우에는 좌우 대칭이라는 점은 정규분포와 같으나

정규분포보다 평평하고 두터운 꼬리 모양을 가진 구릉모양의 분포를 나타내고 있다.


표본 평균(x)을 구하는 데 사용된 관측치의 수(n)에 따라 모양이 변하는데,

일반적으로 표본의 크기(n)가 30개 이상이면 t분포는 표준정규분포와 거의 동일해진다.


표본이 30개 미만이면 정규(Z)분포를 사용할 수 없기 때문에,

통계 분석에서는 정규(Z)분포보다는 t분포가 주로 사용된다.

(z분포는 표본이 30개가 넘을 경우인 t분포의 특수한 형태라 볼 수 있음)


(source: 이훈영의 연구방법론 p.217)


카이제곱분포는

분산을 추정할 때 주로 사용되며, 아래와 같은 모양을 가지고 있다.

(가설검정이나 연관성 분석에서 다시 자세히 다룬다고 한다)


(source: 이훈영의 연구방법론 p.218)


F분포는

2개의 카이제곱분포하는 확률변수를 확률변수값을 각각 자유도로 나눈

평균 카이제곱값의 비를 변수값으로 하는 확률 변수의 분포를 말한다.


2개의 표본분산이 사용되기 때문에 2개 표본의 자유도에 따라 F분폰의 모양이 결정된다.

(기본적인 모양은 카이제곱과 유사하게 오른쪽꼬리 모양을 갖는 비대칭 분포이다)


(source: 이훈영의 연구방법론 p.220)


+


마지막으로 중심극한 정리로 이야기를 마무리하려고 한다.


중심극한정리(Central Limit Theorem)

모집단의 분포와 관계없이 표본크기 n을 충분히 크게 하면,

표본평균의 표본분포는 항상 정규 분포에 접근하게 된다는 것이다.


우리는 전체를 분석하기 어렵기 때문에

표본을 추출해서 그 표본들을 분석한 후 이를 일반화 시킨다.


그 표본들의 특성을 나타내는

통계량의 분포를 표본분포라 하며,

이 때 통계량이 표본의 평균이면 표본평균의 표본분포이며,

통계량의 표본의 분산이면 표본분산의 표본분포가 된다.


다시 말하면, 표본 크기가 충분히 클 경우,

표본 평균이 분포하는 모습이 정규 분포에 접근하게 된다는 것이다.


이것이 중요한 이유는 모집단이 어떤 분포를 가지든 상관없이,

표본의 크기를 충분히 늘릴경우 정규분포를 따르기 때문에

확률변수가 특정한 값을 가질 확률을 추정할 수 있게 된다.


만약 이 가정이 없다는 모집단의 평균에 대해서

통계적 추정이나 가설검정은 거의 불가능하게 된다.


통계학과 조사방법론에서 가장 중요한 이론이라고 해도 과언이 아니다.



* 중심극한정리를 정리한 프랑스의 수학자 피에르시몽 라플라스


* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기

열린 공동체 사회 Study Room/Research Methodology F분포, ramdom variable, research methodology, t분포, 공분산, 베르누이 시행, 분산, 상관계수, 시그마, 연구방법론, 연속확률분포, 이항 분포, 이훈영, 정규 분포, 중심극한정리, 지수분포, 초기하분포, 카이제곱분포, 포아송 분포, 표본 공간, 표준 정규 분포, 표준편차, 피에르시몽 라플라스, 확률, 확률 변수, 확률 분포, 확률 함수

  1. Blog Icon
    보량

    잘봤습니다. ^^

  2. Blog Icon
    수학수학수학

    좋은자료네요^^

[Research⑥] 척도의 종류와 리커트 척도

2015.03.24 15:57


척도는 관찰대상의 속성을 측정하여

그 값을 숫자로 나타내는 일종의 규칙을 말한다.


쉽게 생각하면,

사람마다 이야기하는게 다르면 평가하기 어려우니

규칙을 만들어서 숫자로 나타내서 누구나 공감하게 만들자는 것이다.


왜 평가하는지와 무엇을 평가하는지에 따라서

각기 다른 규칙이 필요한 것은 당연한 이야기다.


그래서 척도도 정보량에 따라서 크게 4종류로 나타나게 된다.


명목척도 < 서열척도 < 등간척도 < 비율척도


명목 척도는 그냥 구분을 위해서 별 의미없이 숫자를 매긴 것이고,

서열 척도는 그냥 순서를 정하기 위해서 순서를 매긴 것을 의미하며,

등간 척도는 상대적 크기를 측정하기 위해서 간격을 구분한 것을 의미하며,

비율 척도는 절대적 크기를 측정하기 위해서 비율의 개념이 들어간 것을 의미한다.


정보의 량이 많아질수록 당연히 점차 복잡해지고,

그만큼 더 많은 정보를 얻을 수 있다는 것을 의미한다.


(source: 이훈영의 연구방법론 p.189)


여기서 변수란 척도를 이용해서 측정한 값을 이야기하는 것이다.


+


그렇다면, 우리는 실제 조사를 할 때 어떤 척도를 사용하게 되는가?


서두에서도 이야기했지만,

무엇을 보고 싶은지에 따라서 쓰는 척도는 달라진다.

그리고, 각각의 척도도 실제 사용될 때는 좀 계량화된 형태의 척도들을 사용한다.


가장 많이 사용하는 척도가 바로 리커트 척도이다.



리커트 척도(Likert scale)

1932, 렌시스 리커트(Rensis Likert)에 의해서 개발되었다.


리커트 척도는 문장을 제시하고,

제시된 문장에 대해서 얼마나 동의하는지를 강제로 선택하도록 되어있으며,

주로 개인의 태도(생각, 지각, 감정)등을 측정하는데 사용된다.


응답자들은 그 문장에 대한 동의/비동의 수준을 응답해야 하며,

그 문장에 대해서 객관식/주관적 평가를 응답해야 한다.

 

여러 문항의 개별응답점수를 합하여 척도를 구성한다는 의미에서

총화평정척도(summated rating scale)라고도 한다.


우리가 흔히 보는 설문조사에서 가장 많이 보는 양식이며,

긍정-부정 이나 찬성-반대 등과 같은 반응을 5단계로 나누지만,

학자에 따라서는 7단계 또는 9단계 척도를 사용해야 한다고 하는 경우도 많다

 

리커트 척도에서 고려해야할 중요한 사항 중 하나는

5단계로 나눈 간격에 대해서 응답하는 사람에 따라 천차만별로 느낄 수 있다는 점이다.


그럼에도 불구하고, 

느낌의 강도를 나타내기가 간편하여

처리가 쉽고 응답자들이 간단히 응답할 수 있기에 가장 많이 쓰인다.

간격을 나타낼 수 있는 가장 좋은 척도로 연속형 자료에 대해서도 사용이 가능하다.


뭔가 대단해 보이지만 쉽게 설명하면,

그냥 대답을 5단계로 나눠서 응답하게 만드는 것이다.

 ex) 매우 싫음 - 싫음 - 보통 - 좋음 - 아주 좋음


이 녀석은 그냥 진지한 연구를 할 때뿐만 아니라,

일상 생활에서 뭔가를 조사할 때도 유용하게 쓸 수 있는 유용한 툴인 듯하다.


이 외에도 서스톤 척도, 거트만 척도도 많이 사용되지만,

뭐 대중적인 부분에서는 리커트 님의 유명세를 따라기지는 못한다.


* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기

열린 공동체 사회 Study Room/Research Methodology Likert scale, Rensis Likert, research methodology, 등간 척도, 렌시스 리커트, 리커트 척도, 명목 척도, 변수, 비율 척도, 서열 척도, 연구방법론, 이훈영, 척도

[Research⑤] 표본선정과 표본추출

2015.03.22 08:48


표본 선정에 있어서는

당연히 전수조사를 하는 것이 젤 좋지만,

돈도 없고, 시간도 없고, 통제도 안된다.


그래서 어쩔 수 없이

항상 표본(Sample)을 추출해서 조사를 한 후 이를 일반화시킨다.


표본 추출 방법으로는 확률표본추출방법을 선호하지만,

이 역시도 사전에 조사 대상자들의 자료가 있어야 하기에

현실에서는 어쩔 수 없이 비활률표본추출방법을 많이 사용한다.


(source: 이훈영의 연구조사방법론 p.155)



사회과학 연구에서 표본 선정의 이슈는

신뢰도에 영향을 주는 매우 중요한 요소이지만,

돈도, 시간도, 역량도 부족하여 항상 아쉬운 조사를 해야된다.


그래서 항상 열심히 연구를 해놓고도,

보고서의 맨 끝에는 연구의 한계를 명확히 해야되고,

항상 나름 연구자는 내 이런 한계를 잘 극복해주길 바란다며 이야기를 해야된다.


물론, 짜증나는 상황이라 생각할 도 있지만,

뭐~~ 어찌하라~~ 주어진 상황에서 최선을 다하는 수밖에,


그리고 나의 연구가 아무리 한계가 있을지라도,

연구한 것 자체에서 중요한 의미를 가질 수 있기에 그 것만 해도 중요한 것이다.


물론 연구를 잘해서, 그 가치를 더 많이 인정받으면 좋지만~~ ^^


+


확률 표본 추출 방법을 하기 위해서는

조사 대상에 대한 명확한 데이터가 존재해야한다.

  ex) 전화번호부, 주민등록명단, 직원 명단 등


그래서, 조사 대상이 명확해서 명단이 존재할 경우에는

굳이 비확률추방법을 사용해 조사결과에 대한 신뢰를 떨어뜨릴 필요가 없다.


확률적으로 표본을 추출하는 방법에도 여러가지가 있는데.


그냥 랜덤으로 뽑는 단순 무작위 추출법

나름 규칙을 세워서 뽑는 체계적 추출법

나름 규칙도 세운 후에 무작위로 뽑아버리는 층화표본 추출법

나름 대상을 분류한 다음에 무작위로 뽑는 군집표본 추출법


한마디로, 나름 그래도 정확도를 높이기 위해서 머리를 많이 쓴다는 것이다.

대충 그냥 아무나 뽑다가~ 이왕이면 규칙을 정해서 뽑아보다가,

규칙도 세우고 그 안에서 무작위로 뽑아도 보고, 그룹을 만들어서 뽑아보기도 하고~


참~~ 다들 머리쓰냐고 고생이 많다~~


암튼, 이러한 소소한 노력으로 더 좋은 데이터를 얻는다면,

이러한 노력들이 할만한 가치는 있을 듯하다.


+


하지만, 대상에 대한 데이터가 없을 경우가 허다하다.

대상자의 규모가 커질 수록 이런 상황이 많이 발생하는데,


나름 모여있는 사람들은 추축이라도 가능하지만,

모여있지도 않고, 누구인지도 모를 경우에는 참~~ 난감하기 마련이다.


이럴 때는 어쩔수 없이 비확률 표본 추출을 해야한다.

이 경우에는 표본 추출자의 주관이 들어가게 되므로 신뢰도에서는 떨어지기 마련임


첫 번째 방법은 편의 추출 방식이다.

이건 뭐 그냥 랜덤으로 막 뽑겠다는 것이니 신뢰도는 가장 떨어진다.


두 번째 방법은 판단표본추출 방식으로

조사자가 워낙 상황을 이미 잘 알고 있어서,

가장 적당한 표본들을 알아서 뽑아버리는 방법이다.


소규모 조사에는 적합할 수도있으나,

그렇지 않은 경우에는 가장 위험한 방법 중에 하나이다.


그래서 가장 많이 쓰는 방식은 할당표본의 방식이다

가장 많이 쓰는 방식으로, 대상에 분명한 차이가 있을 때 사용할 수 있다.

성별, 나이대별, 소득, 주소지 등을 기반으로 비율을 정해놓은 그 수에 맞춰서 뽑는 것이다.

기업체에서 실시하는 소비자 조사에서 가장 많이 사용되는 방식이다.


+


마지막 나오는 이야기는 오류(error)의 문제이다.

아무리 열심히 잘했어도 표본에 오류가 나오면 끝장이다.


한 마디로 열심히 조사해놓고도 그 데이터를 쓸 수 없는 것이다.


오류는 모든 단계에서 다 신경써야하지만,

특히 표본 추출 과정에서 많이 신경을 써야 한다.


역시나 표본 추출에서

오류를 가장 쉽게 줄이는 방법은

표본의 크기를 최대한 늘리는 것이다.


표본이 크면 클수록 오류는 줄지만,

역시나 근본적인 문제로 돌아가면 돈도, 시간도, 역량도 부족하다.


그래서, 어쩔 수 없이 어느 정도의 오류는 감안하고

그 오류를 최대한 줄일 수 있도록 머리를 쮜어짜내야하는 것이다.


* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기

열린 공동체 사회 Study Room/Research Methodology research methodology, sample, 랜덤, 신뢰도, 오류, 전수조사, 추출법, 표본선정, 표본추출, 확률