Study Room/Research Methodology

[Research⑧] 추정(estimation)과 표본 크기 산출

열린 공동체 사회 2015. 3. 31. 23:43


지난 번에도 이야기했지만,

모든 조사대상자를 다 조사해보면 좋지만,


시간도, 돈도, 능력도 부족하기에

표본(sample)조사를 할 수밖에 없다.


그렇다면, 가장 문제는 표본 조사의 결과를

얼마나 신뢰할 수 있고 일반화할 수 있느냐의 문제에 빠지게 된다.


그렇기 때문에 확률이나 추정이라는 개념이 매우 중요하다.


내가 조사한 표본이 얼마나 정확하고, 

그 결과를 가지고 어떻게 모집단에 대입할 수 있는지...


+


추정(estiamtion)은

표본 조사 결과를 가지고

모집단의 특성을 알아보는 과정을 말한다.


추정은 크게 두 가지 종류로 나눠지는데,
점추정은 하나의 수치로 모집단의 모수를 측정하는 것이고,
구간추정은 하나의 수치가 아닌 특정 구간으로 모수를 측정하는 것이다.

점추정의 경우 선택된 추정량이
모수와 정확하게 일치하는 경우가 거의 없다.
그렇기 때문에 점추정으로 모집단의 모수를 추정하는 데에는 한계가 있다.
(일반적으로, 정확하게 숫자를 맞출 수 있는 경우는 흔치 않다.)

ex) 모집단이 100만명인데, 그 중 100명을 표본으로 뽑아서 키를 쟀더니 평균 170이다.
      그렇다면, 이 170이라는 숫자를 가지고 정확한 모집단의 평균을 추정할 수 있을까? 
      대충 165 ~ 175 정도 되지 않을까? 추정하기 마련이고, 이런 식의 추정이 바로 구간 추정이다.

그래서, 주로 구간추정을 활용해서 사용하게 되며
우리가 흔히 듣는 여론 조사 결과 역시 대체적으로 구간추정으로,
정확한 정보를 확인할 수 없기 때문에 항상 오차범위와 신뢰수준을 밝히고 있다.


(source: 이훈영의 연구방법론 p.230)


신뢰 구간(confidence interval)
실제 모수가 있을 것이라고 예상하는 구간을 말하며,
일반적으로 하한값과 상한값으로 표기한다.

그리고, 신뢰 수준(confidence level)이라 함은
신뢰 구간(confidence interval)에 모수가 위치할 것이라는 믿음을 의미한다.

신뢰수준은
모집단의 모수에 대한 추정이 잘못될 가능성의 정도,
즉 연구자가 허용할 수 있는 허용오차수준(α)에 따라 결정된다.

신뢰 수준이 높아지는 것은 
허용오차수준(α)이 낮아지는 것을 의미하며,

반대로 산뢰 수준이 낮아지면,
허용오차수준(α)이 높아지는 반비례의 관계를 나타낸다.

신뢰 수준은 1-α 로 구할 수 있으며,
일반적으로 90%, 95%, 99%를 자주 사용한다.
(당연히 수치가 높을수록 신뢰할 수 있다는 것이기에 좋은 것이다.)

 신뢰 수준을 낮게하면,
신뢰구간을 좁게 만들을 수 있다. (trade-off 관계)
그러나 신뢰 수준을 낮게할수록 통게적 가치는 떨어지게 마련이다.
 ex) 키 100이상의 대한민국 남성 - 신뢰 수준을 거희 100%에 가깝지만 어디에도 써 먹기 애매하다.

+

모집단의 균(μ)은 중심극한정리에 의해서 
표본 평균(x)을 이용해서 구간추정이 가능하다.

중심극한정리에 따르면,
모집단의 분포와는 관계없이 표본의 크기(n)이 증가함에 따라서
모집단의 균(μ)을 중심으로 구릉 모양의 분포나 종모양의 정규분포를 따른다.

따라서, 표본 평균을 가지고
모집단의 평균(μ)을 추정하는 경우
신뢰구간은 표본 평균(x)를 중심으로 형성되므로,
신뢰구간의 크기는 신뢰수준(1-α)과 표본오차(standard error)에 의해서 결정된다.

표본 평균(x)의 표준 편차를 다른 말로 표준 오차라고 하며,
이는 표본평균의 분산에 루트(√)를 씌운 값, 즉 제곱근값이다.

(source: 이훈영의 연구방법론 p.236)


표본평균의 분산은
표본의 크기(n)가 커질수록 점차 작아지고,
표본오차가 작아짐에 따라 신뢰구간도 좁아지게 된다.

표본의 크기(n)가
30이상이 되면 Z분포를 사용할 수 있으나, 
30이하의 경우에는 t분포를 사용해야 한다. 
(그래서, 그냥 대부분의 추정이나 가설검정에서는 Z분포 대신 t분포를 이용한다.

(source: 이훈영의 연구방법론 p.237)


+

그럼 이제 신뢰구간과 신뢰수준의 개념을 이해했으면,
신뢰 구간을 추정하는 방법에 대해서 알아보자.

신뢰구간을 추정한다는 것은
하한값과 상한값을 구한다는 의미이다.

표본 평균에서 t값과 표준오차의 곱을 빼면 하한값을 구할 수 있으며,
표본 평균에서 t값과 표준오차의 곱을 더하면 상한값을 구할 수 있다.

이를 수식으로 나타내면 아래와 같고,


이를 그래프로 나타내면 아래와 같다.


(source: 이훈영의 연구방법론 p.230)



조금 더 그래프를 가지고 자세히 설명해보자면,

t값이라 하면 아래 그래프에서 색칠된 부분의 값을 의미한다.


t값에 표준오차를 곱하게 되면,

아래와 같이 신뢰구간을 구할 수 있게 되는 것이다.


아래 그래프의 예에서 보면,

허용오차수준이 0.05이기 때문에, t값이 1.812가 나왔다.

여기에 표본오차를 곱해주게 되면, 신뢰구간을 구할 수 있게 되는 것이다.


+


반대로 생각을 해보면,

신뢰구간의 폭과 신뢰수준을 미리 정해놓는다면,

필요한 표본의 크기를 산출해낼 수도 있다.


원칙상으로는 표본 크기를 미리 계획하는 것이 바람직하지만,

실무에서는 표본 크기는 돈과 시간에 비례하기 때문에 필요한 만큼만 조사하고 싶어진다.


신뢰 구간 폭의 1/2를 h라고 하면, 

h를 구하는 공식은 아래와 같이 된다. (표준정규본포 기준)


 

그러므로 식을 뒤집어 보면, 아래와 같이 구할 수 있다.



그렇기 때문에 표본의 크기를 구하기 위해서는 3가지가 필요하다.


1) 신뢰수준 (
1-α) 
2) 신뢰구간의 폭: 추정의 정확도 (h)
3) 모집단의 표준편차 (σ) - 과거 자료 등을 통한 예상치

+

이제, 나온 조사 결과를 가지고
모집단의 특성에 대해서 알아보는 추정 대한 내용을 마무리한다.

다음 번에는 반대의 과정인
모집단를 기준으로 조사를 설계하는 가설 설정과
실제 조사를 통해 나온 결과를 가지고 가설 검증하는 방법에 대해서 알아보겠다.

* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기