Study Room/Research Methodology

[Research⑦] 확률과 확률 변수

열린 공동체 사회 2015. 3. 24. 16:23


이번에는 좀 더 복잡한 이야기를 해야겠다.


고등학교 수학시간에

확률부분을 열심히 공부했다면 매우 쉽게 느껴지겠지만

대부분의 사람들이 졸업과 동시에 까먹기에 다소 불편할 수도 있다.


확률(probability)은

경험 또는 실험의 결과로 특정한 사건이나 결과가 발생할 가능성을 말한다.

(뭐 여기서부터 어렵다고 하는 사람은 없겠지만... 아직은 어려우면 안된다)


표본 공간(sample space)은

실험이나 조사를 통해서 나올 수 있는 가능성을 모두 표기한 것을 이야기한다.


그렇다면 왜 확률을 공부해야하는가?


이유는 간단하다.


앞서 이야기한대로, 모든 내용을 다 조사하면 좋지만,

돈도 없고, 시간도 없고, 역량도 부족하니 표본(sample)을 뽑아서 조사한다.

그리고 그 조사가 얼마나 현실에 적용할 수 있는지 확인해야한다.


그래서 확률을 공부해야만 하는 것이다.

내가 조사한 내용이 현실에 적용될 수 있는 확률~

이 것을 알아야~ 내가 연구한 내용이 현실성이 있다고 주장할 수 있는 것이다.


+


확률을  연구하고자 표본공간에 나타난 모든 결과를 

숫자로 나타낸 것이 바로 확률 변수(Ramdom variable)이다. 


한글 번역이 확률 변수라고 해서 좀 헷갈리는데,

오히려 '무작위 변수'라고 했으면 개념의 이해가 더 쉬울 듯하다. 

(지극히 개인적인 생각입니다)


이제부터 본격적인 수학의 세계가 시작된다.


확률변수를 설정한다는 것은 규칙을 만들어주는 것을 의미하는데,

규칙이라는 것이 뭔래 만드는 사람의 마음이라서 어떻게 만드냐에 따라서 당연히 확률 변수는 달라진다.


확률과 확률변수를 같이 적어주면 확률분포가 되는데,

확률분포(probability distribution)는 표나 그림으로도 그릴 수 있고, 수식으로도 표시할 수 있습니다.


확률 변수 X가 x라는 값을 가질 확률을 이야기하는 수식은 다음과 같습니다.


P(X=x) 


간단하게 P(x)로 표기하기도 하는데,

이러한 P(x)는 0보다 크거나 같으며, 모든 P(x)값을 더하면 1이 나옵니다.


확률 변수는 명확하게 나타낼 수 있냐 없냐에 따라서

이산(Discrete)확률변수와 연속(Continous)확률변수로 나뉠 수 있습니다.


(source: 이훈영의 연구방법론 p.209)



또한, 그래프로 확률분포를 나타내는 경우,

확률 분포를 나타내는 함수를 확률 함수(probability function)라고 한다.


그렇다면, 

모든 확률 분포를 정확하게 수식으로 표현할 수 있는가??


있다고 하면 그것은 당연히 거짓말이다~~


상식적으로만 생각해봐도~~

발생할 수 있는 모든 경우의 수를 표기한 것이 표본공간이고~

그 표본공간을 모두 숫자로 표기한 것이 확률 변수이며,

그 확률 변수가 가질 수 있는 값과 그 확률을 표기한 것이 확률분포인데~


그렇다면, 그  출발점이 되는

발생할 수 있는 모든 경우의 수를 표기하는 것이 쉬운 일인가?


그것 조차 어려운데, 

그걸 숫자로 표현해내기는 더 어려우며,

그걸 또 확률과 함께 같이 표기하는 것은 더 어려운 문제이다~


결론적으로 이야기하면

대부분의 확률분포는 수식으로 표현하기 어렵다.


하지만, 어렵다는 것이 불가능한 것은 아니며,

가능하다면 그거라고 연구해봐야한다는 것이다.


+


그나마, 그 가능한 방법들에 대해서

확률 변수와 동일한 기준에 의해서 여러개로 분류할 수 있다.


(source: 이훈영의 연구방법론 p.212)


확률 분포를 연구할 때

중심적으로 봐야 하는 개념은

분산(variance)과 표준편차(Standard Deviation)이다.


분산은 평균을 중심으로 얼마나 데이터들이 퍼져있는가를 의미한다.

분산이 클수록 자료는 평균으로부터 많이 퍼져있는 것이다.


두 확률변수가 어떻게 결합되어 있는지 측정하는 것이 공분산(Co-variance)

두 확률변수가 얼마나 결합되어 있는지 측정하는 것이 상관계수(Coefficient of correlation)이다.


공분산은 0, 0보다 크다, 0보다 작다 라는 3가지로 표현할 수 있는데,


0보다 크다는 것은 확률변수가 같은 방향으로 움직인다.

0보다 작다는 것은 확률변수가 반대 방향으로 움직인다.

0이라는 이야기는 선형적인 상관관계가 없다는 것을 의미한다.


공분산이 크다고 해서,

관계성 크다는 것을 의하는 것은 아니며 단지 방향성만 알 수 있다.


반면에 상관계수는 클수록 관계가 깊다는 관계성을 알려준다.

(1은 직선의 관계를 의미하며, -1은 완전 반대의 관계임을 알려줌)


+


그리고 이 데이터들이

실제로 얼마나 퍼져있는지 산포도를 보는 것이

바로 표준편차이며, 표준편차는 일반적으로 시그마(σ)로 표기한다.


그럼 이제부터 본격적으로 세부적인 확률분포들을 살펴 보겠다.


맨 먼저 등장하는 것이 이항 분포이다.

이항 분포는 독립적으로 반복되는 베르누이 시행을 의미하는데

베르누이 시행은 이분법적으로 성공/실패를 0과 1로 표기하는 것이다.


쉽게 말하면,

성공/실패를 여러번 한후에 그 결과를 표기하는 것을 의미한다.

그래프로 그리면 아래와 같이 나온다.



확률분포의 모양은

시행횟수(n)가 얼마나 많으냐(모수)와 률(p)이 얼마냐 되느냐에 따라서 변하게 된다.

그렇기 때문에 시행횟수(n)에 따라서 확률분포도 달라지기 마련이다.


포아송 분포라는 것도 있는데,

이는 이항분포와 비슷하지만, 시행 횟수가 무지 클 때 사용하는 방법이다.


기본 가정이 필요한데 예를 들면,

은행 창구에 시간당 도착하는 고객의 수가 10명일 확률은?


뭐 이런 식이다~~


같은 사건이 동시에 발생하지 않고 서로 독립적이며,

사건이 발생할 확률은 단위 시간의 길이에 비례하기 때문

극히 작은 단위 시간에서 둘 이상의 사건이 발생할 확률은 0이 된다.



*모든 포아송 분포의 모양은 비대칭이지만, λ 커질수록 점차 대칭에 가까워진다.


이 밖에 초기하분포라는 것도 있는데,

베르누이 시행이 독립적으로 이루어지지 않을 때 적용하는 방식이다.


주머니에 흰공 40개와 검은 공 10개가 들어있을 경우


꼽은 공을 다시 주머니에 넣고

 5개 공을 연속으로 뽑았을 때 모두 흰 공일 확률에는 이항분포를 적용하지만,


꼽은 공을 다시 주머니에 넣지 않고,

동시에 5개의 공을 뽑았을 때 모두 흰 공일 확률에는 초기하분포를 적용한다.


+


이제부터는 본격적으로 연속확률분포에 대해서 알아본다.

(실제적으로 양적 연구방법에서 주로 사용하는 것이 연속확률 분포이다.)


가장 대표적인 것이 바로 정규 분포(Z)이고,

실제로 통계학이라고 하면 가장 많이 본 그래프의 모습이다. 

(현실세계의 많은 무작위 시행들이 대부분 정규분포에 가까운 모습을 보인다.)


정규 분포는 평균(μ)과 분산(σ2)에 따라서

구체적인 분포의 위치와 모양이 결정되며 종모양의 좌우대칭인 분포이다.




6시그마(σ)라는 개념도 여기서 출발하는데,

불량품이 나올 확률이 시그마가 6이라는 것으로, 

백만개 중에 3.4개가 나온는 것을 의미한다. (불량품이 없다는 이야기다)


하지만, 이런 정규분포도

특정 구간 내의 값을 가질 확률을 직접 구하기는 매우 어렵다


그래서, 표준편차를 단위로 하는 표준정규분포로 변화시키면

구하고자 하는 확률값을 비교적 용이하게 구할 수 있게 된다.

(표준정규분포에서는 평균이 0이고, 분산이 1이 된다.)


+


그 다음 등장하는 개념이 지수분포이다.

지수분포는 포아송 분포와 자주 비교가 되는 동전의 앞뒷면 같은 관계이다.


포아송분포를 따를 때 사건들 사이의 간격을 표기한 것이다.


그 동안 나온 분포가 점차 발전한다 볼 수 있다.


베르누이 시행 <  이항 분포 <  포아송 분포 < 지수 분포 


예를 들면,

은행 창구에 고객의 도착 간격이나 

고객당 상담 시간, 다음 고장 날때까지의 시간에 대해서

한 사건이 발생한 후 다음 사건이 발생할 때까지의 시간을 표기하는 것이다.

(여기서 단위 시간당 사건의 발생은 포아송 분포를 따른다)



그래프에서 봐서 알겠지만,

그래프의 모양이 숫자가 커질수록 점차적으로 내려가는 모습을 보인다. 


대표적인 예가 롱테일 경제학에 소개되고 있다.

그 동안 경제학에서는 파레토의 법칙에 의해서

상위 20%가 전체 물건의 80%를 구매하는 형태가 나타났다.

수백개의 CD가 존재하지만, 매장에서 팔리는 CD중 극히 일부였던 것이다.


하지만, 인터넷의 발달로 이런 형태가 바뀌기 시작했다.

매장에 진열도 안되던 CD들이 인터넷의 클릭으로만으로 구매하게 된 것이다.

선택의 범위가 완전히 달라기는 시대가 된 것이다.


이 것이 롱테일 경제학에서 이야기하는 내용이며,

여기서 나오는 내용이 바로 지수분포를 따르는 형태를 설명해준다.


지수분포의 가장 큰 특징은 무기억속성이다. (Memoryless Property)

과거의 결과는 기억하지 않은 체, 데이터가 나타나는 것이다.


+


이 밖에도 t분포, 카이제곱분포, F분포 등이 있다.


t분포의 경우에는 좌우 대칭이라는 점은 정규분포와 같으나

정규분포보다 평평하고 두터운 꼬리 모양을 가진 구릉모양의 분포를 나타내고 있다.


표본 평균(x)을 구하는 데 사용된 관측치의 수(n)에 따라 모양이 변하는데,

일반적으로 표본의 크기(n)가 30개 이상이면 t분포는 표준정규분포와 거의 동일해진다.


표본이 30개 미만이면 정규(Z)분포를 사용할 수 없기 때문에,

통계 분석에서는 정규(Z)분포보다는 t분포가 주로 사용된다.

(z분포는 표본이 30개가 넘을 경우인 t분포의 특수한 형태라 볼 수 있음)


(source: 이훈영의 연구방법론 p.217)


카이제곱분포는

분산을 추정할 때 주로 사용되며, 아래와 같은 모양을 가지고 있다.

(가설검정이나 연관성 분석에서 다시 자세히 다룬다고 한다)


(source: 이훈영의 연구방법론 p.218)


F분포는

2개의 카이제곱분포하는 확률변수를 확률변수값을 각각 자유도로 나눈

평균 카이제곱값의 비를 변수값으로 하는 확률 변수의 분포를 말한다.


2개의 표본분산이 사용되기 때문에 2개 표본의 자유도에 따라 F분폰의 모양이 결정된다.

(기본적인 모양은 카이제곱과 유사하게 오른쪽꼬리 모양을 갖는 비대칭 분포이다)


(source: 이훈영의 연구방법론 p.220)


+


마지막으로 중심극한 정리로 이야기를 마무리하려고 한다.


중심극한정리(Central Limit Theorem)

모집단의 분포와 관계없이 표본크기 n을 충분히 크게 하면,

표본평균의 표본분포는 항상 정규 분포에 접근하게 된다는 것이다.


우리는 전체를 분석하기 어렵기 때문에

표본을 추출해서 그 표본들을 분석한 후 이를 일반화 시킨다.


그 표본들의 특성을 나타내는

통계량의 분포를 표본분포라 하며,

이 때 통계량이 표본의 평균이면 표본평균의 표본분포이며,

통계량의 표본의 분산이면 표본분산의 표본분포가 된다.


다시 말하면, 표본 크기가 충분히 클 경우,

표본 평균이 분포하는 모습이 정규 분포에 접근하게 된다는 것이다.


이것이 중요한 이유는 모집단이 어떤 분포를 가지든 상관없이,

표본의 크기를 충분히 늘릴경우 정규분포를 따르기 때문에

확률변수가 특정한 값을 가질 확률을 추정할 수 있게 된다.


만약 이 가정이 없다는 모집단의 평균에 대해서

통계적 추정이나 가설검정은 거의 불가능하게 된다.


통계학과 조사방법론에서 가장 중요한 이론이라고 해도 과언이 아니다.



* 중심극한정리를 정리한 프랑스의 수학자 피에르시몽 라플라스


* 이상의 내용은 <이훈영의 연구방법론>를 기반으로

   개인적으로 정리한 것으로 다소 내용이 부정확할 수 있으니,

   해당 내용을 공부하시는 분은 반드시 교재 내용을 확인해보세요~


이훈영 교수의 연구조사방법론
국내도서
저자 : 이훈영
출판 : 도서출판청람 2012.09.10
상세보기