확률 모형이란 어떠한 무작위 현상에 대한 수학적 표현이다. 결과가 확률에 의해 매번 달라지는 실험을 의미한다. 영어 표기로는 probability model 이므로 확률 모델이라고 말해도 같은 뜻이다. 확률 모형과 사건에 대한 개념을 알아본다.
확률모형의 정의
확률 모형을 정의하는 요소는
- 표본 공간 (sample space)
- 사건 (events)
- 확률 (probabilities)
에 의해 나타내어 진다. 각각의 개념에 대해 하나씩 심도있게 알아보자.
표본공간 (sample space)
표본공간은 모든 관찰 가능한 결과의 집합 S이다. 예를 들어 그릇에 5개의 구슬이 들어있다고 가정해 보자. 5개의 구슬의 색깔은 각각 빨강, 주황, 노랑, 초록, 파랑이다. 그릇에서 1개의 구슬을 꺼낸다고 했을때 가능한 표본공간은 S = {빨강 , 주황 , 노랑 , 초록 , 파랑} 이 된다. 1개를 꺼낼때 일어날 수 있는 모든 가능한 전체결과를 모아둔 것이다.
만약 그릇에 있는 구슬이 3개는 빨간색 2개는 파란색이라면? 표본공간은 S = {빨강 , 파랑} 이 될 것이다. 대신에 이번에는 공을 두 번 뽑는 경우를 생각해보면 모든 가능한 결과에 대한 표본공간은 S = {(빨강2) , (파랑2) , (빨강1 파랑1)} 가 된다.
사건 (events)
사건은 관심있는 결과들을 모아둔 것이다. 사건 A는 표본공간 S의 부분집합 (subset) 이다.
빨간공 3개와 파란공 2개가 담겨있는 경우를 가정해 보자. 여기에서 공 3개를 한번에 한개씩 뽑는다고 할 때, 빨간공 2개를 뽑는 사건은 3가지 방법으로 달성이 가능하다. 그 3가지 방법을 나열한 것이 사건 A = {(빨강 , 빨강 , 파랑) , (빨강 , 파랑 , 빨강) , (파랑 , 빨강 , 빨강)} 이다.
한번에 하나씩 3개의 구슬을 뽑는 행위에 대한 전체결과 즉 표본공간은 S = {(빨강 , 빨강 , 빨강) , (빨강 , 빨강 , 파랑), (빨강 , 파랑 , 빨강) , (파랑 , 빨강 , 빨강) , (파랑 , 파랑 , 빨강) , (파랑 , 빨강 , 파랑) , (빨강 , 파랑 , 파랑)} 이렇게 이다.
말했듯이 하나씩 공을 3번 뽑을 때 빨간공 2개를 뽑는 사건은 (=빨간공이 2개 나오는 결과들의 집합) 하나씩 공을 3번 뽑을 때 일어날 수 있는 모든 결과인 표본공간의 부분집합이다. 또한 여기서 파란공이 2개만 있기 때문에 (파랑 , 파랑 , 파랑) 이벤트는 달성할 수 없다.
확률 (probability)
확률은 주어진 사건에 할당된 수치이다. 사건의 확률은 P(A)라고 쓰고, 장기간의 상대 빈도를 나타낸다. 장기간의 상대 빈도라 함은 (long-run relative frequency) 오랜기간 많은 횟수가 시도되면 사건의 발생은 확률 수치로 수렴하게 된다는 의미이다. 주사위를 천번 던지면 1이 나올 확률이 거의 1/6이 되는 것처럼.
확률은 기본적으로 두 가지 법칙을 따른다.
다시 다섯개의 구슬이 그릇에 담겨있다고 가정해보자. 여기서 구슬 한개를 선택하기 위한 표본공간은 S = {빨강 , 주황 , 노랑 , 초록 , 파랑} 이다. 이 중에 한개가 무조건 선택되어야 하기 때문에 어떠한 구슬을 고르는 확률은 표본공간의 확률인 1이다.
관심사건이 (the event of interest) 파랑색 공을 고르는 A = {파랑} 이라고 해보자. 하나의 구슬이 선택될 확률이 동일하다면 파란색 공을 뽑을 확률은 P(A) = 1/5 이다. 일반적으로 동일하게 발생가능한 결과에 대한 확률은 다음과 같다.
발생할 가능성이 같은 결과들 k개가 있을 때 각각의 개별 결과는 확률 1/k 가 된다.
이것은 라플라스가 정립한 확률의 고전적 정의 P(A)=관심사건 원소수 M / 표본공간 N 의 개념인데, 현실에서는 N이 유한하지 않고 M의 확률도 차수마다 다르다. 따라서 현실을 반영한 확률은 상대적 비율 P(A)=lim(n→∞) [A가 발생한 횟수 m / 실험횟수 n] 와 같이 구하기도 한다.
분리 (disjoint)
두 사건에 공통된 결과가 없을 때 이를 분리라고 한다. 교집합이 없으며 배반사건이라고도 한다. 배반 사건에서 확률의 세번째 기본 규칙이 나온다.
P (A∪B) = P (A) + P (B)
둘 또는 그 이상의 사건중 한가지가 발생하는 경우를 합사건이라고 한다. 교집합이 없는 분리된 배반사건끼리의 합사건이 발생할 확률은 각각의 사건의 확률을 더한 합과 같다.
예를 들어 위에서 하나의 구슬을 고를 때 가능한 결과는 서로 분리되어 있다. 빨간공을 뽑는 사건과 파란공을 뽑는 사건에 공통된 결과는 없다. 따라서 빨간공 또는 파란공을 뽑을 확률 = 빨간공 뽑을 확률 1/5 + 파란공 뽑을 확률 1/5 = 2/5가 되는 것이다.
또 빨간공 3개 파란공 2개가 있을 때 하나를 집어 빨간공이 나올 확률은 3/5이다. 전체 표본공간의 확률이 1이어야 하므로 빨간공이 나오지 않을 확률, 즉 파란공이 나올 확률은 1-3/5=2/5가 된다. 이 2/5는 A의 여사건 (complement) 이라고 하며 Aᶜ (윗첨자 c)로 표기한다. 확률의 네번째 법칙은 다음과 같다.
독립 (independence)
동전을 두 번 던지는 것처럼 연속적으로 발생하는 두 가지 사건에서, 첫번째 사건의 결과는 두번째 사건의 결과에 영향을 미치지 않는다. 이것을 독립이라고 한다. 다른 던지기 결과에 관계없이 동전을 던질때 앞면이 나올 확률은 1/2이다. 다섯번째 확률 규칙은 곱셈 규칙 (multiplication rule) 으로 알려져 있으며 독립 사건에만 적용된다.
P(A∩B) = P(A)P(B)
동전 던지기에서 두 번 모두 앞면이 나올 확률은 1/2 * 1/2 = 1/4 , 4번 모두 앞면이 나올 확률은 1/2 * 1/2 * 1/2 * 1/2 = 1/16 이다.
두 사건 A와 B가 분리되지 않은 경우 합집합의 확률은 각 사건 확률의 합에서 교집합 확률을 뺀 것과 같다.
빨간공 3개 파란공 2개가 그릇에 들어있는 경우 빨간공을 뽑을 확률 P(A)=3/5 , 파란공을 뽑을 확률 P(B)=2/5 이다. 두 사건은 독립적이기 때문에 교집합 확률은 P(A∩B) = P(A)P(B) = 2/5 * 3/5 = 6/25 이다. 합사건 확률 P (A∪B) = P(A) + P(B) – P(A∩B) = 3/5 + 2/5 – 6/25 = 1 – 6/25 = 19/25 = 0.76 이런식으로 계산된다.
두 사건이 분리 (=배반사건) 인 경우 독립적이지 않다. 5가지 색상의 공 중 하나를 뽑는 사건에서 처음 파란공을 뽑을 사건 A의 확률은 1/5이다. 초록색 공을 뽑을 사건B는 파란공이 뽑히면 일어나지 않는다. 명백하게 한가지 사건이 다른 사건에 영향을 주는 경우이다.
만약 파란공을 뽑고 두번째 공을 뽑기전에 공을 다시 원상복귀 시켜놓는다면, 두번째 공을 뽑는 행위에 영향을 주지 않고 서로 독립적인 사건이 된다. 이 경우에는 공을 두 번 뽑아 파란공과 초록색 공을 뽑을 확률이 1/5 * 1/5 = 1/25가 된다.
둘 또는 독립적이지 않은 사건의 교집합 확률은 조건부 확률을 이용하여 결정된다. 다음 내용을 이어서 보도록 하자.
확률통계 더 공부하기
참고자료