조건부 확률과 교집합(곱사건) 차이는 표본공간

확률통계 공부를 하다보면 시작부터 개념이 알쏭달쏭하다. 그 중에서 조건부 확률과 교집합이 대체 뭐가 다른건지 잘 이해되지 않는다. A가 발생했을 때 B가 발생할 확률과, A와 B가 동시에 발생할 확률이 뭐가 다르다는 걸까? 차이를 알아보자.

들어가기에 앞서 확률 모형을 정의하는 요소들에 대한 기본 개념부터 보고오면 보다 수월하다.

☑️ 확률 모형이란? 정의와 표본공간, 사건의 정의

조건부 확률이란?

(Conditional Probability)

사건 (event) B의 조건부 확률이란 사건 A가 이미 발생했음을 알고있는 경우의 확률이다. P(B|A) 로 나타내며, A가 주어졌을 때의 (given A) B를 나타내는 표기법이다. P(B|A) 에서 | 기호는 if를 의미한다. 만약 A가 발생했다면 그 때 B가 발생할 확률은 얼마인가? 라는 것이다.

조건부 확률이 기초 부분이지만 난해한 이유는 아마도 이런 개념 때문이다. A와 B가 동시에 발생하는 교집합 확률과 대체 무슨 차이라는 말인가? 그 차이는 표본공간에 있다.

교집합 다이어그램

A와 B의 교집합 확률은 전체 표본공간 S의 부분집합인 사건 A와 사건 B가 있고, 이 때 A와 B가 겹쳐지는 부분의 사건이 발생할 확률이다. 벤다이어그램을 통해 이해해 보면, A와 B의 교집합 확률 P(A∩B) 는 전체 S 중에서 A와 B가 겹치는 부분이 발생할 확률이다.

반면에 조건부 확률은 A가 발생했다고 가정한 상태에서 구하는 것이기 때문에 사건 A자체가 표본공간이 된다. A가 이미 발생한 상태에서 B가 일어나야되는데 발생할 수 있는건 역시 A와 B의 교집합 부분이다. 왜냐면 교집합이 아닌 B 부분이 발생한다면 최초 A가 발생한 상태라는 가정에 모순된다.

발생하는 사건 부분은 P(A∩B)로 동일하나 모수가 표본공간 S가 아닌 A로 바뀌는 것이다. 그래서 조건부 확률은 아래와 같이 나타낸다.

조건부 확률 수식

먼저 발생한 사건의 결과 A가 관심사건 B 확률 계산을 위한 새로운 표본공간이 된다는 것이 조건부 확률의 핵심이다.

독립인 경우

만약 사건 A와 B가 독립이라면, A가 발생했을 때 B가 발생할 확률은 그냥 P(B)가 된다. A의 발생이 B의 확률에 영향을 주지않기 때문에 A가 일어나든 말든 상관이 없는 것이다.

이는 수식으로도 알 수 있다. 독립일 경우 두 사건의 교집합은 두 사건 확률의 곱으로 나타내어진다.

P(A∩B) = P(A)P(B)

☑️ 독립의 정의

따라서 조건부 확률 식에서

P(B|A) = P(A∩B) / P(A) = P(A)P(B) / P(A) = P(B)

이와 같이 분자 분모의 P(A)가 소거되어 P(B)만 남는다.

확률 문제는 다양한 예제를 통해 학습하는 것만이 실력 향상의 지름길이라고들 한다. 구글링 중에 찾아본 가장 적절한 몇가지 예시문제들의 풀이를 소개하니 직접 풀어본 후 해설을 참조해보면 도움이 될 것이다.

예시문제1

1) 카드 게임에서 플레이어가 이기려면 같은 무늬의 카드 두 장을 뽑아야 한다고 가정하자. 첫번째 카드를 하트를 뽑았을 때, 두번째 카드를 하트를 뽑을 확률은 얼마인가.

첫번째 카드를 52장 중에서 13장 하트 중 하나를 뽑았기 때문에 두번째 뽑을때는 51장 중에서 12장을 뽑는 확률이 된다. 즉 첫번째 카드를 뽑았을 때, 그 카드와 같은 무늬의 두번째 카드를 뽑을 조건부 확률은 12/51 이다.

2) 대학의 합격률이 80%이고 합격자 중 60%에게 기숙사가 주어진다고 했을 때, 대학에 합격하고 기숙사를 제공받을 확률은 얼마인가.

문제에 이미 조건부 확률이 주어져 있다. 대학 합격이 A, 기숙사가 B라고 할 때, 대학 합격했을 경우 기숙사를 받는 것은 조건부 확률 P(B|A) 이다. 이 문제는 조건부 확률을 묻는 것이 아니라 A와 B 두 가지 조건을 만족하는 교집합 발생의 확률을 묻는 문제이다.

P(B|A) = 0.6 (대학 합격했을 때 기숙사 제공받을 확률)

P(A) = 0.8 (대학 합격할 확률)

P(A∩B) = ?? (대학도 합격하고 기숙사도 제공받을 확률)

P(A∩B) = P(B|A) P(A) = 0.6 * 0.8 = 0.48

위에서 설명했듯이 교집합과 조건부 확률의 차이는 표본공간의 차이이다. 전체 학생 (표본공간S) 중에서 대학도 들어가고 기숙사도 제공받는 숫자는 교집합을 구하는 것이고, 일단 대학 합격했는데 그 중에서 기숙사 제공받는 확률을 구할 때는 표본공간이 대학 합격자 수로 바뀌는 것이다.

다시말해 표본공간이 S에서 A로 정규화 (normalization) 되는 것이라고도 할 수 있다.

여기에 조건을 하나 더 추가해보자. 기숙사 들어가는 학생중에 80%는 룸메이트가 생길 것이다. 그렇다면 대학에 합격하고 기숙사에 들어가고 룸메이트가 없이 혼자 방을 쓸 확률은?

룸메이트 없을 확률을 C라고 하면,

P(A∩B∩C) = P(A) P(B|A) P(C|A∩B) = 0.6 * 0.8 * 0.2 = 0.096 이 된다.

A에 대해 B의 교집합 확률을 구할 때는 P(A)에 A발생하에 B가 일어날 조건부 확률 P(B|A) 를 곱해주면 된다. 마찬가지로 A∩B에 대해 C의 교집합을 추가할 때는 P(A∩B)에다가 A∩B 발생하에 C가 발생할 조건부 확률 P(C|A∩B)를 곱해준 것이다. 조건부 확률을 알면 교집합을 구할 수 있고 교집합을 알면 조건부 확률을 구할 수 있다.

예시문제2

어느지역 고등학생 200명을 대상으로 사는 곳과 셔틀버스 이용여부를 조사하였다. 이 중 은평구 사는 학생이 120명, 셔틀버스를 이용하는 학생은 140명, 셔틀버스를 이용하지 않는데 은평구 이외의 지역에 사는 학생이 25명이었다.

1) 고등학생 한 명을 선택하였을 때 이 학생이 은평구에 살면서 셔틀버스를 이용할 확률을 구하시오.

2) 고등학생 한 명을 선택하였을 때 이 학생이 셔틀버스를 이용하는 학생이었다. 이 학생이 은평구에 살 확률을 구하시오.

이쯤 됐으면 이제 문제를 보고 이게 교집합(곱사건)을 묻는 것인지 조건부 확률을 묻는 것인지 알아야 한다. 첫번째 질문은 두 가지 조건에 모두 해당할 확률을 묻는 것이니 교집합(곱사건) 확률을 묻는 문제이고, 두번째는 사건 한가지가 이미 일어난 상태에서 두번째 사건이 일어날 확률인 조건부 확률을 묻는 문제이다.

표를 그려서 각 조건에 해당하는 학생수를 알고있는 정보 먼저 채워넣는다.

은평구 거주은평구 이외 거주합계
셔틀버스 이용140
셔틀버스 이용X25
합계120200

위와 같이 전체 학생수, 그리고 3가지 경우에 대해 학생수가 주어졌다. 이렇게 채워넣으면 나머지 빈칸도 간단한 뺄셈으로 채워넣을 수 있다.

은평구 거주은평구 이외 거주합계
셔틀버스 이용8555140
셔틀버스 이용X352560
합계12080200

모든 경우의 확률을 다 채워넣었다. 이제 문제를 다시 보면,

첫번째 은평구 & 셔틀버스일 확률은 85명인데 표본공간이 전체 200명이니까 답은 85/200이다.

두번째 셔틀버스 이용하는 학생을 골랐는데 (표본공간 140) 이 중에서 은평구에 살 확률은 85명이니까 답은 85/140

교집합(곱사건)과 조건부 확률의 개념차이만 알고 있으면 이렇게 쉽게 풀리는 문제가 또 없다. 그러지만 조건부 확률에 대한 표본공간 축소 개념 이해를 못하고 교집합과 헷갈린다면 이런 단순한 문제도 틀릴 것이다.

예시문제3

다른 집을 들릴 때 세번 중 한번꼴로 모자를 놓고 와서 잃어버리는 버릇이 있는 사람이 있다. 이 사람이 순서대로 A, B, C의 집을 차례로 방문 한 후 돌아왔다. 이 때,

1) 모자를 잃어버리지 않고 돌아왔을 확률을 구하여라.

2) 모자를 잃어버리고 돌아왔을 때, 잃어버린 곳이 C의 집일 확률을 구하여라.

예시 2번과 같이 곱사건 구하는 문제와 조건부 확률 구하는 문제가 세트로 있는 예제문제이다. 이 문제는 월간 수학세계 1980년 4월호에 제시되어 5월호에서 고려대 수학과 유희세 교수가 풀이해주신 문제이다.

단지 문제의 해설만이 아니라 조건부 확률에 대한 개념, 확률 공부 자체에 대한 통찰도 실려있어서 읽어보기 좋은 글이다. 당시에 선진국인 프랑스의 교육과정과 비교한 대목도 인상깊었다. 

유희세 교수님은 2018년 타계하셨다고 나오네. 간단한 약력을 찾아보니 

공주사범대학 수학과 교수
충남대학교 수학과 교수
고려대학교 수학과 교수
일본 국제 기독교대학 대학원에서 연구
1974. ~ 1976. 파리 6대학 확률론연구소에서 연구
1983. 이스라엘 하이파대학에서 연구
1972. 성경집회

이렇게 나온다. 옛날에는 한국이 뭐 제대로 된 거 하나 없었던 시절이라 이렇게 외국에서 공부하고 와야만 진정한 지식인이라 할 수 있었고, 또 이런 사람 밑에서 배워야 학벌의 사다리를 타고 올라갈 수 있었다.

칼럼 내용중에 확률 교육의 문제점에 대해 한탄하신 부분이 있는데 당시로부터 30년이 지난 지금은 구글링만 해도 유희세 교수가 말씀하신 프랑스에서 가르치는 개념으로 쉽게 찾아볼 수 있게 되었다. 얼마나 공부하기 좋은 환경인가 ㅎㅎㅎ

예전 같았으면 수십만원 내야 들을 수 있었을 강의도 유튜브에서 무료로 볼 수 있고, 심지어 하버드 예일대 강의도 방구석에서 볼 수 있는 시대이다. 영어만 잘하면 무한한 길이 열러있는 세상. (그래도, 아니 그래서 더욱이 영어는 잘하고 봐야한다)

감상에 젖어서 잡담이 길었네. 다시 본론으로 돌아가서, 문제를 풀어보자.

A, B, C의 세집을 이 순서대로 차례로 방문하고 돌아왔다. 지금 첫째 집 A에서 모자를 잊어버린다는 사건을 A₀ , B에서 잊어버린다는 사건을 B₀ , C에서 잊어버린다는 사건을 C₀ 라고 하자. 그리고 모자를 잊어버리지 않고 집으로 돌아오는 사건을 D₀ 라고 하자.

각 사건의 확률은 다음과 같다.

조건부확률 예시문제 풀이과정

C에서 모자를 잃어버리려면 앞에 A, B에서 잃어버리지 않아야 하니까 (2/3) 씩 곱사건으로 추가되는 것이다. 모자를 잃어버리지 않고 돌아왔을 확률 D₀가 첫번째 문제의 답이 된다.

이제 조건부 확률로 넘어가면, 모자를 잃어버렸을 경우에 그게 A였을 확률 B였을 확률 C였을 확률도 간단히 구할 수 있다.

A가 발생했을 때 B가 발생할 확률은 P(B|A) 로 나타내니까, 여기서 모자를 잃어버렸을 확률은 1-D₀ = D 가 발생했을때를 표본공간으로 보면 된다. 

모자를 잃어버렸을 때 그게 A, B, C일 확률은 각각 다음과 같다.

P(A₀|Dᶜ) = P(A₀∩Dᶜ) / P(Dᶜ) = P(A₀) / P(Dᶜ) = (1/3) / (19/27)

P(B₀|Dᶜ) = P(B₀∩Dᶜ) / P(Dᶜ) = P(B₀) / P(Dᶜ) = (2/9) / (19/27)

P(C₀|Dᶜ) = P(C₀∩Dᶜ) / P(Dᶜ) = P(C₀) / P(Dᶜ) = (4/27) / (19/27)

여기서 P(A₀∩Dᶜ) = P(A₀) 로 치환을 했는데, Dᶜ 즉 모자를 잃어버렸을 확률은 P(A₀) P(B₀) P(C₀) 세가지 경우 뿐이므로 P(Dᶜ) = P(A₀) + P(B₀) + P(C₀) 이다. A₀ B₀ C₀ 세 사건은 서로 배반사건이고 A₀의 모든 원소는 Dᶜ에 포함되는 부분집합이기 때문에 P(A₀∩Dᶜ) = P(A₀) 가 되는 것이다.

☑️ 배반사건의 정의

이렇게 조건부 확률에 대한 교집합(곱사건)과의 차이를 표본공간의 축소라는 개념으로 이해하고, 다양한 예제문제를 통해 실제로 어떻게 계산되는지 구해보았다.

이 조건부 확률의 개념은 베이즈 정리로 이어지며 불확실한 확률에 근간하여 결정해야 하는 인공지능과 머신러닝, 딥러닝의 수학적 토대가 된다. 다음 시간에는 조건부 확률로 코로나 걸렸는지 계산해보는 문제와, 몬티홀 풀이를 살펴본다.

확률통계 이어서 공부하기

☑️ 진짜 코로나일까? 걸릴 확률 계산해보기

☑️ 선택을 바꾸시겠습니까? 몬티홀 문제풀이 총정리