결합확률과 체인룰

1. 결합 확률 함수(Joint Probability Function)

결합확률을 통계적으로 이산랜덤변수와 연속랜덤변수로 나누어 구분할 수 있다.

이 포스트에서는 이산랜덤변수에 의한 결합 확률 분포를 살펴보겠다. (연속형의 경우 본격적으로 다룰 기회가 있을 거라고 믿는다.^^;)

p(y_1, y_2) 가 이산 랜덤 변수(Discrete Random Variables) 이면, Y_1, Y_2의 결합확률 분포는 다음과 같다.

p(y_1, y_2)=P(Y_1=y_1, Y_2=y_2), \,\,\, -\infty< y_1 < \infty, -\infty< y_2 < \infty

 

함수 p(y_1, y_2) 를 결합 확률 함수 (joint probability function) 이라고 칭한다.

 

이 때, 다음과 같은 성질을 만족한다.

  • 1. p(y_1, y_2) \geq 0 \,\,\, for \,all y_1, y_2
  • 2. \sum_{y_1, y_2} p(y_1, y_2) = 1

 

한 가지 예를 들어 설명해 보자. 전체 확률공간 S 는 서울에 사는 중학교 3학년 집단이라고 가정하자. 이때, A 는 선호하는 아이돌을 나타내고, B는 이들의 거주지가 서울의 강남인지 강북인지이다.

위의 테이블을 확인하고서, 다음 질문에 답해보자.

  • P(Y_1='BTS') =?
  • P(Y_2='SOUTH') =?
  • P(Y_1='BTS', Y_2='SOUTH') =?

마지막 질문의 정답은 3 / 64 이 된다. 여러분들도 한번 구해 보시기 바란다.

 

2. 체인룰 (Chain Rule)

체인룰을 유도하기 위해 시행이라는 의미로 조금 다르게 접근해 보고자 한다.

P(x, y)  는 x 와 y 의 시행이 연속된 형태로  볼 수 있다.

즉, 이것을

P(x, y) = P(x \, and \, y) 으로 나타내면 x 가 먼저 발생하고 y가 발생했다고 보거나 그 반대의 경우로 생각할 수 있다.

두 시행의 연속은 아래와 같이 표현할 수 있다.

P(x \, and \, y) = P(x) \cdot P(y|x)

i.e. probability \, of \, x \rightarrow y \, : \, P(x) \cdot P(y|x)

 

그렇다면 다음과 같은 3 가지 시행에 대해선 어떻게 될까?    x \rightarrow y \rightarrow z

두 단계로 나누어서 생각해 보면 조금 더 이해하기 쉽다.
1. x \rightarrow y, z
2. x, y \rightarrow z

 

1. 첫 번째 단계 :  x \rightarrow y, z

probability \, of \, x \rightarrow y,z \, : \, P(x) \cdot P(y,z|x)

 

2. 두 번째 단계 : 첫 번째 단계에서 이미 x 가 발생했으므로, 두 번째 단계에서는 x 가 발생한 뒤 y가 발생한 확률을 구하고 x, y 가 이미 발생한 상태에서 z가 발생할 확률을 곱해주면 된다.

probability \, of \, x,y \rightarrow z \, : \, P(x) \cdot P(z|x,y) \cdot P(y|x)

 

3 가지 사건을 일반적인 n개의 사건으로 확장시켜 보면,  x_1, \, x_2, \cdots , x_n

P(x_1,x_2, \cdots , x_n) = P(x_n|x_{n-1}, \cdots, x_1) \cdots P(x_2|x_1) \cdot P(x_1)

 

와 같이 n개의 시행(변수)에 대해서 결합확률을 얻을 수 있게 된다.

 

이는 반대의 과정으로 진행할 수도 있는데 (변수 하나씩 조건에 넣는 것이 아닌 복수개 변수를 조건에 넣으면 큰데서 작은데로 전개된다.)

P(x_1, x_2, \cdots, x_n) = P(x_n|x_{n-1}, \cdots, x_1) P(x_{n-1}, \cdots, x_1) = P(x_n|x_{n-1}, \cdots, x_1) P(x_{n-1} | x_{n-2}, \cdots, x_1) P(x_{n-2}, \cdots, x_1) = P(x_n|x_{n-1}, \cdots, x_1) P(x_{n-1} | x_{n-2}, \cdots, x_1) P(x_{n-2}|x_{n-3}, \cdots,x_1) \cdots P(x_2|x_1) P(x_1)

 

좀 더 직관적인 방법으로 유도한 것 뿐이다.

Leave a Comment