베이즈 정리 ( Bayes Theorem )

1. 베이즈 정리 (Bayes Theorem)

우리는 2 개의 조건부 확률을 사용하여 베이즈 정리를 쉽게 유도할 수 있다.

$P(B|A) = \dfrac {P(B \cap A)}{P(A)}$
$P(A|B) = \dfrac {P(A \cap B)}{P(B)}$

\Longrightarrow P(A|B) \times P(B) = P(B|A) \times P(A)

\therefore P(A|B) = \dfrac {P(B|A)P(A)}{P(B)}

$P(A|B)$ 는 조건부 확률이다. B가 사실(true) 로 주어졌을 때, A가 발생할 가능도(likelihood) 로 정의할 수 있다.
$P(B|A)$ 역시 조건부 확률이다. A가 사실(true) 로 주어졌을 때, B가 발생할 가능도(likelihood) 로 정의할 수 있다.
$P(A)$ 와 $P(B)$ 는 서로 독립적으로 관측되는 marginal probability (주변확률) 이다.

reference : Wikipedia

2. 베이즈 정리 (Bayes Theorem)을 활용한 예제

한 가지 예를 들어 설명해 보자. “Python Machine Learning By Example“을 참고했다.

어느 공장의 A, B, C 세 대의 기계가 전체 전구 생산량의 35%, 20%, 45% 씩을 만들어 내고 있다. 각 기계에서 생산된 전구의 불량률은
A가 1.5%, B가 1%, C가 2% 다. 이 공장에서 생산된 전구에서 불량품이 발견됐다고 하자 (이 사건을 D로 표현한다.) 각각의 기계 A, B, C
가 이 전구를 생산했을 확률을 계산하면 얼마씩일까?

베이즈 정리에 따라 차근차근 계산하면 된다.

P(A|D)= \dfrac {P(D|A)P(A)}{P(D)} = \dfrac {P(D|A)P(A)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}

=\dfrac {0.015*0.35}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.323

P(B|D)= \dfrac {P(D|B)P(B)}{P(D)} = \dfrac {P(D|B)P(B)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}

=\dfrac {0.01*0.2}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.123

P(C|D)= \dfrac {P(D|C)P(C)}{P(D)} = \dfrac {P(D|C)P(C)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}

=\dfrac {0.02*0.45}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.554

사실은, $P(D)$ 를 계산하지 않아도 되는데

P(A|D):P(B|D):P(C|D) = 0.015*0.35:0.01*0.2:0.02*0.45 = 21:8:36

그리고 $P(A|D) + P(B|D) + P(C|D) = 1$ 인 사실을 이용하면,

P(A|D) =\dfrac {21}{21+8+36}= 0.323,P(B|D)=\dfrac {8}{21+8+36} =0.123

로 구할 수 있다. $P(D)$ 가 상수(constant) term 으로 불리는 이유다.

3. 베이즈 정리에 대한 두 가지 해석

베이지안의 해석
– 베이지안 해석에서는 확률은 ‘믿음의 정도’ 를 측정한다.
– 따라서 베이즈 정리는 사전 조건으로서 ‘믿음의 정도 (degree of belief)’ 와 증거(evidence) 발생 후 를 연결시킨다.
– 조건으로서 $A$ 와 증거 (evidence) $B$ ,
. $P(A)$ , 사전확률 : A 의 초기 ‘믿음의 정도 (degree of belief)’를 나타낸다.
. $P(A|B)$ , 사후확률 : 증거(evidence) B 에 의해 설명되는 ‘믿음의 정도 (degree of belief)’ 이다.
. $\dfrac {P(B|A)}{P(B)}$ 의 몫은 A 에 의해 설명되는 B 의 영역을 나타낸다.

– 엄밀하게 정의한 베이지안 추정은 다음과 같다. [reference : Wikipedia]

$P(H|E) = \dfrac {P(E|H) \cdot P(H)}{P(E)}$
$H$ 는 데이터에 의해 영향 받을 수 있는 모든 가설을 의미한다. 종종 대립가설이 존재하며, 어떤 가설이 더 높은 가능성을 갖고 있는지 밝히는 작업이 있다.
$P(H)$ 는 사전확률로, 가설 $H$ 가 증거(관측 데이터) $E$ 없이 추정되는 확률이다.
$P(H|E)$ , 는 사후확률로, 증거 $E$ 가 주어졌을 때, 즉 증거가 관측되고 난 다음의 가설 $H$ 의 확률이다. 이것이 우리가 알고자 하는 증거가 제시되었을 때의 확률이다.
$P(E|H)$ 는 가설 $H$ 가 주어졌을 때 (특정 가설이 참 일 때), 증거 $E$ 가 관찰될 확률이며 가능도 (likelihood) 라고 불린다. $H$ 를 고정하고 $E$ 에 대한 함수로 표현하면, 주어진 가설에 대한 증거가 발견될 (성립할) 가능성을 의미한다. 사후확률(posterior probability)이 가설 $H$ 에 대한 함수인 반면에, 가능도 함수(likelihood function) 은 증거 $E$ 에 대한 함수이다.
$P(E)$ 는 종종 marginal likelihood 또는 ‘모델에 대한 증거’ 라고 불린다. 이 요소는 모든 가설에 대해서 동일하게 간주되므로 ( 다른 요소들과는 다르게 가설 $H$ 가 나타나지 않기 때문에), 대립 가설들 (다른 가설들) 의 상대적인 비교시에는 사라지는 항목이다.

빈도주의자의 해석
. 빈도주의자의 해석에서는 확률은 발생할 빈도(비율)을 측정하는 것이다.
. 베이즈정리는 아래와 같이 트리 다이어그램으로 잘 표현되는데, 두 다이어그램은 $A$ 와 $B$ 에 대한 동일한 분할을 나타낸다. 다만 역으로 확률을 구해서 반대되는 순서로 나타날 뿐이다. 베이즈 정리는 이 두 가지 다른 분할 방식을 연결해 주는 역할을 한다.

reference : Wikipedia

베이즈 정리 ( Bayes Theorem )

1 thought on “베이즈 정리 ( Bayes Theorem )”

Leave a Comment 응답 취소