Saturday, November 06, 2010

Conditional Probability

Conditional Probability,中譯「條件概率」。中學時大家也學過吧?忘了是甚麼?看看以下示例:

某袋內有 8 個紅球、2 個白球。從袋裏逐一隨機抽出 2 個球,且抽出的球不放回袋中 (without replacement)。已知第一個抽出的是紅球,求第二個抽出的是紅球的概率。

答案當然不是 8/10,第二次抽球的結果的概率會受第一次抽球的結果影響。
因為第一個抽出的是紅球,所以袋裏剩下 7 個紅球和 2 個白球。因此,答案是 2/9。

這例子中所求的便是一個條件概率。

已知事件 A 發生的情況下求事件 B 的概率,這是一個條件概率,以符號 P(B|A) 表示。

在我讀中四、五的年代,沒有引入 P(B|A) 這符號。在以上例子,如果要求抽出兩個紅球的概率,就會這樣寫出來:

P(兩個紅球)
=P(R1)*P(R2)
=(8/10)*(7/9)
=28/45

但情況如果變為「抽出的球會放回袋中」,即是 "with replacement",寫法依舊,但數字不同:
P(兩個紅球)
=P(R1)*P(R2)
=(8/10)*(8/10)
=16/25

老師也不會提甚麼條件概率,總之心入面知道是 with replacement 還是 without replacement,寫出正確的乘式便行。那時也不需要學習以下公式:
P(A|B) = P(A and B)/P(B)

不過於早幾年(2006)的會考數學課程中,也引入了條件概率的概念及以上公式。於是以上抽球問題,便可列式如下:
P(兩個紅球)
=P(R1)*P(R2|R1)
=(8/10)*(7/9)
=28/45

這樣有一個好處,就是要求學生更注意涉及的事件是否「相關事件」(dependent events),如在上例的抽球問題,球是否須放回袋中。

不過我個人覺得,要學習那個條件概率的公式,以我過往的學習經驗來說,我覺得幾深,可能是我自己習不得其法。

那公式,是我到中六應用數學課程中才接觸。那時意會到,原來過往抽球中不把球放回所計算的,是一個條件概率,去到這裏也沒有甚麼大問題。但再學那條公式,問題就出現了。

這個不是數學問題,是我個人的感觀問題。

「已知事件 A 發生,求事件 B 發生的概率。」
無問題呀,把數字代入公式便可。我搞得清哪事件是已知,要求哪事件的概率,無問題呀。

再以以上抽球的例子,有時習題可能會這樣問:
(a) 已知第一個抽出的是紅球,求第二個抽出的是紅球的概率。
(b) 已知第二個抽出的是紅球,求第一個抽出的是紅球的概率。

(a) 沒有甚麼問題。但那時候 (b) 簡直令我瘋顛。當時我在想,既然知道第二個抽出的是紅球,你不抽第一個球,哪會去抽第二個球?已抽了第一個球,即是知道它是甚麼顏色,為何要求概率?

相信大家都看到,我那時的 Mathematics maturity 或者太低。

這情況聽落很怪,但這種「已知………發生,求………發生的概率」,其實係數學上係 well defined object,按定義去做便行,實在想得太多了。那時候我糾結於現實中的「先」和「後」,令我對條件概率很迷惑。

其實應該放開先後的概念,不過我見過不少文獻在講授條件概率時也有用到先後的概率,例如這樣定義:
在事件 B 已經發生的情況下事件 A 發生的概率。
不知會唔會有學生出現與我一樣的困惑?
我覺得這樣講較好
在事件 B 發生的情況下事件 A 發生的概率。

而事實上,亦不是已發生的就是肯定的,早前作題目,我想過一個例子。

會考中的多項選擇題,某條有多少百分比的學生選了A、多少選了B、多少選了C、多少選了D,這些資料考試局是有齊的。知道有幾多幾多百分比的學生選中正確答案又如何?學生可以瞎猜吧!無錯,學生是可以瞎猜,但你也可以從這些資料估計出真正有多少學生知道正確答案。

如果某條多項選擇題有四個選擇,結果有 80% 的考生選中。現在看看究竟真正有多少人真正知道該題的答案。當然,事前我要作出一些合理的假設。我假設知道正確答案的必會選出正確選項,不知答案的必會從四個選項中隨機選一個。
設 A 為學生知道正確答案的事件,B 為學生選出正確答案的事件。
設 x% 的考生知道正確答案。
於是
P(B)= P(A)*P(B|A)+P(not A)*P(B|notA)
80% = (x%)*(1)+(1-x%)(1/4)
得出 x = 73.333333....
這個才是 80% 背後的意義。我們本身無法知道真正有多少學生知道正確答案,但就可以用條件概率去作估計。

這類例子,一般講解條件概率的書籍皆有提及,例如檢驗某病毒等例子,但甚少會再去討論當中的用意,其價值貶為一般示例。

或者只是基於我的無知而小提大做吧。

不過,條件概率實在是概率論中一個很強的工具,一定要好好理解。

No comments: