從天才基本法的紅藍球問題談起

普通人窮極一生要怎麼能跟得上天才的腳步?一以貫之的努力,不可懈怠的人生,就算開局壞到極點的人,也有無限可能。普通人如何做到天才那樣,獲得成功?一以貫之的努力,不可懈怠的人生,每天的微小積累會決定最終結果,這就是答案。

——《天才基本法》

本文先討論紅藍球問題和三門問題,接下來談談貝葉斯定理,最後討論辛普森殺妻案的條件機率問題。

紅藍球問題

熱播電視劇《天才基本法》第4集,主角團參加小學奧數夏令營選拔賽,最後一題是一道機率題。

有三個完全相同的盒子,一個盒子裡面裝了兩個紅球,一個盒子裡面裝了兩個藍球,一個盒子裡面裝的是一個藍球、一個紅球。

從三個盒子中隨機選擇了一個盒子,從裡面拿出了一個球,發現是紅色的,問這個盒子裡剩下的那個球是紅色的機率有多大?

剛開始林朝夕的思路是,盒子裡有紅球,排除了兩個都是藍球的盒子,所以只能是兩個紅球的盒子或者一紅一藍的盒子,所以機率是1/2。這種思路通常也是大多數人的直覺。

但後來,林朝夕意識到雙紅盒子和紅藍盒子的機率不是等可能的。

用列舉法解題,從三個盒子中摸出一個球,有6個摸球可能,其中摸出紅球有3種可能,另外一個球也是紅球有2種可能,所以最後的機率應該是2/3。

電視劇裡展示了章亮的解題思路,即大學生的解法。

解:設摸出第一個球為紅球是事件A,盒子裡剩下的球是紅球是事件B,求P(B|A)是多少?

P(AB)=⅓,P(AB)是指事件A和事件B都發生的機率,顯然是⅓。因為在3個盒子中,只有選中了紅紅盒子,才會發生事件A和事件B。

接下來計算事件A發生的機率:

P(A)=⅓·1+⅓·0+⅓·½

題目問的是當事件A發生時,事件B發生的機率是多少?這是一個條件機率問題,把上面的計算結果套公式就算出來了。

條件機率公式有兩個,請看下圖:

從天才基本法的紅藍球問題談起

條件機率公式

套公式的計算過程請看下圖:

從天才基本法的紅藍球問題談起

紅藍球問題的答案

正確答案是三分之二。

電視劇裡林朝夕用小學生解法求出了正確答案。曹奐東的b站影片解說講得非常好,他說,把紅球編號,紅紅盒子裡的兩個紅球編號為1和2,紅藍盒子裡的紅球編號為3,於是問題轉化為下面的同構問題了:

有三個紅球,摸到1號或2號的機率是多少?

摸到1號代表成功,摸到2號代表成功,摸到3號代表失敗。條件機率問題其實就是限制了你的選擇範圍,縮小了包圍圈,然後再讓你計算需要求的機率。

問題轉化以後,現在答案就像水晶一樣透明,當然是三分之二啦。你摸三次,成功兩次,失敗一次,很容易理解。

曹奐東還提到了可以用文恩圖解決這個機率問題。

從考場出來後,電視劇裡的對話還提到了三門問題。

三門問題:勞斯萊斯和羊

三門問題(Monty Hall problem)亦稱為蒙提霍爾問題、蒙特霍問題或蒙提霍爾悖論,大致出自美國的電視遊戲節目Let‘s Make a Deal。問題名字來自該節目的主持人蒙提·霍爾(Monty Hall)。參賽者會看見三扇關閉了的門,其中一扇的後面有一輛勞斯萊斯汽車,選中後面有車的那扇門可贏得該汽車,另外兩扇門後面則各藏有一隻山羊。當參賽者選定了一扇門,但未去開啟它的時候,節目主持人開啟剩下兩扇門的其中一扇,露出其中一隻山羊。主持人其後會問參賽者要不要換另一扇仍然關上的門。問題是:換另一扇門是否會增加參賽者贏得汽車的機率。如果嚴格按照上述的條件,那麼答案是會。不換門的話,贏得汽車的機率是1/3。換門的話,贏得汽車的機率是2/3。

由於該問題的答案十分違反普通人的直覺,在多年以前曾引起一陣熱烈的討論。

這個問題的答案很容易驗證。你可以在紙上做實驗,把三個門標號為1,2,3,再任意假定一個編號藏著勞斯萊斯。你連續猜3次,每次猜不同的門。根據實驗結果就可以計算出換門後的成功率由⅓上升到了三分之二。

貝葉斯定理:辛普森殺死前妻的機率有多大?

你有沒有做過這樣的噩夢:馬上就要期末考試了,你突然發現有一門課你從來沒有上過,試卷的內容你一點兒也看不懂?這是學生的噩夢。

而教授的噩夢與學生的噩夢正好相反,教授會夢見自己站在講臺上準備講課,卻突然發現要講的內容自己一點兒也不記得了。

每次上機率課的時候,我就好像生活在這樣的噩夢裡。我自己做學生的時候從來沒上過機率課,所以對我來說,給學生們上機率課既恐怖又有趣,就好像是在遊樂園遊玩時進“鬼屋”一樣。

機率課上最能讓我心跳過速的內容是條件機率:在發生事件B的前提下,發生事件A的條件機率是多少(即已知事件B發生,在此條件下事件A發生的機率是多少)?

這個概念非常複雜,很容易就會把B發生的前提下A發生的條件機率,與A發生的前提下B發生的條件機率相混淆。這兩個概念當然是不一樣的,但是,需要集中注意力保持頭腦清醒,才能搞清楚它們之間的區別。

在舉例之前,我們先考慮下面這個問題。你打算外出度假一週,出發之前,你請一個粗心的朋友幫你給一棵“生病”的植物澆水。如果不澆水,這棵植物有90%的機率會死掉。但即使是用心澆水,這棵植物也有20%的機率會死掉。根據你的判斷,這個粗心的朋友忘記澆水的機率是30%。

以上是本題的條件,本題的問題如下:(a)你回來時,這棵植物還活著的機率是多大?

(b)如果你回來時發現植物已經死了,請問你的朋友沒有澆水的機率是多大?

(c)如果你的朋友沒有給植物澆水,你回來時發現植物死了的機率是多大?

雖然(b)問題和(c)問題聽起來差不多,但是這兩個問題是不一樣的,答案當然也不一樣。實際上,題目的條件已經告訴我們,“如果不給植物澆水,這棵植物有90%的機率會死掉”,所以問題(c)的答案是90%。

但是,怎樣利用這些條件求解出(a)和(b)問題的答案呢?

因為我對機率不大熟悉,所以一開始教這門課的時候,我主要追求穩妥:什麼都按照書本來,像上面這種題目我就直接套用書本上的公式來解答。

但是漸漸地,我發現有些學生不用貝葉斯定理也能解出這類題目。為了繞過繁雜的貝葉斯定理,這些聰明的同學用一種與貝葉斯定理的原理相同但卻更加簡單明瞭的方法來解答這類題目。

時光飛逝,我給一屆又一屆的學生講授機率課。在這些聰明學生的啟發下,我慢慢地發現了一套理解條件機率的更好的辦法。

貝葉斯定理看上去很令人迷惑,而這些學生教我的方法則完全順應人的直覺。這個方法的竅門就是,不要去想抽象的機率、機會、百分比之類的概念,而是直接考慮事情發生的次數(顯然,這是一種更為自然的頻率計算法,也可稱為事件的“自然頻率”)。只要轉變思路,一切就都豁然開朗了。

就職於柏林馬克思·普朗克人類發展研究所的認知心理學家捷爾德·蓋格瑞澤寫了一本非常有意思的書,書名為《風險的計算》。

在這本書中,蓋格瑞澤舉出了很多他在研究中發現的人類對風險和不確定性的誤判和錯誤計算。算錯機率的例子遍及各個領域:從艾滋病治療到脫氧核糖核酸(DNA)指紋圖譜的識別。

雖然我們計算機率的時候常常錯得離譜兒,但是這位仁慈的心理學家並沒有責罵我們的愚蠢,也沒有哀嘆人類的脆弱,他只是耐心地告訴我們怎樣才能減少這類錯誤。

蓋格瑞澤的方法和我的學生們發明的方法差不多,那就是,當面對條件機率問題的時候,不使用抽象的機率和百分比,而是依賴最自然、最原始的計數方法:計算事件發生的次數(自然頻率)。

在其中一項研究中,蓋格瑞澤和他的同事請德國和美國的醫生們來解答這樣一個問題:

如果一位婦女的乳房X射線檢查結果呈陽性,但是這位婦女又屬於乳腺癌發病風險較低的人群(年齡在40~50歲,無家族乳腺癌病史,本人無乳腺癌症狀),那麼她罹患乳腺癌的機率到底有多大?

為了把問題進一步具體化,蓋格瑞澤給受訪的醫生們提供瞭如下資訊:一是這個人群中乳癌的發病率,二是乳房X射線檢查的靈敏度和陰性被誤判為陽性的機率。

這些資訊都是以機率和百分比的形式給出的,具體資料如下:

在年齡為40~50歲、無家族乳腺癌病史、本人無乳腺癌症狀的婦女中,乳腺癌發病率是0。8%。如果一位婦女確實患有乳腺癌,那麼乳房X射線檢查呈陽性的機率是90%。如果一位婦女沒有患上乳腺癌,但乳房X射線檢查結果呈陽性的機率為7%。

現在,有一位婦女,她屬於乳腺癌發病風險較低的人群,但是她的乳房X射線檢查結果呈陽性,請問她實際患有乳腺癌的機率是多少?

蓋格瑞澤詢問的第一位醫生是一所大學附屬醫院某部門的主任,對於乳腺癌的診斷,這位醫生有著超過30年的專業經驗。根據蓋格瑞澤的描述,這位醫生對上述問題的反應是這樣的:我提出這個問題以後,這位醫生顯得很緊張,他很努力地想要算出正確的數值。在仔細研究過我給出的資料以後,這位醫生判斷,在乳房X射線檢查結果呈陽性的前提下,這位婦女實際患有乳腺癌的機率是90%。

回答完這個問題以後,這位醫生又立刻推翻了自己的答案,他緊張地說:“我肯定搞錯了,我根本不會算。你應該去問我的女兒,她正在醫學院讀書。”

顯然,這位醫生很清楚自己的答案是錯誤的,但是他卻不知道怎麼才能算對。雖然他對這個問題冥思苦想了足有10分鐘,但他卻根本不清楚應該怎樣使用機率。

同樣的問題,蓋格瑞澤又詢問了24位德國醫生,這些醫生給出的答案五花八門。有8位醫生認為,這位婦女實際患有乳腺癌的機率應該為10%或者更低;另有8個醫生認為,這位婦女實際患有乳腺癌的機率是90%;剩下的8名醫生認為,這位婦女實際患有乳腺癌的機率為50%~80%。

想象一下,如果你是一位病人,聽到這些結果不一的診斷意見,你的心裡會有多麼痛苦。

那麼,美國醫生的表現又如何呢?85%的受訪醫生認為,該婦女罹患乳癌的機率應該約為75%。

其實,這道題的正確答案是9%。

為什麼這位婦女實際患乳癌的機率這麼低?蓋格瑞澤指出,只要把題目的說法從機率和百分比“翻譯”成事件發生的次數,這道題就會變得非常簡單。

具體翻譯如下:

在年齡為40~50歲、無家族乳腺癌病史、本人無乳腺癌症狀的每1 000位婦女中,就會有8人罹患乳腺癌。這8個人中有7個人的乳房X射線檢查結果呈陽性。在沒有患上乳腺癌的992人中,大約有70人的乳房X射線檢查結果會錯誤地顯示為陽性。現在有一個乳房X射線檢查結果呈陽性的婦女,請問她實際患有乳腺癌的機率是多少?

非常簡單。1 000人中檢查結果呈陽性的一共有7+70=77個人。這77個人中,只有7個人確實是乳腺癌患者,剩下的70人並沒有患上乳腺癌。所以,在檢查結果呈陽性的前提下,實際患有乳腺癌的機率是7除以77,也就是1/11或者約9%。

在上面的計算中,我們做了兩處簡化。

第一,我們把所有小數四捨五入為整數。比如,“這8個人中有7個人的乳房X射線檢查結果呈陽性”。準確地說,8個患乳腺癌的人乳房X射線檢查結果呈陽性的機率為90%,也就是說有8×0。9=7。2個人乳房X射線的檢查結果呈陽性。此處,我們把7。2直接四捨五入為7,雖然精確度有所下降,但是整數會比小數更清楚易懂。

第二,我們假設實際情況和統計資料是完全相符的。比如,低風險人群的乳腺癌發病率是0。8%,那麼假設1 000人樣本中正好有8個人患病。

現實中,情況往往不是這樣,你拋1 000次硬幣,不一定正好有500次的結果是正面朝上的。但是,我們需要假設樣本完全服從統計資料的分佈規律,否則我們就沒辦法計算了。

不得不承認,這個方法在邏輯上並不是很嚴密,所以,任何一本機率學教科書都不會採用這種方法。

但是,與複雜的貝葉斯定理相比,我們的這種方法既簡單又清楚,光這兩個優點其實已經足夠了。

作為上述實驗的對照,蓋格瑞澤又找了另外24位醫生,向他們提出同樣的問題,只不過這次的資料不是以機率和百分比的形式給出,而是以事件發生的自然頻率的形式給出(即直接給出翻譯過後的題目)。結果是,幾乎所有受訪醫生都給出了正確的答案(或者答案與正確答案很接近)。

把機率從百分比簡化成事件發生次數,確實使問題解決起來容易許多,但是條件機率仍然是一個比較複雜的內容。有時候,我們甚至連問題都問錯了;還有的時候,我們算出了正確的結果,卻又被結果所誤導,給出了錯誤的解釋。

辛普森殺妻案與條件機率問題

在1994~1995年辛普森殺妻案的庭審過程中,控方和辯方都犯了這類錯誤。在法庭上,雙方律師都用錯誤的條件機率誤導過陪審團。

在庭審的最初10天內,控方舉出了無數證據說明辛普森常對前妻妮可爾·布朗實施家庭暴力。這幾乎是控方這10天訴訟的唯一主題。

控方聲稱,辛普森曾多次毆打前妻,把她往牆上推,甚至當眾指著妮可爾對圍觀群眾說:“看,這是屬於我的東西!”但問題是,辛普森虐待前妻與他有沒有謀殺她有什麼關係呢?

控方的觀點是,長期對前妻實施家庭暴力說明辛普森有謀殺前妻的動機。按照控方自己的說法就是:“一個巴掌可能就是謀殺的前兆。”

而辯方律師阿蘭·德爾紹維茨則反駁說,就算這些家暴事件全部屬實,也和謀殺沒有必然關係,所以不應該被採納。

阿蘭·德爾紹維茨後來寫道:“毆打配偶的男性中,只有非常少的人最後真的會謀殺配偶,這個機率低於1/2500。如果庭審需要,我們可以輕鬆地明確證實這一點。”

實際上,不管是控方還是辯方,都在誘導陪審團考慮這樣一個條件機率:在已知丈夫曾經毆打妻子的前提下,丈夫謀殺妻子的機率是多少。

但是,正如統計學家I·J·古德所指出的那樣,這個問題其實是錯誤的,陪審團應該考慮的並不是這個條件機率。正確的問題應該是:在已知丈夫曾經毆打妻子,並且妻子確實死於謀殺的雙重前提下,丈夫謀殺妻子的機率是多少。

經過調查和計算,這個條件機率遠遠高於1/2500。

為什麼呢?讓我們再次使用自然頻率法,把機率和百分比轉換成事件發生的次數。想象我們的樣本是100 000個被丈夫毆打過的婦女。假設阿蘭·德爾紹維茨的資料屬實,那麼這其中大概有40個婦女最終會被丈夫謀殺(100 000×1/2 500 = 40)。

我們再假設,另外還有3個婦女被丈夫以外的人謀殺了(這是根據美國聯邦調查局於1992年釋出的女性被謀殺的資料算出來的)。

也就是說,被謀殺的43位女性中,有40個婦女是被對她們實施家暴行為的丈夫殺掉的。

因此,在已知丈夫曾經毆打妻子,並且妻子確實被人謀殺的雙重前提下,丈夫謀殺妻子的機率高達93%!

當然,這個機率並不是辛普森殺妻的機率。辛普森是本案兇手的機率到底有多大,還取決於很多其他的證據(包括對他有利的證據和對他不利的證據)。

比如,辯方稱警方曾陷害過辛普森,控方則稱兇手的鞋印、手套、DNA都與辛普森相吻合等。但是,這些證據影響你對最終判決看法的機率又是多少呢?我想這個機率可能是零。

數學建模大賽

以上第三和第四兩個單元的內容來自美國應用數學家斯托加茨的《x的奇幻之旅》第23章。讀了以後,我們明白提正確的問題是何等重要。

電視劇《天才基本法》裡的主角林朝夕兩次用貝葉斯定理和Python進行數學建模,還提到了先驗機率和後驗機率。第一次主力是裴之,林朝夕協助,第二次數學建模大賽的主力是林朝夕,裴之協助。

讓普通人理解複雜的貝葉斯定理很難,閱讀前面兩個單元的書摘其實對普通人幫助更大,也更輕鬆。

前面我們已經介紹了條件機率公式,很自然就能夠推匯出乘法公式:

P(AB)=P(A|B)P(B)

=P(B|A)P(A)

我們把條件機率公式,乘法公式,全機率公式等組合起來,就能夠得到貝葉斯定理:

從天才基本法的紅藍球問題談起

貝葉斯公式(引自《數學辭海》第一卷)

托馬斯·貝葉斯是18世紀的英國牧師。他原本準備計算神存在的機率,結果發現了這個貝葉斯公式。然而這個公式在貝葉斯生前並沒有公佈,而是過半世紀之後,法國數學家皮埃爾-西蒙·拉普拉斯在一本關於機率論的書中介紹了這個公式。此後,這個公式就為大家熟知了。

關於婦女接受乳腺癌檢查的例子,需要指出一個數學角度的說明。用數學的機率論觀點看問題,婦女接受乳腺癌檢查是有意義的:

在接受檢查前,確診的機率是0。8%;在接受檢查後陽性,機率上升到9%;如果再一次接受檢查,還是陽性,機率就上升到58%了。

運用貝葉斯定理,每次獲取新的資訊後都知道如何修改機率。從數學的角度體現出學習“經驗”。

所謂進步,就是積累經驗,獲取更為正確的知識。每當遇到新資訊,我們需要擁有能夠改變之前判斷的勇氣和沉穩的內心。這也是我們從貝葉斯定理中學到的。

特別收錄

查閱資料可以讓我們獲得需要的知識,所謂書到用時方恨少。

接下來請看《數學辭海》第一卷關於機率論的一些相關知識點。

從天才基本法的紅藍球問題談起

703左欄

從天才基本法的紅藍球問題談起

703右欄

從天才基本法的紅藍球問題談起

704左欄

從天才基本法的紅藍球問題談起

704右欄

科學尚未普及,媒體還需努力。感謝閱讀,再見。