您現在的位置是:首頁 > 綜藝首頁綜藝

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

由 風雲之聲 發表于 綜藝2021-08-02
簡介羅納德·艾爾默·費舍爾在“主觀“之下思考當一群學者為了從資料中提取資訊而發展統計檢驗程式時,另一群更傾向於數學的人正在嘗試著為機率論的現實應用理清理論基礎,畢竟在諸多情況下,算清楚事件機率十分有價值

應用機率統計在哪裡能找到答案

關注風雲之聲

提升思維層次

導讀

機率論,數學家手中的水晶球。

在前文(讓機率來幫我們預測未來——數學與水晶球(上) | 返樸)中,我們瞭解了一些機率論中的基本內容,包括條件機率和貝葉斯定理等。本文我們將瞭解作為數學學科的機率論與統計學是如何發展到現在的。當然,這是一個極簡化的過程。有諸多非凡的學者,是他們的工作讓機率與統計不再只是遊戲,而是成為了可以真正指導人們生活的水晶球。

撰文 | Joseph Malkevitch

(紐約市立大學約克學院數學與計算機系榮譽教授)

編譯 | 施昊

所謂事後諸葛,就是人們會看到從當下發展到未來時到底發生了什麼,並且會說如果回到過去會如何。下面將要呈現的是,作為一門數學學科的機率論是如何發展的一個極簡化的探究過程。我們能發現,機率論相關的數學研究既不侷限於某個國家,也不限於那些在其他數學領域聞名的數學家。

另外,在人們最早試圖深入瞭解可能性和機率的概念的時候,人們就有兩種不同的想法。一種想法是,基於知識或證據來決定某件事發生的機率,比如颶風是否會襲擊紐約,而且這個系統的行為本身包含某種隨機性,比如投硬幣或擲骰子。從某種角度看,如果人們知道所有的資訊,並且運用物理學定律推演,那麼我們將知道每次玩轉盤、拋硬幣、擲骰子等遊戲的結果,但顯然這是不可能的事情。不過,許多與之相似的過程都存在一些“規律性”的東西,這些才是機率論的研究主題。比如說,如果拋一對均勻的骰子,你將會有多大可能看到兩個點數之和等於四呢?

對機率的早期認識

幾乎可以肯定的是,在很早時候,那些具有數學天賦的人就意識到了“隨機性”,比如作出很大貢獻的傑羅拉多·卡拉達諾(Gerolamo Cardano,1501-1576)。卡拉達諾研究了一些在今天看來是組合數學中計數部分的一些問題。他研究了當拋擲三個不同的骰子時最後結果的規律。他想要數出出現8或者9點的方式個數,但是他犯了錯誤。從現代的觀點來看,卡拉達諾不是第一個也不是最後一個出現“錯誤”的人。為了說明他的錯誤,我們用下面的例子來闡述。

當我們拋一個均勻的硬幣兩次,用H表示正面,T表示反面,我們可以寫出HH,HT,TH 和TT四種結果。這裡HT就是第一次是正面,第二次反面,反之亦然。如果我們數正面朝上的次數,答案是0,1或者2次。但是從現在的角度來看,說這三個結果(0,1,2)的可能性也就是P(0個正面)=P(1個正面)=P(2個正面)=1/3,這很奇怪。我們現在會說在拋兩次硬幣中1個正面朝上的機率是1/2,兩次正面朝上或者兩次背面朝上的機率是1/4。可是,這個似乎很簡單的錯誤在早期的機率論和組合數學中倒是很常見。事後看來卻是顯而易見的。

以數學基礎研究隨機性的“現代”起源要追溯到布萊茲·帕斯卡(Blaise Pascal ,1623-1662)和皮埃爾·德·費馬(Pierre de Fermat,1607-1665)的工作。1654年兩人通訊探討了一個賭博遊戲中的分配問題。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

布萊茲士·帕斯卡

假設有兩個賭徒,每一局中他們各自贏的機會相等。有一天,他倆各拿出相同金額的錢作為賭注,約定誰先贏到某個局數(假設是5),賭注就全部歸誰。不料,這時有突發事件,他們必須結束賭局並離開。此時,兩個人誰也沒贏到5盤,那麼這個賭注的錢應該怎麼分呢?當然,此時贏得多的人應該相應地拿的賭注多。可是,多少才算是公平呢?在通訊中,帕斯卡給出了一個公平的分配方案。

有趣的是,信中他還順帶解決了上帝“存在”的問題。雖然如今現代決策論可能被用來決定是否在特定的水下層位置進行石油鑽探,這無可厚非,而帕斯卡則用了一個令人驚訝的“現代”分析來解釋為什麼會有人相信上帝。帕斯卡在這裡的討論遵循了他著名的哲學專著《思想錄》中提出的觀點:上帝要麼存在,要麼不存在。每個人都必須決定他在這個問題上的立場,不能“不做決定”。關於上帝是否存在,帕斯卡認為單靠理性不能回答這個問題。可假設上帝存在的機率是有限的。人們可以從你決定堅持的立場來審視這一結果。帕斯卡認為,人們應該像上帝存在那樣生活,並去尋找上帝。如果上帝存在,那麼人們收益會是“無窮的”——因為信仰上帝而得到福澤;如果上帝不存在,對個人信仰來說損失相對較小對信仰者來說,他們所付出的代價也遠小於因上帝存在而得到的福祉。當然,一些人覺得帕斯卡的觀點很有說服力,有些人則不然。

讓機率論成為數學

第一本關於機率論的“書”似乎是由克里斯蒂安·惠更斯(Christiaan Huygens, 1629-1695)所寫的。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

克里斯蒂安·惠更斯

正如他所處的時代,那本“書”是以拉丁文出版的。而且是作為1657年弗朗斯·範·舒滕(Frans van Schooten)的數學著作

Exercitationum Mathematicarum Libri Quinque

的“附錄”問世——《論賭博中的計算》(

De ratiociniis in ludo Aleae

)。因此,除了在一小群致力於發展現代科學和數學思想和工具的知識分子中有影響,這本書的影響有限。

在這項工作不久之後,與隨機性和統計相關的觀點引起了約翰·格朗特(John Graunt,1620-1674)對疾病資料的關注。這些資料可以用來保護人們免受疾病未來可能帶來的影響,尤其是關於傳染病的影響。格朗特的工作在今天可能會被說成是與人口統計學有關的領域。他構建了一張表格,這張表格的現代運用就是保險公司用來設定壽險保費的“生命表(Life table)”。生命表裡面包含著一個人的年齡,,這個人在下一個生日前去世的機率,以及人們在特定年齡的預期壽命等等。比如,60歲的人比30歲的人更可能在某個特定時間段死亡,因此在設定購買人壽保險的價格時,人們會使用生命表。隨著時間的推移,人們已經意識到,並非所有人都能在給定的時間裡活的一樣長。比如說假設到了一個給定的年紀,女性有可能活得更久。此外,吸菸者的平均壽命不太可能跟不吸菸者一樣。

在18世紀,有許多重要的發展出現。雅各布·伯努利(Jacob Bernoulli,1655-1705)在《猜度術》(

Ars conjectandi

)中討論了今天被稱為“大數定律”的想法。如果取一個“獨立”生成的測量樣本,那麼隨著測量次數的增加,這些測量的平均值就會變得更加“穩定”。如果某人用多次投擲一枚均勻的骰子,點數結果是1、2、3、4、5或6。隨著投擲次數越來越多,點數的平均值會越來越接近7/2(即(1+2+3+4+5+6)/6)。今天,人們把一種特殊的機率模型(二項分佈)稱為“伯努利試驗”,以紀念這位數學家。這類模型中的實驗只有兩種結果,比如拋硬幣(正面或反面),或者觀察大量老鼠的性別(雄性或雌性)。同一時期,亞伯拉罕·棣莫弗(Abraham de Moivre,1667-1754)研究了被稱為年金的金融工具,而且用了今天所謂的“正態分佈”來近似二項分佈。

拉普拉斯(Pierre de Simon Laplace, 1749-1827)做了一些機率研究的成果“總結”並進一步“拓展”了。拉普拉斯幾乎對數學的所有領域都作出了重要貢獻,而不僅僅在機率論方面。他早期的工作記錄在他1774年出版的“回憶錄“(《論事件原因的機率回憶錄》

Mémoire sur la probabilité des causes par les événements

)中,裡面提到了“逆機率(Inverse probability)”,得出了與貝葉斯相同的觀點。拉普拉斯在他的一些著作中強調了今天所謂的“等機率”模型,即儘管某些事件的機率是未知的,但它們仍被假設是等機率的。通常情況下,這並不總是合理的。因為,儘管一個人可能不知道事情發生的機率,但他可以肯定有些事情比其他事情更有可能發生。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

拉普拉斯

19世紀對機率和統計有所貢獻的人包括:高斯(Johann Carl Friedrich Gauß ,1777-1855)和阿德里安-馬裡·勒讓德(Adrien-Marie Legendre ,1752-1833),後者是應用最小二乘法的先驅,他將一組觀測資料擬合成曲線,並試圖外推以預測未來情況。

然而,隨著時間的推移,人們越來越清楚地認識到,作為一門數學學科,機率論必須建立在一個更“公理化”的基礎上。由於沒有明確的定義和精確的框架來證明結果,人們對機率論的基礎產生了一些擔憂。蘇聯數學家安德烈·柯爾莫哥洛夫(Andrey Kolmogorov, 1903-1987)就是一個敢於接受這一挑戰的人。柯爾莫戈哥洛夫對數學的貢獻非常廣泛,包括在同調和上同調上的工作。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

安德烈·科爾莫戈洛夫的照片

讓機率論和統計學變得可靠

隨著19世紀末及後來科學和數學的飛速發展,人們不僅在科學領域,也在其他領域嘗試運用機率和統計的數學思想。雖然機率和統計逐漸有一個完善的理論基礎,其結果證明也基本符合現代的嚴格標準(比如大數定律,中心極限定理等),但爭論還是爆發了。要理解現實世界,基於機率論和統計學的方法論可靠嗎?如同之前提到的,當人們談論藥物A比藥物B效果更好的機率,和切爾諾貝利(1986)、三里島(1979)或福島(2011)再次發生災難的機率,這兩者之間是不同的,一些爭論就是與這些差異性相關。某些型別的實驗可以重複進行,結果可以製成表格,但很多事情沒有這種特性。

在過去的125年裡,有許多受過數學訓練的學者開發了從資料中推斷結論的“統計”工具。下面是關於統計檢驗貢獻者的簡短評論。

卡爾·皮爾森(Karl Pearson,1857-1936)幫助奠定了統計檢驗的現代理論。他研究了統計假設檢驗理論的實施過程(包括卡方檢驗的使用),併為面對不同選擇如何系統地作出決策提供了論據。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

卡爾·皮爾森

耶日。內曼(Jerzy Neynam,1894-1981)生於波蘭,但大部分職業生涯都在美國度過。在美國期間,他任教於加州大學伯克利分校,指導了39名博士生。因為在假設檢驗方法方面的工作,他的名字經常和卡爾·皮爾遜的名字聯絡在一起,內曼幫助推進了把置信區間(1937)作為統計研究過程的一部分。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

耶日·內曼

另一位試圖用統計學方法來深入瞭解遺傳學(進化)和其他學科的先驅是烏德尼·尤爾(Udny Yule,1871-1951)。尤爾寫了一些關於時間序列的論文,頗具影響力。他提出從等間隔時間的測量資料中理解資料。在時間序列的許多問題中,變數不和時間相關,而是和時間序列的滯後變數相關。觀察的差分值也是和同一時間序列的滯後變數的差分值相關。尤爾是皮爾森的學生,然而他更關注數字背後的隱藏現象,對資料分析得出的結論加以批判性的態度,這是皮爾遜所缺乏的,因此兩人對統計問題的處理方法和解釋常常意見不一。尤爾曾經在劍橋大學教了20年統計學。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

烏德尼·尤爾

統計學方法的另一位重要先驅是羅納德·艾爾默·費舍爾(Ronald Aylmer Fisher, 1890-1962),他鼓勵使用數學模型來研究遺傳學和進化。1935年,他寫了一本名為《實驗設計》(

The Design of Experiments

)的書,書中討論了今天所謂的塊設計(block designs)和平衡不完全塊設計在農業生產和其他場景下的應用。在這些實際問題中,人們希望將影響研究結果的隨機性最小化。因此,採用塊設計進行的產量試驗研究中,人們可以透過種植不同品種的植物來“校正”田間不同區域的肥力差異。費舍爾還探討p值與各種統計檢驗的結合使用,而且幾乎可以肯定的是,他會對那些聲稱獲得“顯著”結果的盲目做法感到震驚,因為那些糟糕的實驗設計中,計算得到出結果的p值很小。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

羅納德·艾爾默·費舍爾

在“主觀“之下思考

當一群學者為了從資料中提取資訊而發展統計檢驗程式時,另一群更傾向於數學的人正在嘗試著為機率論的現實應用理清理論基礎,畢竟在諸多情況下,算清楚事件機率十分有價值。這些人來自不同國家,職業也各不相同。大致來說,這些人在某種所謂“主觀(subjective)”的視角下思考機率,而不是用“頻率主義者(frequentist)”的觀點。另一方面,在某些情況下,當 “實驗”的重複次數增加時,直覺地將機率視為相對頻率的“穩定”值是有道理的。但有時這種逼近機率的方法是不可接受的。因此也有一群機率學家認為機率就是“相信程度(degrees of belief)”,但並不是所有采用這種觀點的人完全同意“機率”或“相信程度”的意義。

弗蘭克·拉姆齊(Frank Ramsy,1903-1930)以組合學的拉姆齊定理(Ramsey‘s theorem)而聞名,他也寫了一系列關於機率論和效用論的重要論文(1926)。他提出了關於機率和在不確定性下決策的觀點,這些現在通常被描述為“貝葉斯方法”。拉姆齊的研究為機率論帶來了非凡的創造力,但令人遺憾的是他在非常年輕的時候就去世了。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

弗蘭克。拉姆齊

布魯諾·德菲內蒂(Bruno de Finetti,1906-1985)也發展了“主觀”的、基於相信程度的機率概念。德菲內蒂出生於奧地利,但他的大部分職業生涯都是在義大利度過的。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

布魯諾·德菲內蒂

那些強調機率主觀方法的人中,最有影響力的人可能是萊納德·吉米·薩維奇(Leonard Jimmie Savage,1917-1971)。薩維奇寫了大量關於統計學基礎的文章,並在博弈論和決策制定中應用了他關於主觀機率的觀點。薩維奇提出了關於做決策時候使用後悔程度最小/最大的想法。為了量化玩家在遊戲中的不同行為,一般我們都會用玩家的收益去計算,但是他的想法卻是用了(玩家的)後悔程度。如果對於一個特定的自然狀態下,玩家沒有選擇可獲得的最優行為,而是其他行為,兩者的結果會發生什麼差異呢?對於自然狀態N,如果一個行為A取值為-3,那麼對於同樣的狀態N,有一個不同的行為可以取值為5,那麼選擇行為A的遺憾值為8。對於任何一種自然狀態,最佳行為的遺憾值是0。在將統計學和博弈論結合的工作中,薩維奇和包括米爾頓·弗裡德曼(Milton Friedman)在內的等許多經濟學家一起合作。

機率論和統計學中的巨匠——數學與水晶球(下)丨返樸

萊納德·吉米·薩維奇的照片

最近,在心理學、醫藥研究,以及其他能透過應用統計方法來增加我們見解的領域,人們重新開始關注進行假設檢驗的“公式化”的方法。一些人認為,p值的使用是一種僵化的方式,並不總能產生其他研究人員可以複製的結果。統計學家安德魯·格爾曼(Andrew Gelman)和哲學家黛博拉·梅奧(Deborah Mayo)兩人各自運營的部落格(Statistical modeling, Causal Inference and Social Science和Error Statistics Philosophy)會定期探討這些問題。

最重要的是,有一個可靠的水晶球來了解現在和將來將是一件妙不可言的事。數學家、統計學家和其他學者,正在努力為我們帶來更美好的未來。

參考文獻

[1] Beniston, M,, From Turbulence to Climate: Numerical Investigations of the Atmosphere with a Hierarchy of Models, Springer, Berlin, 1998。

[2] Daston, L。, Classical Probability During the Enlightenment, Princeton U。 Press, Princeton, 1988。

[3] Falk, R。, and M。 Bar-Hillel, Probabilistic dependence between events。 The Two-Year College Mathematics Journal。 14 (1983) 240-7。

[4] Falk, R。, Conditional probabilities: insights and difficulties。 In Proceedings of the Second International Conference on Teaching Statistics 1986, pp 292-297。

[5] Falk, R。, Misconceptions of statistical significance。 Journal of structural learning。 March, 1986。

[6] Gelman, A。 and J。 Carlin, H。 Stern, D。 Rubin, Bayesian Data Analysis (2nd edition), Chapman & Hall/CRC, Philadelphia, 2003

[7] Hacking, I。, The Emergence of Probability, Cambridge U。 Press, New York, 2006。

[8] Hald, A。, A History of Mathematical Statistics from 1750 to 1930, Wiley, New York, 1998。

[9] Hald, A。, A History of Probability and Statistics and Their Applications Before 1750。, Wiley, New York, 2003。

[10] Mayo, D。, Experimental Knowledge, University of Chicago Press, Chicago, 1996。

[11] Mayo, D。, Error and Inference: Recent Exchanges on Experimental Reasoning, Reliability, and the Objectivity and Rationality of Science, Cambridge University Press, New York, 2010。

[12] Roulstone, I。 and J。 Norbury, Invisible in the Storm: the role of mathematics in understanding weather, Princeton U。 Press, Princeton, 2013。

[13] Stigler, S。, The History of Statistics: The Measurement of Uncertainty Before 1900, Harvard U。 Press, Cambridge, 1990。

[14] van Plato, J。, Creating Modern Probability: Its Mathematics, Physics and Philosophy in Historical Perspective, Cambridge U。 Press, New York, 1994。

擴充套件閱讀:

讓機率來幫我們預測未來——數學與水晶球(上) | 返樸

吳孟超:用一生為理想去奮鬥 丨返樸

一篇論文被預印本文庫兩次拒絕,什麼時候發論文這麼難了?!| 返樸

提升科研人員的幸福感,從改寫科學新聞標題開始 | 返樸

背景簡介:

文章2021年5月31日發表於微信公眾號

返樸

(機率論和統計學中的巨匠——數學與水晶球(下)),風雲之聲獲授權轉載。

責任編輯:

孫遠