概率论

「機率論」的各地常用名稱
中国大陸	概率论
臺灣	機率論
港澳	概率論
日本、韓國漢字	確率論

機率論（英語：Probability theory）是研究概率、隨機性及不確定性等現象的數學分支。概率论主要研究对象为随机事件、随机变量以及随机过程。

对于随机事件是不可能准确预测其结果的，然而对于一系列的独立随机事件——例如掷骰子、扔硬幣、抽撲克牌以及輪盤等，会呈现出一定的、可以被用于研究及预测的规律，两个用来描述这些规律的最具代表性的数学结论分别是大數法則和中心极限定理。

作为统计学的数学基础，概率论对诸多涉及大量数据定量分析的人类活动极为重要^[1]，概率论的方法同样适用于其他方面，例如对只知道系统部分状态的复杂系统的描述——统计力学，而二十世纪物理学的重大发现是以量子力学所描述的原子尺度上物理现象的概率本质^{[來源請求]}。

數學家和精算師認為概率是在0至1閉區間内的數字，指定給一發生與失敗是隨機的「事件」。概率 $P(A)$ 根據概率公理來指定給事件 $A$ 。

一事件 $A$ 在一事件 $B$ 確定發生後會發生的概率稱為 $B$ 給之 $A$ 的條件概率；其數值為 ${P(B\cap A) \over P(B)}$ 。若 $B$ 給之 $A$ 的條件概率和 $A$ 的概率相同時，則稱 $A$ 和 $B$ 為獨立事件。且 $A$ 和 $B$ 的此一關係為對稱的，這可以由一同價敘述：「當 $A$ 和 $B$ 為獨立事件時， $P(A\cap B)=P(A)P(B)$ 。」中看出。

概率論中的兩個重要概念為隨機變數和隨機變數的概率分佈兩種。

生活例子

人們對概率總是有一點觸摸不清的感覺，而事實上也有很多看似奇異的結果：

六合彩：在六合彩（49選6）中，一共有13,983,816種可能性（參閱組合數學），如果每周都買一組不相同的號，一年有52周，則在實驗越多次（一直買直到中獎算一次）之後，平均中獎所花的時間會越接近 ${\frac {13983816}{52}}=268919$ 。

事實上，即使每周買相同的號碼，獲得頭獎的概率也是相同的。但假設每周實際中獎的組合都不重複，268919年的算術推論是正確的，這說明概率和其他數學理論可能導出不同的結論。

六合彩：仍然是六合彩。買5, 17, 19, 24, 33, 49中奬概率高還是買1,2,3,4,5,6的中奬概率高?

古典概率論說：一樣。

但實際上機械或彩球製造上都有些微小的差異，所以每組概率不一定完全相同，但必須累積多期開獎結果後才看得出來。

生日悖論：根據機率論，在每23人當中，至少有兩個人的生日相同的概率大于50％。
輪盤遊戲：在遊戲中玩家可能認為，在連續出現多次紅色後，出現黑色的概率會越來越大。

這種判斷也是錯誤的，即出現黑色的概率每次是相等的，因為球本身並沒有「記憶」，它不會意識到以前都發生了什麼，其概率始終是

{\frac {18}{37}}

。

但輪盤的前後期開獎數字形成時間序列（可能存在自迴歸模型）。

三門問題：在參賽者面前有三扇關閉的門，其中只有一扇後面有名車，而其餘的後面是山羊。

遊戲規則是，參賽者先選取一扇門，但在他打開之前，主持人在其餘兩扇門中打開了一扇有山羊的門，並詢問參賽者是否改變主意選擇另一扇門，以使贏得名車的概率變大。

正確的分析結果是，假如不管開始哪一扇門被選，主持人都打開其餘兩扇門中有山羊的那一扇並詢問參賽者是否改變主意，則改變主意會使贏得汽車的概率增加一倍。

历史

作为数学统计基础的概率论的创始人分别是法国数学家帕斯卡和子碩，其可追溯到公元17世纪。当时的法国宫廷贵族里盛行着掷骰子游戏，游戏规则是玩家连续掷4次骰子，如果其中没有6点出现，玩家赢，如果出现一次6点，则庄家（相当于现在的赌场）赢。按照这一游戏规则，从长期来看，庄家扮演赢家的角色，而玩家大部分时间是输家，因为庄家总是要靠此維生的，而当时人们也接受了这种现象。

后来为了使游戏更刺激，游戏规则发生了些许变化，玩家这回用2个骰子连续掷24次，不同时出现2个6点，玩家赢，否则庄家赢。当时人们普遍认为，2次出现6点的概率是一次出现6点的概率的1 / 6，因此6倍于前一种规则的次数，也既是24次赢或输的概率与以前是相等的。然而事实却並非如此，从长期来看，这回庄家处于输家的状态，于是他们去请教当时的数学家帕斯卡，求助其对这种现象作出解释。

其他对概率论的发展作出重要贡献的人还有荷兰物理、数学家惠更斯，瑞士物理、数学家伯努利，法国数学家棣莫弗，法国数学、天文学家拉普拉斯，德国数学家高斯，法国物理、数学家泊松，意大利数学、医学家卡尔达诺以及苏联数学家柯爾莫哥洛夫。

事件

单位事件、事件空间、随机事件

在一次随机试验中可能发生的不能再细分的结果被称为基本事件，或者称为单位事件，用 $E$ 表示。在随机试验中可能发生的所有单位事件的集合称为事件空间，用 $S$ 来表示。例如在一次掷骰子的随机试验中，如果用获得的点数来表示单位事件，那么一共可能出现 6 个单位事件，则事件空间可以表示为 $S=\{1,2,3,4,5,6\}$ 。

上面的事件空间是由可数有限单位事件组成，事实上还存在着由可数无限以及不可数单位事件组成的事件空间，比如在一次获得正面朝上就停止的随机掷硬币试验中，其事件空间由可数无限单位事件组成，表示为： $S=$ { 正，反正，反反正，反反反正，反反反反正，···}，注意到在这个例子中"反反反正"是单位事件。将两根筷子随意扔向桌面，其静止后所形成的交角假设为 $\alpha$ ，这个随机试验的事件空间的组成可以表示为 $S=\{\alpha |0^{\circ }\leq \alpha <180^{\circ }\}$ 。

随机事件是事件空间 $S$ 的子集，它由事件空间 $S$ 中的单位元素构成，用大写字母 $A,B,C\cdots$ 表示。例如在掷两个骰子的随机试验中，设随机事件 $A$ = “获得的点数和大于10”，则 $A$ 可以由下面 3 个单位事件组成： $A=\{(5,6),(6,5),(6,6)\}$ 。

如果在随机试验中事件空间中的所有可能的单位事件都发生，这个事件被称为必然事件，表示为 $S\subset S$ ；相应的如果事件空间里不包含任何一个单位事件，则称为不可能事件，表示为 $\varnothing \subset S$ 。

事件的计算

因为事件在一定程度上是以集合的含义定义的，因此可以把集合计算方法直接应用于事件的计算，也就是说，在计算过程中，可以把事件当作集合来对待。

$A$ 的补集不属于 $A$ 的事件发生	并集 $A$ ∪ $B$ 或者 $A$ 或者 $B$ 或者 $A,B$ 同时发生	交集 $A$ ∩ $B$ 事件 $A,B$ 同时发生
差集 $A$ \ $B$ 不属于 $B$ 的 $A$ 事件发生	空集 $A$ ∩ $B$ = ∅ $A,B$ 事件不同时发生	子集 $B$ ⊆ $A$ 如 $B$ 发生，则 $A$ 也一定发生

在轮盘游戏中假设 $A$ 代表事件「球落在红色区域」， $B$ 代表事件"球落在黑色区域"，因为事件 $A$ 和 $B$ 没有共同的单位事件，因此可表示为

$A\cap B=\varnothing$

注意到事件 $A$ 和 $B$ 并不是互补的关系，因为在整个事件空间 $S$ 中还有一个单位事件「零」，其即不是红色也不是黑色，而是绿色，因此 $A,B$ 的补集应该分别表示如下：

${\bar {A}}=S\setminus A=B\cup \left\{0\right\}$
${\bar {B}}=S\setminus B=A\cup \left\{0\right\}$

概率的定义

传统概率（古典機率、拉普拉斯概率）

传统概率的定义是由法国数学家拉普拉斯提出的。如果一个随机试验所包含的单位事件是有限的，且每个单位事件发生的可能性均相等，则这个随机试验叫做拉普拉斯试验。在拉普拉斯试验中，事件 $A$ 在事件空间 $S$ 中的概率 $P(A)$ 为：

例如，在一次同时掷一个硬币和一个骰子的随机试验中，假设事件 $A$ 为获得国徽面且点数大于 4 ，那么事件 $A$ 的概率应该有如下计算方法： $S=$ { ( 国徽，1 点 )，( 数字，1 点 )，( 国徽，2 点 )，( 数字，2 点 )，( 国徽，3 点 )，( 数字，3 点 )，( 国徽，4 点 )，( 数字，4 点 )，( 国徽，5 点 )，( 数字，5 点 )，( 国徽，6 点 )，( 数字，6 点 ) }， $A$ ＝{( 国徽，5 点 )，( 国徽，6 点 )}，按照拉普拉斯定义， $A$ 的概率为，

P(A)={\frac {2}{12}}={\frac {1}{6}}

注意到在拉普拉斯试验中存在着若干的疑问，在现实中是否存在着其单位事件的概率具有精确相同的概率值的試驗? 因为我们不知道，硬币以及骰子是否完美，即骰子制造的是否均匀，其重心是否位于正中心，以及轮盘是否倾向于某一个数字。尽管如此，传统概率在实践中被广泛应用于确定事件的概率值，其理论根据是：如果没有足够的论据来证明一个事件的概率大于另一个事件的概率，那么可以认为这两个事件的概率值相等。

如果仔细观察这个定义会发现拉普拉斯用概率解释了概率，定义中用了相同的可能性 ( 原文是 également possible )一词，其实指的就是"相同的概率"。这个定义也并没有说出，到底什么是概率，以及如何用数字来确定概率。在现实生活中也有一系列问题，无论如何不能用传统概率定义来解释，比如，人寿保险公司无法确定一个 50 岁的人在下一年将死去的概率。

统计概率

继传统概率论之后，英国逻辑学家約翰·維恩和奥地利数学家理查德提出建立在頻率理论基础上的统计概率。他们认为，获得一个事件的概率值的唯一方法是通过对该事件进行 100 次，1000 次或者甚至 10000 次的前后相互独立的 $n$ 次随机试验，针对每次试验均记录下绝对频率值 $h_{n}$ (A)和相对频率值 $f_{n}$ (A)，随着试验次数 $n$ 的增加，会出现如下事实，即相对频率值会趋于稳定，它在一个特定的值上下浮动，也即是说存在着一个极限值 $P(A)$ ，相对频率值趋向于这个极限值。这个极限值被称为统计概率，表示为：

P(A)=\lim _{n\to \infty }f_{n}(A)

例如，若想知道在一次掷骰子的随机试验中获得 6 点的概率值可以对其进行 3000 次前后独立的扔掷试验，在每一次试验后记录下出现 6 点的次数，然后通过计算相对频率值可以得到趋向于某一个数的统计概率值。

扔掷数	获得 6 点的绝对频率	获得 6 点的相对频率
1	1	1.00000
2	1	0.50000
3	1	0.33333
4	1	0.25000
5	2	0.40000
10	2	0.20000
20	5	0.25000
100	12	0.12000
200	39	0.19500
300	46	0.15333
400	72	0.18000
500	76	0.15200
600	102	0.17000
700	120	0.17143
1000	170	0.17000
2000	343	0.17150
3000	506	0.16867

上面提到的这个有关相对频率的经验规律是大数定律在现实生活中的反映，大数定律是初等概率论的基础。统计概率在今天的实践中依然具有重要意义，特别是在初等概率论及数理统计等学科中。

现代概率论

与初等概率论相对的，是“现代概率论”。因测度论的研究与发展，现代概率论得以公理化。一些曾经无法用初等概率论解释的概念因此得以用公理化的语言进行解释，可以说现代概率论以测度论为理论基础终于得以完善，完成了其现代化进程。现代概率论由前苏联数学家柯尔莫哥洛夫于1933年建立公理化。

概率公理

如果一个函数 $P:S\to \mathbb {R} ,\ A\mapsto P(A)$ 指定给每一个事件空间 $S$ 中的事件 $A$ 一个实数 $P(A)$ ，并且其满足下面的 3 个公理，那么函数 $P$ 叫做概率函数，相应的 $P(A)$ 叫做事件 $A$ 的概率。

公理 1：

0\leq P(A)\leq 1\ (A\in S)

事件

A

的概率

P(A)

是一个0与1之间（包含0与1）的非负实数。

公理 2：

P(S)=1

事件空間的概率值为 1 。

公理 3：

P(A\cup B)=P(A)+P(B)

，如果

A\cap B=\varnothing

互斥事件的加法法则。这里需注意：公理3可以推广到可数个互斥事件的聯集。

完全概率

$n$ 个事件 $H_{1},H_{2},...H_{n}$ 两两互斥，且共同组成整个事件空间 $S$ ，即
$H_{i}\cap H_{j}=\varnothing$ ， $(i\neq j)$ 以及
$H_{1}\cup H_{2}\cup ...\cup H_{n}=S$
这时 $A$ 的概率可以表示为，

P(A)=\sum _{j=1}^{n}P(A|H_{j})\cdot P(H_{j})

证明：

$A=(A\cap H_{1})\cup (A\cap H_{2})\cup \ldots \cup (A\cap H_{n})$
按照公理 3 ，有
$P(A)=P(A\cap H_{1})+P(A\cap H_{2})+\ldots +P(A\cap H_{n})$
根据乘法法则， $P(A\cap H_{j})=P(A|H_{j})\cdot P(H_{j})$
因此有，
$P(A)=P(A|H_{1})\cdot P(H_{1})+\ldots +P(A|H_{n})\cdot P(H_{n})$
$P(A)=\sum _{j=1}^{n}P(A|H_{j})\cdot P(H_{j})$

例如，一个随机试验工具由一个骰子和一个柜子中的三个抽屉组成，抽屉 1 里有 14 个白球和 6 个黑球，抽屉 2 里有 2 个白球和 8 个黑球，抽屉 3 里有 3 个白球和 7 个黑球，试验规则是首先掷骰子，如果获得小于 4 点，则抽屉 1 被选择，如果获得 4 点或者 5 点，则抽屉 2 被选择，其他情况选择抽屉 3 。然后在选择的抽屉里随机抽出一个球，最后抽出的这个球是白球的概率是：

P(白)=P(白|抽1)·P(抽1)+P(白|抽2)·P(抽2)＋P(白|抽3)·P(抽3)

=(14/20)·(3/6)+(2/10)·(2/6)+(3/10)·(1/6)

=28/60=0.4667

从例子中可看出，完全概率特别适合于分析具有多层结构的随机试验的情况。

贝叶斯定理

贝叶斯定理由英国数学家托马斯·贝叶斯 ( Thomas Bayes 1702-1761 ) 发展，用来描述两个条件概率之间的关系，比如 P(A|B) 和 P(B|A)。按照定理 6 的乘法法则，P(A∩B)=P(A)·P(B|A)=P(B)·P(A|B)，可以立刻导出贝叶斯定理：

P(A\vert B)={\frac {P(B\vert A)\cdot P(A)}{P(B)}}

例如：一座别墅在过去的 20 年里一共发生过 2 次被盗，别墅的主人有一条狗，狗平均每周晚上叫 3 次，在盗贼入侵时狗叫的概率被估计为 0.9，问题是：在狗叫的时候发生入侵的概率是多少？
我们假设 $A$ 事件为狗在晚上叫， $B$ 为盗贼入侵，则 $P(A)=3/7$ ， $P(B)$ =2/(20·365.25)=2/7305，P(A | B) = 0.9，按照公式很容易得出结果：
$P(B\vert A)=0.9\cdot {\frac {2}{7305}}\cdot {\frac {7}{3}}=0.0005749486653...$

另一个例子，现分别有 $A$ ， $B$ 两个容器，在容器 $A$ 里分别有 7 个红球和 3 个白球，在容器 $B$ 里有 1 个红球和 9 个白球，现已知从这两个容器里任意抽出了一个球，且是红球，问这个红球是来自容器 $A$ 的概率是多少?

假设已经抽出红球为事件 $B$ ，从容器 $A$ 里抽出球为事件 $A$ ，则有： $P(B)$ = 8 / 20， $P(A)$ = 1 / 2， $P(B|A)$ = 7 / 10，按照公式，则有：
$P(A\vert B)={\frac {7}{10}}\cdot {\frac {1}{2}}\cdot {\frac {20}{8}}={\frac {7}{8}}$

概率分布

概率论的应用

虽然概率论最早产生于17世纪，然而其公理体系只在20世纪的20至30年代才建立起来并得到迅速发展，在过去的半个世纪里概率论在越来越多的新兴领域显示了它的应用性和实用性，例如：物理、化学、生物、医学、心理学、社会学、政治学、教育学，经济学以及几乎所有的工程学等领域。特别值得一提的是，概率论是今天数理统计的基础，其结果被用做问卷调查的分析资料或者对经济前景进行预测。

参见

参考文献

^ Inferring From Data. [2016-10-18]. （原始内容存档于2020-11-27）.

（德文）彼得缺菲尔 ( Peter Zoefel )：《统计和经济学家》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7062-0
（德文）约瑟夫西拉 ( Josef Schira )：《统计理论与企业管理》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7041-8
（德文）汉斯－底特黑伯曼 ( Hans-Dieter Hippmann )：《统计学》 SCHAEFFER POESCHEL 出版社 2003 年 ISBN 3-7910-2119-2
（德文）里波舒尔茨 ( Seymour Lipschutz )：《概率计算－理论和应用》 McGRAW-HILL BOOK COMPANY GmbH 出版社 1980 年 ISBN 0-07-084361-9
（德文）贝尔等 ( Beyer，Hackel，Pieper，Tiedge )《概率计算和数学统计》 Harri Deutsch 出版社 1980 年 ISBN 3-87144-433-2

[1] Inferring From Data. [2016-10-18]. （原始内容存档于2020-11-27）.

[1]