Chapter 01 随机事件与概率

本章主要内容¶

随机事件, 样本空间, 样本点概念 (掌握)
事件与概率的运算 (掌握)
概率公理定义 (了解)
古典概型 (掌握)
条件概率, 独立性 (掌握)
贝叶斯公式和全概率公式 (掌握)

1.1 随机事件及其概率¶

定义 1.1 随机实验

凡满足以下条件的过程 随机实验:

(1) 在相同条件下可以重复进行;

(2) 可能出现两个或两个以上不同的结果;

(3) 在实验进行之前不能确定哪一个结果会出现.

随机实验通常简称为实验,可记作 \(E\).

虽然单次实验的结果是不能提前确定的,但所有可能的结果可以预先知道. 为了研究随机现象, 我们不仅需要考察这些结果的总体, 还要对每一个结果本身加以区分, 这就引出了样本空间和样本点的概念.

定义 1.2 样本空间与样本点

随机实验 \(E\) 中所有可能结果组成的集合称为实验 \(E\) 的样本空间, 记作 \(\Omega\). 样本空间中的元素称为样本点, 记为 \(\omega\).

Example

抛掷硬币两次, 观察正面 \(H\), 反面 \(T\) 的出现情况.

\[ \Omega = \{HH,HT,TH,TT\} \]

其中的 \(HH\) 就是样本点之一.

我们往往关心的是样本空间的一小部分子集, 这就引出了随机事件的概念.

定义 1.3 随机事件

随机实验的若干样本点组成的集合称为随机事件, 简称为事件, 常用大写字母 \(A,B,C,\cdots\) 表示.

Example

设实验 \(E\) 为抛掷一枚骰子得到的点数, 样本空间 \(\Omega=\{1,2,3,4,5,6\}\), 事件 \(A=\) "出现奇数点'' , 即 \(A=\{1,3,5\}\), 它是 \(\Omega\) 的一个子集.

不可能事件与必然事件

样本点组成的集合为空集 \(\emptyset\) 时, 称事件为 不可能事件; 样本点组成的集合为样本空间全集 \(\Omega\) 时, 称事件为 必然事件, 不可能事件与必然事件是随机事件的两种特殊情形.

注意, 不可能的事件发生的概率为 \(0\), 但发生概率为 \(0\) 的事件 不一定是不可能事件, 对于必然事件也类似. 可以考虑在一条线段上随机选点选到某一点的概率. 虽然概率为 \(0\) 但不是不可能事件. 同样, 不选到某一点的概率为 \(1\) 但不是必然事件.

定义 1.4 频率与概率

设 \(\mu\) 是 \(n\) 次实验中事件 \(A\) 发生的次数, 则事件 \(A\) 发生的频率为 \(\frac{\mu}{n}\). 若随着 \(n\) 的增大, 频率最终稳定地在某一数值 \(p\) 附近摆动, 则该 \(p\) 值称为该事件的概率, 记为 \(P(A)=p\).

以上是较为朴素的概率定义, 接下来我们阐述概率的公理化定义, 通过公理化定义可以更好地对概率的一些性质进行分析.

1.2 概率的公理化定义¶

首先我们要引入 \(\sigma\) 代数的定义.

定义 1.5 \(\sigma\) 代数

设 \(\Omega\) 为一个非空集合, \(\mathcal{F}\) 是 \(\Omega\) 上的一个非空集族, 若 \(\mathcal{F}\) 满足:

(1) \(\Omega \in \mathcal{F}\)

(2) 若 \(A \in \mathcal{F}\), 则 \(A^c=\Omega-A\in \mathcal{F}\)

(3) 对任何 \(\{A_n\} \subset \mathcal{F}\), \(\bigcup \limits_{n=1}^{\infty}A_n \in \mathcal{F}\)

则称 \(\mathcal{F}\) 是 \(\Omega\) 上的一个 \(\sigma\) 代数.

利用 De Morgan's laws 可以容易得到 \(\sigma\) 代数也对可数个集合的交集封闭.

定义 1.6 概率空间子类

设 \(\Omega\) 是样本空间, \(\mathcal{F}\) 为定义在 \(\Omega\) 上的 \(\sigma\) 代数, 则称 \(\mathcal{F}\) 为 概率空间子类.

Example

\(\mathcal{F} = \{\varnothing, \Omega\}\) 平凡概率空间子类;
\(\mathcal{F} = \{\varnothing, \Omega, A, \overline{A}\}\) 包含 \(A\) 的最小概率空间子类;
\(\mathcal{F} = \{A | A \subset \Omega\}\) 上的最大概率空间子类;
\(\Omega = \{\omega_1, \cdots, \omega_n\}\), 则 \(\Omega\) 所有子集构成的概率空间子类共有 \(2^n\) 个元素.

定义 1.7 概率空间

设 \(\mathcal{F}\) 是满足上述条件的概率空间子集类. 概率 \(P = P(\cdot)\) 是 \(\mathcal{F}\) 上面定义的实值函数, 满足:

(1) 非负性: \(P(A) \geqslant 0\) 对于一切 \(A \in \mathcal{F}\);

(2) 规范性: \(P(\Omega) = 1\);

(3) 可列可加性: 若 \(A_n \in \mathcal{F}(n = 1, 2, \cdots)\) 两两不相交, 则

\[P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i).\]

满足以上条件的 \((\Omega, \mathcal{F}, P)\) 称为概率空间.

可以看到, \(\mathcal{F}\) 中的每一个元素都对应了我们前面所说的一个随机事件, 概率就是对这些随机事件的度量. 因此 \(\mathcal{F}\) 也称作概率的定义域.

为什么不直接在样本空间的幂集上定义概率?

在不可数集合(如实数集 \(\mathbb{R}\)) 上, 如果我们要求测度在每个子集都有定义会导致矛盾. 最著名的例子是 Vitali 集, 可以构造出 \([0,1]\) 的某个子集, 它无法被赋予合理的测度, 使得同时满足测度的平移不变性和可列可加性.

Tips

关于概率严格定义的更多内容, 需要学习测度论, 实变函数等数学知识. (有空再填坑)

概率的性质

(1) \(P(\varnothing) = 0\);

(2) 若 \(A \in \mathcal{F}\), 则 \(P(A^c) = 1 - P(A)\);

(3) 若 \(A_1, \cdots, A_n\) 都属于 \(\mathcal{F}\) 且两两不相交, 则

\[P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i); \]

(4) 若 \(A \subset B, A \in \mathcal{F}, B \in \mathcal{F}\), 则 \(P(A) \leqslant P(B)\), 且

\[P(B - A) = P(B) - P(A); \]

(5) 若 \(A_n \subset A_{n+1}, A_n \in \mathcal{F}(n = 1, 2, \cdots)\), 则

\[P\left(\bigcup_{n=1}^{\infty} A_n\right) = \lim_{n \to \infty} P(A_n); \]

(6) 若 \(A_n \supset A_{n+1}, A_n \in \mathcal{F}(n = 1, 2, \cdots)\), 则

\[P\left(\bigcap_{n=1}^{\infty} A_n\right) = \lim_{n \to \infty} P(A_n); \]

(7) 若 \(A_n \in \mathcal{F}(n = 1, 2, \cdots)\), 则

\[P\left(\bigcup_{n=1}^{\infty} A_n\right) \leqslant \sum_{n=1}^{\infty} P(A_n). \]

证明:

这几条性质证明的核心都是反复利用概率的课列可加性以及集合的一些性质.

(1) 令 \(A_1=\Omega, A_n=\emptyset\ (n\geq2)\), 利用概率的可列可加性即得 \(0=\sum_{i=2}^{\infty}P(\emptyset)\). 所以 \(P(\emptyset)=0\).

(2) 仿照(1)证明即可.

(3) 令 \(A_k=\emptyset\ (k>n)\), 则 \(\bigcup\limits_{i=1}^{n}A_i=\bigcup\limits_{i=1}^{\infty}A_i\), 利用可列可加性和概率性质(1)即得. (这一条是两两不交集合的有限可加性)

(4) 令 \(A_1=A, A_2=B-A, A_k=\emptyset\ (k>2)\) 由于 \(A\subset B\) 故 \(A_n\ (n=1,2,\cdots)\) 两两不交.

所以

\[ P(A)+P(B-A)+0+\cdots=P(\bigcup\limits_{i=1}^{\infty}A_i)=P(B) \]

即

\[ P(B-A)=P(B)-P(A) \]

再利用概率的非负性即得 \(P(A)\leq P(B)\).

(5) 关键还是要找到互不相交的一列集合, 利用概率的可列可加性, 仿照 (4) 的思路, 我们可以如下构造集合:

\[B_1=A_1,B_n=A_n-A_{n-1}\ (n=2,3,\cdots)\]

则

\[ \bigcup\limits_{i=1}^{\infty}B_i=\bigcup\limits_{i=1}^{\infty}A_i, 且\ B_i\ 两两不交 \]

(证明思路就是利用平常证明集合相等的技巧, 即证明互为对方的子集)

故

\[ \begin{align} P(\bigcup\limits_{i=1}^{\infty}A_i)=P(\bigcup\limits_{i=1}^{\infty}B_i)&=\sum\limits_{i=1}^{\infty}P(B_i)\\ &=\sum\limits_{i=1}^{\infty}P(A_{i}-A_{i-1})\ (记\ A_0=\emptyset) \\ &=\sum\limits_{i=1}^{\infty}[P(A_i)-P(A_{i-1})]\ (利用性质(4)) \\ &=\lim\limits_{n\to\infty}P(A_n)\ (级数的和等于部分和的极限) \end{align} \]

(6) 利用 De Morgan's laws 和性质(5).

(7) 构造以下集合:

\[ B_1=A_1,B_n=A_n-\bigcup\limits_{i=1}^{n-1}A_i\ (n\geq2). \]

则

\[ \bigcup\limits_{i=1}^{\infty}B_i=\bigcup\limits_{i=1}^{\infty}A_i, 且\ B_i\ 两两不交 \]

故

\[ \begin{align} P(\bigcup\limits_{i=1}^{\infty}A_i)=P(\bigcup\limits_{i=1}^{\infty}B_i)&=\sum\limits_{i=1}^{\infty}P(B_i)\\ &\leq\sum\limits_{i=1}^{\infty}P(A_i) \ (利用\ B_i\subset A_i\ 和性质(4)) \end{align} \]

1.3 随机事件的关系和运算¶

不难发现随机事件间的关系和运算其实就是集合间的关系和运算, 所以事件运算的性质与集合运算的性质类似, 此处不再赘述.

1.4 古典概型¶

定义 1.8(1) 古典概型

若随机现象有如下两个特征:

(1) 在实验中它的全部可能性只有有限个;

(2) 基本事件发生或出现是等可能的;

则称其对应的数学模型为 古典概型.

也可以使用公理化的定义

定义 1.8(2) 古典概型的公理化定义

取

\[\Omega = \{\omega_1, \omega_2, \cdots, \omega_n\}, \quad \mathcal{F} = \{A | A \subset \Omega\},\]

令 \(P\) 为 \((\Omega, \mathcal{F})\) 上的概率测度,满足

\[P(\{\omega_1\}) = \cdots = P(\{\omega_n\}),\]

则 \((\Omega, \mathcal{F}, P)\) 为古典概型对应的概率空间。

根据经典模型的定义、容易得到经典模型的概率计算公式。设事件 \(A = \{\omega_{i_1}, \cdots, \omega_{i_k}\} \in \mathcal{F}\)，利用概率的有限可加性可知:

\[ P(A) = \sum_{j=1}^{k} P(\{\omega_{i_j}\}) = \frac{k}{n} = \frac{|A|}{|\Omega|} \]

在利用该式计算概率时，主要的困难是确定事件中包含基本事件的数量，因此需要利用排列组合的公式。排列和组合给出了两种经典的计数问题的结果，更复杂的计数问题往往可以转化为这两类问题.

例题 1.1

从盛有号码为 \(1,\cdots, N\) 的球的箱子里有放回地抽取了 \(n\) 次 (每次取一个球, 记下号码后放回箱子里), 试求这些号码按不减小的次序出现的概率.

解: 问题的关键是所有不减小的序列 \((i_1,i_2,\cdots,i_n)(1\leq i_1\leq i_2 \leq \cdots \leq N)\) 有多少个.

设 \(j_k=i_k+k-1 \ (k=1,\cdots, n)\), 则 \((j_1,j_2,\cdots,j_n)\) 是由 \(1,\cdots,N+n-1\) 中的数组成的严格增大序列, 可以证明这样的映射是一个双射.

所以问题变为求 \(1,\cdots,N+n-1\) 中的 \(n\) 个数组成的严格增大序列数量, 显然答案为从 \(N+n-1\) 个数中取 \(n\) 个数的方案数 \(C_{N+n-1}^{n}\)

总共抽取的方案数为 \(N^n\), 故最后答案为 \(\frac{C_{N+n-1}^{n}}{N^n}\)

例题 1.2 (巴拿赫问题)

某数学家有两盒火柴, 每盒有 \(n\) 根, 每次使用时, 他任取一盒并从中抽出一根. 问他发现一盒空而同时另一盒还有 \(r(0 \leqslant r \leqslant n)\) 根火柴的概率为多少 (发现为空表示最后一次抽到空盒)?

解. 设两盒火柴分别为 \(A, B\), 由对称性, 所求概率为事件 \(E =\) "发现 \(A\) 盒空而 \(B\) 盒还有 \(r\) 根" 的概率的 \(2\) 倍. 先计算样本空间中的样本点个数. 由于共取了 \(2n - r + 1\) 次, 故有 \(2^{2n-r+1}\) 个样本点. 考察事件 \(E\), 等效为前 \(2n - r\) 次 \(A\) 盒恰好取 \(n\) 次, 次序不论, 最后一次必定取到 \(A\) 盒. 此种样本点共有 \(C_{2n-r}^n\) 个, 因此

\[P(E) = \frac{C_{2n-r}^n}{2^{2n-r+1}}.\]

所求概率为 \(\frac{C_{2n-r}^n}{2^{2n-r}}\).

\(2^{2n-r+1}\) 种可能中, 不是有多次抽取已经空了的火柴盒的可能吗? 这种可能性是合法的吗?

这个疑问主要是因为题目并没有说明当发现一盒火柴已经空了之后应该终止还是可以继续抽, 如果允许继续抽的话, 这个答案显然是正确的. 但是其实对于"发现某盒火柴空了应该终止"的情况, 结果也是一样的. 我们只需要将所有"发现空了之后继续抽"的情况当作终止后的分支情况, 将它们累加起来即可.

1.5 条件概率与独立性¶

到现在讨论的概率都是相对于某一确定的条件 \(S\), 我们同样可以在 \(S\) 之外附加新的条件. 更确切的说, 设 \(A\) 和 \(B\) 都是条件 \(S\) 下的事件, 我们希望研究在 \(B\) 发生的条件下, 事件 \(A\) 发生的概率, 记作 \(P(A|B)\). 和定义1.4 一样, 不断进行实验并将频率 \(\mu_B/n_B\) 的 "极限" 定义为概率. 不过不同的是这里的 \(\mu_B\) 代表 \(A\) 和 \(B\) 同时发生的次数, 而 \(n_B\) 是条件 \(B\) 发生的次数 (即忽略条件 \(B\) 没有发生的情况). 在分子分母上同时除以总实验次数 \(n\), 得到条件概率

\[P(A|B) \approx \frac{\mu_B/n}{n_B/n} \approx \frac{P(AB)}{P(B)},\]

这里 \(\approx\) 表示当实验次数足够大时在概率值的附近摆动. 为了数学上的严谨性, 我们采用如下的定义.

定义 1.9 条件概率

设 \((\Omega, \mathcal{F}, P)\) 为概率空间, 事件 \(A, B \in \mathcal{F}\) 满足 \(P(B) > 0\). 称

\[P(A|B) = \frac{P(AB)}{P(B)}\]

为 \(B\) 发生条件下 \(A\) 发生的条件概率.

条件概率 \(P(\cdot|B)\) 为 \((\Omega, \mathcal{F})\) 上的概率, 即满足定义1.7 :

(1) 对任意事件 \(A \in \mathcal{F}\), 有 \(P(A|B) \geqslant 0\);

(2) \(P(\Omega|B) = 1\);

(3) 对任意两两不相交的事件序列 \(\{A_n\}_{n=1}^{\infty} \subset \mathcal{F}\), 有

\[P\left(\bigcup_{n=1}^{\infty} A_n \,\bigg|\, B\right) = \sum_{n=1}^{\infty} P(A_n|B).\]

由条件概率的定义, 容易得到, \(P(B|\Omega) = P(B)\). 将条件概率的定义改写可以得到乘法公式:

\[P(AB) = P(B|A)P(A).\]

对于 \(n\) 个事件, 可以归纳得到乘法公式的推广:

\[P(A_1A_2 \cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2) \cdots P(A_n|A_1A_2 \cdots A_{n-1}),\]

独立性是与条件概率密切相关的概率. 直觉上说, 事件 \(A\) 和 \(B\) 独立是说 \(A\) 的发生与否不影响 \(B\) 的发生与否, 反之亦然. 用概率的语言说, 就是 \(P(A) = P(A|B)\) 且 \(P(B) = P(B|A)\), 由条件概率的定义容易验证二者是等价的, 且都等价于下面的定义.

定义 1.10 独立事件

设 \((\Omega, \mathcal{F}, P)\) 为概率空间, 如果事件 \(A, B \in \mathcal{F}\) 满足

\[P(AB) = P(A)P(B),\]

则称事件 \(A\) 和 \(B\) 相互独立 (简称独立).

定义了事件的独立性之后, 接下来讨论独立事件的性质:

独立事件的性质

独立事件有如下性质:

\((1)\) 若 \(A, B\) 独立, 且 \(P(B) > 0\), 则

\[P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A).\]

\((2)\) 若 \(A, B\) 独立, 则 \(A\) 与 \(\overline{B}\), \(\overline{A}\) 与 \(B\), \(\overline{A}\) 与 \(\overline{B}\) 亦独立.

\((3)\) 零概率事件及其对立的事件与任意的事件都独立. 即条件概率等于无条件概率.

证明:

这里主要证明性质 (2).

由于 \(A,B\) 独立, 有 \(P(AB)=P(A)P(B)\).

注意到 \(A=AB\cup A\overline{B}\), 且 \(AB,A\overline{B}\) 互斥. 故 \(P(AB)+P(A\overline{B})=P(A)\).

所以 \(P(A\overline{B})=P(A)-P(A)P(B)=P(A)(1-P(B))=P(A)P(\overline{B})\).

其他情况类似可证, 利用数学归纳法还可以推广到 \(n\) 个事件相互独立的情形.

定义 1.11 多个事件的相互独立

设 \(\{A_k\}_{k\leqslant n} \subset \mathcal{F}\). 如果对任意的 \(k \leqslant n\) 和 \(1 \leqslant i_1 < i_2 < \cdots < i_k \leqslant n\), 都有

\[P\left(\bigcap_{j=1}^{k} A_{i_j}\right) = \prod_{j=1}^{k} P(A_{i_j}),\]

则称 \(A_1, A_2, \cdots, A_n\) 相互独立 (简称独立).

Warning

若 \(n\) 个事件相互独立, 则它们两两独立, 但是反之不成立.

伯恩斯坦反例

一个均匀的正四面体, 其第一、二、三面分别涂上红、黄、蓝三种颜色第四面同时涂上以上三种颜色. 以 \(A, B, C\) 分别表示投一次四面体出现红、黄、蓝颜色朝下的事件, 则

\[P(A) = P(B) = P(C) = \frac{1}{2}, \quad P(AB) = P(BC) = P(AC) = \frac{1}{4}.\]

从而 \(A, B, C\) 两两独立, 但是

\[P(ABC) = \frac{1}{4} \neq P(A)P(B)P(C).\]

利用 \(n\) 个事件的相互独立, 我们可以得到如下计算公式:

定理 1.1 独立性与概率计算

设 \(A_1,A_2,\cdots,A_n\) 相互独立, 则

\[ P(A_1\cup A_2 \cup \cdots \cup A_n) = 1 - \prod_{i=1}^{n}P(\overline{A_i}). \]

证明可以利用 De Morgan's laws 和之前提到的 \(n\) 个事件相互独立则它们的对立事件也相互独立的性质.

1.6 全概率公式和贝叶斯公式¶

定义 1.12 (完备事件组)

若 \(\{B_n\}_{n\geq1} \subset \mathcal{F}\) 满足两两互斥且 \(\sum_{n=1}^{\infty} B_n = \Omega\)，则称 \(\{B_n\}_{n\geq1}\) 为完备事件组。

为了求出事件 \(A\) 的概率，在给出了必然事件 \(\Omega\) 的一个划分 \(\{B_n\}_{n\geq1}\) 后，需要求解每种情况的概率 \(P(AB_n) = P(B_n)P(A|B_n)\)。最终的结果可以用如下的公式求解。

定理 1.2 全概率公式

设 \(\{B_n\}_{n\geq1}\) 为完备事件组，则对任意事件 \(A\) 都有

\[P(A) = \sum_{n=1}^{\infty} P(B_n)P(A|B_n).\]

定理 1.3 贝叶斯公式

设 \(\{B_n\}_{n\geq1}\) 为完备事件组，\(A \in \mathcal{F}\) 满足 \(P(A) > 0\)，则

\[P(B_n|A) = \frac{P(B_n)P(A|B_n)}{\sum_{n=1}^{\infty} P(B_n)P(A|B_n)}. \tag{1.5.1}\]

注 1. 在使用贝叶斯公式时，常将 \(P(B_i)\) 叫做先验概率，而将在 \(A\) 发生的条件下 \(B_i\) 发生的概率 \(P(B_i|A)\) 称为后验概率。因此贝叶斯公式 (1.5.1) 可以看作从先验概率到后验概率的转换公式。

注 2. 贝叶斯公式描述了这样的一个过程。我们关心的是 \(\{B_n\}_{n\geq1}\) 发生的概率。在最初没有任何"信息"，因此是先验概率 \(P(\cdot)\)。之后我们知道了 \(A\) 发生的"信息"，则概率"修正"为后验概率 \(P(\cdot|A)\)（条件概率也是概率）。贝叶斯公式提供了具体的计算方法。

习题¶

习题 1

设 \(A,B\) 是两个随机事件, 证明:

\[ |P(AB)-P(A)P(B)|\leq\frac{1}{4} \]

提示

利用 \(E(1_A)=P(A)\) 和协方差与方差的关系. (\(1_A\) 为 \(A\) 的示性函数.)

答案

\[ P(AB)-P(A)P(B)=E(1_A1_B)-E(1_A)E(1_B)=cov(1_A1_B) \]

\[ var(1_A)=E({1_A}^2)-E(1_A)^2=E(1_A)-E(1_A)^2 \leq \frac{1}{4} \]

根据协方差与方差的关系即可得出结论.

习题 2

\(n\) 个点随机分布在单位圆上, 求 \(n\) 个点在同一个半圆的概率. (当 \(n=3\) 时, 即为它们构成的三角形不是锐角三角形的概率.)

提示

\(n\) 个点在同一个半圆, 等价于存在相邻两点的弧长大于 \(\pi\).

答案

记 \(x_1,x_2,\cdots,x_n\) 代表相邻两点的弧长, 则样本空间为:

\[ x_1+x_2+\cdots+x_n=2\pi \\ \]

\[ 0\leq x_i \leq 2\pi \ (1\leq i \leq n) \]

可行空间为:

\[ x_1+x_2+\cdots+x_n=2\pi \]

\[ max(x_i)>\pi \]

注意到最多只可能有一个 \(x_i\) 大于 \(\pi\). 所以可以直接把每个 \(x_i>\pi\) 的情况相加起来.

假设 \(x_1>\pi\), 令 \(y_1=x_1-\pi\), 则:

\[ y_1+x_2+\cdots+x_n=\pi \]

\[ 0\leq y_1 \leq \pi, 0 \leq x_i \leq \pi \ (2\leq i \leq n) \]

利用单纯形的体积公式即可计算出概率.

答案: \(\frac{n}{2^{n-1}}\)