Chapter 02 随机变量与概率分布

本章主要内容¶

离散型随机变量：伯努利分布、二项分布、泊松分布、超几何分布、几何分布、离散均匀分布（掌握性质与概率函数）
连续随机变量：均匀分布、指数分布、正态分布、伽马分布（掌握性质与概率密度函数，伽马了解）
随机变量严格定义（了解）、分布函数（掌握）
随机变量的函数（掌握）
随机变量的反函数（了解）
期望（掌握计算，了解严格定义）
期望的性质（掌握）
随机变量函数的期望（掌握）
方差（掌握计算）
原点矩、中心矩（掌握定义）、分位数（了解）

2.1 随机变量¶

我们在此直接阐述严格的随机变量定义.

定义 2.1 随机变量

设 $(\Omega, \mathcal{F}, P)$ 是概率空间, $X:\Omega \to \mathbb{R}$ 满足对任意 $x\in \mathbb{R}$ 都有

\[ \{\omega:X(\omega)\leq x\} \in \mathcal{F} \]

则称 $X$ 是一个 随机变量.

注

一般可以把 $\{\omega:X(\omega)\leq x\}$ 记作 $\{X\leq x\}$.

可以看到, 随机变量其实就是样本点到实数空间的一个映射, 这个映射需要满足 $\{X\leq x\}$ 是一个事件.

2.2 离散型随机变量¶

2.2.1 离散型随机变量的定义¶

定义 2.2 离散型随机变量

若随机变量 $X$ 只取有限个或可列个值 $x_1, \cdots, x_n$, 则称 $X$ 是离散型随机变量.

表 2.1: 离散型随机变量 $X$ 的概率分布

$X$	$x_1$	$x_2$	$\cdots$	$x_k$	$\cdots$
$p$	$p_1$	$p_2$	$\cdots$	$p_k$	$\cdots$

表 2.1 也称为 $X$ 的 概率分布表。

定义 2.3 概率分布列

设随机变量 $X$ 取值为 $x_1, x_2, \cdots$ (有限个或可列无穷多个), 则称

\[p_k = P(X = x_k), \quad k = 1, 2, ...\]

为 $X$ 的概率分布,也称 $X$ 的概率函数或概率分布律。

概率分布列 ${p_k}$ 具有如下性质:
(1) $p_k \geq 0 \quad (k = 1,2,\cdots);$
(2) $\sum_k p_k=1$.

下面介绍几种常见的离散型随机变量:

2.2.2 两点分布 (伯努利分布)¶

定义 2.3 两点分布

若随机变量 $X$ 只取 $0$ 和 $1$ 两个值, 且其概率分布为:

\[P(X = 1) = p, \quad P(X = 0) = 1 - p,\]

则称 $X$ 服从两点分布, 记作 $X \sim B(1, p)$, 其中 $0 \leq p \leq 1$.

对于任意随机事件 $A$, 可以定义随机变量 $1_A$ (也称为示性函数) :

\[1_A(ω) = \begin{cases} 1, & ω ∈ A;\\ 0, & ω ∉ A. \end{cases}\]

则 $1_A$ 服从两点分布。

2.2.3 二项分布¶

定义 2.4 二项分布

若随机变量 $X$ 的所有可能取值为 $0, 1, \cdots, n$, 且

\[P(X = k) = C_n^k p^k (1-p)^{n-k}, \quad k = 0, 1, ..., n.\]

则称 $X$ 服从参数为 $n, p$ 的二项分布, 记作 $X ∼ B(n, p)$ (其中 $n \geq 1, 0 \leq p \leq 1$).

可以看到, 二项分布正是独立重复 $n$ 次伯努利分布实验的结果.

一个自然的问题是, 二项分布的形状是怎样的? 从下面的定理及其证明中可以看到, 二项分布
是单峰的,并且可以求出最大概率的取值.

定理 2.1 二项分布的最大值点

设 $X \sim B(n, p)$, 将 $P(X = k)$ 看作 $k$ 的函数, 则其最大值点 $k_0$ 为:

(1) 若 $(n+1)p \not\in \mathbb{Z}$, 则 $k_0$ = $[(n+1)p]$;

(2) 若 $(n+1)p \in \mathbb{Z}$, 则 $k_0 = (n+1)p$ 或 $(n+1)p-1$.

证明:

记 $p_n(k) = P(X = k)$, 则

\[\frac{p_n(k+1)}{p_n(k)} = \frac{n-k}{k+1} \cdot \frac{p}{1-p}\]

分析比值与 $1$ 的大小关系即可.

2.2.4 泊松分布¶

泊松分布由泊松 $(\text{S. Poisson(1781-1840)})$ 在 $1837$ 年首次提出, 是二项分布 $B(n, p_n)$ 在 $n$ 很大而 $np_n \to \lambda$ 时的极限分布。

定义 2.5 泊松分布

设随机变量 $X$ 的所有可能取值是全体非负整数, 且

\[P(X = k) = \frac{λ^k}{k!}e^{-λ}, \quad k = 0, 1, 2,\cdots.\]

则称 $X$ 服从参数为 $λ$ 的泊松分布,记作 $X ∼ \mathcal{P}(λ)$,其中 $λ > 0$.

如何理解泊松分布是二项分布中 $n$ 很大而 $np_n\to\lambda$ 的极限?

已知 $\lim\limits_{n\to +\infty}np_n=\lambda$, 容易知道 $\lim\limits_{n\to+\infty}p_n=0$.

观察二项分布的分布列 $P(X=k)=C_{n}^{k}p_n^k(1-p_n)^{n-k}$

\[ \begin{align} C_{n}^{k}p_n^k(1-p_n)^{n-k} &= \frac{n(n-1)\cdots(n-k+1)}{k!} p_n^k (1-p_n)^{n-k} \\ &= \frac{1}{k!}(np_n)^k \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{k-1}{n}\right)(1-p_n)^{n-k} \\ \end{align} \]

注意到

$$
\begin{align}
(1-p_n)^{n-k} &= \exp{(n-k)\ln(1-p_n)}\
&= \exp\left{(n-k)p_n \cdot \frac{1}{p_n}\ln(1-p_n)\right}
\end{align}
$$
当 $n \to \infty$ 时:

\[\lim_{n\to\infty} p_n = 0, \quad \lim_{n\to\infty} np_n = λ, \quad \lim_{n\to\infty} \frac{1}{p_n}\ln(1-p_n) = -1\]

故

\[\lim\limits_{n\to +\infty}C_{n}^{k}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}\text{e}^{-\lambda}\]

这个公式也称为第一近似公式, 在二项分布中 $n$ 很大概率不好计算时, 我们可以使用这个近似公式计算.

定理 2.2

设 $X ∼ P(λ)$, 记 $p_k = P(X = k)$, 则

(1) 若 λ 不是正整数,则

\[p_0 < p_1 < ⋯ < p_{[λ]} > p_{[λ]+1} > ⋯;\]

(2) 若 λ 是正整数,则

\[p_0 < p_1 < ⋯ < p_{λ-1} < p_λ > p_{λ+1} > ⋯.\]

证明: 由 $p_{k+1} = \frac{λ}{k+1}p_k$, 类似定理 2.1 的证明可得。

例题 2.1

已知某商场一天来的顾客服从参数为 $λ$ 的泊松分布, 而每个来商场的顾客购物概率为 $p$, 证明此商场一天内购物的顾客数服从参数为 $λp$ 的泊松分布.

证明: 设 $Y$ 表示商场一天内购物的顾客数, 则由全概率公式, 对于任意非负整数 $k$ 有
$$P(Y = k) = \sum_{i=k}^∞ P(X = i)P(Y = k | X = i) = \sum_{i=k}^∞ \frac{λ^i e^{-λ}}{i!} C_i^k p^k (1-p)^{i-k}$$
$$= \frac{(λp)^k}{k!}e^{-λ} \sum_{i=k}^∞ \frac{[λ(1-p)]^{i-k}}{(i-k)!} = \frac{(λp)^k}{k!}e^{-λ}e^{λ(1-p)} = \frac{(λp)^k}{k!}e^{-λp}$$

2.2.5 超几何分布¶

定义 2.6 超几何分布

若随机变量 $X$ 的概率分布为:

\[P(X = k) = \frac{C_D^k C_{N-D}^{n-k}}{C_N^n}, \quad k = 0, 1, ..., n.\]

则称 $X$ 服从超几何分布, 记作 $X ∼ H(N, D, n)$, 其中 $N, D, n$ 满足 $N ≥ D ≥ 0$.

Example

袋中有 $N$ 个球,其中 $D$ 个红球,从中不放回地抽取 $n$ 个,以 $X$ 表示抽到的红球数, $X$ 服从超几何分布。如果进行放回抽样, 则 $X$ 服从二项分布.

下面的定理指出, 二项分布是超几何分布在 $N\to+\infty$ 和 $D/N\to p$ 情况下的极限.

定理 2.3

对于固定的 $n$,当 $N \to \infty, D/N \to p$ 时, 有

\[\lim_{N→∞} \frac{C_D^k C_{N-D}^{n-k}}{C_N^n} = C_n^k p^k (1-p)^{n-k}, \quad k ≥ 0.\]

证明:

在 $0 < p < 1$ 的条件下, 当 $N$ 充分大时, $n < D < N$, 且 n 是固定的, 易知
$$\frac{C_D^k C_{N-D}^{n-k}}{C_N^n} = \frac{D!}{k!(D-k)!} \cdot \frac{(N-D)!}{(n-k)!(N-D-n+k)!} \cdot \frac{n!(N-n)!}{N!}$$
$$= \frac{n!}{k!(n-k)!} \cdot \frac{D(D-1)⋯(D-k+1)}{N^k} \times \frac{(N-D)(N-D-1)⋯(N-D-n+k+1)}{N^{n-k}} \times \frac{N^n}{N(N-1)⋯(N-n+1)}$$
$$= C_n^k \left(\prod_{i=1}^k \frac{D-i+1}{N}\right) \left(\prod_{i=1}^{n-k} \frac{N-D-i+1}{N}\right) \left(\prod_{i=1}^n \frac{N}{N-i+1}\right)$$
$$→ C_n^k p^k (1-p)^{n-k} \quad (N → ∞)$$

定理的直观解释是: 当 $N$ 很大, 次品占比为 $p$ 时, 放不放回对近似没有影响. 因此随机抽取 $n$ 个可以看成有放回抽样.

2.2.6 几何分布¶

定义 2.7 几何分布

若随机变量 $X$ 的所有可能取值为正整数,且概率分布为:

\[P(X = k) = (1-p)^{k-1}p, \quad k = 1, 2, ...,\]

则称 $X$ 服从几何分布, 记作 $X ∼ G(p)$, 其中 $0 < p < 1$.

Example

在伯努利试验中,每次试验成功的概率为 $p$, 则首次成功所需的试验次数 $X$ 服从几何分布。

几何分布有一个重要的性质, 称为无记忆性, 即对于任意正整数 $n$ 和 $m$, 有:

\[P(X > n+m | X > m) = P(X > n),\]

反之也是正确的, 可以写成如下定理:

定理 2.4

若随机变量 $X$ 是只取正整数的离散型随机变量, 且 $X$ 具有无记忆性, 则 $X$ 必然服从几何分布.

证明: 由无记忆性可得

\[P(X > n+m | X > m) = \frac{P(X > n+m)}{P(X > m)} = P(X > n),\]

则

\[ P(X>n+m)=P(X>n)P(X>m). \]

将 $n$ 替换为 $n-1$, 有

\[P(X > n+m-1) = P(X > n-1)P(X > m).\]

两式相减

\[P(X = n+m) = P(X = n)P(X > m).\]

令 $P(X = 1) = p$, 取 $n = m = 1$ 得

\[P(X = 2) = p(1-p).\]

取 $n = 2, m = 1$ 得

\[P(X = 3) = P(X = 2)P(X > 1) = p(1-p)^2.\]

由归纳法可得

\[P(X = k) = p(1-p)^{k-1},\]

因此 $X$ 服从几何分布。

2.2.7 离散均匀分布¶

定义 2.8 (离散均匀分布)

若随机变量 X 的概率分布为:

\[P(X = k) = \frac{1}{N}, \quad k = 1, ⋯, N.\]

则称 $X$ 服从离散均匀分布。

2.3 连续型随机变量¶

2.3.1 连续型随机变量的定义¶

定义 2.9 连续型随机变量

设 $X$ 是一个随机变量, 如果存在 $p(x)$ 使得

\[P(a \leqslant X \leqslant b) = \int_a^b p(x)dx, \quad \forall a < b.\]

则称 $X$ 是连续型随机变量,并称 $p(·)$ 为 $X$ 的概率密度函数(也称为分布密度). 有时也直接将 $X$ 的概率密度函数记作 $p_X(\cdot)$.

连续随机变量有以下性质:

(1) 非负性: $p(x) \geqslant 0$;

(2) 规范性: $\int_{-\infty}^{+\infty} p(x)dx = 1$;

(3) $P(X = x) = 0$, 即选中任意一点的概率都为 $0$;

(4) 若 $p(\cdot)$ 在 $x$ 处连续, 则 $P(X \in [x, x + \Delta x]) = p(x)\Delta x + o(\Delta x)$.

下面介绍一些常用的连续性随机变量的分布.

2.3.2 均匀分布¶

定义 2.10 均匀分布

若随机变量 $X$ 的概率密度为:

\[p(x) = \begin{cases} \frac{1}{b-a}, & a ≤ x ≤ b;\\ 0, & \text{其他}. \end{cases}\]

其中 $a < b$, 则称 $X$ 服从区间 $[a, b]$ 上的均匀分布, 记作 $X ∼ U(a, b)$.

均匀分布的分布函数也可以简写为 $p(x) = \frac{1}{b-a}1_{\{a≤x≤b\}}$。

2.3.3 指数分布¶

定义 2.11 指数分布

若随机变量 $X$ 的概率密度为:

\[p(x) = \begin{cases} λe^{-λx}, & x ≥ 0;\\ 0, & x < 0 \end{cases}\]

其中 $λ > 0$, 则称 $X$ 服务参数为 $λ$ 的指数分布, 记作 $X ∼ Exp(λ)$.

若 $X$ 服从参数为 $λ$ 的指数分布,则对于 $0 \leq a < b$, 有:
$$P(a < X < b) = λ\int_a^b e^{-λx}dx = e^{-λa} - e^{-λb},$$
$$P(X > a) = e^{-λa}.$$

定理 2.5 指数分布的无记忆性

设 $X ∼ Exp(λ)$, 则对于任意 $t, s \geq 0$, 有

\[P(X - s > t | X > s) = e^{-λt}.\]

证明:

由条件概率的定义, 有 $P(X - s > t | X > s) = \frac{P(X-s>t)}{P(X>s)} = \frac{e^{-λ(s+t)}}{e^{-λt}} = e^{-λt} = P(X > t)$。

2.3.4 正态分布¶

定义 2.3.4 (正态分布)

若随机变量 X 的概率密度为:
$$p(x) = \frac{1}{\sqrt{2πσ^2}} \exp\left\{-\frac{(x-μ)^2}{2σ^2}\right\}$$
其中 μ ∈ ℝ, σ > 0,则称 X 服从参数为 μ, σ 的正态分布,记作 X ∼ N(μ, σ²)。

当 μ = 0, σ² = 1 时,称为标准正态分布 N(0, 1),其概率密度为:
$$p(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}.$$

首先验证正态分布的密度函数满足规范性:$\int_{-∞}^{+∞} \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}dx = 1$。为此,记 $φ(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$,利用极坐标变换:
$$\int_{-∞}^∞ \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}dx × \int_{-∞}^∞ \frac{1}{\sqrt{2π}}e^{-\frac{y^2}{2}}dy = \frac{1}{2π}\int\int_{ℝ²} e^{-\frac{x^2+y^2}{2}}dxdy.$$

利用极坐标变换:
$$x = r\cos θ, y = r\sin θ ⇒ \left|\begin{matrix} \frac{∂x}{∂r} & \frac{∂y}{∂r}\\ \frac{∂x}{∂θ} & \frac{∂y}{∂θ} \end{matrix}\right| = r.$$

因此,
$$\frac{1}{2π}\int_0^{2π} \left(\int_0^∞ e^{-\frac{r^2}{2}}rdr\right)dθ = \int_0^∞ e^{-R}dR = 1$$

对于一般的正态分布 $p(x) = \frac{1}{\sqrt{2πσ^2}}e^{-\frac{(x-μ)^2}{2σ^2}}$,令 $y = \frac{x-μ}{σ}$,有
$$\int_{-∞}^∞ \frac{1}{\sqrt{2π}·σ}e^{-\frac{(x-μ)^2}{2σ^2}}dx = \int_{-∞}^∞ \frac{1}{\sqrt{2π}}e^{-\frac{y^2}{2}}dy = 1.$$

记标准正态分布的分布函数为
$$Φ(x) = \int_{-∞}^x φ(x)dx,$$

这是一个常用的函数,可以查表得到。注意,Φ(−x) = 1 − Φ(x)。若 X ∼ N(μ, σ²),则 $Y = \frac{X-μ}{σ} ∼ N(0, 1)$ 称为标准化变换。这样就可以利用标准正态分布的分布函数来计算一般正态分布的概率。

命题 2.3.2

设 X ∼ N(μ, σ²),则
$$P(a < X < b) = \int_a^b \frac{1}{σ}φ\left(\frac{x-μ}{σ}\right)dx = Φ\left(\frac{b-μ}{σ}\right) - Φ\left(\frac{a-μ}{σ}\right).$$

证明:令 $Y = \frac{X-μ}{σ} ∼ N(0, 1)$,则 $\{a < X < b\} = \left\{\frac{b-μ}{σ} < Y < \frac{b-μ}{σ}\right\}$,因此
$$P(a < X < b) = P\left(\frac{b-μ}{σ} < Y < \frac{b-μ}{σ}\right) = Φ\left(\frac{b-μ}{σ}\right) - Φ\left(\frac{a-μ}{σ}\right).$$

注 9:也可以直接验证公式:
$$P(a < X < b) = \int_a^b \frac{1}{σ}φ\left(\frac{x-μ}{σ}\right)dx = Φ\left(\frac{b-μ}{σ}\right) - Φ\left(\frac{a-μ}{σ}\right). \quad (2.3.1)$$

推论 2.3.1

设 X ∼ N(μ, σ²),则对于任意 k,有
$$P(μ - kσ < X < μ + kσ) = Φ(k) - Φ(-k) = 2Φ(k) - 1.$$

注 10:由于 Φ(3) = 0.9987,因此
$$P(μ - 3σ < X < μ + 3σ) = Φ(3) - Φ(-3) = 0.9974.$$

这说明 X 几乎全部落在区间 (μ − 3σ, μ + 3σ) 内,这就是著名的 3σ 原则。

2.3.5 Γ 分布¶

在介绍 Γ 分布之前,先介绍 Γ 函数。Γ 函数定义为:(0, +∞) → ℝ:
$$Γ(α) = \int_0^{+∞} y^{α-1}e^{-y}dy.$$

命题 2.3.1 (Γ 函数的性质)

Γ 函数具有如下性质:
(1) Γ(α+1) = αΓ(α);
(2) Γ(1) = 1, $Γ\left(\frac{1}{2}\right) = \sqrt{π}$。

注 11:由性质 (1),可以递推得到,对于正整数 n,有 Γ(n+1) = n!,因此 Γ 函数是阶乘的推广。

定理

若 $P(X=Y)=1$, 则 $X,Y$ 具有相同的分布函数.

证明:

由于 $P(X=Y)=1$, 故 $P(X\neq Y)=0$.

\[ \{X\leq t\}=\{X\leq t, X=Y\} \bigcup \{X\leq t, X\neq Y\} \]

注意到 $\{X\leq t, X=Y\}$ 与 $\{X\leq t, X\neq Y\}$ 不交, 故

\[ \begin{align} P(X\leq t)&=P(X\leq t, X=Y)+P(X\leq t, X\neq Y) \\ &= P(X\leq t, X=Y)+0 \\ &= P(Y\leq t, X=Y) \\ &\leq P(Y\leq t) \end{align} \]

同理可证 $P(Y\leq t)\leq P(X\leq t)$, 于是

\[ P(X\leq t)=P(Y\leq t) \]

故 $X,Y$ 具有相同的分布函数.