AI数学基础 - 第3-4讲: 随机变量

1. 随机变量的基本概念

1.1 随机变量的定义

直观描述

某变量 $X$ 随机取值,则 $X$ 是随机变量。

严格描述

对于样本空间 $\Omega = {\omega}$,$X = X(\omega)$ 是在 $\Omega$ 上有定义的实值函数,而且对任何实数 $c$,事件 ${\omega : X(\omega) \leq c}$ 是有概率的(属于事件域),将 $X$ 称为随机变量。

1.2 经典例子

例 1.2 盒中有 5 个球,其中有 2 个白球,3 个黑球。从中任取 3 个球,将其中所含的白球的数目记为 $X$。

  • 建模:将球编号,1∼3 表示黑球,4,5 表示白球
  • 样本空间:$\omega = (i, j, k)$,其中 $1 \leq i < j < k \leq 5$,$ \Omega = C_5^3 = 10$
  • 概率计算
    • 满足 $X = 0$ 的 $\omega$ 有 $C_2^0 C_3^3 = 1$ 个
    • 满足 $X = 1$ 的 $\omega$ 有 $C_2^1 C_3^2 = 6$ 个
    • 满足 $X = 2$ 的 $\omega$ 有 $C_2^2 C_3^1 = 3$ 个

因此:$P(X = 1) = \frac{6}{10}$,$P(X \leq 1) = \frac{7}{10}$

例 1.6 某公共汽车站每隔 10 分钟会有一辆某路公交车到达。某乘客随机在任意时刻到达车站。

候车时间 $X$(单位:分钟)为随机变量,$0 \leq X \leq 10$。

利用几何概型: \(P(X \leq 3) = \frac{3}{10}, \quad P(2 \leq X \leq 6) = \frac{4}{10}\)


2. 离散随机变量

2.1 离散随机变量的定义

定义 2.1 $X$ 是离散型随机变量指:$X$ 取有限个值 $x_1, \cdots, x_n$,或可列个值 $x_1, x_2, \cdots$。$X$ 的概率分布(列)指:

\[p_k = P(X = x_k), \quad k = 1, \cdots, n \text{ 或 } k = 1, 2, \cdots\]

概率分布表

$X$ $x_1$ $x_2$ $\cdots$ $x_k$ $\cdots$
$p$ $p_1$ $p_2$ $\cdots$ $p_k$ $\cdots$

性质

  • 非负性:$p_k \geq 0, \forall k$
  • 规范性:$\sum_{k=1}^n p_k = 1$ 或 $\sum_{k=1}^{\infty} p_k = 1$

2.2 重要的离散分布

2.2.1 两点分布(伯努利分布)

记号:$X \sim B(1, p)$,参数 $0 \leq p \leq 1$

概率函数: \(P(X = 1) = p, \quad P(X = 0) = 1 - p\)

模型:投币实验,投到正面则 $X = 1$;投到反面则 $X = 0$

示性函数:$1_A$ 表示事件 $A$ 发生则取 1;$A$ 不发生则取 0

例 2.1 100 件产品中有 3 件次品。从中任取一件。 $A =$ “取到合格品”,$X = 1_A$,$p = 0.97$。

2.2.2 二项分布

记号:$X \sim B(n, p)$,参数 $n \geq 1, 0 \leq p \leq 1$

概率函数: \(P(X = k) = C_n^k p^k (1-p)^{n-k}, \quad k = 0, 1, \cdots, n\)

模型:独立投币 $n$ 次,正面的总次数

定理 2.1(分布列的最大值点):

  • 若 $(n+1)p \notin \mathbb{Z}$,则 $k_0 = [(n+1)p]$
  • 若 $(n+1)p \in \mathbb{Z}$,则 $k_0 = (n+1)p$ 或 $(n+1)p - 1$

证明思路:利用组合数公式 \(\frac{p_n(k+1)}{p_n(k)} = \frac{n-k}{k+1} \cdot \frac{p}{1-p}\)

当 $\frac{n-k}{k+1} \cdot \frac{p}{1-p} > 1$ 等价于 $k < (n+1)p - 1$ 时:

  • $k < (n+1)p - 1$ 时,$p_n(k+1) > p_n(k)$
  • $k > (n+1)p - 1$ 时,$p_n(k+1) < p_n(k)$
  • $k = (n+1)p - 1$ 时,$p_n(k+1) = p_n(k)$

2.2.3 泊松分布

记号:$X \sim P(\lambda)$,参数 $\lambda > 0$

概率函数: \(P(X = k) = \frac{\lambda^k}{k!} e^{-\lambda}, \quad k = 0, 1, 2, \cdots\)

模型:例如研究放射性物质在 8 分钟内放射出的粒子数 $X$

泊松近似:$X$ 近似服从 $B(n, p)$,当 $n$ 很大,$p$ 很小,$np = \lambda$ 适中时: \(P(X = k) = C_n^k p^k (1-p)^{n-k} \approx \frac{n!}{k!(n-k)!} p^k (1-p)^n\) \(\approx \frac{(np)^k}{k!} \left(1 - \frac{\lambda}{n}\right)^n = \frac{\lambda^k}{k!} e^{-\lambda}\)

这就是 §1.7 第一近似公式。

分布列最大值点:$k_0 = [\lambda]$

证明:注意到 $p_{k+1} = \frac{\lambda}{k+1} p_k$,故:

  • 若 $k+1 \leq \lambda$,则 $p_{k+1} \geq p_k$
  • 若 $k+1 \geq \lambda$,则 $p_{k+1} \leq p_k$

因此当 $k_0 = [\lambda]$ 时,分布列取最大值。

重要应用题:已知某商场一天来的顾客服从参数为 $\lambda$ 的泊松分布,而每个来商场的顾客购物概率为 $p$,证明此商场一天内购物的顾客数服从参数为 $\lambda p$ 的泊松分布。

:用 $Y$ 表示商场内一天购物的顾客数,则由全概率公式知: \(P(Y = k) = \sum_{i=k}^{\infty} P(X = i) P(Y = k \mid X = i) = \sum_{i=k}^{\infty} \frac{\lambda^i e^{-\lambda}}{i!} C_i^k p^k (1-p)^{i-k}\) \(= \frac{(\lambda p)^k}{k!} e^{-\lambda} \sum_{i=k}^{\infty} \frac{[\lambda(1-p)]^{i-k}}{(i-k)!} = \frac{(\lambda p)^k}{k!} e^{-\lambda} e^{\lambda(1-p)} = \frac{(\lambda p)^k}{k!} e^{-\lambda p}\)

2.2.4 超几何分布

记号:$X \sim H(N, D, n)$,参数 $N, D, n$

概率函数: \(P(X = k) = \frac{C_D^k C_{N-D}^{n-k}}{C_N^n}, \quad k = 0, 1, \cdots, n\)

模型:$N$ 个产品,$D$ 个次品,任取 $n$ 个,抽到的次品数为 $X$

放回抽样 vs 不放回抽样:二项分布 vs 超几何分布

定理 2.3(超几何分布的二项逼近):给定 $n$,当 $N \to \infty$,$\frac{D}{N} \to p$ 时, \(\frac{C_D^k C_{N-D}^{n-k}}{C_N^n} \to C_n^k p^k (1-p)^{n-k}, \quad k \geq 0\)

直观解释:当总量 $N$ 很大,次品占比为 $p$ 时,从整批产品随机抽取 $n$ 个,抽到次品的个数 $k$ 近似服从参数为 $p, n$ 的二项分布。

证明:由于 $0 < p < 1$,当 $N$ 充分大时,$n < D < N$,且 $n$ 是固定的,易知: \(\frac{C_D^k C_{N-D}^{n-k}}{C_N^n} = C_n^k \left(\prod_{i=1}^k \frac{D-i+1}{N}\right) \left(\prod_{i=1}^{n-k} \frac{N-D-i+1}{N}\right) \left(\prod_{i=1}^n \frac{N}{N-i+1}\right)\) \(\to C_n^k p^k (1-p)^{n-k} \quad (N \to \infty)\)

2.2.5 几何分布

记号:$X \sim G(p)$,参数 $0 < p < 1$

概率函数: \(P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, \cdots\)

模型:独立重复投币中,第一次投到正面时的投币次数

重要性质

  • $P(X > n) = (1-p)^n, \forall n \geq 0$
  • 无记忆性:$P(X - n = k \mid X > n) = P(X = k)$

无记忆性的唯一性定理:设 $X$ 是只取自然数的离散随机变量,若 $X$ 的分布具有无记忆性,证明 $X$ 的分布一定为几何分布。

证明:由无记忆性知: \(P(X > n + m \mid X > m) = \frac{P(X > n + m)}{P(X > m)} = P(X > n)\)

将 $n$ 换为 $n-1$ 仍有: \(P(X > n + m - 1) = P(X > n - 1) P(X > m)\)

两式相减有: \(P(X = n + m) = P(X = n) P(X > m)\)

设 $P(X = 1) = p$,若取 $n = m = 1$ 有: \(P(X = 2) = p(1-p)\)

若取 $n = 2, m = 1$ 则有: \(P(X = 3) = P(X = 2) P(X > 1) = p(1-p)^2\)

若令 $P(X = k) = p(1-p)^{k-1}$,则用数学归纳法得: \(P(X = k+1) = P(X = k) P(X > 1) = p(1-p)^k, \quad k = 0, 1, \cdots\)

这表明 $X$ 的分布为几何分布。

2.2.6 离散均匀分布

概率函数: \(P(X = k) = \frac{1}{N}, \quad k = 1, \cdots, N\)

模型:古典概型


3. 连续随机变量

3.1 连续随机变量的定义

定义 3.1 连续型随机变量指:存在 $p(x)$ 使得 \(P(a \leq X \leq b) = \int_a^b p(x) dx, \quad \forall a < b\)

称 $p(\cdot)$ 为 $X$ 的概率密度(函数),也记为 $p_X(\cdot)$。

性质

  • 非负性:$p(x) \geq 0$
  • 规范性:$\int_{-\infty}^{\infty} p(x) dx = 1$
  • $P(X = x) = 0$(在任意一点选中的概率都为 0)
  • 若 $p(\cdot)$ 在 $x$ 连续,则 $P(X \in [x, x + \Delta x]) = p(x)\Delta x + o(\Delta x)$
  • 单独谈论一个点 $x$ 对应的 $p(x)$ 没有意义

3.2 重要的连续分布

3.2.1 均匀分布

记号:$X \sim U(a, b)$,参数 $a < b$

概率密度函数

\[p(x) = \begin{cases} \frac{1}{b-a}, & \text{若 } a \leq x \leq b \\ 0, & \text{否则} \end{cases}\]

也可写作:$p(x) = \frac{1}{b-a} \mathbf{1}_{{a \leq x \leq b}}$

注意:$a \leq x \leq b$ 可改为 $a < x < b$, $a < x \leq b$, $a \leq x < b$

模型:某公共汽车站每隔 10 分钟会有一班公交车到达,一位搭乘该车的乘客在任意时刻到达车站是等可能的,则他的候车时间 $X$ 满足 $[0, 10]$ 上的均匀分布。

3.2.2 指数分布

记号:$X \sim \text{Exp}(\lambda)$,参数 $\lambda > 0$

概率密度函数: \(p(x) = \lambda e^{-\lambda x}, \quad x > 0\)

模型:例如,第一个粒子的放射时刻、等待时间、寿命

重要性质

  • 若 $X$ 服从参数为 $\lambda$ 的指数分布,则对任何 $0 \leq a < b$ 有: \(P(a < X < b) = \lambda \int_a^b e^{-\lambda x} dx = e^{-\lambda a} - e^{-\lambda b}\)
  • $P(X > a) = e^{-\lambda a}$

定理 3.1(无记忆性): \(P(X - s > t \mid X > s) = e^{-\lambda t}, \quad \forall t, s \geq 0\)

证明: \(P(X - s > t \mid X > s) = \frac{P(X > s + t)}{P(X > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t)\)

3.2.3 正态分布

记号:$X \sim N(\mu, \sigma^2)$,参数 $\mu \in \mathbb{R}, \sigma > 0$

概率密度函数: \(p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\)

标准正态分布:$N(0, 1)$ \(\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}\)

标准正态分布积分的计算: 利用极坐标变换证明 $\int_{-\infty}^{\infty} \phi(x) dx = 1$:

\[\left(\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx\right)^2 = \frac{1}{2\pi} \iint_{\mathbb{R}^2} e^{-\frac{x^2+y^2}{2}} dx dy\]

做极坐标变换:$x = r\cos\theta, y = r\sin\theta$,雅可比行列式 $\begin{vmatrix} \frac{\partial x}{\partial r} & \frac{\partial y}{\partial r} \ \frac{\partial x}{\partial \theta} & \frac{\partial y}{\partial \theta} \end{vmatrix} = r$

因此: \(= \frac{1}{2\pi} \int_0^{2\pi} \left(\int_0^{\infty} e^{-\frac{r^2}{2}} r dr\right) d\theta = \int_0^{\infty} e^{-R} dR = 1\)

对一般正态分布,令 $y = \frac{x-\mu}{\sigma}$,则: \(\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi} \cdot \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} dy = 1\)

标准正态分布函数: \(\Phi(x) = \int_{-\infty}^x \phi(t) dt\)

性质:$\Phi(-x) = 1 - \Phi(x)$

定理 3.2:令 $x^* = \frac{x-\mu}{\sigma}$,则 \(P(a < X < b) = \int_a^b \frac{1}{\sigma} \phi\left(\frac{x-\mu}{\sigma}\right) dx = \Phi(b^*) - \Phi(a^*)\)

推论 3.1:查表得 $\Phi(3) = 0.9987$,因此 \(P(\mu - 3\sigma < X < \mu + 3\sigma) = \Phi(3) - \Phi(-3) = 0.9974\)

这就是著名的3σ原则

3.2.4 伽马分布

记号:$X \sim \Gamma(\alpha, \beta)$,参数 $\alpha, \beta > 0$

概率密度函数: \(p(x) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}, \quad x > 0\)

其中 $\Gamma(\alpha) = \int_0^{\infty} y^{\alpha-1} e^{-y} dy$

伽马函数的重要性质: \(\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)\)

证明: \(\int_0^{\infty} y^{\alpha} e^{-y} dy = \left[-y^{\alpha} e^{-y}\right]_0^{\infty} + \int_0^{\infty} \alpha y^{\alpha-1} e^{-y} dy = \alpha \Gamma(\alpha)\)

特殊值

  • $\Gamma(1) = 1$
  • $\Gamma\left(\frac{1}{2}\right) = \sqrt{\pi}$
\[\Gamma\left(\frac{1}{2}\right) = \int_0^{\infty} \frac{1}{\sqrt{y}} e^{-y} dy = \sqrt{2} \int_0^{\infty} e^{-\frac{x^2}{2}} dx = \sqrt{\pi}\]

与指数分布的关系:当 $\alpha = 1$ 时就是指数分布 $\text{Exp}(\beta)$


小结

本讲介绍了随机变量的基本概念和重要分布:

离散分布总结

分布 记号 概率函数 模型 重要性质
伯努利 $B(1,p)$ $P(X=1)=p$ 投币一次 示性函数
二项 $B(n,p)$ $C_n^k p^k (1-p)^{n-k}$ 投币$n$次 最大值点
泊松 $P(\lambda)$ $\frac{\lambda^k}{k!}e^{-\lambda}$ 放射性粒子数 二项近似
超几何 $H(N,D,n)$ $\frac{C_D^k C_{N-D}^{n-k}}{C_N^n}$ 不放回抽样 二项逼近
几何 $G(p)$ $(1-p)^{k-1}p$ 首次成功时间 无记忆性
离散均匀 - $\frac{1}{N}$ 古典概型 -

连续分布总结

分布 记号 密度函数 模型 重要性质
均匀 $U(a,b)$ $\frac{1}{b-a}$ 候车时间 几何概型
指数 $\text{Exp}(\lambda)$ $\lambda e^{-\lambda x}$ 等待时间 无记忆性
正态 $N(\mu,\sigma^2)$ $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 测量误差 3σ原则
伽马 $\Gamma(\alpha,\beta)$ $\frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$ 等待时间推广 包含指数分布

重要概念

  • 无记忆性:几何分布和指数分布的重要特征
  • 泊松近似:二项分布在 $n$ 大 $p$ 小时的极限情形
  • 标准化:正态分布的重要计算技巧
  • 极限定理:超几何分布到二项分布的逼近



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • notes of ML
  • notes of VCI
  • notes of AIP
  • notes of AI Math Fundamentals
  • notes of ICS