Probability Theory
概率论与数理统计核心知识点整理
一、随机事件及其概率
-
差事件概率公式
因 $A\overline{B} = A - B$,结合概率性质 $P(A - B) = P(A) - P(AB)$,可得:
$$P(A\overline{B}) = P(A) - P(AB)$$ -
条件概率
- 定义公式:$P(A \mid B) = \frac{P(AB)}{P(B)}$(要求 $P(B) > 0$)
- 反向应用(求交事件概率):$P(AB) = P(A \mid B) \cdot P(B)$
二、随机变量及其分布
2.1 常见离散型分布
(1)二项分布
- 概率公式:$P(X = k) = C_{n}^{k} p^k (1-p)^{n-k}$($k = 0,1,2,\dots,n$)
- 记作:$X \sim B(n, p)$
- 参数含义:$n$ 为试验次数,$p$ 为单次试验成功概率
(2)泊松分布
- 概率公式:$P(X = k) = \frac{\lambda^k}{k!} \mathrm{e}^{-\lambda}$($k = 0,1,2,\dots$)
- 记作:$X \sim \pi(\lambda)$
- 近似关系:当二项分布满足 $n$ 很大、$p$ 很小,且 $\lambda = np$ 时,$B(n,p) \approx \pi(\lambda)$
2.2 随机变量的分布函数
(1)定义与作用
- 定义:$F(x) = P(X \leq x)$,用于计算随机变量落在区间 $(-\infty, x]$ 内的概率
- 核心性质(有界性):
$$\lim_{x \to +\infty} F(x) = 1, \quad \lim_{x \to -\infty} F(x) = 0$$
根据这些性质判断表达式是否可以是分布函数
(2)三类核心函数对比
| 函数类型 | 适用场景 | 描述内容 |
|---|---|---|
| 分布律 | 仅离散型 | 随机变量取某一具体值的概率 |
| 概率密度函数 | 仅连续型 | 随机变量的概率密度分布 |
| 分布函数 | 离散型+连续型 | 随机变量小于等于x的概率 |
若已知随机变量 X 的概率密度函数为 $f_X(x)$,且 Y 与 X 满足单调可导的函数关系 $Y = g(X)$(其反函数为 $X = h(Y)$),则可通过公式法求解 Y 的概率密度函数:$f_Y(y) = f_X(h(y)) \cdot |h’(y)|$,其中 $|h’(y)|$ 为反函数 (h(y)) 导数的绝对值。
(3)连续型随机变量的特殊关系
- 分布函数与概率密度函数的积分关系:$F(x) = \int_{-\infty}^{x} f(t) dt$
- ⚠️ 重要注意事项:
- 离散型分布函数为阶梯函数,需注意区间边界的等号
- 连续型随机变量取单个具体值的概率为0,仅能计算区间概率
2.3 常见连续型分布
(1)指数分布
- 概率密度函数:
- 当 $ x < 0 $ 时,$ f(x) = 0 $;
- 当 $ x \geq 0 $ 时,$ f(x) = \lambda e^{-\lambda x} $。
- 分布函数:
- 当 $ x < 0 $ 时,$ F(x) = P(X \leq x) = 0 $;
- 当 $ x \geq 0 $ 时,$ F(x) = P(X \leq x) = 1 - e^{-\lambda x} $。
- 核心性质:无记忆性(即 $P(X > s + t \mid X > s) = P(X > t)$)
- $E(X) = \frac{1}{\lambda}$
- $D(X) = \frac{1}{\lambda^2}$
(2)均匀分布
- 记作:$X \sim U(a,b)$
- 概率密度函数:
- 当 $ a \leq x \leq b $ 时:$ f(x) = \frac{1}{b-a} $
- 其他情况:$ f(x) = 0 $
- 分布函数:
- 当 $x < a$ 时:$F(x) = P(X \leq x) = 0$
- 当 $a \leq x \leq b$ 时:$F(x) = P(X \leq x) = \frac{x-a}{b-a}$
- 当 $x > b$ 时:$F(x) = P(X \leq x) = 1$
- 核心性质:落在子区间的概率与子区间长度成正比,与区间位置无关
- $E(X) = \frac{1}{b-a}$,
- $D(X) = \frac{(b-a)^2}{12}$
(3)正态分布
记作:$X \sim N(\mu,\sigma^2)$
-
一般正态分布:
- 概率密度函数:$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{ (x-\mu)^2} {2\sigma^2} }$
- 参数含义:
- $\mu$:均值,决定曲线中心位置
- $\sigma$:标准差,决定曲线离散程度($\sigma$ 越小,曲线越集中于 $\mu$)
-
标准正态分布:
- 定义:当 $\mu = 0, \sigma = 1$ 时,记为 $X \sim N(0,1)$
- 分布函数:$\Phi(x) = \int_{-\infty}^{x} \varphi(t) dt$
- 对称性:$\varphi(x) = \varphi(-x)$,故 $\Phi(-x) = 1 - \Phi(x)$
-
一般转标准的线性变换:
若 $X \sim N(\mu, \sigma^2)$,令 $Y = \frac{X - \mu}{\sigma}$,则 $Y \sim N(0,1)$- 区间概率计算: $P(a \leq X \leq b) = \Phi\left(\frac{b - \mu}{\sigma}\right) - \Phi\left(\frac{a - \mu}{\sigma}\right)$
用含有 $\Phi$ 的参数式表示在不同范围的概率,计算期望时系数可以消去
若有 $X \sim N(\mu_1, \sigma_1^2)$,$Y \sim N(\mu_2, \sigma_2^2)$ ,则有 $X - Y \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2)$
(4)泊松分布的数字特征
- $E(X) = \lambda$
- $D(X) = \lambda$
- 推导依据:$D(X) = E(X^2) - [E(X)]^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda$
- 记作:$X∼P(\lambda)$
(5)伽马分布
- $E(X)=\alpha\beta$
- $D(X)=\alpha\beta^2$
- 记作:$X \sim \Gamma(\alpha, \beta)$
三、多维随机变量及其分布
3.1 基本概念
- 定义:多维随机变量是将多个随机变量作为一个整体研究的概率模型,最常见的是二维随机变量 $(X,Y)$。
- 整体视角:$(X,Y)$ 具有联合概率分布,描述两个变量取值的联合概率规律;
- 个体视角:$X$ 和 $Y$ 分别具有各自的“边缘分布”,描述单个变量的概率规律。
3.2 二维随机变量的联合分布
(1)连续型二维随机变量
- 联合概率密度函数:设 $(X,Y)$ 为连续型,若存在非负函数 $f(x,y)$($x,y \in \mathbb{R}$),使得对任意平面区域 $D$,有 $P{ (X,Y) \in D } = \iint_{D} f(x,y) dxdy$ ,则称 $f(x,y)$ 为 $(X,Y)$ 的联合概率密度函数。
- 联合分布函数:$F(x,y) = P(X \leq x, Y \leq y) = \int_{-\infty}^{y} \int_{-\infty}^{x} f(u,v) , dudv$,描述 $(X,Y)$ 落在区域 $(-\infty,x] \times (-\infty,y]$ 内的概率。
若 $X$,$Y$相互独立,其联合概率密度分布可对应平面直角坐标系中的区域。概率大小可通过该区域在全平面内所占的面积比例推断,而直线因面积为 0,对应的概率也为 0。
(2)离散型二维随机变量
- 联合分布律:设 $(X,Y)$ 的所有可能取值为 $(x_i, y_j)$($i,j=1,2,\dots$),则称 $P(X = x_i, Y = y_j) = p_{ij} \quad (i,j=1,2,\dots)$ 为 $(X,Y)$ 的联合分布律,满足性质:$p_{ij} \geq 0$ 且 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} p_{ij} = 1$。
- 联合分布函数:$F(x,y) = \sum_{x_i \leq x} \sum_{y_j \leq y} p_{ij}$,即对所有满足 $x_i \leq x$ 且 $y_j \leq y$ 的 $(x_i, y_j)$ 对应的概率求和。
3.3 边缘分布
边缘分布是从联合分布中“提取”单个随机变量($X$ 或 $Y$)的分布,分为边缘概率密度(连续型)和边缘分布律(离散型)。
(1)连续型:边缘概率密度
- X 的边缘概率密度:对联合概率密度 $f(x,y)$ 关于 $y$ 积分,消去 $y$ 的影响: $f_X(x) = \int_{-\infty}^{+\infty} f(x,y) , dy$ 。对应的边缘分布函数:$F_X(x) = P(X \leq x) = \int_{-\infty}^{x} f_X(t) , dt = \int_{-\infty}^{x} \left( \int_{-\infty}^{+\infty} f(t,y) , dy \right) dt$
- Y 的边缘概率密度:对联合概率密度 $f(x,y)$ 关于 $x$ 积分,消去 $x$ 的影响: $f_Y(y) = \int_{-\infty}^{+\infty} f(x,y) , dx$。对应的边缘分布函数:$F_Y(y) = P(Y \leq y) = \int_{-\infty}^{y} f_Y(t) , dt = \int_{-\infty}^{y} \left( \int_{-\infty}^{+\infty} f(x,t) , dx \right) dt$
若题目问$Z=X+Y$的概率密度,则有$f_Z(z) = f_X * f_Y(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z - x) dx$
(2)离散型:边缘分布律
- X 的边缘分布律:对联合分布律 $p_{ij}$ 按列求和(固定 $x_i$,对所有 $y_j$ 求和): $P(X = x_i) = p_{i\cdot} = \sum_{j=1}^{\infty} p_{ij} \quad (i=1,2,\dots)$
- Y 的边缘分布律:对联合分布律 $p_{ij}$ 按行求和(固定 $y_j$,对所有 $x_i$ 求和): $P(Y = y_j) = p_{\cdot j} = \sum_{i=1}^{\infty} p_{ij} \quad (j=1,2,\dots)$
3.4 二维随机变量的独立性
(1)核心定义
若对任意实数 $x,y$,二维随机变量 $(X,Y)$ 的联合分布函数等于 $X$ 和 $Y$ 边缘分布函数的乘积,即 $F(x,y) = F_X(x) \cdot F_Y(y)$ ,则称 $X$ 与 $Y$ 相互独立。
(2)不同类型的等价判定条件
- 离散型:对所有可能的 $(x_i, y_j)$,满足 $P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j) \quad (\text{即 } p_{ij} = p_{i\cdot} \cdot p_{\cdot j})$
- 连续型:对几乎所有 $(x,y)$(除面积为0的区域外),满足 $f(x,y) = f_X(x) \cdot f_Y(y)$
四、随机变量的数字特征
4.1数学期望
- 定义公式:$E(X)= \int_{-\infty}^{+\infty} x , f_X(x) , dx$
- 性质:
- $E(aX+bY)=aE(X)+bE(Y)$
- $E(XY)=E(X)E(Y)$
期望中含有表达式的将平方等拆开,运用期望的性质进行分解计算
4.2 方差
- 定义公式(展开式):
$D(X) = E{ [X - E(X)]^2 }$
$= E{ X^2 - 2X \cdot E(X) + [E(X)]^2 }$
$= E(X^2) - 2E(X) \cdot E(X) + [E(X)]^2$
$= E(X^2) - [E(X)]^2$ - 性质:
- $D(常数)=0$
- $D(aX+bY)=a^2 D(X)+b^2 D(Y)$
4.3 协方差与相关系数
- 定义式:
- $Cov=E[X-E(X)][Y-E(Y)]$
- $\rho=\frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}$
- 性质:
- $Cov(X,Y)=Cov(Y,X)$
- $Cov(aX,bY)=abCov(X,Y)$
- $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
- $D(X \pm Y) = D(X) + D(Y) \pm 2,\text{Cov}(X,Y)$
- $Cov(X,Y)=E(XY)-E(X)E(Y)$ 有 $Cov(X,X)=D(X)$
$\rho$是反映随机变量$X$、$Y$之间线性关系程度大小的一个量,其绝对值越大表明$X$、$Y$之间现行依赖关系越显著。
- $\rho=0$ 不相关
- $\rho=1$ 完全正相关
- $\rho=-1$ 完全负相关
若已知 $\rho_{xy}=1$,则说明有 $Y=aX+b$ ,根据题给条件,对等式两边取期望和方差,求得参数的值
五、大数定律与中心极限定理
- 条件:随机变量具有同一分布,且具有相同的期望和方差
- 切比雪夫不等式:$P(|X - E(X)| \geq \epsilon) \leq \frac{D(X)}{\epsilon^2}$
- 其等价形式是:$P(|X - E(X)| \leq \epsilon) \geq 1 - \frac{D(X)}{\epsilon^2}$
可以看出方差越小,取值在区间内的概率也就越大,取值就越集中于均值附近
六、数理统计基础
6.1 数理统计基本概念
样本方差的期望=总体方差:$E(S^2) = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] = \sigma^2$
注意分母是$n-1$,不是$n$
$E(S^2) = \frac{1}{n-1} \sum_{i=1}^{n} E\left[ (X_i - \bar{X})^2 \right]$
6.2 三大抽样分布
(1)卡方分布($\chi^2$ 分布)
-
构造:若 $X_1, X_2, \dots, X_n \sim N(0,1)$ 且相互独立,则 $\chi^2 = \sum_{i=1}^{n} X_i^2 \sim \chi^2(n)$
-
记法:$\chi^2 \sim \chi^2(n)$($n$ 为自由度)
-
数字特征:
- 期望:$E(\chi^2(n)) = n$
- 方差:$D(\chi^2(n)) = 2n$
- 可加性:若 $X \sim \chi^2(m)$、$Y \sim \chi^2(n)$ 且独立,则 $X + Y \sim \chi^2(m+n)$
- $\frac{(n-1)S^2}{\sigma} \sim \chi^2(n-1)$
(2)t 分布
-
构造:若 $X \sim N(0,1)$、$Y \sim \chi^2(n)$ 且相互独立,则 $T = \frac{X}{\sqrt{Y/n}} \sim t(n)$
-
记法:$T \sim t(n)$($n$ 为自由度)
-
数字特征:
- 期望:当 $n > 1$ 时,$E(T) = 0$
- 方差:当 $n > 2$ 时,$D(T) = \frac{n}{n-2}$
-
与其他分布的关系:
- 当 $n$ 较小时,t 分布比标准正态分布更“平坦”,尾部更厚(极端值概率更高)
- 当 $n \to \infty$ 时,$t(n) \to N(0,1)$;通常 $n > 30$ 时两者近似程度高
(3)F 分布
-
构造:若 $U \sim \chi^2(m)$、$V \sim \chi^2(n)$ 且相互独立,则 $F = \frac{U/m}{V/n} \sim F(m,n)$
-
记法:$F \sim F(m,n)$($m$ 为第一自由度,$n$ 为第二自由度)
-
数字特征:
- 期望:当 $n > 2$ 时,$E(F) = \frac{n}{n-2}$
- 方差:当 $n > 4$ 时,$D(F) = \frac{2n^2(m + n - 2)}{m(n - 2)^2(n - 4)}$
-
重要性质:
- 倒数性质:若 $F \sim F(m,n)$,则 $\frac{1}{F} \sim F(n,m)$
- 与 t 分布的关系:若 $T \sim t(n)$,则 $T^2 \sim F(1,n)$
七、参数估计
7.1 点估计
- 矩估计:已知总体服从某种分布(如正态分布、二项分布),给定样本 $ X_1, X_2, …, X_n $,通过样本矩等于总体矩的原则,建立方程求解总体分布的未知参数。
- 用样本一阶原点矩 $ \frac{1}{n}\sum_{i=1}^n X_i $ 估计总体一阶原点矩 $ E(X) $;
- 用样本二阶中心矩 $ \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 $ 估计总体二阶中心矩 $ D(X) $,以此类推。
最大似然估计
核心目标是找到未知参数 $ \theta $,使得“当前样本出现的概率/概率密度”最大,该 $ \theta $ 即为最大似然估计量 $ \hat{\theta}$
离散型 && 连续型
设总体 $ X $ 为离散型,概率分布律为 $ P ( X = x ) = p(x; \theta) $,其中 $ \theta $ 为待估参数;样本观测值为 $ x_1, x_2, …, x_n $。
- 构造似然函数:$L(\theta) = L(x_1, x_2, …, x_n; \theta) = \prod_{i=1}^{n} p(x_i; \theta)$
- 构造对数似然函数对:似然函数取自然对数(单调性不变):$\ln L(\theta) = \sum_{i=1}^{n} \ln p(x_i; \theta)$
- 求解最大似然估计量:对 $ \ln L(\theta) $ 关于 $ \theta $ 求导,并令导数等于0,解出 $ \hat{\theta} $:$\frac{d \ln L(\theta)}{d\theta} = 0$
若总体含多个未知参数,则使用拉格朗日乘数法(对每个参数求偏导数,并令所有偏导数等于 0,解方程组得到各参数的最大似然估计量)
注意 $\prod$ 符号对等式两端取对数后变为 $\sum$
一阶原点矩
- 样本一阶原点矩:$\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \quad \text{(即样本均值)}$
- 总体一阶原点矩:$E(X) \quad \text{(即总体期望)}$
一阶中心矩
- 样本一阶中心矩:$\frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X}) = 0$
- 总体一阶中心矩:$E[X - E(X)] = 0$
二阶中点矩
- 样本二阶中心矩:$S_0^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2$
- 总体二阶中心矩:$E[X - E(X)]^2 = D(X) \quad \text{(即总体方差)}$
二阶原点矩
- 样本二阶原点矩:$\frac{1}{n}\sum_{i=1}^{n} X_i^2$
- 总体二阶原点矩:$E(X^2)$
7.2 估计量的评选标准
1. 无偏性
若对任意 $ \theta \in \Theta $ $\Theta $ 为参数空间),都有 $E\hat{\theta}) = \theta$ 则称 $ \hat{\theta} $ 是 $ \theta $ 的无偏估计量;$ E(\hat{\theta})- \theta $为系统误差;若满足$\lim_{n \to \infty} E(\hat{\theta}) = \theta$ 则称 $ \hat{\theta} $ 是 $ \theta $ 的渐近无偏估计量
2. 有效性
方差最小的无偏估计量最好,$D(\hat{\theta_1}) > D(\hat{\theta_2})$,$\theta_2$更有效
实例分析
设 $X_1, X_2, X_3$ 是来自总体 $X$ 的独立同分布样本,且总体方差 $D(X)=\sigma^2$,考虑以下三个估计量(均为无偏估计):
- $M = \frac{1}{2}X_1 + \frac{1}{2}X_2$
- $N_1 = \frac{1}{3}X_1 + \frac{1}{4}X_2 + \frac{7}{12}X_3$
- $N_2 = \frac{1}{2}X_1 + \frac{1}{3}X_2 + \frac{1}{6}X_3$
步骤1:计算各估计量的方差
根据方差的性质 $D(aX+bY)=a^2 D(X)+b^2 D(Y)$(独立样本,方差满足可加性)
步骤2:比较有效性
方差大小关系:$D(N_1) > D(M) > D(N_2)$,因此:
- $N_2$ 比 $M$ 和 $N_1$ 更有效;
- $M$ 比 $N_1$ 更有效;
- $N_2$ 是这三个估计量中最优的无偏估计量。
区间估计
置信度($1-\alpha$):在一定的置信水平下,寻找区间长度最短的置信区间
| 总体类型 | 待估计参数 | 其他 参数 |
所用的枢轴量及其分布 | 置信区间 |
| 单个正态总体 | $\mu$ | $\sigma^2$ 已知 | $\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$ | $\left( \bar{X} \pm \frac{\sigma}{\sqrt{n}} z_{\alpha/2} \right)$ |
| $\mu$ | $\sigma^2$ 未知 | $\frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n-1)$ | $\left( \bar{X} \pm \frac{S}{\sqrt{n}} t_{\alpha/2}(n-1) \right)$ | |
| $\sigma^2$ | $\mu$ 未知 | $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ | $\left( \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right)$ | |
| 两个正态总体 | $\mu_1 - \mu_2$ | $\sigma_1^2, \sigma_2^2$ 已知 | $\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1)$ | $\left( \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \right)$ |
| $\mu_1 - \mu_2$ | $\sigma_1^2 = \sigma_2^2$ 未知 | $\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$ | $\left( \bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1 + n_2 - 2) S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \right)$ | |
| $\frac{\sigma_1^2}{\sigma_2^2}$ | $\mu_1, \mu_2$ 未知 | $\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$ | $\left( \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1 - 1, n_2 - 1)}, \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{1-\alpha/2}(n_1 - 1, n_2 - 1)} \right)$ |