跳转至

概率论常用知识

\[ \newcommand{\xfrac}{\displaystyle \frac} \newcommand{\xint}{\displaystyle \int} \newcommand{\xsqrt}{\displaystyle \sqrt} \newcommand{\xsum}{\displaystyle \sum} \newcommand{\xlim}{\displaystyle \lim} \newcommand{\limsup}[1]{\mathop{\overline{\text{lim}}}\limits_{#1}} \newcommand{\liminf}[1]{\mathop{\underline{\text{lim}}}\limits_{#1}} \newcommand{\seq}[1]{\{#1\}} \newcommand{\series}[1][n=1]{\displaystyle \sum_{#1}^{\infty}} \def\d{\mathrm{d}} \def\R{\mathbb{R}} \def\phi{\varphi} \def\Beta{\mathrm{B}} \def\e{\mathrm{e}} \def\N{\mathbb{N}} \def\implies{\Rightarrow} \def\cov{\text{cov}} \]

分布

常用分布

分布 含义 分布律/密度函数 数学期望 方差
Bernoulli分布 \(b(1,p)\) 两点分布 \(p^k(1-p)^{1-k}\)\(k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(b(n,p)\) \(n\)重Bernoulli实验 \(\mathrm{C}_n^kp^k(1-p)^{1-k}\)\(k=0,1,\dots,n\) \(np\) \(np(1-p)\)
Poisson分布 \(P(\lambda)\)\(\pi(\lambda)\) Poisson过程中单位时间内的跳跃数 \(\frac{\lambda^k}{k!}e^{-\lambda}\)\(k=0,1,\dots\) \(\lambda\) \(\lambda\)
负二项分布 \(Nb(n,p)\)
均匀分布 \(U[a, b]\) 概率正比于测度的分布 \(\frac{1}{b-a}\)\(a\le x\le b\) \(\frac{a+b}{2}\)
指数分布 \(E(\lambda)\)\(\text{Exp}(\lambda)\) Poisson过程第一次跳跃的时间 \(\lambda \e^{-\lambda x}\) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\)
正态分布 \(N(\mu,\sigma^2)\) 许多自然现象的分布
\(\chi^2\)分布 \(\chi^2(n)\) 独立同标准正态分布变量的平方和
Gamma分布 \(\Gamma(\alpha,\lambda)\) Poisson过程第\(\alpha\)次跳跃的时间(\(\alpha\in\N^+\))
Beta分布 \(\beta(a, b)\)
\(t\)分布 \(t(n)\) 标准正态分布与\(t\)分布的平方根之比,与正态分布方差的分布有关
\(F\)分布 \(F(m,n)\) 两个独立\(\chi^2\)分布之比,与方差检验有关

随机向量的运算

乘积的分布

按独立随机变量的定义和性质,离散型可以写成分布律之积,连续型可以写成密度函数之积。

和的分布

两个独立随机变量之和的分布为卷积。

若整值(只取非负整数值)随机变量 \(X\)\(Y\) 独立,其分布律为 \(\{p_n\}, \{q_n\}\) 则随机变量 \(Z = X + Y\) 的分布律为:

\[ P(Z = k) = \sum_{i + j = k} p_i q_j = \sum_{i=0}^k p_i q_{k-i}; \]

若连续型随机变量 \(X\)\(Y\) 独立,其密度函数为 \(p(x), q(x)\),则随机变量 \(Z = X + Y\) 的密度函数为:

\[ r(x) = \int_{-\infty}^{+\infty} p(t) q(x-t) \d t \]

商的分布

设连续型随机变量 \(X, Y\) 的联合密度函数为 \(p(x, y)\),则随机变量 \(Z = X/Y\) 的密度为:

\[ q(y) = \int_{-\infty}^{+\infty} |t| p(tx, t) \d t. \]

分布关系

数字特征

数学期望

定义:若\(X\)的分布函数为\(F(x)\),则\(E(X)=\int_{-\infty}^{+\infty} x\d F(x)\)

离散情况:\(E(X) = \xsum_k k p_k\);连续情况:\(E(X) = \xint_{-\infty}^{+\infty} x p(x) \d x\)

随机变量的函数:\(g(X) = \xint_{-\infty}^{+\infty} g(x) \d F(x)\)

方差和协方差

方差的定义:\(D(X) = E[(X - E(X))^2]\)

协方差的定义:\(\text{cov}(X, Y) = E[(X-E(X))(Y-E(Y))]\)

计算公式:\(D(X) = E(X^2) - E^2(X)\)\(\text{cov}(X, Y) = E(XY) - E(X)E(Y)\)

协方差矩阵:对随机向量 \(\vec{X} = (X_1, \dots, X_n)\)\(\Sigma = (\text{cov}(X_i, X_j))_{n \times n}\),其中当 \(i = j\) 时,协方差表示方差,即 \(\text{cov}(X_i, X_i) = D(X_i)\)

公式和性质

  • 数学期望的性质:
    • 常数的期望为自身:\(E(C) = C\)
    • 线性:\(E(aX+bY) = aE(X) + bE(Y)\)
  • 方差的性质:
    • 常数的方差为0:\(D(C) = 0\)
    • \(D(X+c) = D(X)\)\(c\)是常数);
    • \(D(kX) = k^2 D(X)\)\(k\)是常数);
    • \(D(X + Y) = D(X) + D(Y) + 2 \text{cov}(X, Y)\)
    • 最小二乘性:对任意的\(x \ne E(X)\),有\(E[(X-c)^2] < D(X)\)
  • 协方差的性质:
    • \(\text{cov}(X, Y) = E(XY) - E(X)E(Y)\)

相关系数与相关性

定义:相关系数 \(\rho_{XY} = \frac{\cov{X, Y}}{\sqrt{D(X)}\sqrt{D(Y)}}\)\(\rho_{XY} = 0\) 时称 \(X\)\(Y\) 不相关。

不相关的四个等价表述:

  1. \(\rho_{XY} = 0\) (定义);
  2. \(\cov(X, Y) = 0\)
  3. \(E(XY) = E(X)E(Y)\)
  4. \(D(X + Y) = D(X) + D(Y)\)

独立性与不相关性:

\(X\)\(Y\) 独立 \(\implies\) \(X\)\(Y\) 不相关; \(X\)\(Y\) 不相关,且均服从正态分布或二值分布 \(\implies\) \(X\)\(Y\) 独立。

收敛性与极限定理

随机变量收敛性

四种收敛:

  • 依分布收敛:若 \(X_1, X_2, \dots\) 的分布函数为 \(F_1, F_2, \dots\)\(X\) 的分布函数为 \(F(x)\),而在 \(F(x)\) 的连续点上分布函数列 \(\{ F_n(x) \}\) 逐点收敛于 \(F(x)\) ,则称随机变量序列 \(\{X_n\}\) 依分布收敛\(X\),记为 \(X_n \stackrel{L}{\longrightarrow} X\)
  • 依概率收敛:若随机变量序列 \(X_1, X_2, \dots\) 满足 \(\forall \varepsilon > 0\)\(\xlim_{n \to \infty} P(|X_n - X| \le \varepsilon) = 0\),则称随机变量序列 \(\{X_n\}\) 依概率收敛\(X\),记为 \(X_n \stackrel{P}{\longrightarrow} X\)
  • \(r\) 阶收敛:若随机变量序列 \(X_1, X_2, \dots\) 和随机变量 \(X\)\(r\) 阶绝对原点矩存在,\(\xlim_{n \to \infty} E(|X_n - X|^r) = 0\),则称随机变量序列 \(\{X_n\}\) \(r\) 阶收敛\(X\),记为 \(X_n \stackrel{r}{\longrightarrow} X\)
  • 几乎必然收敛:若随机变量序列 \(X_1, X_2, \dots\) 满足 \(P( \xlim_{n \to \infty} X_n = X) = 1\),则称随机变量序列 \(\{X_n\}\) 几乎必然收敛(或以概率 1 收敛)于 \(X\),记为 \(X_n \stackrel{\text{a.s.}}{\longrightarrow} X\)

Tips

“依概率收敛”对应实变函数中的“依测度收敛”,“几乎必然收敛”对应实变函数的“几乎处处收敛”,只需要把概率 \(P\) 看作一种测度,把样本空间 \(\Omega\) 看作基本集(可测集 \(E\)),并且把随机变量看作 \(\Omega \to \R\) 的可测函数即可。

大数定律

弱大数定律:

  • Bernoulli 大数定律:频率趋近于概率
  • Chebyshev 大数定律:两两不相关,方差一致有界
  • Khinchin 大数定律:独立同分布,数学期望有限(数理统计样本常用)

强大数定律:

  • Borel 强大数定律:频率几乎必然趋近于概率
  • Kolmogorov 强大数定律:独立同分布,数学期望有限,则前 \(n\) 的平均值几乎必然趋于数学期望

中心极限定理

  • De Movire - Laplace 极限定理:二项分布趋于正态分布;
  • Linderberg - Levy 极限定理:独立同分布,方差有限,则趋于正态分布;