跳转至

2.概率的公理化定义

概率空间(probability space)是概率论的抽象化、公理化.本节我们将简要介绍概率论、随机变量相关概念的公理化定义.

概率空间

基本概念

随机现象:在一定条件下并不总是出现相同结果的现象,只有一个结果称为确定性现象

样本空间(sample space):随机现象的一切可能基本结果组成的集合记为 \(\Omega\) , \(\Omega =\left \{ \omega \right \}\) ,其中 \(\omega\) 表示基本结果,又称为样本点(outcome).我们将样本点个数有限或可列的情况称为离散样本空间.将样本点不可列无限个的情况称为连续样本空间

随机事件:随机现象的某些样本点组成的集合,也简称为事件.由样本空间中的单个元素组成的子集称为基本事件,样本空间\(\Omega\)本身称为 必然事件\(\Omega\) 的最小子集(空集)称为 不可能事件

随机变量:用来表示随机事件结果的变量称为随机变量.

事件域:样本空间某些子集(可测子集)及其运算结果而组成的集合类 \(\mathscr{F}\)

如果\(F\)满足

(1)\(\Omega \in F\)

(2)若\(A \in F\),则对立事件 \(\bar{A} \in F\)

(3)若\(A_{n} \in F \quad n=1,2......\)则可列并 \(\bigcup_{n=1}^{\infty} \in F\)

\(F\)为一个事件域,又称\(\sigma\)域或者\(\sigma\)代数.在概率论中又称\(\left ( \Omega,F \right )\)可测空间

概率测度

概率测度(probability measurement),简称概率(probability),是定义在样本空间 \(\mathbb{R}\) 上且满足归一性的测度.具体地说,概率测度是一个从事件域 \(\mathscr{F}\)\(\mathbb{R}\) 的函数 \(P\),满足以下条件: * 非负性:\(\forall A \in \mathscr{F}, P(A) \ge 0\); * 归一性(规范性):\(P(\Omega) = 1\); * 可列可加性:若 \(A_1, A_2, \dots \in \mathscr{F}\),且 \(A_1, A_2, \dots\) 两两不交,则 \(P \left(\bigcup\limits_{n = 1}^{\infty} A_n \right) = \sum\limits_{n = 1}^{\infty} P(A_n)\). 在不同的情形下,概率将有不同的定义.例如在古典概型中,定义所有单点集 \(\{a\} \subset \Omega\) 的概率为 \(P(\{a\}) = \frac{1}{n}\)\(n = |\Omega|\),由此导出其他集合的概率值;在几何概型中,定义所有 Borel 点集 \(A\) 的概率为 \(P(A) = m(A) / m(\Omega)\),其中 \(m(A)\)\(A\) 的测度(Jordan 测度或者 Lebesgue 测度).由一般测度的非负性和可列可加性,可以证明该定义下的概率 \(P\) 满足三条性质.

概率空间

三元组 \((\Omega, \mathscr{F}, P)\) 称为概率空间(probability space).讨论实际问题的概率时,需要预先给定一个概率空间.

概率的几个重要性质

(1)有限可加性:若有限个事件\(A_{1},A_{2},A_{3},...,A_{n}\)互不相容,则有

\[ P \left( \bigcup_{i=1}^{n}A_{i} \right) = \sum_{i=1}^{n}P (A_{i}) \]

(2)单调性:若 \(A\supset B\) ,则

\[ P \left (A-B \right)=P ( A )-P ( B ) \]

特别的,\(P(\bar{A})=P(\Omega-A)=1-P(A)\)

(3)加法公式:对 任意 n个事件\(A_{1},A_{2},A_{3},...,A_{n}\),有

\[ P \left( \bigcup_{i=1}^{n}A_{i} \right)= \sum_{i=1}^{n}P (A_{i})-\sum_{1\le i < j \le n}P(A_{i}A_{j}) +\sum_{1\le i < j < k \le n}P(A_{i}A_{j}A_{k})+...+(-1)^{n-1}P(A_{1}A_{2}...A_{n}) \]

(4)概率的连续性

若对\(F\)中任意单调不减事件序列\({F_{n}}\)均成立

\[ \lim_{n\rightarrow \infty}P(F_{n})=P \left(\lim_{n \rightarrow \infty}F_{n} \right) \]

则称概率P是下连续

若对\(F\)中任意单调不增事件序列\({E_{n}}\)均成立

\[ \lim_{n\rightarrow \infty}P(E_{n})=P(\lim_{n \rightarrow \infty}E_{n}) \]

则称概率P是上连续

概率既是上连续的也是下连续的,特别的,概率的可列可加性等价于有限可加性外加下连续性

随机变量

概念

随机变量定义

给定概率空间 \((\Omega, \mathscr{F}, P)\),随机变量(random variable,缩写 r.v.)是 \(\mathscr{F}\) 的某个子集到 \(\mathbb{R}\) 的函数,满足:对于 \(\mathbb{R}\) 上的任意一个 Borel 点集 \(B \in \mathscr{B}\),都有

\[ \{\omega : \xi(\omega) \in B\} \in \mathscr{F}. \]

通常将 \(\{\omega: \xi(\omega) \in B\}\) 简记为 \(\{ \xi \in B \}\),其概率则简记为 \(P(\xi \in B)\)

如果使用实变函数的语言进一步抽象,则随机变量是可测空间 \((\Omega, \mathscr{F})\)\((\mathbb{R}, \mathscr{B})\) 的一个可测函数.

累积分布函数

随机变量 \(\xi\) 的累积分布函数(cumulative distribution function,缩写 c.d.f)\(F(x)\) 是一个实变量函数,定义为:

\[ F(x) = P(\xi < x) = P(\{\omega:\xi(\omega) < x\}), x \in \mathbb{R}. \]

累积分布函数简称分布函数.分布函数也可以定义为 \(F(x) = P(\xi \le x)\).这里使用第一种定义进行推导.

从分布函数可以导出任意 Borel 点集的概率,因此分布函数可以决定一个随机变量.

分布函数具有如下基本性质:

  • 单调性:\(a < b \Rightarrow f(a) \le f(b)\)
  • \(\lim\limits_{x \to -\infty} f(x) = 0, \lim\limits_{x \to +\infty} f(x) = 1\)
  • 左连续性:\(\lim\limits_{x \to a^-} f(x) = f(a)\)

若定义分布函数 \(F(x) = P(\xi \le x)\),则第三条性质应该改为右连续性.

离散型随机变量

离散型随机变量(discrete random variable)指的是取值有穷的随机变量.

离散型随机变量只在有限个点上概率取值非零,因此可以定义概率质量函数(probability mass function,缩写 p.m.f.)

\[ p(x) = \begin{cases} P(\xi = x), & x \in S;\\ 0, & x \in \mathbb{R} \backslash S. \end{cases} \]

其中 \(S\)\(\xi\) 的可能取值.概率质量函数也称为概率分布.

连续型随机变量

连续性随机变量(continuous random variable)指的是分布函数 \(F(x)\) 可以表为一个积分的随机变量:

\[ F(x) = \int_{-\infty}^x p(t) \mathrm{d}t. \]

上式的被积函数 \(p(x)\) 称为随机变量的概率密度函数(probability density function,缩写 p.d.f.),简称密度函数或概率密度.

分布函数性质

分布函数决定 Borel 集概率

给定概率空间 \((\Omega, \mathscr{F}, P)\),对于函数 \(\xi: \Omega \to \mathbb{R}\),若对任意 \(x \in \mathbb{R}\),都有

\[ \{\omega \in \Omega:\xi(\omega) < x\} \in \mathscr{F}, \]

则对任意 Borel 点集 \(B\),都有

\[ \{\omega \in \Omega:\xi(\omega) \in B\} \in \mathscr{F}. \]

也就是说,\(\xi\) 是一个随机变量.

随机变量存在定理

给定任意函数 \(F(x)\),若该函数满足分布函数的三个性质:

  • 单调性:\(a < b \Rightarrow f(a) \le f(b)\)
  • \(\lim\limits_{x \to -\infty} f(x) = 0, \lim\limits_{x \to +\infty} f(x) = 1\)
  • 左连续性:\(\lim\limits_{x \to a^-} f(x) = f(a)\)

则存在一个概率空间 \((\Omega, \mathscr{F}, P)\) 以及其上的随机变量 \(\xi\),使得 \(\xi\) 的分布函数正好是 \(F(x)\)

Tip

这一定理具有重要意义,它说明了我们可以抛开特定概率空间,直接讨论一个随机变量.只要分布函数 \(F(x)\) 确定,随机变量就确定了.

Proof

\(\Omega = [0, 1]\)\(\mathscr{F}\)\([0, 1]\) 中全体 Borel 点集,\(P\) 为 Lebesgue 测度.定义 \(\theta(\omega) = \omega\),则 \(\theta\) 为该空间上的随机变量,且由于

\[F(x) = P(\theta < x) = m\{\omega \in \Omega: \omega < x\} = m[0, x) = x, 0 \le x \le 1,\]

所以 \(\theta \sim U(0, 1)\).再定义

\[F^{-1}(x) = \inf \{u: F(u) > x\},\]

\(\xi = F^{-1} (\theta)\),则

\[P(\xi < x) = P\left(F^{-1}(\theta) < x\right) = P(\theta < F(x)) = F(x).\]

于是 \(\xi\) 成为 \((\Omega, \mathscr{F}, P)\) 上的随机变量,且其分布函数等于 \(F(x)\)

随机向量

随机向量概念

随机向量定义

随机向量是随机变量的高维推广.

若随机变量 \(\xi_1, \dots, \xi_n\) 定义在同一个概率空间 \((\Omega, \mathscr{F}, P)\) 上,则称这 \(n\) 个变量组成的向量值函数

\[ \boldsymbol{\xi}(\omega) = \left(\xi_1(\omega), \dots, \xi_n\right(\omega)) \]

\(n\) 维随机向量(random vector)或 \(n\) 维随机变量.

Tip

随机向量的各个分量要求定义在同一个概率空间上,这样将方便我们讨论它们的函数(如和、差、积等)以及协方差.若定义在两个不同样本空间的积空间 \(\Omega_1 \times \Omega_2\) 上,则某些定义将变得复杂.

也可以仿照一维随机变量的方法进行定义:设 \(\boldsymbol{\xi}(\omega)\)\(\Omega\)\(\mathbb{R}^n\) 的函数,若对任意的 \(n\) 维 Borel 点集 \(B_n\) 都有

\[ \{\boldsymbol{\xi}(\omega) \in B_n\} \in \mathscr{F}, \]

则称 \(\boldsymbol{\xi}\)\(n\) 维随机向量.

随机变量的函数

概念

Borel 可测函数

\(f(x)\) 是一元实函数,若对任意 Borel 点集 \(B\),均有

\[ f^{-1}(B) = \{x \in \mathbb{R}: f(x) \in B\} \in \mathscr{B}, \]

则称 \(f\) 是 Borel 可测函数.

抽象地说,Borel 函数 \(f\)\((\mathbb{R}, \mathscr{B})\) 上的 [[可测函数]].

类似地,可以定义多元 Borel 可测函数.

随机变量的函数

\(f\) 是 Borel 可测函数,\(\xi\) 是概率空间 \((\Omega, \mathscr{F}, P)\) 上的随机变量,则 \(\eta = f(\xi)\) 是两个函数 \(\xi: \Omega \to \mathbb{R}, f: \mathbb{R} \to \mathbb{R}\) 的复合函数.对于任意 Borel 点集 \(B\),由于 \(f\) 是 Borel 可测函数,\(\xi\) 是随机变量,考察集合

\[ \begin{aligned} \eta^{-1}(B) &:= \{\omega \in \Omega: f(\xi(\omega)) \in B\} \\ &= \{\omega \in \Omega: x = \xi(\omega), f(x) \in B\} \\ &= \{\omega \in \Omega: x = \xi(\omega), x \in \{x:f(x) \in B \} \} \end{aligned} \]

由于 \(f\) 是 Borel 可测函数,所以 \(\{x: f(x) \in B\}\) 也是 Borel 可测集,将其记为 \(B'\),于是

\[ \eta^{-1}(B) = \{\omega \in \Omega: x = \xi(\omega) \in B'\}. \]

由于 \(\xi\) 是随机变量,于是 \(\{\omega \in \Omega: \xi(\omega) \in B'\} \in \mathscr{F}\),所以 \(\eta^{-1}(B) \in \mathscr{F}\). 所以 \(\eta\) 符合随机变量的定义(也就是 \(\eta\) 是可测函数), \(\eta\) 也是随机变量.

Tip

随机变量是概率空间到实数集上的可测函数,为了保证随机向量的函数依然具有可测性,我们引入了 Borel 函数,以保持实数集到实数集上的可测性.由于可测具有传递性,这就保证了随机变量的函数依然是可测函数.

类似地,可以定义 \(n\) 元 Borel 可测函数和 \(n\) 维随机向量的复合,以及 \(n\) 维向量值 Borel 函数与随机变量的复合.

随机变量的变换

\(\xi\) 为连续性随机变量,其密度函数为 \(p(x)\),又有 \(g(x)\) 是一个严格单调函数,且反函数连续可导,则 \(\eta = g(\xi)\) 也是连续型随机变量,其密度函数为

\[ q(x) = p\left[g^{-1}(x)\right] \left| \left(g^{-1}\right)'(x) \right|. \]

该定理是定积分换元法的推论.设 \(g(x)\) 是严格递增函数,则

\[ \begin{aligned} P(\eta < x) &= P(g(\xi) < x) \\ &= P\left(\xi < g^{-1}(x)\right) \\ &= \int_{-\infty}^{g^{-1}(x)} p(u) \mathrm{d}u \\ (t := g(u)) &= \int_{-\infty}^t p\left( g^{-1}(t) \right) \left(g^{-1}\right)'(t) \mathrm{d}t. \\ \end{aligned} \]

由此可以得到 \(\eta\) 的密度函数.