人工智能中的概率与统计学核心知识(Probability and Statistics for AI)
概率与统计学是AI量化不确定性、从数据中学习规律的核心工具——从模型参数估计(如线性回归权重)到生成式模型(如GAN),从模型评估(如A/B测试)到业务决策(如推荐策略),均以其为数学基础。
1. 概率基础与公理(Probability Fundamentals & Axioms)
概率通过严格的公理体系,标准化对“随机事件可能性”的描述,是AI处理不确定性问题的底层逻辑。
1.1 古典概型(Classical Probability)
公式:若试验的样本空间
Ω
Omega
Ω 包含
n
n
n 个等可能且互斥的基本事件,事件
A
A
A 包含其中
m
m
m 个基本事件,则事件
A
A
A 的概率为:
P
(
A
)
=
m
n
P(A) = frac{m}{n}
P(A)=nm解说:适用于“结果有限、每个结果概率均等”的场景,是概率的直观定义。例如抛均匀硬币,“正面朝上”的概率
P
(
正面
)
=
1
2
P(正面)=frac{1}{2}
P(正面)=21;掷均匀骰子,“点数为偶数”的概率
P
(
偶数
)
=
3
6
=
1
2
P(偶数)=frac{3}{6}=frac{1}{2}
P(偶数)=63=21。
1.2 公理化定义(Axiomatic Definition)
由柯尔莫哥洛夫提出的三大公理,奠定概率计算的严谨性:
非负性:对任意事件
A
A
A,概率非负,即
P
(
A
)
≥
0
P(A) geq 0
P(A)≥0;规范性:样本空间
Ω
Omega
Ω(所有可能结果的集合)的概率为1,即
P
(
Ω
)
=
1
P(Omega) = 1
P(Ω)=1;可列可加性:对两两互斥的事件序列
A
1
,
A
2
,
…
A_1, A_2, dots
A1,A2,…(任意
i
≠
j
i
eq j
i=j 时
A
i
∩
A
j
=
∅
A_i cap A_j = emptyset
Ai∩Aj=∅),有
P
(
⋃
i
=
1
∞
A
i
)
=
∑
i
=
1
∞
P
(
A
i
)
Pleft(igcup_{i=1}^{infty} A_i
ight) = sum_{i=1}^{infty} P(A_i)
P(⋃i=1∞Ai)=∑i=1∞P(Ai)。
解说:所有概率计算需满足这三大公理,例如AI中“模型预测某样本为‘猫’”的概率必须在
[
0
,
1
]
[0,1]
[0,1] 之间,且“预测为猫、狗、其他”的概率之和需为1。
1.3 联合概率与边缘概率(Joint & Marginal Probability)
联合概率:描述“多个事件同时发生”的概率,离散场景记为
P
(
A
,
B
)
P(A,B)
P(A,B)(事件
A
A
A 与
B
B
B 同时发生),连续场景记为
f
(
A
,
B
)
f(A,B)
f(A,B)(联合概率密度函数);边缘概率:通过“对其他事件求和/积分”从联合概率中提取单个事件的概率:
离散场景:
P
(
A
)
=
∑
B
P
(
A
,
B
)
P(A) = sum_{B} P(A,B)
P(A)=∑BP(A,B)(对所有可能的
B
B
B 求和);连续场景:
P
(
A
)
=
∫
B
f
(
A
,
B
)
d
B
P(A) = int_{B} f(A,B) dB
P(A)=∫Bf(A,B)dB(对所有可能的
B
B
B 积分)。 解说:联合概率是“多维度不确定性”的描述(如“样本特征为‘高’且标签为‘猫’”的概率
P
(
特征
=
高
,
标签
=
猫
)
P(特征=高, 标签=猫)
P(特征=高,标签=猫)),边缘概率是“忽略部分维度”后的简化(如仅“标签为猫”的概率
P
(
标签
=
猫
)
P(标签=猫)
P(标签=猫))。
1.4 条件概率与贝叶斯定理(Conditional Probability & Bayes’ Theorem)
条件概率(Conditional Probability)
公式:若
P
(
B
)
>
0
P(B) > 0
P(B)>0,则事件
B
B
B 发生的条件下,事件
A
A
A 发生的概率为:
P
(
A
∣
B
)
=
P
(
A
,
B
)
P
(
B
)
P(A|B) = frac{P(A,B)}{P(B)}
P(A∣B)=P(B)P(A,B)解说:量化“已知部分信息后,事件可能性的更新”。例如在AI中,“已知样本特征为‘有羽毛’(
B
B
B),则样本标签为‘鸟’(
A
A
A)”的概率
P
(
标签
=
鸟
∣
特征
=
有羽毛
)
P(标签=鸟|特征=有羽毛)
P(标签=鸟∣特征=有羽毛),远高于无此条件的
P
(
标签
=
鸟
)
P(标签=鸟)
P(标签=鸟)。
贝叶斯定理(Bayes’ Theorem)
公式:结合条件概率与全概率公式,实现“从结果反推原因”的概率更新:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
⋅
P
(
A
)
P
(
B
)
P(A|B) = frac{P(B|A) cdot P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)⋅P(A)
其中:
P
(
A
)
P(A)
P(A):先验概率(无
B
B
B 信息时,对
A
A
A 的初始判断,如“样本为鸟”的基础概率);
P
(
B
∣
A
)
P(B|A)
P(B∣A):似然(
A
A
A 发生时
B
B
B 发生的概率,如“样本为鸟时,特征为有羽毛”的概率);
P
(
B
)
P(B)
P(B):证据(
B
B
B 发生的总概率,用于归一化,确保后验概率在
[
0
,
1
]
[0,1]
[0,1] 内);
P
(
A
∣
B
)
P(A|B)
P(A∣B):后验概率(结合
B
B
B 信息后,对
A
A
A 的更新判断,如“已知特征为有羽毛,样本为鸟”的最终概率)。 解说:AI中贝叶斯模型的核心(如朴素贝叶斯分类器、贝叶斯神经网络)。例如垃圾邮件检测中,用贝叶斯定理计算“已知邮件包含‘优惠’一词(
B
B
B),则邮件为垃圾邮件(
A
A
A)”的后验概率
P
(
垃圾邮件
∣
包含优惠
)
P(垃圾邮件|包含优惠)
P(垃圾邮件∣包含优惠)。
1.5 乘法公式(Multiplication Rule)
公式:两事件的联合概率可表示为“一个事件的概率 × 另一事件的条件概率”:
P
(
A
,
B
)
=
P
(
A
)
⋅
P
(
B
∣
A
)
=
P
(
B
)
⋅
P
(
A
∣
B
)
P(A,B) = P(A) cdot P(B|A) = P(B) cdot P(A|B)
P(A,B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)
推广到
n
n
n 个事件:
P
(
A
1
,
A
2
,
…
,
A
n
)
=
P
(
A
1
)
⋅
P
(
A
2
∣
A
1
)
⋅
P
(
A
3
∣
A
1
,
A
2
)
⋅
⋯
⋅
P
(
A
n
∣
A
1
,
…
,
A
n
−
1
)
P(A_1,A_2,dots,A_n) = P(A_1) cdot P(A_2|A_1) cdot P(A_3|A_1,A_2) cdot dots cdot P(A_n|A_1,dots,A_{n-1})
P(A1,A2,…,An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1,A2)⋅⋯⋅P(An∣A1,…,An−1)解说:用于计算“多事件连锁发生”的概率。例如NLP中,计算“句子‘我喜欢AI’”的联合概率
P
(
我
,
喜欢
,
A
I
)
=
P
(
我
)
⋅
P
(
喜欢
∣
我
)
⋅
P
(
A
I
∣
我
,
喜欢
)
P(我,喜欢,AI) = P(我) cdot P(喜欢|我) cdot P(AI|我,喜欢)
P(我,喜欢,AI)=P(我)⋅P(喜欢∣我)⋅P(AI∣我,喜欢)。
1.6 全概率公式(Law of Total Probability)
公式:设
B
1
,
B
2
,
…
,
B
n
B_1,B_2,dots,B_n
B1,B2,…,Bn 是样本空间
Ω
Omega
Ω 的划分(满足:① 两两互斥,即
B
i
∩
B
j
=
∅
B_i cap B_j = emptyset
Bi∩Bj=∅;② 覆盖所有可能,即
⋃
i
=
1
n
B
i
=
Ω
igcup_{i=1}^n B_i = Omega
⋃i=1nBi=Ω;③
P
(
B
i
)
>
0
P(B_i) > 0
P(Bi)>0),则对任意事件
A
A
A:
P
(
A
)
=
∑
i
=
1
n
P
(
B
i
)
⋅
P
(
A
∣
B
i
)
P(A) = sum_{i=1}^n P(B_i) cdot P(A|B_i)
P(A)=∑i=1nP(Bi)⋅P(A∣Bi)解说:将复杂事件
A
A
A 的概率,分解为“不同原因/场景
B
i
B_i
Bi 下的条件概率加权和”,简化计算。例如AI风险评估中,“用户违约(
A
A
A)”的概率可分解为“用户为学生(
B
1
B_1
B1)、上班族(
B
2
B_2
B2)、自由职业者(
B
3
B_3
B3)”等场景下的条件概率加权和。
1.7 独立性与互斥性(Independence & Mutual Exclusivity)
事件独立性(Independence)
公式:若事件
A
A
A 与
B
B
B 独立,则
P
(
A
,
B
)
=
P
(
A
)
⋅
P
(
B
)
P(A,B) = P(A) cdot P(B)
P(A,B)=P(A)⋅P(B),等价于
P
(
A
∣
B
)
=
P
(
A
)
P(A|B) = P(A)
P(A∣B)=P(A)(
P
(
B
)
>
0
P(B) > 0
P(B)>0)。核心性质:
B
B
B 的发生不影响
A
A
A 的概率。例如“抛硬币正面朝上(
A
A
A)”与“掷骰子点数为3(
B
B
B)”独立。AI应用:朴素贝叶斯分类器的核心假设——“样本各特征独立”(如“文本包含‘篮球’(
A
1
A_1
A1)”与“包含‘足球’(
A
2
A_2
A2)”独立),大幅简化联合概率计算(
P
(
A
1
,
A
2
∣
类别
)
=
P
(
A
1
∣
类别
)
⋅
P
(
A
2
∣
类别
)
P(A_1,A_2|类别) = P(A_1|类别) cdot P(A_2|类别)
P(A1,A2∣类别)=P(A1∣类别)⋅P(A2∣类别))。
事件互斥性(Mutual Exclusivity)
公式:若事件
A
A
A 与
B
B
B 互斥(无交集,即
A
∩
B
=
∅
A cap B = emptyset
A∩B=∅),则
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
P(A cup B) = P(A) + P(B)
P(A∪B)=P(A)+P(B),且
P
(
A
,
B
)
=
0
P(A,B) = 0
P(A,B)=0。核心性质:
A
A
A 与
B
B
B 不能同时发生。例如AI分类任务中,“样本标签为‘猫’(
A
A
A)”与“标签为‘狗’(
B
B
B)”互斥。AI应用:多分类模型的输出验证——预测为“猫”“狗”“其他”的概率之和应接近1,且任意两类的联合概率为0(无样本同时被预测为两类)。
2. 概率分布(Probability Distributions)
随机变量是AI数据的“数学化身”(如分类标签为离散随机变量,图像像素值为连续随机变量),概率分布则描述随机变量的“取值规律”,是AI建模的核心组件。
2.1 离散型分布(Discrete Distributions)
离散型随机变量的取值为有限或可列个,用概率质量函数(PMF)
P
(
X
=
k
)
P(X=k)
P(X=k) 描述取值概率。
1. 两点分布(伯努利分布,Bernoulli Distribution)
定义:描述“单次二值试验”的结果(如成功/失败、正/负类);PMF公式:设随机变量
X
∈
{
0
,
1
}
X in {0,1}
X∈{0,1}(1表示“成功”,0表示“失败”),成功概率为
p
p
p(
0
<
p
<
1
0 < p < 1
0<p<1),则:
P
(
X
=
k
)
=
p
k
(
1
−
p
)
1
−
k
,
k
=
0
,
1
P(X=k) = p^k (1-p)^{1-k}, quad k=0,1
P(X=k)=pk(1−p)1−k,k=0,1AI应用:二分类任务的标签建模(如“用户点击广告(
X
=
1
X=1
X=1)”或“未点击(
X
=
0
X=0
X=0)”)、单个样本的预测结果概率(如模型输出“样本为正类”的概率
p
p
p)。
2. 二项分布(Binomial Distribution)
定义:描述“
n
n
n 次独立伯努利试验”中“成功次数”的分布;PMF公式:设随机变量
X
X
X 表示
n
n
n 次试验中的成功次数(
X
∈
{
0
,
1
,
…
,
n
}
X in {0,1,dots,n}
X∈{0,1,…,n}),单次成功概率为
p
p
p,则:
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
…
,
n
P(X=k) = C_n^k p^k (1-p)^{n-k}, quad k=0,1,dots,n
P(X=k)=Cnkpk(1−p)n−k,k=0,1,…,n
其中
C
n
k
=
n
!
k
!
(
n
−
k
)
!
C_n^k = frac{n!}{k!(n-k)!}
Cnk=k!(n−k)!n! 为组合数(从
n
n
n 次试验中选
k
k
k 次成功的方式数);AI应用:批量样本的预测准确率统计(如“100个测试样本中,模型正确分类的次数
X
X
X 服从二项分布
B
(
100
,
p
)
B(100, p)
B(100,p),
p
p
p 为单样本准确率”)、点击率统计(如“1000次广告曝光中,点击次数
X
X
X 服从
B
(
1000
,
C
T
R
)
B(1000, CTR)
B(1000,CTR)”)。
3. 泊松分布(Poisson Distribution)
定义:描述“单位时间/空间内,稀有随机事件发生次数”的分布(如单位时间内的异常请求数);PMF公式:设随机变量
X
X
X 表示事件发生次数(
X
∈
{
0
,
1
,
2
,
…
}
X in {0,1,2,dots}
X∈{0,1,2,…}),事件发生率为
λ
>
0
lambda > 0
λ>0,则:
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
,
k
=
0
,
1
,
2
,
…
P(X=k) = frac{e^{-lambda} lambda^k}{k!}, quad k=0,1,2,dots
P(X=k)=k!e−λλk,k=0,1,2,…AI应用:异常检测(如“服务器每秒正常请求数服从
P
(
5
)
P(5)
P(5),若某秒请求数为15(远大于
λ
=
5
lambda=5
λ=5),则判定为异常”)、客服呼叫量预测(如“每小时呼叫量服从
P
(
20
)
P(20)
P(20),用于调度客服人员”)。
2.2 连续型分布(Continuous Distributions)
连续型随机变量的取值覆盖某一区间,用概率密度函数(PDF)
f
(
x
)
f(x)
f(x) 描述取值的“密度”(需通过积分计算区间概率)。
1. 正态分布(高斯分布,Normal Distribution)
定义:自然界最常见的分布,呈“钟形对称”,由均值
μ
mu
μ(位置参数)和方差
σ
2
sigma^2
σ2(尺度参数)决定;PDF公式:设随机变量
X
∼
N
(
μ
,
σ
2
)
X sim N(mu, sigma^2)
X∼N(μ,σ2),则:
f
(
x
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
,
x
∈
(
−
∞
,
+
∞
)
f(x) = frac{1}{sigma sqrt{2pi}} e^{-frac{(x-mu)^2}{2sigma^2}}, quad x in (-infty, +infty)
f(x)=σ2π
1e−2σ2(x−μ)2,x∈(−∞,+∞)
当
μ
=
0
mu=0
μ=0、
σ
2
=
1
sigma^2=1
σ2=1 时,称为标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1);AI应用:
模型权重初始化(如Xavier初始化:权重服从
N
(
0
,
1
n
i
n
)
N(0, frac{1}{n_{in}})
N(0,nin1),
n
i
n
n_{in}
nin 为输入维度,避免激活函数饱和);高斯混合模型(GMM):用多个正态分布的加权和拟合数据的多峰分布,用于聚类(如用户行为分群);数据预处理(如Z-score标准化:将特征转换为
N
(
0
,
1
)
N(0,1)
N(0,1) 分布,加速模型训练)。
2. 均匀分布(Uniform Distribution)
定义:描述“区间
[
a
,
b
]
[a,b]
[a,b] 内所有值等概率出现”的分布;PDF公式:设随机变量
X
∼
U
(
a
,
b
)
X sim U(a,b)
X∼U(a,b),则:
f
(
x
)
=
{
1
b
−
a
,
a
≤
x
≤
b
0
,
其他
f(x) =
{1b−a,a≤x≤b0,其他” role=”presentation”>{1b−a,0,a≤x≤b其他{1b−a,a≤x≤b0,其他
f(x)={b−a1,0,a≤x≤b其他AI应用:
随机采样(如生成对抗网络(GAN)的噪声输入:从
U
(
−
1
,
1
)
U(-1,1)
U(−1,1) 采样噪声向量);超参数随机搜索(如学习率从
U
(
1
0
−
5
,
1
0
−
2
)
U(10^{-5}, 10^{-2})
U(10−5,10−2) 中随机选取,寻找最优值);初始化(如某些模型的偏置项初始化:从
U
(
−
0.1
,
0.1
)
U(-0.1, 0.1)
U(−0.1,0.1) 采样)。
3. 指数分布(Exponential Distribution)
定义:描述“连续型随机事件的间隔时间”(如设备寿命、用户会话间隔),具有“无记忆性”;PDF公式:设随机变量
X
X
X 表示间隔时间(
X
≥
0
X geq 0
X≥0),速率参数为
λ
>
0
lambda > 0
λ>0,则:
f
(
x
)
=
{
λ
e
−
λ
x
,
x
≥
0
0
,
x
<
0
f(x) =
{λe−λx,x≥00,x<0″ role=”presentation”>{λe−λx,0,x≥0x<0{λe−λx,x≥00,x<0
f(x)={λe−λx,0,x≥0x<0核心性质(无记忆性):
P
(
X
>
s
+
t
∣
X
>
s
)
=
P
(
X
>
t
)
P(X > s+t | X > s) = P(X > t)
P(X>s+t∣X>s)=P(X>t)(如“设备已工作
s
s
s 小时,再工作
t
t
t 小时的概率,等于新设备工作
t
t
t 小时的概率”);AI应用:设备故障预测(如“服务器无故障运行时间服从
E
x
p
(
0.01
)
Exp(0.01)
Exp(0.01),预测下100小时故障概率”)、用户留存分析(如“用户上次登录后,间隔
t
t
t 天再次登录的概率”)。
3. 随机变量的数字特征(Numerical Characteristics)
通过“均值、方差”等数字特征,提炼随机变量的核心信息(如数据的中心趋势、离散程度),是AI特征工程、模型评估的关键指标。
3.1 数学期望(Expected Value,均值)
定义:随机变量取值的“加权平均”,反映数据的中心趋势;公式:
离散型:
E
[
X
]
=
∑
k
x
k
P
(
X
=
x
k
)
E[X] = sum_{k} x_k P(X=x_k)
E[X]=∑kxkP(X=xk)(对所有可能取值
x
k
x_k
xk 加权求和,权重为
P
(
X
=
x
k
)
P(X=x_k)
P(X=xk));连续型:
E
[
X
]
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
E[X] = int_{-infty}^{+infty} x f(x) dx
E[X]=∫−∞+∞xf(x)dx(对所有可能取值
x
x
x 加权积分,权重为
f
(
x
)
f(x)
f(x)); 核心性质:
E
[
c
]
=
c
E[c] = c
E[c]=c(常数的期望为自身,
c
c
c 为常数);
E
[
a
X
+
b
]
=
a
E
[
X
]
+
b
E[aX + b] = aE[X] + b
E[aX+b]=aE[X]+b(线性变换的期望,
a
,
b
a,b
a,b 为常数);
E
[
X
+
Y
]
=
E
[
X
]
+
E
[
Y
]
E[X + Y] = E[X] + E[Y]
E[X+Y]=E[X]+E[Y](期望的可加性,无需
X
,
Y
X,Y
X,Y 独立);若
X
,
Y
X,Y
X,Y 独立,则
E
[
X
Y
]
=
E
[
X
]
E
[
Y
]
E[XY] = E[X]E[Y]
E[XY]=E[X]E[Y](独立变量的期望可乘性); AI应用:
损失函数设计(如均方误差
M
S
E
=
E
[
(
y
−
y
^
)
2
]
MSE = E[(y – hat{y})^2]
MSE=E[(y−y^)2],目标是最小化“真实标签
y
y
y 与预测值
y
^
hat{y}
y^ 差值的期望”);模型性能评估(如分类准确率的期望
E
[
正确分类
]
E[正确分类]
E[正确分类],即长期平均准确率);强化学习(策略的累积奖励期望
E
[
∑
t
=
0
T
r
t
]
E[sum_{t=0}^T r_t]
E[∑t=0Trt],目标是最大化该期望)。
3.2 方差(Variance)
定义:衡量随机变量取值相对于“期望”的离散程度,方差越大,数据越分散;公式:
V
a
r
(
X
)
=
E
[
(
X
−
E
[
X
]
)
2
]
=
E
[
X
2
]
−
(
E
[
X
]
)
2
Var(X) = Eleft[(X – E[X])^2
ight] = E[X^2] – (E[X])^2
Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2(后者为计算简化形式);核心性质:
V
a
r
[
c
]
=
0
Var[c] = 0
Var[c]=0(常数的方差为0,无离散性);
V
a
r
[
a
X
+
b
]
=
a
2
V
a
r
(
X
)
Var[aX + b] = a^2 Var(X)
Var[aX+b]=a2Var(X)(线性变换的方差,常数
b
b
b 不影响离散性);若
X
,
Y
X,Y
X,Y 独立,则
V
a
r
(
X
+
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
Var(X + Y) = Var(X) + Var(Y)
Var(X+Y)=Var(X)+Var(Y)(独立变量的方差可加性); AI应用:
特征选择(剔除方差小于阈值的“无效特征”,如“所有样本的‘性别’特征均为‘男’,方差为0,无区分度”);模型稳定性评估(如测试集准确率的方差,方差小说明模型在不同测试集上的性能更稳定);权重初始化(如He初始化通过方差控制,使各层激活值的方差保持一致,避免梯度消失)。
3.3 协方差与相关系数(Covariance & Correlation Coefficient)
协方差(Covariance)
定义:衡量两个随机变量
X
,
Y
X,Y
X,Y 的“线性关联方向”(正相关/负相关/无线性相关);公式:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
]
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
Cov(X,Y) = Eleft[(X – E[X])(Y – E[Y])
ight] = E[XY] – E[X]E[Y]
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y];核心解读:
若
C
o
v
(
X
,
Y
)
>
0
Cov(X,Y) > 0
Cov(X,Y)>0:
X
X
X 增大时,
Y
Y
Y 倾向于增大(正线性相关);若
C
o
v
(
X
,
Y
)
<
0
Cov(X,Y) < 0
Cov(X,Y)<0:
X
X
X 增大时,
Y
Y
Y 倾向于减小(负线性相关);若
C
o
v
(
X
,
Y
)
=
0
Cov(X,Y) = 0
Cov(X,Y)=0:
X
X
X 与
Y
Y
Y 无线性相关(但可能存在非线性相关,如
Y
=
X
2
Y=X^2
Y=X2); AI应用:特征冗余检测(如“身高”与“体重”的协方差为正,且绝对值较大,说明两者存在正线性相关,可考虑合并特征以减少冗余)。
相关系数(Correlation Coefficient)
定义:对协方差的“标准化”,消除量纲影响,使取值范围固定在
[
−
1
,
1
]
[-1,1]
[−1,1],更直观地衡量线性关联强度;公式:
ρ
X
Y
=
C
o
v
(
X
,
Y
)
V
a
r
(
X
)
V
a
r
(
Y
)
ho_{XY} = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}}
ρXY=Var(X)Var(Y)
Cov(X,Y);核心解读:
∣
ρ
X
Y
∣
|
ho_{XY}|
∣ρXY∣ 越接近1:线性关联越强(
ρ
X
Y
=
1
ho_{XY}=1
ρXY=1 为完全正线性相关,
ρ
X
Y
=
−
1
ho_{XY}=-1
ρXY=−1 为完全负线性相关);
∣
ρ
X
Y
∣
|
ho_{XY}|
∣ρXY∣ 越接近0:线性关联越弱; AI应用:多变量线性回归的多重共线性检测(如“房屋面积”与“房间数”的
ρ
X
Y
=
0.95
ho_{XY}=0.95
ρXY=0.95,说明多重共线性严重,需剔除一个特征以避免模型参数不稳定)。
4. 大数定律与中心极限定理(Law of Large Numbers & CLT)
这两大定理是“用样本推断总体”的理论基石,解释了为何“足够多的训练数据能让模型学到通用规律”。
4.1 大数定律(Law of Large Numbers,LLN)
核心思想:当样本量足够大时,“样本均值”会依概率收敛于“总体均值”——即“样本越多,对总体的估计越准确”;常见形式:
切比雪夫大数定律:设
X
1
,
X
2
,
…
X_1,X_2,dots
X1,X2,… 是相互独立的随机变量序列,且各变量的期望
E
[
X
i
]
=
μ
E[X_i]=mu
E[Xi]=μ、方差
V
a
r
(
X
i
)
=
σ
2
Var(X_i)=sigma^2
Var(Xi)=σ2(有限),则对任意
ϵ
>
0
epsilon > 0
ϵ>0:
lim
n
→
∞
P
(
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ϵ
)
=
1
lim_{n o infty} Pleft(left|frac{1}{n}sum_{i=1}^n X_i – mu
ight| < epsilon
ight) = 1
limn→∞P(
n1∑i=1nXi−μ
<ϵ)=1;伯努利大数定律:设
n
A
n_A
nA 是
n
n
n 重伯努利试验中事件
A
A
A 发生的次数,单次发生概率为
p
p
p,则对任意
ϵ
>
0
epsilon > 0
ϵ>0:
lim
n
→
∞
P
(
∣
n
A
n
−
p
∣
<
ϵ
)
=
1
lim_{n o infty} Pleft(left|frac{n_A}{n} – p
ight| < epsilon
ight) = 1
limn→∞P(
nnA−p
<ϵ)=1; AI应用:
模型训练的“数据量必要性”:为何需要大量训练数据?大数定律表明,样本量越大,“训练集上的损失均值”越接近“全量数据上的真实损失均值”,模型泛化能力越强;蒙特卡洛模拟(如用大量随机采样的样本均值,估计复杂积分的结果,用于强化学习的价值函数近似)。
4.2 中心极限定理(Central Limit Theorem,CLT)
核心思想:无论总体服从何种分布,当样本量
n
n
n 足够大时(通常
n
≥
30
n geq 30
n≥30),“样本均值
X
ˉ
ar{X}
Xˉ”的分布会近似服从正态分布——即“大样本的均值分布具有普适的正态性”;公式:设总体均值为
μ
mu
μ、方差为
σ
2
sigma^2
σ2,从总体中抽取
n
n
n 个独立样本
X
1
,
…
,
X
n
X_1,dots,X_n
X1,…,Xn,则样本均值
X
ˉ
=
1
n
∑
i
=
1
n
X
i
ar{X} = frac{1}{n}sum_{i=1}^n X_i
Xˉ=n1∑i=1nXi 满足:
X
ˉ
≈
N
(
μ
,
σ
2
n
)
ar{X} approx Nleft(mu, frac{sigma^2}{n}
ight)
Xˉ≈N(μ,nσ2)
标准化后:
X
ˉ
−
μ
σ
/
n
≈
N
(
0
,
1
)
frac{ar{X} – mu}{sigma/sqrt{n}} approx N(0,1)
σ/n
Xˉ−μ≈N(0,1);AI应用:
模型性能的置信区间估计(如“测试集准确率的样本均值为90%,样本量
n
=
100
n=100
n=100,总体标准差
σ
=
5
%
sigma=5\%
σ=5%,则95%置信区间为
90
%
±
1.96
×
5
%
100
=
[
89.02
%
,
90.98
%
]
90\% pm 1.96 imes frac{5\%}{sqrt{100}} = [89.02\%, 90.98\%]
90%±1.96×100
5%=[89.02%,90.98%]”,即“真实准确率有95%概率在此区间内”);A/B测试的显著性检验(如“策略A的点击率样本均值为5%,策略B为7%,样本量均为1000,用CLT判断两者差异是否显著”)。
5. 统计推断(Statistical Inference)
统计推断通过“有限样本”推断“总体规律”,是AI从数据中学习、评估模型泛化能力的核心手段,主要包括“参数估计”和“假设检验”两大任务。
5.1 抽样分布(Sampling Distributions)
定义:“样本统计量”(如样本均值
X
ˉ
ar{X}
Xˉ、样本方差
s
2
s^2
s2)的概率分布,是参数估计和假设检验的基础;常见抽样分布:
样本均值分布(正态总体):
若总体
X
∼
N
(
μ
,
σ
2
)
X sim N(mu, sigma^2)
X∼N(μ,σ2),且
σ
2
sigma^2
σ2 已知,则样本均值
X
ˉ
∼
N
(
μ
,
σ
2
n
)
ar{X} sim Nleft(mu, frac{sigma^2}{n}
ight)
Xˉ∼N(μ,nσ2);若
σ
2
sigma^2
σ2 未知(实际场景更常见),用样本方差
s
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
s^2 = frac{1}{n-1}sum_{i=1}^n (X_i – ar{X})^2
s2=n−11∑i=1n(Xi−Xˉ)2 替代,则
X
ˉ
−
μ
s
/
n
∼
t
(
n
−
1
)
frac{ar{X} – mu}{s/sqrt{n}} sim t(n-1)
s/n
Xˉ−μ∼t(n−1)(
t
t
t 分布,
n
−
1
n-1
n−1 为自由度); 样本方差分布:若总体
X
∼
N
(
μ
,
σ
2
)
X sim N(mu, sigma^2)
X∼N(μ,σ2),则
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
frac{(n-1)s^2}{sigma^2} sim chi^2(n-1)
σ2(n−1)s2∼χ2(n−1)(卡方分布); AI应用:小样本场景的模型评估(如测试样本量
n
=
20
n=20
n=20,用
t
t
t 分布估计准确率的置信区间,比正态分布更准确)。
5.2 参数估计(Parameter Estimation)
定义:从样本数据中估计“总体参数”(如总体均值
μ
mu
μ、正态分布的方差
σ
2
sigma^2
σ2),分为“点估计”和“区间估计”;
1. 点估计(Point Estimation)
定义:用单个数值(样本统计量)估计总体参数,如用“样本均值
X
ˉ
ar{X}
Xˉ”估计“总体均值
μ
mu
μ”;常用方法:
最大似然估计(MLE,Maximum Likelihood Estimation):
核心思想:“让观测样本的概率最大”——即选择参数
θ
^
hat{ heta}
θ^,使样本
x
1
,
…
,
x
n
x_1,dots,x_n
x1,…,xn 出现的联合概率(似然函数)最大;公式:设总体的概率密度/质量函数为
f
(
x
∣
θ
)
f(x| heta)
f(x∣θ),似然函数
L
(
θ
)
=
∏
i
=
1
n
f
(
x
i
∣
θ
)
L( heta) = prod_{i=1}^n f(x_i| heta)
L(θ)=∏i=1nf(xi∣θ),取对数简化计算(对数似然函数
ln
L
(
θ
)
=
∑
i
=
1
n
ln
f
(
x
i
∣
θ
)
ln L( heta) = sum_{i=1}^n ln f(x_i| heta)
lnL(θ)=∑i=1nlnf(xi∣θ)),则 MLE 估计量为:
θ
^
M
L
E
=
arg
max
θ
ln
L
(
θ
)
hat{ heta}_{MLE} = argmax_{ heta} ln L( heta)
θ^MLE=argmaxθlnL(θ);AI应用:线性回归、逻辑回归的参数求解(如逻辑回归通过最大化“样本标签的对数似然”,估计回归系数
θ
heta
θ); 贝叶斯估计(Bayesian Estimation):
核心思想:结合“参数的先验分布
p
(
θ
)
p( heta)
p(θ)”和“样本的似然
p
(
x
∣
θ
)
p(x| heta)
p(x∣θ)”,通过贝叶斯定理得到“参数的后验分布
p
(
θ
∣
x
)
p( heta|x)
p(θ∣x)”,用后验分布的均值/中位数作为估计值;公式:
θ
^
B
a
y
e
s
=
E
[
θ
∣
x
]
=
∫
θ
p
(
θ
∣
x
)
d
θ
hat{ heta}_{Bayes} = E[ heta|x] = int heta p( heta|x) d heta
θ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ(后验期望);AI应用:贝叶斯神经网络(BNN)——将权重视为随机变量,用贝叶斯估计得到权重的后验分布,量化预测的不确定性(如自动驾驶中“前方障碍物距离预测”的置信区间)。
2. 区间估计(Interval Estimation)
定义:用“区间
[
θ
^
L
,
θ
^
U
]
[hat{ heta}_L, hat{ heta}_U]
[θ^L,θ^U]”估计总体参数,给出“估计的可信程度”(置信水平
1
−
α
1-alpha
1−α,如95%);公式(以总体均值
μ
mu
μ 为例):
若总体方差未知、样本量较小,95%置信区间为:
X
ˉ
±
t
α
/
2
(
n
−
1
)
⋅
s
n
ar{X} pm t_{alpha/2}(n-1) cdot frac{s}{sqrt{n}}
Xˉ±tα/2(n−1)⋅n
s
其中
t
α
/
2
(
n
−
1
)
t_{alpha/2}(n-1)
tα/2(n−1) 是
t
t
t 分布的上
α
/
2
alpha/2
α/2 分位数(如
α
=
0.05
alpha=0.05
α=0.05 时,
t
0.025
(
19
)
=
2.093
t_{0.025}(19)=2.093
t0.025(19)=2.093);AI应用:模型性能报告(如“模型在测试集上的准确率为92%,95%置信区间为 [88%, 96%]”,比单独的“92%准确率”更严谨,体现估计的不确定性)。
5.3 假设检验(Hypothesis Testing)
定义:通过样本数据验证“对总体的猜想(假设)”是否成立,核心是“判断样本与假设的差异是否由随机误差导致”;核心步骤:
提出假设:原假设
H
0
H_0
H0(如“模型A与模型B的准确率无差异”)、备择假设
H
1
H_1
H1(如“模型A的准确率高于模型B”);选择检验统计量:如大样本下用
Z
Z
Z 统计量,小样本下用
t
t
t 统计量;确定拒绝域:根据显著性水平
α
alpha
α(如0.05),确定“拒绝
H
0
H_0
H0 的统计量阈值”;计算统计量并决策:若统计量落入拒绝域,则拒绝
H
0
H_0
H0,接受
H
1
H_1
H1;否则不拒绝
H
0
H_0
H0; AI应用:
模型性能对比(如“模型A的准确率为92%(
n
1
=
100
n_1=100
n1=100),模型B为85%(
n
2
=
100
n_2=100
n2=100),用
Z
Z
Z 检验判断A的准确率是否显著高于B”);特征有效性检验(如“加入新特征后,模型的AUC提升0.03,用假设检验判断该提升是否由随机误差导致”);A/B测试(如“推荐策略A的点击率为5%(
n
=
1000
n=1000
n=1000),策略B为7%(
n
=
1000
n=1000
n=1000),检验B的点击率是否显著高于A,决定是否上线B”)。
6. 信息论基础(Fundamentals of Information Theory)
信息论量化“信息的多少”和“分布的差异”,是AI模型设计(如损失函数)、特征选择、生成式模型的核心工具。
6.1 香农熵(Shannon Entropy)
定义:衡量随机变量的“不确定性”——熵越大,变量的取值越不可预测;公式(离散型):设离散随机变量
X
X
X 的取值为
x
1
,
…
,
x
k
x_1,dots,x_k
x1,…,xk,概率为
p
(
x
1
)
,
…
,
p
(
x
k
)
p(x_1),dots,p(x_k)
p(x1),…,p(xk),则:
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
log
b
p
(
x
)
H(X) = -sum_{x in X} p(x) log_b p(x)
H(X)=−∑x∈Xp(x)logbp(x)
其中
b
b
b 为对数底数(
b
=
2
b=2
b=2 时单位为“比特(bit)”,
b
=
e
b=e
b=e 时为“纳特(nat)”,AI中常用
b
=
e
b=e
b=e 或
b
=
2
b=2
b=2);核心解读:
若
X
X
X 为确定值(如
p
(
x
1
)
=
1
p(x_1)=1
p(x1)=1),则
H
(
X
)
=
0
H(X)=0
H(X)=0(无不确定性);若
X
X
X 为二值变量且
p
(
0
)
=
p
(
1
)
=
0.5
p(0)=p(1)=0.5
p(0)=p(1)=0.5,则
H
(
X
)
=
log
2
2
=
1
H(X)=log_2 2=1
H(X)=log22=1(不确定性最大); AI应用:决策树(ID3/C4.5)的特征选择——用“信息增益”(父节点熵 – 子节点条件熵)选择“降低样本不确定性最显著的特征”(如“是否有羽毛”的信息增益高于“是否有腿”,优先作为分裂特征)。
6.2 交叉熵(Cross-Entropy)
定义:衡量“预测分布
q
q
q”与“真实分布
p
p
p”的“信息差异”——交叉熵越小,两个分布越接近;公式:
H
(
p
,
q
)
=
−
∑
x
∈
X
p
(
x
)
log
b
q
(
x
)
H(p,q) = -sum_{x in X} p(x) log_b q(x)
H(p,q)=−∑x∈Xp(x)logbq(x);核心性质:当
p
(
x
)
=
q
(
x
)
p(x)=q(x)
p(x)=q(x) 时,
H
(
p
,
q
)
=
H
(
p
)
H(p,q)=H(p)
H(p,q)=H(p)(交叉熵等于香农熵,此时信息差异最小);AI应用:分类任务的损失函数(如Softmax回归、神经网络输出层)——真实分布
p
p
p 为“标签的one-hot分布”(如标签为“猫”时,
p
(
猫
)
=
1
p(猫)=1
p(猫)=1,
p
(
狗
)
=
p
(
其他
)
=
0
p(狗)=p(其他)=0
p(狗)=p(其他)=0),预测分布
q
q
q 为模型输出的概率(如
q
(
猫
)
=
0.8
q(猫)=0.8
q(猫)=0.8,
q
(
狗
)
=
0.1
q(狗)=0.1
q(狗)=0.1,
q
(
其他
)
=
0.1
q(其他)=0.1
q(其他)=0.1),交叉熵损失
H
(
p
,
q
)
=
−
log
q
(
猫
)
H(p,q)=-log q(猫)
H(p,q)=−logq(猫),目标是最小化该损失以让
q
q
q 逼近
p
p
p。
6.3 KL散度(Kullback-Leibler Divergence)
定义:又称“相对熵”,量化“预测分布
q
q
q”相对于“真实分布
p
p
p”的“差异程度”——KL散度非负,仅当
p
=
q
p=q
p=q 时为0;公式:
K
L
(
p
∣
∣
q
)
=
∑
x
∈
X
p
(
x
)
log
b
p
(
x
)
q
(
x
)
=
H
(
p
,
q
)
−
H
(
p
)
KL(p||q) = sum_{x in X} p(x) log_b frac{p(x)}{q(x)} = H(p,q) – H(p)
KL(p∣∣q)=∑x∈Xp(x)logbq(x)p(x)=H(p,q)−H(p);核心性质:不对称性(
K
L
(
p
∣
∣
q
)
≠
K
L
(
q
∣
∣
p
)
KL(p||q)
eq KL(q||p)
KL(p∣∣q)=KL(q∣∣p))——即“用
q
q
q 近似
p
p
p 的差异”与“用
p
p
p 近似
q
q
q 的差异”不同;AI应用:
变分自编码器(VAE):用
K
L
(
q
(
z
∣
x
)
∣
∣
p
(
z
)
)
KL(q(z|x)||p(z))
KL(q(z∣x)∣∣p(z)) 作为正则项,迫使“隐变量
z
z
z 的后验分布
q
(
z
∣
x
)
q(z|x)
q(z∣x)”逼近“先验分布
p
(
z
)
p(z)
p(z)(如标准正态分布)”,保证生成样本的多样性;生成对抗网络(GAN):用JS散度(KL散度的对称变体)衡量“真实图像分布
p
p
p”与“生成图像分布
q
q
q”的差异,指导生成器优化。
7. 概率与统计学在AI中的典型应用(Typical AI Applications)
7.1 机器学习模型
监督学习:
线性/逻辑回归:用最大似然估计(MLE)求解参数,用均方误差(基于期望)、交叉熵(基于分布差异)作为损失函数;朴素贝叶斯:基于“特征条件独立假设”,用贝叶斯定理计算
P
(
类别
∣
特征
)
P(类别|特征)
P(类别∣特征),快速实现文本分类(如垃圾邮件检测)、情感分析;支持向量机(SVM):用统计学习理论中的“VC维”分析泛化能力,通过最大化“分类间隔”找到最优超平面; 无监督学习:
K-Means聚类:假设数据服从“K个高斯分布的混合模型”,通过EM算法(期望最大化,基于概率分布的迭代估计)求解聚类中心;异常检测:基于“正态分布”(如将特征标准化后,超出
[
μ
−
3
σ
,
μ
+
3
σ
]
[mu-3sigma, mu+3sigma]
[μ−3σ,μ+3σ] 的样本视为异常)或“泊松分布”(如单位时间内的异常请求数),识别偏离正常模式的样本; 强化学习:
策略梯度(Policy Gradient):用“累积奖励的期望”定义策略价值,通过梯度上升最大化该期望,更新策略网络参数;Q-Learning:用“动作价值的概率分布”描述“选择某动作的长期收益”,优先选择价值期望最大的动作。
7.2 深度学习
权重初始化:基于正态分布(如Xavier初始化:
N
(
0
,
1
n
i
n
)
N(0, frac{1}{n_{in}})
N(0,nin1),He初始化:
N
(
0
,
2
n
i
n
)
N(0, frac{2}{n_{in}})
N(0,nin2))或均匀分布,避免激活函数(如Sigmoid、ReLU)输出饱和;批量归一化(BN):将每层输入标准化为
N
(
0
,
1
)
N(0,1)
N(0,1) 分布,减少“内部协变量偏移”,加速训练收敛;生成模型:
GAN:通过“生成器”与“判别器”的对抗,让生成数据的分布逼近真实数据分布,判别器的损失基于交叉熵(衡量“真实/生成数据分布的差异”);VAE:用KL散度约束隐变量分布,用重构损失(基于均方误差/交叉熵)保证生成数据与输入数据的相似性; 不确定性量化:贝叶斯神经网络(BNN)通过“参数的后验分布”,输出预测结果的概率区间(如医疗AI中“肿瘤良恶性预测的90%置信区间”)。
7.3 业务场景落地
自然语言处理(NLP):
文本分类:用朴素贝叶斯计算“文本属于某类别的后验概率”,或用Transformer模型的交叉熵损失训练分类器;语言模型:通过统计“词序列的联合概率”(如N-gram模型)或自注意力学习概率分布(如GPT的“下一个词预测”,基于前序词的条件概率); 计算机视觉(CV):
目标检测:用概率分布描述“目标框的位置(如中心点坐标服从正态分布)”和“类别(如Softmax输出类别概率)”,如YOLO、Faster R-CNN;图像分割:通过Softmax输出“每个像素属于某类别的概率”,实现语义分割(如将图像像素分为“道路”“行人”“车辆”); 推荐系统:
协同过滤:用概率矩阵分解(PMF)估计“用户对物品的评分概率”,推荐概率最高的物品;A/B测试:通过假设检验(如两样本比例的Z检验)判断“推荐策略A的点击率是否显著高于策略B”,选择最优策略上线。
8. 概率与统计学核心公式汇总(Summary of Core Formulas)
| 一级类别 | 二级类别 | 公式内容 | 核心用途 | AI应用场景举例 |
|---|---|---|---|---|
| 概率基础 | 贝叶斯定理 |
P ( A B ) = P ( B A ) P ( A ) P ( B ) P(AB) = frac{P(BA)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A) |
从结果反推原因,更新概率信念 | 朴素贝叶斯分类器、贝叶斯神经网络 |
| 全概率公式 |
P ( A ) = ∑ i = 1 n P ( B i ) P ( A B i ) P(A) = sum_{i=1}^n P(B_i)P(AB_i) P(A)=∑i=1nP(Bi)P(ABi)( $B_i $为样本空间划分) |
分解复杂事件概率,简化计算 | 风险评估中“分场景计算用户违约概率” | |
| 概率分布 | 正态分布(PDF) |
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = frac{1}{sigmasqrt{2pi}}e^{-frac{(x-mu)^2}{2sigma^2}} f(x)=σ2π |
描述连续型数据的对称分布,自然界最常见 | 模型权重初始化、数据标准化、高斯混合模型 |
| 二项分布(PMF) |
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k) = C_n^k p^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k |
描述n次独立伯努利试验的成功次数 | 批量样本的预测准确率统计、点击率统计 | |
| 数字特征 | 期望(连续型) |
E [ X ] = ∫ − ∞ + ∞ x f ( x ) d x E[X] = int_{-infty}^{+infty}xf(x)dx E[X]=∫−∞+∞xf(x)dx |
衡量数据的中心趋势 | 均方误差(MSE)损失设计、强化学习的累积奖励期望 |
| 方差 |
V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Var(X) = E[(X-E[X])^2] = E[X^2]-(E[X])^2 Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2 |
衡量数据的离散程度 | 特征选择(剔除低方差特征)、模型稳定性评估 | |
| 相关系数 |
ρ X Y = C o v ( X , Y ) V a r ( X ) V a r ( Y ) ho_{XY} = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}} ρXY=Var(X)Var(Y) |
量化两变量的线性关联强度(
[ − 1 , 1 ] [-1,1] [−1,1]) |
多重共线性检测、特征冗余分析 | |
| 信息论 | 交叉熵 |
H ( p , q ) = − ∑ x p ( x ) log q ( x ) H(p,q) = -sum_x p(x)log q(x) H(p,q)=−∑xp(x)logq(x) |
衡量预测分布与真实分布的差异 | 分类任务损失函数(Softmax+交叉熵) |
| KL散度 |
K L ( p q ) = H ( p , q ) − H ( p ) = ∑ x p ( x ) log p ( x ) q ( x ) KL(pq) = H(p,q) – H(p) = sum_x p(x)logfrac{p(x)}{q(x)} KL(pq)=H(p,q)−H(p)=∑xp(x)logq(x)p(x) |
衡量两分布的不对称差异(非负) | VAE的隐变量分布约束、GAN的分布差异衡量 | |
| 统计推断 | 最大似然估计(MLE) |
θ ^ ∗ M L E = arg max ∗ θ ∑ i = 1 n log f ( x i θ ) hat{ heta}*{MLE} = argmax* heta sum_{i=1}^n log f(x_i heta) θ^∗MLE=argmax∗θ∑i=1nlogf(xiθ) |
用样本概率最大化求解总体参数 | 线性回归、逻辑回归的参数求解 |
| 均值的95%置信区间 |
X ˉ ± t α / 2 ( n − 1 ) ⋅ s n ar{X} pm t_{alpha/2}(n-1)cdotfrac{s}{sqrt{n}} Xˉ±tα/2(n−1)⋅n |
给出总体均值的可信范围,量化估计不确定性 | 模型准确率的置信区间报告 | |
| 大数定律与CLT | 中心极限定理 |
X ˉ ≈ N ( μ , σ 2 n ) ar{X} approx N(mu, frac{sigma^2}{n}) Xˉ≈N(μ,nσ2)(n足够大) |
大样本均值的正态近似,支撑统计推断 | A/B测试的显著性检验、置信区间估计 |
附录:概率与统计学核心符号总结(Symbol Summary)
| 符号 | 写法规范 | 读音 | 核心使用场景 |
|---|---|---|---|
|
Ω Omega Ω |
大写希腊字母 | “Omega” | 样本空间(所有可能结果的集合,如抛硬币的
Ω = { 正面 , 反面 } Omega={正面, 反面} Ω={正面,反面}) |
|
P ( A ) P(A) P(A) |
大写P+事件A | “P of A” | 事件A的概率(如
P ( 正面 ) = 0.5 P(正面)=0.5 P(正面)=0.5) |
|
P ( A , B ) P(A,B) P(A,B) |
大写P+事件A,B | “P of A and B” | 事件A与B的联合概率(如
P ( 特征 = 高 , 标签 = 猫 ) P(特征=高, 标签=猫) P(特征=高,标签=猫)) |
|
P ( A B ) P(AB) P(AB) |
大写P+条件B | “P of A given B” | 事件B发生时A的条件概率(如
P ( 标签 = 鸟特征 = 有羽毛 ) P(标签=鸟特征=有羽毛) P(标签=鸟特征=有羽毛)) |
|
X X X |
大写英文字母 | “X” | 随机变量(如“样本标签”“像素值”,离散型记为X,连续型常用X/Y/Z) |
|
P ( X = k ) P(X=k) P(X=k) |
P+随机变量=取值 | “P of X equals k” | 离散型随机变量的概率质量函数(PMF,如二项分布的
P ( X = 3 ) P(X=3) P(X=3)) |
|
f ( x ) f(x) f(x) |
小写f+变量x | “f of x” | 连续型随机变量的概率密度函数(PDF,如正态分布的
f ( x ) f(x) f(x)) |
|
E [ X ] E[X] E[X] |
E+中括号+X | “E of X” | 随机变量X的数学期望(均值,如
E [ X ] = μ E[X]=mu E[X]=μ) |
|
V a r ( X ) Var(X) Var(X) |
Var+X | “Var of X” | 随机变量X的方差(如
V a r ( X ) = σ 2 Var(X)=sigma^2 Var(X)=σ2) |
|
C o v ( X , Y ) Cov(X,Y) Cov(X,Y) |
Cov+X,Y | “Cov of X and Y” | 随机变量X与Y的协方差(衡量线性关联方向) |
|
ρ X Y ho_{XY} ρXY |
小写rho+下标XY | “rho of X Y” | X与Y的相关系数(标准化协方差,取值
[ − 1 , 1 ] [-1,1] [−1,1]) |
|
H ( X ) H(X) H(X) |
大写H+X | “H of X” | 随机变量X的香农熵(衡量不确定性,如决策树的节点熵) |
|
H ( p , q ) H(p,q) H(p,q) |
H+分布p,q | “H of p q” | 分布p与q的交叉熵(如分类损失函数
H ( 真实分布 , 预测分布 ) H(真实分布, 预测分布) H(真实分布,预测分布)) |
|
K L ( p q ) KL(pq) KL(pq) |
KL+分布pq | “KL divergence of p from q” | p 相对于 q 的 KL 散度(衡量分布差异,如 VAE 的正则项) |
|
X ˉ ar{X} Xˉ |
X上加横线 | “X bar” | 样本均值(如100个测试样本的准确率均值
X ˉ = 92 % ar{X}=92\% Xˉ=92%) |
|
s 2 s^2 s2 |
s平方 | “s squared” | 样本方差(如
s 2 = 1 n − 1 ∑ ( X i − X ˉ ) 2 s^2 = frac{1}{n-1}sum(X_i-ar{X})^2 s2=n−11∑(Xi−Xˉ)2) |
|
μ mu μ |
小写希腊字母 | “mu” | 总体均值(如全量数据的特征均值
μ mu μ) |
|
σ 2 sigma^2 σ2 |
小写sigma平方 | “sigma squared” | 总体方差(如正态分布的尺度参数
σ 2 sigma^2 σ2) |
|
λ lambda λ |
小写希腊字母 | “lambda” | 1. 泊松分布的发生率(如
λ = 5 lambda=5 λ=5);2. 指数分布的速率参数 |
|
θ ^ hat{ heta} θ^ |
theta上加帽子 | “theta hat” | 参数
θ heta θ 的估计值(如MLE估计的 θ ^ M L E hat{ heta}_{MLE} θ^MLE) |
|
∑ i = 1 n sum_{i=1}^n ∑i=1n |
求和符号 | “sum from i=1 to n” | 离散型求和(如期望的
∑ x k P ( X = x k ) sum x_k P(X=x_k) ∑xkP(X=xk)) |
|
∫ int ∫ |
积分符号 | “integral” | 连续型积分(如期望的
∫ x f ( x ) d x int x f(x)dx ∫xf(x)dx) |