人工智能十大数学知识 – 概率与统计学

人工智能中的概率与统计学核心知识(Probability and Statistics for AI)

概率与统计学是AI量化不确定性、从数据中学习规律的核心工具——从模型参数估计(如线性回归权重)到生成式模型(如GAN),从模型评估(如A/B测试)到业务决策(如推荐策略),均以其为数学基础。

1. 概率基础与公理(Probability Fundamentals & Axioms)

概率通过严格的公理体系,标准化对“随机事件可能性”的描述,是AI处理不确定性问题的底层逻辑。

1.1 古典概型(Classical Probability)

公式:若试验的样本空间

Ω

Omega

Ω 包含

n

n

n 个等可能且互斥的基本事件,事件

A

A

A 包含其中

m

m

m 个基本事件,则事件

A

A

A 的概率为:

P

(

A

)

=

m

n

P(A) = frac{m}{n}

P(A)=nm​解说:适用于“结果有限、每个结果概率均等”的场景,是概率的直观定义。例如抛均匀硬币,“正面朝上”的概率

P

(

正面

)

=

1

2

P(正面)=frac{1}{2}

P(正面)=21​;掷均匀骰子,“点数为偶数”的概率

P

(

偶数

)

=

3

6

=

1

2

P(偶数)=frac{3}{6}=frac{1}{2}

P(偶数)=63​=21​。

1.2 公理化定义(Axiomatic Definition)

由柯尔莫哥洛夫提出的三大公理,奠定概率计算的严谨性:

非负性:对任意事件

A

A

A,概率非负,即

P

(

A

)

0

P(A) geq 0

P(A)≥0;规范性:样本空间

Ω

Omega

Ω(所有可能结果的集合)的概率为1,即

P

(

Ω

)

=

1

P(Omega) = 1

P(Ω)=1;可列可加性:对两两互斥的事件序列

A

1

,

A

2

,

A_1, A_2, dots

A1​,A2​,…(任意

i

j

i
eq j

i=j 时

A

i

A

j

=

A_i cap A_j = emptyset

Ai​∩Aj​=∅),有

P

(

i

=

1

A

i

)

=

i

=

1

P

(

A

i

)

Pleft(igcup_{i=1}^{infty} A_i
ight) = sum_{i=1}^{infty} P(A_i)

P(⋃i=1∞​Ai​)=∑i=1∞​P(Ai​)。
解说:所有概率计算需满足这三大公理,例如AI中“模型预测某样本为‘猫’”的概率必须在

[

0

,

1

]

[0,1]

[0,1] 之间,且“预测为猫、狗、其他”的概率之和需为1。

1.3 联合概率与边缘概率(Joint & Marginal Probability)

联合概率:描述“多个事件同时发生”的概率,离散场景记为

P

(

A

,

B

)

P(A,B)

P(A,B)(事件

A

A

A 与

B

B

B 同时发生),连续场景记为

f

(

A

,

B

)

f(A,B)

f(A,B)(联合概率密度函数);边缘概率:通过“对其他事件求和/积分”从联合概率中提取单个事件的概率:
离散场景:

P

(

A

)

=

B

P

(

A

,

B

)

P(A) = sum_{B} P(A,B)

P(A)=∑B​P(A,B)(对所有可能的

B

B

B 求和);连续场景:

P

(

A

)

=

B

f

(

A

,

B

)

d

B

P(A) = int_{B} f(A,B) dB

P(A)=∫B​f(A,B)dB(对所有可能的

B

B

B 积分)。 解说:联合概率是“多维度不确定性”的描述(如“样本特征为‘高’且标签为‘猫’”的概率

P

(

特征

=

,

标签

=

)

P(特征=高, 标签=猫)

P(特征=高,标签=猫)),边缘概率是“忽略部分维度”后的简化(如仅“标签为猫”的概率

P

(

标签

=

)

P(标签=猫)

P(标签=猫))。

1.4 条件概率与贝叶斯定理(Conditional Probability & Bayes’ Theorem)

条件概率(Conditional Probability)

公式:若

P

(

B

)

>

0

P(B) > 0

P(B)>0,则事件

B

B

B 发生的条件下,事件

A

A

A 发生的概率为:

P

(

A

B

)

=

P

(

A

,

B

)

P

(

B

)

P(A|B) = frac{P(A,B)}{P(B)}

P(A∣B)=P(B)P(A,B)​解说:量化“已知部分信息后,事件可能性的更新”。例如在AI中,“已知样本特征为‘有羽毛’(

B

B

B),则样本标签为‘鸟’(

A

A

A)”的概率

P

(

标签

=

特征

=

有羽毛

)

P(标签=鸟|特征=有羽毛)

P(标签=鸟∣特征=有羽毛),远高于无此条件的

P

(

标签

=

)

P(标签=鸟)

P(标签=鸟)。

贝叶斯定理(Bayes’ Theorem)

公式:结合条件概率与全概率公式,实现“从结果反推原因”的概率更新:

P

(

A

B

)

=

P

(

B

A

)

P

(

A

)

P

(

B

)

P(A|B) = frac{P(B|A) cdot P(A)}{P(B)}

P(A∣B)=P(B)P(B∣A)⋅P(A)​
其中:

P

(

A

)

P(A)

P(A):先验概率(无

B

B

B 信息时,对

A

A

A 的初始判断,如“样本为鸟”的基础概率);

P

(

B

A

)

P(B|A)

P(B∣A):似然

A

A

A 发生时

B

B

B 发生的概率,如“样本为鸟时,特征为有羽毛”的概率);

P

(

B

)

P(B)

P(B):证据

B

B

B 发生的总概率,用于归一化,确保后验概率在

[

0

,

1

]

[0,1]

[0,1] 内);

P

(

A

B

)

P(A|B)

P(A∣B):后验概率(结合

B

B

B 信息后,对

A

A

A 的更新判断,如“已知特征为有羽毛,样本为鸟”的最终概率)。 解说:AI中贝叶斯模型的核心(如朴素贝叶斯分类器、贝叶斯神经网络)。例如垃圾邮件检测中,用贝叶斯定理计算“已知邮件包含‘优惠’一词(

B

B

B),则邮件为垃圾邮件(

A

A

A)”的后验概率

P

(

垃圾邮件

包含优惠

)

P(垃圾邮件|包含优惠)

P(垃圾邮件∣包含优惠)。

1.5 乘法公式(Multiplication Rule)

公式:两事件的联合概率可表示为“一个事件的概率 × 另一事件的条件概率”:

P

(

A

,

B

)

=

P

(

A

)

P

(

B

A

)

=

P

(

B

)

P

(

A

B

)

P(A,B) = P(A) cdot P(B|A) = P(B) cdot P(A|B)

P(A,B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)
推广到

n

n

n 个事件:

P

(

A

1

,

A

2

,

,

A

n

)

=

P

(

A

1

)

P

(

A

2

A

1

)

P

(

A

3

A

1

,

A

2

)

P

(

A

n

A

1

,

,

A

n

1

)

P(A_1,A_2,dots,A_n) = P(A_1) cdot P(A_2|A_1) cdot P(A_3|A_1,A_2) cdot dots cdot P(A_n|A_1,dots,A_{n-1})

P(A1​,A2​,…,An​)=P(A1​)⋅P(A2​∣A1​)⋅P(A3​∣A1​,A2​)⋅⋯⋅P(An​∣A1​,…,An−1​)解说:用于计算“多事件连锁发生”的概率。例如NLP中,计算“句子‘我喜欢AI’”的联合概率

P

(

,

喜欢

,

A

I

)

=

P

(

)

P

(

喜欢

)

P

(

A

I

,

喜欢

)

P(我,喜欢,AI) = P(我) cdot P(喜欢|我) cdot P(AI|我,喜欢)

P(我,喜欢,AI)=P(我)⋅P(喜欢∣我)⋅P(AI∣我,喜欢)。

1.6 全概率公式(Law of Total Probability)

公式:设

B

1

,

B

2

,

,

B

n

B_1,B_2,dots,B_n

B1​,B2​,…,Bn​ 是样本空间

Ω

Omega

Ω 的划分(满足:① 两两互斥,即

B

i

B

j

=

B_i cap B_j = emptyset

Bi​∩Bj​=∅;② 覆盖所有可能,即

i

=

1

n

B

i

=

Ω

igcup_{i=1}^n B_i = Omega

⋃i=1n​Bi​=Ω;③

P

(

B

i

)

>

0

P(B_i) > 0

P(Bi​)>0),则对任意事件

A

A

A:

P

(

A

)

=

i

=

1

n

P

(

B

i

)

P

(

A

B

i

)

P(A) = sum_{i=1}^n P(B_i) cdot P(A|B_i)

P(A)=∑i=1n​P(Bi​)⋅P(A∣Bi​)解说:将复杂事件

A

A

A 的概率,分解为“不同原因/场景

B

i

B_i

Bi​ 下的条件概率加权和”,简化计算。例如AI风险评估中,“用户违约(

A

A

A)”的概率可分解为“用户为学生(

B

1

B_1

B1​)、上班族(

B

2

B_2

B2​)、自由职业者(

B

3

B_3

B3​)”等场景下的条件概率加权和。

1.7 独立性与互斥性(Independence & Mutual Exclusivity)

事件独立性(Independence)

公式:若事件

A

A

A 与

B

B

B 独立,则

P

(

A

,

B

)

=

P

(

A

)

P

(

B

)

P(A,B) = P(A) cdot P(B)

P(A,B)=P(A)⋅P(B),等价于

P

(

A

B

)

=

P

(

A

)

P(A|B) = P(A)

P(A∣B)=P(A)(

P

(

B

)

>

0

P(B) > 0

P(B)>0)。核心性质

B

B

B 的发生不影响

A

A

A 的概率。例如“抛硬币正面朝上(

A

A

A)”与“掷骰子点数为3(

B

B

B)”独立。AI应用:朴素贝叶斯分类器的核心假设——“样本各特征独立”(如“文本包含‘篮球’(

A

1

A_1

A1​)”与“包含‘足球’(

A

2

A_2

A2​)”独立),大幅简化联合概率计算(

P

(

A

1

,

A

2

类别

)

=

P

(

A

1

类别

)

P

(

A

2

类别

)

P(A_1,A_2|类别) = P(A_1|类别) cdot P(A_2|类别)

P(A1​,A2​∣类别)=P(A1​∣类别)⋅P(A2​∣类别))。

事件互斥性(Mutual Exclusivity)

公式:若事件

A

A

A 与

B

B

B 互斥(无交集,即

A

B

=

A cap B = emptyset

A∩B=∅),则

P

(

A

B

)

=

P

(

A

)

+

P

(

B

)

P(A cup B) = P(A) + P(B)

P(A∪B)=P(A)+P(B),且

P

(

A

,

B

)

=

0

P(A,B) = 0

P(A,B)=0。核心性质

A

A

A 与

B

B

B 不能同时发生。例如AI分类任务中,“样本标签为‘猫’(

A

A

A)”与“标签为‘狗’(

B

B

B)”互斥。AI应用:多分类模型的输出验证——预测为“猫”“狗”“其他”的概率之和应接近1,且任意两类的联合概率为0(无样本同时被预测为两类)。

2. 概率分布(Probability Distributions)

随机变量是AI数据的“数学化身”(如分类标签为离散随机变量,图像像素值为连续随机变量),概率分布则描述随机变量的“取值规律”,是AI建模的核心组件。

2.1 离散型分布(Discrete Distributions)

离散型随机变量的取值为有限或可列个,用概率质量函数(PMF)

P

(

X

=

k

)

P(X=k)

P(X=k) 描述取值概率。

1. 两点分布(伯努利分布,Bernoulli Distribution)

定义:描述“单次二值试验”的结果(如成功/失败、正/负类);PMF公式:设随机变量

X

{

0

,

1

}

X in {0,1}

X∈{0,1}(1表示“成功”,0表示“失败”),成功概率为

p

p

p(

0

<

p

<

1

0 < p < 1

0<p<1),则:

P

(

X

=

k

)

=

p

k

(

1

p

)

1

k

,

k

=

0

,

1

P(X=k) = p^k (1-p)^{1-k}, quad k=0,1

P(X=k)=pk(1−p)1−k,k=0,1AI应用:二分类任务的标签建模(如“用户点击广告(

X

=

1

X=1

X=1)”或“未点击(

X

=

0

X=0

X=0)”)、单个样本的预测结果概率(如模型输出“样本为正类”的概率

p

p

p)。

2. 二项分布(Binomial Distribution)

定义:描述“

n

n

n 次独立伯努利试验”中“成功次数”的分布;PMF公式:设随机变量

X

X

X 表示

n

n

n 次试验中的成功次数(

X

{

0

,

1

,

,

n

}

X in {0,1,dots,n}

X∈{0,1,…,n}),单次成功概率为

p

p

p,则:

P

(

X

=

k

)

=

C

n

k

p

k

(

1

p

)

n

k

,

k

=

0

,

1

,

,

n

P(X=k) = C_n^k p^k (1-p)^{n-k}, quad k=0,1,dots,n

P(X=k)=Cnk​pk(1−p)n−k,k=0,1,…,n
其中

C

n

k

=

n

!

k

!

(

n

k

)

!

C_n^k = frac{n!}{k!(n-k)!}

Cnk​=k!(n−k)!n!​ 为组合数(从

n

n

n 次试验中选

k

k

k 次成功的方式数);AI应用:批量样本的预测准确率统计(如“100个测试样本中,模型正确分类的次数

X

X

X 服从二项分布

B

(

100

,

p

)

B(100, p)

B(100,p),

p

p

p 为单样本准确率”)、点击率统计(如“1000次广告曝光中,点击次数

X

X

X 服从

B

(

1000

,

C

T

R

)

B(1000, CTR)

B(1000,CTR)”)。

3. 泊松分布(Poisson Distribution)

定义:描述“单位时间/空间内,稀有随机事件发生次数”的分布(如单位时间内的异常请求数);PMF公式:设随机变量

X

X

X 表示事件发生次数(

X

{

0

,

1

,

2

,


}

X in {0,1,2,dots}

X∈{0,1,2,…}),事件发生率为

λ

>

0

lambda > 0

λ>0,则:

P

(

X

=

k

)

=

e

λ

λ

k

k

!

,

k

=

0

,

1

,

2

,

P(X=k) = frac{e^{-lambda} lambda^k}{k!}, quad k=0,1,2,dots

P(X=k)=k!e−λλk​,k=0,1,2,…AI应用:异常检测(如“服务器每秒正常请求数服从

P

(

5

)

P(5)

P(5),若某秒请求数为15(远大于

λ

=

5

lambda=5

λ=5),则判定为异常”)、客服呼叫量预测(如“每小时呼叫量服从

P

(

20

)

P(20)

P(20),用于调度客服人员”)。

2.2 连续型分布(Continuous Distributions)

连续型随机变量的取值覆盖某一区间,用概率密度函数(PDF)

f

(

x

)

f(x)

f(x) 描述取值的“密度”(需通过积分计算区间概率)。

1. 正态分布(高斯分布,Normal Distribution)

定义:自然界最常见的分布,呈“钟形对称”,由均值

μ

mu

μ(位置参数)和方差

σ

2

sigma^2

σ2(尺度参数)决定;PDF公式:设随机变量

X

N

(

μ

,

σ

2

)

X sim N(mu, sigma^2)

X∼N(μ,σ2),则:

f

(

x

)

=

1

σ

2

π

e

(

x

μ

)

2

2

σ

2

,

x

(

,

+

)

f(x) = frac{1}{sigma sqrt{2pi}} e^{-frac{(x-mu)^2}{2sigma^2}}, quad x in (-infty, +infty)

f(x)=σ2π
​1​e−2σ2(x−μ)2​,x∈(−∞,+∞)

μ

=

0

mu=0

μ=0、

σ

2

=

1

sigma^2=1

σ2=1 时,称为标准正态分布

N

(

0

,

1

)

N(0,1)

N(0,1);AI应用
模型权重初始化(如Xavier初始化:权重服从

N

(

0

,

1

n

i

n

)

N(0, frac{1}{n_{in}})

N(0,nin​1​),

n

i

n

n_{in}

nin​ 为输入维度,避免激活函数饱和);高斯混合模型(GMM):用多个正态分布的加权和拟合数据的多峰分布,用于聚类(如用户行为分群);数据预处理(如Z-score标准化:将特征转换为

N

(

0

,

1

)

N(0,1)

N(0,1) 分布,加速模型训练)。

2. 均匀分布(Uniform Distribution)

定义:描述“区间

[

a

,

b

]

[a,b]

[a,b] 内所有值等概率出现”的分布;PDF公式:设随机变量

X

U

(

a

,

b

)

X sim U(a,b)

X∼U(a,b),则:

f

(

x

)

=

{

1

b

a

,

a

x

b

0

,

其他

f(x) =
{1b−a,a≤x≤b0,其他” role=”presentation”>{1b−a,0,a≤x≤b其他{1b−a,a≤x≤b0,其他

f(x)={b−a1​,0,​a≤x≤b其他​AI应用
随机采样(如生成对抗网络(GAN)的噪声输入:从

U

(

1

,

1

)

U(-1,1)

U(−1,1) 采样噪声向量);超参数随机搜索(如学习率从

U

(

1

0

5

,

1

0

2

)

U(10^{-5}, 10^{-2})

U(10−5,10−2) 中随机选取,寻找最优值);初始化(如某些模型的偏置项初始化:从

U

(

0.1

,

0.1

)

U(-0.1, 0.1)

U(−0.1,0.1) 采样)。

3. 指数分布(Exponential Distribution)

定义:描述“连续型随机事件的间隔时间”(如设备寿命、用户会话间隔),具有“无记忆性”;PDF公式:设随机变量

X

X

X 表示间隔时间(

X

0

X geq 0

X≥0),速率参数为

λ

>

0

lambda > 0

λ>0,则:

f

(

x

)

=

{

λ

e

λ

x

,

x

0

0

,

x

<

0

f(x) =
{λe−λx,x≥00,x&lt;0″ role=”presentation”>{λe−λx,0,x≥0x<0{λe−λx,x≥00,x<0

f(x)={λe−λx,0,​x≥0x<0​核心性质(无记忆性)

P

(

X

>

s

+

t

X

>

s

)

=

P

(

X

>

t

)

P(X > s+t | X > s) = P(X > t)

P(X>s+t∣X>s)=P(X>t)(如“设备已工作

s

s

s 小时,再工作

t

t

t 小时的概率,等于新设备工作

t

t

t 小时的概率”);AI应用:设备故障预测(如“服务器无故障运行时间服从

E

x

p

(

0.01

)

Exp(0.01)

Exp(0.01),预测下100小时故障概率”)、用户留存分析(如“用户上次登录后,间隔

t

t

t 天再次登录的概率”)。

3. 随机变量的数字特征(Numerical Characteristics)

通过“均值、方差”等数字特征,提炼随机变量的核心信息(如数据的中心趋势、离散程度),是AI特征工程、模型评估的关键指标。

3.1 数学期望(Expected Value,均值)

定义:随机变量取值的“加权平均”,反映数据的中心趋势;公式
离散型:

E

[

X

]

=

k

x

k

P

(

X

=

x

k

)

E[X] = sum_{k} x_k P(X=x_k)

E[X]=∑k​xk​P(X=xk​)(对所有可能取值

x

k

x_k

xk​ 加权求和,权重为

P

(

X

=

x

k

)

P(X=x_k)

P(X=xk​));连续型:

E

[

X

]

=

+

x

f

(

x

)

d

x

E[X] = int_{-infty}^{+infty} x f(x) dx

E[X]=∫−∞+∞​xf(x)dx(对所有可能取值

x

x

x 加权积分,权重为

f

(

x

)

f(x)

f(x)); 核心性质

E

[

c

]

=

c

E[c] = c

E[c]=c(常数的期望为自身,

c

c

c 为常数);

E

[

a

X

+

b

]

=

a

E

[

X

]

+

b

E[aX + b] = aE[X] + b

E[aX+b]=aE[X]+b(线性变换的期望,

a

,

b

a,b

a,b 为常数);

E

[

X

+

Y

]

=

E

[

X

]

+

E

[

Y

]

E[X + Y] = E[X] + E[Y]

E[X+Y]=E[X]+E[Y](期望的可加性,无需

X

,

Y

X,Y

X,Y 独立);若

X

,

Y

X,Y

X,Y 独立,则

E

[

X

Y

]

=

E

[

X

]

E

[

Y

]

E[XY] = E[X]E[Y]

E[XY]=E[X]E[Y](独立变量的期望可乘性); AI应用
损失函数设计(如均方误差

M

S

E

=

E

[

(

y

y

^

)

2

]

MSE = E[(y – hat{y})^2]

MSE=E[(y−y^​)2],目标是最小化“真实标签

y

y

y 与预测值

y

^

hat{y}

y^​ 差值的期望”);模型性能评估(如分类准确率的期望

E

[

正确分类

]

E[正确分类]

E[正确分类],即长期平均准确率);强化学习(策略的累积奖励期望

E

[

t

=

0

T

r

t

]

E[sum_{t=0}^T r_t]

E[∑t=0T​rt​],目标是最大化该期望)。

3.2 方差(Variance)

定义:衡量随机变量取值相对于“期望”的离散程度,方差越大,数据越分散;公式

V

a

r

(

X

)

=

E

[

(

X

E

[

X

]

)

2

]

=

E

[

X

2

]

(

E

[

X

]

)

2

Var(X) = Eleft[(X – E[X])^2
ight] = E[X^2] – (E[X])^2

Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2(后者为计算简化形式);核心性质

V

a

r

[

c

]

=

0

Var[c] = 0

Var[c]=0(常数的方差为0,无离散性);

V

a

r

[

a

X

+

b

]

=

a

2

V

a

r

(

X

)

Var[aX + b] = a^2 Var(X)

Var[aX+b]=a2Var(X)(线性变换的方差,常数

b

b

b 不影响离散性);若

X

,

Y

X,Y

X,Y 独立,则

V

a

r

(

X

+

Y

)

=

V

a

r

(

X

)

+

V

a

r

(

Y

)

Var(X + Y) = Var(X) + Var(Y)

Var(X+Y)=Var(X)+Var(Y)(独立变量的方差可加性); AI应用
特征选择(剔除方差小于阈值的“无效特征”,如“所有样本的‘性别’特征均为‘男’,方差为0,无区分度”);模型稳定性评估(如测试集准确率的方差,方差小说明模型在不同测试集上的性能更稳定);权重初始化(如He初始化通过方差控制,使各层激活值的方差保持一致,避免梯度消失)。

3.3 协方差与相关系数(Covariance & Correlation Coefficient)

协方差(Covariance)

定义:衡量两个随机变量

X

,

Y

X,Y

X,Y 的“线性关联方向”(正相关/负相关/无线性相关);公式

C

o

v

(

X

,

Y

)

=

E

[

(

X

E

[

X

]

)

(

Y

E

[

Y

]

)

]

=

E

[

X

Y

]

E

[

X

]

E

[

Y

]

Cov(X,Y) = Eleft[(X – E[X])(Y – E[Y])
ight] = E[XY] – E[X]E[Y]

Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y];核心解读

C

o

v

(

X

,

Y

)

>

0

Cov(X,Y) > 0

Cov(X,Y)>0:

X

X

X 增大时,

Y

Y

Y 倾向于增大(正线性相关);若

C

o

v

(

X

,

Y

)

<

0

Cov(X,Y) < 0

Cov(X,Y)<0:

X

X

X 增大时,

Y

Y

Y 倾向于减小(负线性相关);若

C

o

v

(

X

,

Y

)

=

0

Cov(X,Y) = 0

Cov(X,Y)=0:

X

X

X 与

Y

Y

Y 无线性相关(但可能存在非线性相关,如

Y

=

X

2

Y=X^2

Y=X2); AI应用:特征冗余检测(如“身高”与“体重”的协方差为正,且绝对值较大,说明两者存在正线性相关,可考虑合并特征以减少冗余)。

相关系数(Correlation Coefficient)

定义:对协方差的“标准化”,消除量纲影响,使取值范围固定在

[

1

,

1

]

[-1,1]

[−1,1],更直观地衡量线性关联强度;公式

ρ

X

Y

=

C

o

v

(

X

,

Y

)

V

a

r

(

X

)

V

a

r

(

Y

)

ho_{XY} = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}}

ρXY​=Var(X)Var(Y)
​Cov(X,Y)​;核心解读

ρ

X

Y

|
ho_{XY}|

∣ρXY​∣ 越接近1:线性关联越强(

ρ

X

Y

=

1

ho_{XY}=1

ρXY​=1 为完全正线性相关,

ρ

X

Y

=

1

ho_{XY}=-1

ρXY​=−1 为完全负线性相关);

ρ

X

Y

|
ho_{XY}|

∣ρXY​∣ 越接近0:线性关联越弱; AI应用:多变量线性回归的多重共线性检测(如“房屋面积”与“房间数”的

ρ

X

Y

=

0.95

ho_{XY}=0.95

ρXY​=0.95,说明多重共线性严重,需剔除一个特征以避免模型参数不稳定)。

4. 大数定律与中心极限定理(Law of Large Numbers & CLT)

这两大定理是“用样本推断总体”的理论基石,解释了为何“足够多的训练数据能让模型学到通用规律”。

4.1 大数定律(Law of Large Numbers,LLN)

核心思想:当样本量足够大时,“样本均值”会依概率收敛于“总体均值”——即“样本越多,对总体的估计越准确”;常见形式
切比雪夫大数定律:设

X

1

,

X

2

,

X_1,X_2,dots

X1​,X2​,… 是相互独立的随机变量序列,且各变量的期望

E

[

X

i

]

=

μ

E[X_i]=mu

E[Xi​]=μ、方差

V

a

r

(

X

i

)

=

σ

2

Var(X_i)=sigma^2

Var(Xi​)=σ2(有限),则对任意

ϵ

>

0

epsilon > 0

ϵ>0:

lim

n

P

(

1

n

i

=

1

n

X

i

μ

<

ϵ

)

=

1

lim_{n o infty} Pleft(left|frac{1}{n}sum_{i=1}^n X_i – mu
ight| < epsilon
ight) = 1

limn→∞​P(
​n1​∑i=1n​Xi​−μ
​<ϵ)=1;伯努利大数定律:设

n

A

n_A

nA​ 是

n

n

n 重伯努利试验中事件

A

A

A 发生的次数,单次发生概率为

p

p

p,则对任意

ϵ

>

0

epsilon > 0

ϵ>0:

lim

n

P

(

n

A

n

p

<

ϵ

)

=

1

lim_{n o infty} Pleft(left|frac{n_A}{n} – p
ight| < epsilon
ight) = 1

limn→∞​P(
​nnA​​−p
​<ϵ)=1; AI应用
模型训练的“数据量必要性”:为何需要大量训练数据?大数定律表明,样本量越大,“训练集上的损失均值”越接近“全量数据上的真实损失均值”,模型泛化能力越强;蒙特卡洛模拟(如用大量随机采样的样本均值,估计复杂积分的结果,用于强化学习的价值函数近似)。

4.2 中心极限定理(Central Limit Theorem,CLT)

核心思想:无论总体服从何种分布,当样本量

n

n

n 足够大时(通常

n

30

n geq 30

n≥30),“样本均值

X

ˉ

ar{X}

Xˉ”的分布会近似服从正态分布——即“大样本的均值分布具有普适的正态性”;公式:设总体均值为

μ

mu

μ、方差为

σ

2

sigma^2

σ2,从总体中抽取

n

n

n 个独立样本

X

1

,

,

X

n

X_1,dots,X_n

X1​,…,Xn​,则样本均值

X

ˉ

=

1

n

i

=

1

n

X

i

ar{X} = frac{1}{n}sum_{i=1}^n X_i

Xˉ=n1​∑i=1n​Xi​ 满足:

X

ˉ

N

(

μ

,

σ

2

n

)

ar{X} approx Nleft(mu, frac{sigma^2}{n}
ight)

Xˉ≈N(μ,nσ2​)
标准化后:

X

ˉ

μ

σ

/

n

N

(

0

,

1

)

frac{ar{X} – mu}{sigma/sqrt{n}} approx N(0,1)

σ/n
​Xˉ−μ​≈N(0,1);AI应用
模型性能的置信区间估计(如“测试集准确率的样本均值为90%,样本量

n

=

100

n=100

n=100,总体标准差

σ

=

5

%

sigma=5\%

σ=5%,则95%置信区间为

90

%

±

1.96

×

5

%

100

=

[

89.02

%

,

90.98

%

]

90\% pm 1.96 imes frac{5\%}{sqrt{100}} = [89.02\%, 90.98\%]

90%±1.96×100
​5%​=[89.02%,90.98%]”,即“真实准确率有95%概率在此区间内”);A/B测试的显著性检验(如“策略A的点击率样本均值为5%,策略B为7%,样本量均为1000,用CLT判断两者差异是否显著”)。

5. 统计推断(Statistical Inference)

统计推断通过“有限样本”推断“总体规律”,是AI从数据中学习、评估模型泛化能力的核心手段,主要包括“参数估计”和“假设检验”两大任务。

5.1 抽样分布(Sampling Distributions)

定义:“样本统计量”(如样本均值

X

ˉ

ar{X}

Xˉ、样本方差

s

2

s^2

s2)的概率分布,是参数估计和假设检验的基础;常见抽样分布
样本均值分布(正态总体)
若总体

X

N

(

μ

,

σ

2

)

X sim N(mu, sigma^2)

X∼N(μ,σ2),且

σ

2

sigma^2

σ2 已知,则样本均值

X

ˉ

N

(

μ

,

σ

2

n

)

ar{X} sim Nleft(mu, frac{sigma^2}{n}
ight)

Xˉ∼N(μ,nσ2​);若

σ

2

sigma^2

σ2 未知(实际场景更常见),用样本方差

s

2

=

1

n

1

i

=

1

n

(

X

i

X

ˉ

)

2

s^2 = frac{1}{n-1}sum_{i=1}^n (X_i – ar{X})^2

s2=n−11​∑i=1n​(Xi​−Xˉ)2 替代,则

X

ˉ

μ

s

/

n

t

(

n

1

)

frac{ar{X} – mu}{s/sqrt{n}} sim t(n-1)

s/n
​Xˉ−μ​∼t(n−1)(

t

t

t 分布,

n

1

n-1

n−1 为自由度); 样本方差分布:若总体

X

N

(

μ

,

σ

2

)

X sim N(mu, sigma^2)

X∼N(μ,σ2),则

(

n

1

)

s

2

σ

2

χ

2

(

n

1

)

frac{(n-1)s^2}{sigma^2} sim chi^2(n-1)

σ2(n−1)s2​∼χ2(n−1)(卡方分布); AI应用:小样本场景的模型评估(如测试样本量

n

=

20

n=20

n=20,用

t

t

t 分布估计准确率的置信区间,比正态分布更准确)。

5.2 参数估计(Parameter Estimation)

定义:从样本数据中估计“总体参数”(如总体均值

μ

mu

μ、正态分布的方差

σ

2

sigma^2

σ2),分为“点估计”和“区间估计”;

1. 点估计(Point Estimation)

定义:用单个数值(样本统计量)估计总体参数,如用“样本均值

X

ˉ

ar{X}

Xˉ”估计“总体均值

μ

mu

μ”;常用方法
最大似然估计(MLE,Maximum Likelihood Estimation)
核心思想:“让观测样本的概率最大”——即选择参数

θ

^

hat{ heta}

θ^,使样本

x

1

,

,

x

n

x_1,dots,x_n

x1​,…,xn​ 出现的联合概率(似然函数)最大;公式:设总体的概率密度/质量函数为

f

(

x

θ

)

f(x| heta)

f(x∣θ),似然函数

L

(

θ

)

=

i

=

1

n

f

(

x

i

θ

)

L( heta) = prod_{i=1}^n f(x_i| heta)

L(θ)=∏i=1n​f(xi​∣θ),取对数简化计算(对数似然函数

ln

L

(

θ

)

=

i

=

1

n

ln

f

(

x

i

θ

)

ln L( heta) = sum_{i=1}^n ln f(x_i| heta)

lnL(θ)=∑i=1n​lnf(xi​∣θ)),则 MLE 估计量为:

θ

^

M

L

E

=

arg

max

θ

ln

L

(

θ

)

hat{ heta}_{MLE} = argmax_{ heta} ln L( heta)

θ^MLE​=argmaxθ​lnL(θ);AI应用:线性回归、逻辑回归的参数求解(如逻辑回归通过最大化“样本标签的对数似然”,估计回归系数

θ

heta

θ); 贝叶斯估计(Bayesian Estimation)
核心思想:结合“参数的先验分布

p

(

θ

)

p( heta)

p(θ)”和“样本的似然

p

(

x

θ

)

p(x| heta)

p(x∣θ)”,通过贝叶斯定理得到“参数的后验分布

p

(

θ

x

)

p( heta|x)

p(θ∣x)”,用后验分布的均值/中位数作为估计值;公式:

θ

^

B

a

y

e

s

=

E

[

θ

x

]

=

θ

p

(

θ

x

)

d

θ

hat{ heta}_{Bayes} = E[ heta|x] = int heta p( heta|x) d heta

θ^Bayes​=E[θ∣x]=∫θp(θ∣x)dθ(后验期望);AI应用:贝叶斯神经网络(BNN)——将权重视为随机变量,用贝叶斯估计得到权重的后验分布,量化预测的不确定性(如自动驾驶中“前方障碍物距离预测”的置信区间)。

2. 区间估计(Interval Estimation)

定义:用“区间

[

θ

^

L

,

θ

^

U

]

[hat{ heta}_L, hat{ heta}_U]

[θ^L​,θ^U​]”估计总体参数,给出“估计的可信程度”(置信水平

1

α

1-alpha

1−α,如95%);公式(以总体均值

μ

mu

μ 为例)
若总体方差未知、样本量较小,95%置信区间为:

X

ˉ

±

t

α

/

2

(

n

1

)

s

n

ar{X} pm t_{alpha/2}(n-1) cdot frac{s}{sqrt{n}}

Xˉ±tα/2​(n−1)⋅n
​s​
其中

t

α

/

2

(

n

1

)

t_{alpha/2}(n-1)

tα/2​(n−1) 是

t

t

t 分布的上

α

/

2

alpha/2

α/2 分位数(如

α

=

0.05

alpha=0.05

α=0.05 时,

t

0.025

(

19

)

=

2.093

t_{0.025}(19)=2.093

t0.025​(19)=2.093);AI应用:模型性能报告(如“模型在测试集上的准确率为92%,95%置信区间为 [88%, 96%]”,比单独的“92%准确率”更严谨,体现估计的不确定性)。

5.3 假设检验(Hypothesis Testing)

定义:通过样本数据验证“对总体的猜想(假设)”是否成立,核心是“判断样本与假设的差异是否由随机误差导致”;核心步骤
提出假设:原假设

H

0

H_0

H0​(如“模型A与模型B的准确率无差异”)、备择假设

H

1

H_1

H1​(如“模型A的准确率高于模型B”);选择检验统计量:如大样本下用

Z

Z

Z 统计量,小样本下用

t

t

t 统计量;确定拒绝域:根据显著性水平

α

alpha

α(如0.05),确定“拒绝

H

0

H_0

H0​ 的统计量阈值”;计算统计量并决策:若统计量落入拒绝域,则拒绝

H

0

H_0

H0​,接受

H

1

H_1

H1​;否则不拒绝

H

0

H_0

H0​; AI应用
模型性能对比(如“模型A的准确率为92%(

n

1

=

100

n_1=100

n1​=100),模型B为85%(

n

2

=

100

n_2=100

n2​=100),用

Z

Z

Z 检验判断A的准确率是否显著高于B”);特征有效性检验(如“加入新特征后,模型的AUC提升0.03,用假设检验判断该提升是否由随机误差导致”);A/B测试(如“推荐策略A的点击率为5%(

n

=

1000

n=1000

n=1000),策略B为7%(

n

=

1000

n=1000

n=1000),检验B的点击率是否显著高于A,决定是否上线B”)。

6. 信息论基础(Fundamentals of Information Theory)

信息论量化“信息的多少”和“分布的差异”,是AI模型设计(如损失函数)、特征选择、生成式模型的核心工具。

6.1 香农熵(Shannon Entropy)

定义:衡量随机变量的“不确定性”——熵越大,变量的取值越不可预测;公式(离散型):设离散随机变量

X

X

X 的取值为

x

1

,

,

x

k

x_1,dots,x_k

x1​,…,xk​,概率为

p

(

x

1

)

,

,

p

(

x

k

)

p(x_1),dots,p(x_k)

p(x1​),…,p(xk​),则:

H

(

X

)

=

x

X

p

(

x

)

log

b

p

(

x

)

H(X) = -sum_{x in X} p(x) log_b p(x)

H(X)=−∑x∈X​p(x)logb​p(x)
其中

b

b

b 为对数底数(

b

=

2

b=2

b=2 时单位为“比特(bit)”,

b

=

e

b=e

b=e 时为“纳特(nat)”,AI中常用

b

=

e

b=e

b=e 或

b

=

2

b=2

b=2);核心解读

X

X

X 为确定值(如

p

(

x

1

)

=

1

p(x_1)=1

p(x1​)=1),则

H

(

X

)

=

0

H(X)=0

H(X)=0(无不确定性);若

X

X

X 为二值变量且

p

(

0

)

=

p

(

1

)

=

0.5

p(0)=p(1)=0.5

p(0)=p(1)=0.5,则

H

(

X

)

=

log

2

2

=

1

H(X)=log_2 2=1

H(X)=log2​2=1(不确定性最大); AI应用:决策树(ID3/C4.5)的特征选择——用“信息增益”(父节点熵 – 子节点条件熵)选择“降低样本不确定性最显著的特征”(如“是否有羽毛”的信息增益高于“是否有腿”,优先作为分裂特征)。

6.2 交叉熵(Cross-Entropy)

定义:衡量“预测分布

q

q

q”与“真实分布

p

p

p”的“信息差异”——交叉熵越小,两个分布越接近;公式

H

(

p

,

q

)

=

x

X

p

(

x

)

log

b

q

(

x

)

H(p,q) = -sum_{x in X} p(x) log_b q(x)

H(p,q)=−∑x∈X​p(x)logb​q(x);核心性质:当

p

(

x

)

=

q

(

x

)

p(x)=q(x)

p(x)=q(x) 时,

H

(

p

,

q

)

=

H

(

p

)

H(p,q)=H(p)

H(p,q)=H(p)(交叉熵等于香农熵,此时信息差异最小);AI应用:分类任务的损失函数(如Softmax回归、神经网络输出层)——真实分布

p

p

p 为“标签的one-hot分布”(如标签为“猫”时,

p

(

)

=

1

p(猫)=1

p(猫)=1,

p

(

)

=

p

(

其他

)

=

0

p(狗)=p(其他)=0

p(狗)=p(其他)=0),预测分布

q

q

q 为模型输出的概率(如

q

(

)

=

0.8

q(猫)=0.8

q(猫)=0.8,

q

(

)

=

0.1

q(狗)=0.1

q(狗)=0.1,

q

(

其他

)

=

0.1

q(其他)=0.1

q(其他)=0.1),交叉熵损失

H

(

p

,

q

)

=

log

q

(

)

H(p,q)=-log q(猫)

H(p,q)=−logq(猫),目标是最小化该损失以让

q

q

q 逼近

p

p

p。

6.3 KL散度(Kullback-Leibler Divergence)

定义:又称“相对熵”,量化“预测分布

q

q

q”相对于“真实分布

p

p

p”的“差异程度”——KL散度非负,仅当

p

=

q

p=q

p=q 时为0;公式

K

L

(

p

q

)

=

x

X

p

(

x

)

log

b

p

(

x

)

q

(

x

)

=

H

(

p

,

q

)

H

(

p

)

KL(p||q) = sum_{x in X} p(x) log_b frac{p(x)}{q(x)} = H(p,q) – H(p)

KL(p∣∣q)=∑x∈X​p(x)logb​q(x)p(x)​=H(p,q)−H(p);核心性质不对称性

K

L

(

p

q

)

K

L

(

q

p

)

KL(p||q)
eq KL(q||p)

KL(p∣∣q)=KL(q∣∣p))——即“用

q

q

q 近似

p

p

p 的差异”与“用

p

p

p 近似

q

q

q 的差异”不同;AI应用
变分自编码器(VAE):用

K

L

(

q

(

z

x

)

p

(

z

)

)

KL(q(z|x)||p(z))

KL(q(z∣x)∣∣p(z)) 作为正则项,迫使“隐变量

z

z

z 的后验分布

q

(

z

x

)

q(z|x)

q(z∣x)”逼近“先验分布

p

(

z

)

p(z)

p(z)(如标准正态分布)”,保证生成样本的多样性;生成对抗网络(GAN):用JS散度(KL散度的对称变体)衡量“真实图像分布

p

p

p”与“生成图像分布

q

q

q”的差异,指导生成器优化。

7. 概率与统计学在AI中的典型应用(Typical AI Applications)

7.1 机器学习模型

监督学习
线性/逻辑回归:用最大似然估计(MLE)求解参数,用均方误差(基于期望)、交叉熵(基于分布差异)作为损失函数;朴素贝叶斯:基于“特征条件独立假设”,用贝叶斯定理计算

P

(

类别

特征

)

P(类别|特征)

P(类别∣特征),快速实现文本分类(如垃圾邮件检测)、情感分析;支持向量机(SVM):用统计学习理论中的“VC维”分析泛化能力,通过最大化“分类间隔”找到最优超平面; 无监督学习
K-Means聚类:假设数据服从“K个高斯分布的混合模型”,通过EM算法(期望最大化,基于概率分布的迭代估计)求解聚类中心;异常检测:基于“正态分布”(如将特征标准化后,超出

[

μ

3

σ

,

μ

+

3

σ

]

[mu-3sigma, mu+3sigma]

[μ−3σ,μ+3σ] 的样本视为异常)或“泊松分布”(如单位时间内的异常请求数),识别偏离正常模式的样本; 强化学习
策略梯度(Policy Gradient):用“累积奖励的期望”定义策略价值,通过梯度上升最大化该期望,更新策略网络参数;Q-Learning:用“动作价值的概率分布”描述“选择某动作的长期收益”,优先选择价值期望最大的动作。

7.2 深度学习

权重初始化:基于正态分布(如Xavier初始化:

N

(

0

,

1

n

i

n

)

N(0, frac{1}{n_{in}})

N(0,nin​1​),He初始化:

N

(

0

,

2

n

i

n

)

N(0, frac{2}{n_{in}})

N(0,nin​2​))或均匀分布,避免激活函数(如Sigmoid、ReLU)输出饱和;批量归一化(BN):将每层输入标准化为

N

(

0

,

1

)

N(0,1)

N(0,1) 分布,减少“内部协变量偏移”,加速训练收敛;生成模型
GAN:通过“生成器”与“判别器”的对抗,让生成数据的分布逼近真实数据分布,判别器的损失基于交叉熵(衡量“真实/生成数据分布的差异”);VAE:用KL散度约束隐变量分布,用重构损失(基于均方误差/交叉熵)保证生成数据与输入数据的相似性; 不确定性量化:贝叶斯神经网络(BNN)通过“参数的后验分布”,输出预测结果的概率区间(如医疗AI中“肿瘤良恶性预测的90%置信区间”)。

7.3 业务场景落地

自然语言处理(NLP)
文本分类:用朴素贝叶斯计算“文本属于某类别的后验概率”,或用Transformer模型的交叉熵损失训练分类器;语言模型:通过统计“词序列的联合概率”(如N-gram模型)或自注意力学习概率分布(如GPT的“下一个词预测”,基于前序词的条件概率); 计算机视觉(CV)
目标检测:用概率分布描述“目标框的位置(如中心点坐标服从正态分布)”和“类别(如Softmax输出类别概率)”,如YOLO、Faster R-CNN;图像分割:通过Softmax输出“每个像素属于某类别的概率”,实现语义分割(如将图像像素分为“道路”“行人”“车辆”); 推荐系统
协同过滤:用概率矩阵分解(PMF)估计“用户对物品的评分概率”,推荐概率最高的物品;A/B测试:通过假设检验(如两样本比例的Z检验)判断“推荐策略A的点击率是否显著高于策略B”,选择最优策略上线。

8. 概率与统计学核心公式汇总(Summary of Core Formulas)

一级类别 二级类别 公式内容 核心用途 AI应用场景举例
概率基础 贝叶斯定理

P

(

A

B

)

=

P

(

B

A

)

P

(

A

)

P

(

B

)

P(AB) = frac{P(BA)P(A)}{P(B)}

P(AB)=P(B)P(BA)P(A)​

从结果反推原因,更新概率信念 朴素贝叶斯分类器、贝叶斯神经网络
全概率公式

P

(

A

)

=

i

=

1

n

P

(

B

i

)

P

(

A

B

i

)

P(A) = sum_{i=1}^n P(B_i)P(AB_i)

P(A)=∑i=1n​P(Bi​)P(ABi​)( $B_i $为样本空间划分)

分解复杂事件概率,简化计算 风险评估中“分场景计算用户违约概率”
概率分布 正态分布(PDF)

f

(

x

)

=

1

σ

2

π

e

(

x

μ

)

2

2

σ

2

f(x) = frac{1}{sigmasqrt{2pi}}e^{-frac{(x-mu)^2}{2sigma^2}}

f(x)=σ2π
​1​e−2σ2(x−μ)2​

描述连续型数据的对称分布,自然界最常见 模型权重初始化、数据标准化、高斯混合模型
二项分布(PMF)

P

(

X

=

k

)

=

C

n

k

p

k

(

1

p

)

n

k

P(X=k) = C_n^k p^k(1-p)^{n-k}

P(X=k)=Cnk​pk(1−p)n−k

描述n次独立伯努利试验的成功次数 批量样本的预测准确率统计、点击率统计
数字特征 期望(连续型)

E

[

X

]

=

+

x

f

(

x

)

d

x

E[X] = int_{-infty}^{+infty}xf(x)dx

E[X]=∫−∞+∞​xf(x)dx

衡量数据的中心趋势 均方误差(MSE)损失设计、强化学习的累积奖励期望
方差

V

a

r

(

X

)

=

E

[

(

X

E

[

X

]

)

2

]

=

E

[

X

2

]

(

E

[

X

]

)

2

Var(X) = E[(X-E[X])^2] = E[X^2]-(E[X])^2

Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2

衡量数据的离散程度 特征选择(剔除低方差特征)、模型稳定性评估
相关系数

ρ

X

Y

=

C

o

v

(

X

,

Y

)

V

a

r

(

X

)

V

a

r

(

Y

)

ho_{XY} = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}}

ρXY​=Var(X)Var(Y)
​Cov(X,Y)​

量化两变量的线性关联强度(

[

1

,

1

]

[-1,1]

[−1,1])

多重共线性检测、特征冗余分析
信息论 交叉熵

H

(

p

,

q

)

=

x

p

(

x

)

log

q

(

x

)

H(p,q) = -sum_x p(x)log q(x)

H(p,q)=−∑x​p(x)logq(x)

衡量预测分布与真实分布的差异 分类任务损失函数(Softmax+交叉熵)
KL散度

K

L

(

p

q

)

=

H

(

p

,

q

)

H

(

p

)

=

x

p

(

x

)

log

p

(

x

)

q

(

x

)

KL(pq) = H(p,q) – H(p) = sum_x p(x)logfrac{p(x)}{q(x)}

KL(pq)=H(p,q)−H(p)=∑x​p(x)logq(x)p(x)​

衡量两分布的不对称差异(非负) VAE的隐变量分布约束、GAN的分布差异衡量
统计推断 最大似然估计(MLE)

θ

^

M

L

E

=

arg

max

θ

i

=

1

n

log

f

(

x

i

θ

)

hat{ heta}*{MLE} = argmax* heta sum_{i=1}^n log f(x_i heta)

θ^∗MLE=argmax∗θ∑i=1n​logf(xi​θ)

用样本概率最大化求解总体参数 线性回归、逻辑回归的参数求解
均值的95%置信区间

X

ˉ

±

t

α

/

2

(

n

1

)

s

n

ar{X} pm t_{alpha/2}(n-1)cdotfrac{s}{sqrt{n}}

Xˉ±tα/2​(n−1)⋅n
​s​(小样本、方差未知)

给出总体均值的可信范围,量化估计不确定性 模型准确率的置信区间报告
大数定律与CLT 中心极限定理

X

ˉ

N

(

μ

,

σ

2

n

)

ar{X} approx N(mu, frac{sigma^2}{n})

Xˉ≈N(μ,nσ2​)(n足够大)

大样本均值的正态近似,支撑统计推断 A/B测试的显著性检验、置信区间估计

附录:概率与统计学核心符号总结(Symbol Summary)

符号 写法规范 读音 核心使用场景

Ω

Omega

Ω

大写希腊字母 “Omega” 样本空间(所有可能结果的集合,如抛硬币的

Ω

=

{

正面

,

反面

}

Omega={正面, 反面}

Ω={正面,反面})

P

(

A

)

P(A)

P(A)

大写P+事件A “P of A” 事件A的概率(如

P

(

正面

)

=

0.5

P(正面)=0.5

P(正面)=0.5)

P

(

A

,

B

)

P(A,B)

P(A,B)

大写P+事件A,B “P of A and B” 事件A与B的联合概率(如

P

(

特征

=

,

标签

=

)

P(特征=高, 标签=猫)

P(特征=高,标签=猫))

P

(

A

B

)

P(AB)

P(AB)

大写P+条件B “P of A given B” 事件B发生时A的条件概率(如

P

(

标签

=

鸟特征

=

有羽毛

)

P(标签=鸟特征=有羽毛)

P(标签=鸟特征=有羽毛))

X

X

X

大写英文字母 “X” 随机变量(如“样本标签”“像素值”,离散型记为X,连续型常用X/Y/Z)

P

(

X

=

k

)

P(X=k)

P(X=k)

P+随机变量=取值 “P of X equals k” 离散型随机变量的概率质量函数(PMF,如二项分布的

P

(

X

=

3

)

P(X=3)

P(X=3))

f

(

x

)

f(x)

f(x)

小写f+变量x “f of x” 连续型随机变量的概率密度函数(PDF,如正态分布的

f

(

x

)

f(x)

f(x))

E

[

X

]

E[X]

E[X]

E+中括号+X “E of X” 随机变量X的数学期望(均值,如

E

[

X

]

=

μ

E[X]=mu

E[X]=μ)

V

a

r

(

X

)

Var(X)

Var(X)

Var+X “Var of X” 随机变量X的方差(如

V

a

r

(

X

)

=

σ

2

Var(X)=sigma^2

Var(X)=σ2)

C

o

v

(

X

,

Y

)

Cov(X,Y)

Cov(X,Y)

Cov+X,Y “Cov of X and Y” 随机变量X与Y的协方差(衡量线性关联方向)

ρ

X

Y

ho_{XY}

ρXY​

小写rho+下标XY “rho of X Y” X与Y的相关系数(标准化协方差,取值

[

1

,

1

]

[-1,1]

[−1,1])

H

(

X

)

H(X)

H(X)

大写H+X “H of X” 随机变量X的香农熵(衡量不确定性,如决策树的节点熵)

H

(

p

,

q

)

H(p,q)

H(p,q)

H+分布p,q “H of p q” 分布p与q的交叉熵(如分类损失函数

H

(

真实分布

,

预测分布

)

H(真实分布, 预测分布)

H(真实分布,预测分布))

K

L

(

p

q

)

KL(pq)

KL(pq)

KL+分布pq “KL divergence of p from q” p 相对于 q 的 KL 散度(衡量分布差异,如 VAE 的正则项)

X

ˉ

ar{X}

X上加横线 “X bar” 样本均值(如100个测试样本的准确率均值

X

ˉ

=

92

%

ar{X}=92\%

Xˉ=92%)

s

2

s^2

s2

s平方 “s squared” 样本方差(如

s

2

=

1

n

1

(

X

i

X

ˉ

)

2

s^2 = frac{1}{n-1}sum(X_i-ar{X})^2

s2=n−11​∑(Xi​−Xˉ)2)

μ

mu

μ

小写希腊字母 “mu” 总体均值(如全量数据的特征均值

μ

mu

μ)

σ

2

sigma^2

σ2

小写sigma平方 “sigma squared” 总体方差(如正态分布的尺度参数

σ

2

sigma^2

σ2)

λ

lambda

λ

小写希腊字母 “lambda” 1. 泊松分布的发生率(如

λ

=

5

lambda=5

λ=5);2. 指数分布的速率参数

θ

^

hat{ heta}

θ^

theta上加帽子 “theta hat” 参数

θ

heta

θ 的估计值(如MLE估计的

θ

^

M

L

E

hat{ heta}_{MLE}

θ^MLE​)

i

=

1

n

sum_{i=1}^n

∑i=1n​

求和符号 “sum from i=1 to n” 离散型求和(如期望的

x

k

P

(

X

=

x

k

)

sum x_k P(X=x_k)

∑xk​P(X=xk​))

int

积分符号 “integral” 连续型积分(如期望的

x

f

(

x

)

d

x

int x f(x)dx

∫xf(x)dx)

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...