随机变量与分布 (Random Variables & Distributions)

分布名称 (Name) 类型 公 式 / 特点 备注
伯努利 (Bernoulli) 离散Discrete Distribution p(xμ)=μx(1μ)1x,x0,1 单次硬币投掷模型
二项分布 (Binomial) 离散 p(mN,μ)=(Nm)μm(1μ)Nm N 次伯努利实验中成功的次数
泊松分布(Poisson) 离散 p(xλ)=eλλxx!
离散均匀分布(Discrete Uniform) p(x)=1K 所有结果概率相等的情况(如掷公平的骰子)
高斯/正态 (Gaussian) 连续Continuous p(x)=12πσ2exp((xμ)22σ2) 中心极限定理,ML中最重要分布
多元高斯 (Multivariate Gaussian) 连续 由均值向量 μ 和协方差矩阵 Σ 决定 线性回归、PCA的基础
连续均匀分布(Continuous Uniform) p(x)=1ba (在区间 [a,b] 内) 表示对某个区间内取值没有任何偏好
Beta 分布 p(μα,β)=Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1
拉普拉斯分布 (Laplace Distribution) p(x)=12bexp(|xμ|b)

考试常考“给定似然函数,应该选什么先验分布才能进行解析推导”**。

似然函数 (Likelihood) 模型参数 (Parameter) 对应的共轭先验 (Conjugate Prior) 后验分布 (Posterior)
Bernoulli (伯努利) μ (概率) Beta Beta
Binomial (二项) μ (概率) Beta Beta
Multinomial (多项) μ (概率向量) Dirichlet Dirichlet
Gaussian (高斯) μ (均值, 方差已知) Gaussian Gaussian
Gaussian (高斯) σ2 (方差, 均值已知) Inverse Gamma Inverse Gamma
Multivariate Gaussian Σ (协方差矩阵) Inverse Wishart Inverse Wishart

复习提示:

参数估计 (Parameter Estimation)

这是连接概率论与机器学习训练过程的桥梁。

最大似然估计 (Maximum Likelihood Estimation, MLE)

找到一个参数 θ,使得观测到现有数据 y 的概率最大

步骤:

  1. 写出似然函数 (Likelihood Function)
    假设观测数据 y 是独立同分布 (i.i.d.) 的,写出所有观测值的联合概率:
L(θ)=p(y1,y2,,yn|θ)=i=1np(yi|θ)
  1. 取对数 (Log-Likelihood)
    为了把累乘变成累加,方便求导:
(θ)=lnL(θ)=i=1nlnp(yi|θ)
  1. 求导并令导数为 0
    对参数 θ 求导(梯度),并寻找极值点:
ddθ(θ)=0

MLE 思路:

只看似然项。如果似然是高斯分布,MLE 目标就是:

minx12(yax)2

这就是普通的最小二乘法,它只关心怎么拟合数据 y

最大后验估计 (Maximum A Posteriori, MAP):

在 MLE 的基础上加入了先验知识 p(θ)(相当于正则化)。目标: θMAP=argmaxθp(D|θ)p(θ). 寻找参数 θ,使得观测数据出现的概率最大。

步骤:

  1. 写出后验概率 p(x|y) 的比例关系 p(x|y)p(y|x)p(x)
  2. 取负对数变换 (Negative Log-Likelihood),将最大化概率问题转变为最小化能量(损失)函数问题:x=argminx[lnp(y|x)lnp(x)]
  3. 根据题目给出的概率密度函数(PDF)的形式,识别出对应的损失项:
    • 如果似然是拉普拉斯分布,先验是高斯分布,则目标函数为:min|yax|+12x2

    • 如果似然和先验都是高斯分布,则目标函数为:min12(yax)2+12x2。 理解为:

      minx12(yax)2MLE 项+λx2先验(正则)项

分布与损失表

概率分布类型 PDF 指数项形式 对应的损失项 (负对数变换) 常见的机器学习术语
高斯分布 (Gaussian) exp((yy^)22σ2) 12σ2(yy^)2 L2 损失 / MSE / 岭回归
拉普拉斯 (Laplace) exp(|yy^|b) 1b|yy^| L1 损失 / MAE / LASSO
伯努利 (Bernoulli) py(1p)1y [ylnp+(1y)ln(1p)] 二元交叉熵 (BCE)
多项分布 (Categorical) piyi yilnpi 交叉熵 (Cross Entropy)

Probability Density Function

定义与性质 (Definition & Properties)

对于一个连续型随机变量 X,其 Probability Density Function (PDF) 通常记为 f(x)p(x)。它必须满足以下两个基本条件:

PDF 与概率的关系 (Relation to Probability)

PDF 的函数值 f(x) 本身不是概率(它可以大于 1)。概率是通过对 PDF 进行积分来计算的。

Cumulative Distribution Function (CDF) 定义为 FX(x)=P(Xx)。PDF 和 CDF 通过微积分相互转换:

常见的 PDF 例子 (Common Examples)

课程中详细介绍了以下几种分布的 PDF:

变量变换 (Change of Variables)

这是课程中的一个难点。如果随机变量 Y=U(X),且 U 是可逆函数,我们如何求 Y 的 PDF?