当前位置：首页 > news >正文

机器学习3——参数估计之极大似然估计

news 2025/6/28 18:36:10

参数估计

问题背景：

$\begin{aligned} & P\left(\omega_i \mid \mathbf{x}\right)=\frac{p\left(\mathbf{x} \mid \omega_i\right) P\left(\omega_i\right)}{p(\mathbf{x})} \\ & p(\mathbf{x})=\sum_{j=1}^c p\left(\mathbf{x} \mid \omega_j\right) P\left(\omega_j\right) \end{aligned}$

说明：要计算后验概率 $P\left(\omega_i \mid \mathbf{x}\right)$ ，需要知道：
$p\left(\mathbf{x} \mid \omega_i\right)$ ：类条件概率密度函数（似然）。
$P\left(\omega_i\right)$ ：类别 $\omega_i$ 的先验概率。

**如何得到这些值？需要从数据中估计。**对于先验概率：

数据集：

$D=\left\{D_1, D_2, \ldots, D_c\right\}$

$D_j \text { 包含类别 } \omega_j \text { 的样本。 }$
先验概率：
$P\left(\omega_i\right)=\frac{\left|D_i\right|}{\sum_{i=1}^c\left|D_i\right|}$

接下来的问题是如何估计类条件概率密度。本章将讨论的情况是， $p\left(\mathbf{x} \mid \omega_j\right)$ 具有参数化形式，例如高斯分布：
$\begin{gathered} p\left(\mathbf{x} \mid \omega_j\right) \sim \mathcal{N}\left(\mu_j, \Sigma_j\right) \\ \theta_j=\left(\theta_1, \theta_2, \ldots, \theta_m\right)^T \end{gathered}$

如果 $\mathbf{x} \in \mathbb{R}^d$ ，则 $\theta_j$ 包含 $d+\frac{d(d+1)}{2}$ 个自由参数（均值向量和协方差矩阵的元素）。
$\mu_j$ ：均值向量，维度为 $d_{\text {。 }}$
$\Sigma_j$ ：协方差矩阵，对称矩阵，包含 $\frac{d(d+1)}{2}$ 个唯一元素（因为 $\Sigma_{i j}=\Sigma_{j i}$ ）。
总参数数量： $d$ （均值） $+\frac{d(d+1)}{2}$ （协方差） $=d+\frac{d(d+1)}{2}$ 。
$\theta_j$ ：包含所有待估计参数的向量，例如均值和协方差的元素。

数据集与符号：

$\begin{aligned} & \mathcal{D}=\left\{\mathcal{D}_1, \mathcal{D}_2, \ldots, \mathcal{D}_c\right\} \\ & p\left(\mathbf{x} \mid \omega_j\right)=p\left(\mathbf{x} \mid \theta_j\right) \end{aligned}$

类条件密度 $p\left(\mathbf{x} \mid \omega_j\right)$ 被表示为参数 $\theta_j$ 的函数，强化了参数化方法。

目标：使用 $\mathcal{D}_j$ 估计未知参数向量：
$\theta_j=\left(\theta_1, \theta_2, \ldots, \theta_m\right)^T$

两种估计方法：
- 最大似然估计（MLE）：
  - 把参数 $\theta$ 看作是固定但未知的值。我们观察到了数据，就用它来找出＂最有可能＂生成这些数据的参数值。即“Estimate parameter values by maximizing the likelihood (probability) of observing the actual examples.”
    ＂先有参数，再有数据；现在有了数据，反推参数。＂
  - 给定训练数据 $\mathcal{D}=\left\{x_1, \ldots, x_n\right\}$ ，我们假设它们是从分布 $\mid \theta)$ 中独立采样出来的。最大似然的目标是：
    
    $\hat{\theta}_{\mathrm{MLE}}=\arg \max _\theta p\left(x_1, \ldots, x_n \mid \theta\right)=\arg \max _\theta \prod_{i=1}^n p\left(x_i \mid \theta\right)$
    为了简化计算，我们通常取对数（log－likelihood）：
    $\hat{\theta}_{\mathrm{MLE}}=\arg \max _\theta \sum_{i=1}^n \log p\left(x_i \mid \theta\right)$
- 贝叶斯估计：
  - 把参数 $\theta$ 看作随机变量，它本身有个先验分布 $p(\theta)$ 。当我们观察到数据 $\mathcal{D}$ 后，用贝叶斯公式将先验更新为后验 $p(\theta \mid \mathcal{D})$ 。
    ＂参数不是一个确定值，而是一个不确定的分布。看到数据后，我只是更新了我对它的信念。＂
  - 根据贝叶斯公式：
    
    $p(\theta \mid \mathcal{D})=\frac{p(\mathcal{D} \mid \theta) \cdot p(\theta)}{p(\mathcal{D})}$
    其中：
    - $p(\mathcal{D} \mid \theta)$ ：似然（和MLE一样）；
    - $p(\theta)$ ：先验；
    - $p(\mathcal{D})$ ：对所有参数的积分（保证后验是个合法分布）；
    有了后验分布 $p(\theta \mid \mathcal{D})$ 后，可以：
    - 求它的最大后验估计（MAP）：
    $\hat{\theta}_{\mathrm{MAP}}=\arg \max _\theta p(\theta \mid \mathcal{D})$
    - 或者使用后验分布的期望作为估计。

最大似然估计

以多元高斯分布为例讲解MLE的应用。

假设我们有一个观测数据集：

$\mathcal{D}=\left\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\right\}$

这些样本被认为是从某个参数为 $\theta$ 的概率分布中独立同分布采样得到的。
因为样本独立，整个数据集出现的联合概率是各样本概率的乘积：
$p(\mathcal{D} \mid \theta)=p\left(\mathbf{x}_1 \mid \theta\right) p\left(\mathbf{x}_2 \mid \theta\right) \ldots p\left(\mathbf{x}_n \mid \theta\right)\prod_{k=1}^n p\left(\mathbf{x}_k \mid \theta\right)$

我们把这个函数看作 $\theta$ 的函数，叫做似然函数，记作：

$L(\theta \mid \mathcal{D})=\prod_{k=1}^n p\left(\mathbf{x}_k \mid \theta\right)$
最大似然估计就是选择一个 $\hat{\theta}$ 使得这个似然函数最大化：
$\hat{\theta}=\arg \max _\theta L(\theta \mid \mathcal{D})$

也就是说，找到让观测数据“最可能”出现的参数值。我们对其取自然对数，得到对数似然函数：

$l(\theta \mid \mathcal{D})=\ln L(\theta \mid \mathcal{D})=\sum_{k=1}^n \ln p\left(\mathbf{x}_k \mid \theta\right)$
MLE目标转化为：

$\hat{\theta}=\arg \max _\theta l(\theta \mid \mathcal{D})$

情况 I：协方差 $\Sigma$ 已知，仅估计均值 $\mu$

高斯概率密度函数（PDF）：

对于一个 $d$ 维特征向量 $\mathbf{x}$ ：
$p(\mathbf{x} \mid \mu, \Sigma) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \exp \left[ -\frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu) \right]$

似然函数（所有样本联合概率）：
$L(\mu \mid \mathcal{D}) = \prod_{k=1}^n p(\mathbf{x}_k \mid \mu)$

代入高斯密度函数后，乘积项包含了指数和常数项。

对数似然函数：

取自然对数后得：
$l(\mu \mid \mathcal{D}) = -\ln (2\pi)^{nd/2} - \ln |\Sigma|^{n/2} - \frac{1}{2} \sum_{k=1}^n (\mathbf{x}_k - \mu)^T \Sigma^{-1} (\mathbf{x}_k - \mu)$
前两个是常数项，不影响优化，目标函数实质上是最小化平方误差项。

MLE求解过程（以 $\mu$ 为例）

我们对对数似然函数对 $\mu$ 求导，并令其为零：
$\nabla_\mu l(\mu \mid \mathcal{D}) = \sum_{k=1}^n \Sigma^{-1} (\mathbf{x}_k - \mu) = 0$
移项得到：
$\sum_{k=1}^n (\mathbf{x}_k - \mu) = 0 \quad \Rightarrow \quad \mu = \frac{1}{n} \sum_{k=1}^n \mathbf{x}_k$

结论：

最大似然估计下，未知均值 $\mu$ 的估计值就是样本均值（Sample Mean）。
情况 II：均值和方差都未知

我们现在假设数据是从一个一维高斯分布（正态分布）中采样的：
$\mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$
但此时我们不知道这个分布的均值 μ 和方差 σ²，我们要用样本数据 $\mathcal{D} = \{x_1, x_2, \dots, x_n\}$ 来估计这两个参数。

我们的方法是：对参数 $\theta = (\mu, \sigma^2)^T$ 使用极大似然估计（MLE）。

我们有 n 个独立同分布的样本 $x_1, x_2, \dots, x_n$ ，所以似然函数是：
$L(\theta \mid \mathcal{D}) = \prod_{k=1}^n p(x_k \mid \theta)$
代入高斯分布的公式，得到：
$L(\theta \mid \mathcal{D}) = \frac{1}{(2\pi)^{n/2} \sigma^n} \exp\left( -\frac{1}{2\sigma^2} \sum_{k=1}^n (x_k - \mu)^2 \right)$
对数似然函数是：
$l(\theta \mid \mathcal{D}) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{k=1}^n (x_k - \mu)^2$
这里为了后续方便我们记：
- $\theta_1 = \mu$
- $\theta_2 = \sigma^2$
写成统一的形式：
$l(\theta) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\theta_2) - \frac{1}{2\theta_2} \sum_{k=1}^n (x_k - \theta_1)^2$
我们对 $\theta_1 = \mu$ 和 $\theta_2 = \sigma^2$ 分别求导：

对 $\theta_1 = \mu$ 求导：
$\frac{\partial l}{\partial \theta_1} = \frac{1}{\theta_2} \sum_{k=1}^n (x_k - \theta_1) = \frac{1}{\theta_2} \left( \sum_{k=1}^n x_k - n\theta_1 \right)$

令导数为 0：
$\sum_{k=1}^n x_k = n\theta_1 \Rightarrow \theta_1 = \frac{1}{n} \sum_{k=1}^n x_k = \hat{\mu}$
对 $\theta_2 = \sigma^2$ 求导：
$\frac{\partial l}{\partial \theta_2} = -\frac{n}{2\theta_2} + \frac{1}{2\theta_2^2} \sum_{k=1}^n (x_k - \theta_1)^2$

令导数为 0：
$-\frac{n}{2\theta_2} + \frac{1}{2\theta_2^2} \sum_{k=1}^n (x_k - \theta_1)^2 = 0$
结论：极大似然估计值
- 均值的MLE为样本均值：
  $\hat{\mu} = \frac{1}{n} \sum_{k=1}^n x_k$
- 方差的MLE为样本方差（无偏性需除以 $n - 1$ ，但MLE 是除以 n）：
  $\hat{\sigma}^2 = \frac{1}{n} \sum_{k=1}^n (x_k - \hat{\mu})^2$
方差的估计偏差是一个经典的证明。

MLE 对一维正态分布的方差估计为：
$\sigma^2_{ML} = \frac{1}{n} \sum_{i=1}^n (x_i - \mu_{ML})^2$
将平方项展开：
$\frac{1}{n} \sum_{i=1}^n \left( x_i^2 - 2x_i\mu_{ML} + \mu_{ML}^2 \right) = \frac{1}{n} \sum_{i=1}^n x_i^2 - 2\mu_{ML} \cdot \frac{1}{n} \sum_{i=1}^n x_i + \mu_{ML}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 - \mu_{ML}^2$
求期望：
$E[\sigma^2_{ML}] = \frac{1}{n} \sum_{i=1}^n E[x_i^2] - E[\mu_{ML}^2]$
已知：
$E[x_i^2] = \text{Var}(x_i) + [E(x_i)]^2 = \sigma^2 + \mu^2$
而样本均值的平方的期望为：
$E[\mu_{ML}^2] = \text{Var}(\mu_{ML}) + [E(\mu_{ML})]^2 = \frac{\sigma^2}{n} + \mu^2$
代入得：
$E[\sigma^2_{ML}] = (\sigma^2 + \mu^2) - \left( \frac{\sigma^2}{n} + \mu^2 \right) = \sigma^2 - \frac{\sigma^2}{n} = \frac{n-1}{n} \sigma^2$
结论： 方差的最大似然估计存在偏差，其期望为 $\frac{n-1}{n} \sigma^2$ ，因此也是一个有偏估计。类似前页的协方差，需要进行修正才能成为无偏估计。