当前位置：首页 > news >正文

EM求解的高斯混合模型——Q函数的极大似然估计（八）

news 2025/7/7 18:13:19

先导：EM求解的混合密度模型——Q函数

$p(\boldsymbol{x} \mid \boldsymbol {\theta}_k) \rightarrow {N}(\boldsymbol{x} \mid \boldsymbol{\mu_k}, \boldsymbol{\Sigma}_k)$

由上述推导即可获得高斯混合模型的 EM 算法：在每步迭代中，先根据当前参数来计算每个样本属于每个高斯成分的后验概率 $\gamma_{ji}$ （E步），再更新模型参数 $\{(\pi_i, \mu_i, \Sigma_i) \mid 1 \leq i \leq k\}$ （M步）。

E步：
$\gamma_k^{(t)}({\bm x}_i) = \frac{\pi_k^{(t)} N({\bm x}_i \mid {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)})}{\sum\limits_{k=1}^K \pi_k^{(t)} N({\bm x}_i \mid {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)})}$

可以发现，根据离散随机变量期望的定义，替换后的式子事实上是在对原先的对数似然函数计算期望（Q函数）：

$Q(\theta \mid X, \theta^{(t)}) = \sum\limits_{j=1}^{n} \sum\limits_{k=1}^{K} \gamma(z_{jk}) \left( \ln \pi_k + \ln N_k(\bm{x}_j \mid {\bm \mu}_k, {\bm \varSigma}_k) \right)$

其中， $\theta^{(t)}$ 是当前的模型参数。根据式 (10)，上式中的 $\gamma(z_{jk})$ 可以根据当前的模型参数计算出来，不涉及隐变量。

由于高斯混合模型是概率模型，无法肯定地指出某个样本属于某个聚类，因此，将隐变量 $z_{ik}$ 替换为上文所介绍的责任 $\gamma(z_{ik}) = {P}(z_{ik} = 1) = {P}(z_k = 1 | \bm{x}_i)$ ，即样本 $\bm{x}_i$ 属于第 $k$ 个聚类的概率，这相当于一个软版本的二元隐变量。

其代入式 (18)，回顾 $\theta = \{ \pi_k, {\bm \mu}_k, {\bm \varSigma}_k \}_{i=1}^{K}$ ，得到

$Q(\{ \pi_k, {\bm \mu}_k, {\bm \varSigma}_k \}_{i=1}^{K}, \{ \pi_k^{(t)}, {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)} \}_{i=1}^{K}) \\= \sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K} \gamma_k^{(t)}({\bm x}_i) \ln (\pi_k N_k(\bm{x}_j \mid {\bm \mu}_k, {\bm \varSigma}_k)) \tag{20}$

有了式 (19) 的期望对数似然函数，可以对其最大化，从而得到对模型参数的当前最优估计。

为了获得观测数据的聚类隶属度，需要找到一组参数 $\{ \pi_k, {\bm \mu}_k, {\bm \varSigma}_k \}_{i=1}^{K}$ 的估计。

M 步：

$\{ \pi_k^{(t+1)}, {\bm \mu}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)} \}_{i=1}^{K} \\= \arg \max_{\{ \pi_k, {\bm \mu}_k, {\bm \varSigma}_k \}_{i=1}^{K}} Q(\{ \pi_k, {\bm \mu}_k, {\bm \varSigma}_k \}_{i=1}^{K}, \{ \pi_k^{(t)}, {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)} \}_{i=1}^{K}) \tag{21}$

这个最大化是比较直接的。通过对 ${\bm \mu}_k$ 和 ${\bm \varSigma}_k^{-1}$ 微分，有：

$\frac{\partial Q(\theta\mid X, \theta^{(t)})}{\partial {\bm \mu}_k} = \sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i) {\bm \varSigma}_k^{-1} ({\bm x}_i - {\bm \mu}_k) = 0$

$\frac{\partial Q(\theta\mid X, \theta^{(t)})}{\partial {\bm \varSigma}_k^{-1}} = -\frac{1}{2} \sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i) ({\bm \varSigma}_k - ({\bm x}_i - {\bm \mu}_k)({\bm x}_i - {\bm \mu}_k)^\top) = 0 \tag{22}$

其中 $\cdots, K$ ，解出方程组：

${\bm \mu}_k^{(t+1)} = \frac{\sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i) {\bm x}_i}{\sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i)}$

${\bm \varSigma}_k^{(t+1)} = \frac{\sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i) ({\bm x}_i - \hat{\mu}_k^{(t+1)}) ({\bm x}_i - \hat{\mu}_k^{(t+1)})^\top}{\sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i)} \tag{23}$

其中 $\cdots, K$ ，可以证明这个驻点确实是一个极大值点。

至于 $\pi_k$ 的最大化，为约束 $\sum\limits_{k=1}^{K} \pi_k = 1$ ，引入拉格朗日乘子 $\lambda$ 从而寻找 $Q(\theta\mid X, \theta^{(t)}) + \lambda (\sum\limits_{k=1}^{K} \pi_k - 1)$ 的一个驻点。对 $\pi_k$ 微分得到：

$\frac{\partial Q(\theta\mid X, \theta^{(t)})}{\partial \pi_k} = \sum\limits_{i=1}^{n} \frac{\gamma_k^{(t)}({\bm x}_i)}{\pi_k} + \lambda = 0 \tag{24}$

其中 $\cdots, K$ ，把这 K 个方程的两边都乘以 $\pi_k$ （假设所有的 $\pi_k$ 都不为零），然后把它们相加得到：

$\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K} \gamma_k^{(t)}({\bm x}_i) + \lambda \sum\limits_{k=1}^{K} \pi_k = 0$

由于 $\sum\limits_{k=1}^{K} \gamma_k^{(t)}({\bm x}_i)$ 和 $\sum\limits_{k=1}^{K} \pi_k$ 都等于 1，有
$\lambda = -n \tag{25}$

把 $\lambda = -n$ 代入到式 (24)，解方程得到

$\pi_k^{(t+1)} = \frac{1}{n} \sum\limits_{i=1}^{n} \gamma_k^{(t)}({\bm x}_i) \tag{26}$

其中 $\cdots, K$ 。这个过程一直重复，直到对数似然 $L(\theta)$ 没有显著变化。此时，如果需要，可以进行聚类分配，方法是将点 ${\bm x}_i$ 分配给拥有最大组成员隶属度的组 $k$ 。注意，可以进行其他的硬聚类分配。例如，该算法可能拒绝为点分配任何组，除非最大的组隶属度超过预先指定的阈值。

整个 EM 过程总结如下。

算法使用EM和高斯混合模型聚类

初始化 $K$ ， $\tau > 0$ ， $\{\pi_k^{(0)}, {\bm \mu}_k^{(0)}, {\bm \varSigma}_k^{(0)}\}_{k=1}^K$
repeat
E步：更新组成员
$\gamma_k^{(t)}({\bm x}_i) = \frac{\pi_k^{(t)} N({\bm x}_i \mid {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)})}{\sum\limits_{k=1}^K \pi_k^{(t)} N({\bm x}_i \mid {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)})}$
M步：重新估计模型参数
${\bm \mu}_k^{(t+1)} = \frac{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i) {\bm x}_i}{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)}$ ${\bm \varSigma}_k^{(t+1)} = \frac{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i) ({\bm x}_i - \hat{\mu}_k^{(t+1)}) ({\bm x}_i - \hat{\mu}_k^{(t+1)})^ {\top} }{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)}$ $\pi_k^{(t+1)} = \frac{1}{n} \sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)$
计算对数似然：
$L(\{\pi_k^{(t+1)}, {\bm \mu}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}\}_{k=1}^K) = \sum\limits_{i=1}^n \ln \left( \sum\limits_{k=1}^K \pi_k^{(t+1)} N({\bm x}_i \mid {\bm \mu}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}) \right)$
until $|L(\{\pi_k^{(t+1)}, {\bm \mu}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}\}_{k=1}^K) - L(\{\pi_k^{(t)}, {\bm \mu}_k^{(t)}, {\bm \varSigma}_k^{(t)}\}_{k=1}^K)| < \tau$