当前位置：首页 > news >正文

机器学习2——贝叶斯理论下

news 2025/6/28 13:43:53

高斯分布下的判别函数

我们使用高斯分布建模每个类别的特征分布。高斯分布不仅仅是由“均值”控制位置，还由“协方差矩阵”控制形状和方向。

对于类别 $\omega_i$ ，我们假设：

$P\left(\mathbf{x} \mid \omega_i\right)=\mathcal{N}\left(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i\right)$

其中 $\boldsymbol{\Sigma}_i$ 表示该类别在每个维度上的扩展程度（方差），以及不同维度间的相关性（协方差）
- 以二维高斯分布为例：
  - 假定类别 i 的协方差矩阵是单位阵的倍数，即 $\boldsymbol{\Sigma}_i=\sigma^2 \mathbf{I}$ ，类别的“等密度线”（投影到平面）是正圆；
  - 假定类别 i 的协方差矩阵不是单位阵的倍数，也就是说特征之间并非完全独立，类别的“等密度线”（投影到平面）是椭圆。
  - 协方差大的方向上分布更“扁”或“宽”，小的方向上分布更“紧”或“尖”。例如：
    - $\boldsymbol{\Sigma}_1=I$ ，则类 1 是一个标准圆形分布
    - $\boldsymbol{\Sigma}_2=\left[\begin{array}{cc}5 & 0 \\ 0 & 0.2\end{array}\right]$ ，则类 2 是一个长条形，沿 $x$ －轴方向很宽，沿 $y$ －轴方向很窄
我们选择后验概率较大的类别，所以判别函数：
$\begin{aligned} & g_i(\mathbf{x})=P\left(\omega_i \mid \mathbf{x}\right) \quad(1 \leq i \leq c) \\ & \text{取对数形式：} \\ & g_i(\mathbf{x})=\ln P\left(\omega_i \mid \mathbf{x}\right) \\ & \text{带入贝叶斯公式：} \\ & g_i(\mathbf{x})=\ln P\left(\mathbf{x} \mid \omega_0\right)+\ln P(\omega) \end{aligned}$

假设 $P\left(\mathbf{x} \mid \omega_i\right)$ 服从多元高斯分布：

$p\left(\mathbf{x} \mid \omega_i\right)=\frac{1}{(2 \pi)^{d / 2}\left|\Sigma_i\right|^{1 / 2}} \exp \left[-\frac{1}{2}\left(\mathbf{x}-\mu_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\mu_i\right)\right]$
- $d$ ：特征维度； $\mu_i$ ：均值向量。
- $\Sigma_i:$ 第i类类别的协方差矩阵，对于特征i，j: $\Sigma_{i j}=\operatorname{Cov}\left(X_i, X_j\right)=\mathbb{E}\left[\left(X_i-\mu_i\right)\left(X_j-\mu_j\right)\right]$
  - 对角线元素是变量的方差： $\Sigma_{i i}=\operatorname{Var}\left(X_i\right)=\mathbb{E}\left[\left(X_i-\mu_i\right)^2\right]$
  - 非对角线元素 $\Sigma_{i j}$ 表示 $X_i$ 和 $X_j$ 的协方差，反映了它们之间的线性关系：
    － $\Sigma_{i j}>0$ ：正相关（一个变量增加，另一个变量也倾向于增加）。
    － $\Sigma_{i j}<0$ ：负相关（一个变量增加，另一个变量倾向于减少）。
    － $\Sigma_{i j}=0$ ：线性无关一量之间没有线性关系）。
  - 注意，这里的X不是问题中的样本，而是样本的不同维的特征。
最终判别函数：
$g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\mu_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\mu_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right)$
- Case 1：设协方差矩阵为 $\boldsymbol{\Sigma}_i=\sigma^2 \mathbf{I}$
  
  即协方差为0，各个特征间完全独立
  
  此时其逆矩阵和行列式分别为：
  $\boldsymbol{\Sigma}_i^{-1} = \frac{1}{\sigma^2} \mathbf{I}, \quad |\boldsymbol{\Sigma}_i| = \sigma^{2d}$
  带入判别函数：
  $g_i(\mathbf{x}) = -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_i)^T \frac{1}{\sigma^2} \mathbf{I} (\mathbf{x} - \boldsymbol{\mu}_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln \sigma^{2d} + \ln P(\omega_i)$
  忽略与 $\mathbf{x}$ 无关的项（因为分类时无关项不会影响比较）：
  $g_i(\mathbf{x}) = \frac{1}{\sigma^2} \boldsymbol{\mu}_i^T \mathbf{x} + \left[-\frac{1}{2\sigma^2} \boldsymbol{\mu}_i^T \boldsymbol{\mu}_i + \ln P(\omega_i)\right]$
  我们可以看出，它是一个线性判别函数：
  $g_i(\mathbf{x}) = \mathbf{w}_i^T \mathbf{x} + w_{i0}$
  其中：
  $\mathbf{w}_i = \frac{1}{\sigma^2} \boldsymbol{\mu}_i, \quad w_{i0} = -\frac{1}{2\sigma^2} \boldsymbol{\mu}_i^T \boldsymbol{\mu}_i + \ln P(\omega_i)$
  设 $\mathbf{x}$ 的分类由判别函数决定，分类决策面由：
  $g_i(\mathbf{x}) = g_j(\mathbf{x})$
  即：
  $\mathbf{w}_i^T \mathbf{x} + w_{i0} = \mathbf{w}_j^T \mathbf{x} + w_{j0}$
  代入 $\mathbf{w}_i, w_{i0}$ ：
  $\left(\frac{1}{\sigma^2} \boldsymbol{\mu}_i - \frac{1}{\sigma^2} \boldsymbol{\mu}_j\right)^T \mathbf{x} = -\frac{1}{2\sigma^2} (\boldsymbol{\mu}_i^T \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \boldsymbol{\mu}_j) + \ln \frac{P(\omega_i)}{P(\omega_j)}$
  
  决策边界的几何解释
  
  我们可以写成：
  $\mathbf{w}^T (\mathbf{x} - \mathbf{x}_0) = 0$
  - 其中：
    $\mathbf{w} = \boldsymbol{\mu}_i - \boldsymbol{\mu}_j$
    
    $\mathbf{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\sigma^2}{\left\|\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right\|^2} \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)$
    - 如果 $P(\omega_i) = P(\omega_j)$ ，边界是两个均值的中垂线。
    - 如果 $P(\omega_i) > P(\omega_j)$ ，边界会向较小概率的类别方向偏移。
  最小距离分类器
  
  当 $P(\omega_1) = P(\omega_2)$ 时，决策边界为：
  $(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)^T \mathbf{x} = \frac{1}{2} (\boldsymbol{\mu}_i^T \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \boldsymbol{\mu}_j)$
  它等价于：
  $\|\mathbf{x} - \boldsymbol{\mu}_i\|^2 = \|\mathbf{x} - \boldsymbol{\mu}_j\|^2$
  即，样本归属于距离较近的类别，因此该方法也称为最小距离分类器（Minimum Distance Classifier）。
- Case 2: 协方差矩阵相同 ( $\Sigma_i = \Sigma$ ) 的情形
  
  假设所有类别的协方差矩阵相同，那么贝叶斯分类器的判别函数变为：
  $g_i(\mathbf{x}) = -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_i)^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln |\Sigma| + \ln P(\omega_i)$
  其中：
  - $\boldsymbol{\mu}_i$ 是类别 $i$ 的均值向量，
  - $\Sigma$ 是共享的协方差矩阵，
  - $d$ 是数据的维度。
  展开：
  $g_i(\mathbf{x}) = -\frac{1}{2} \mathbf{x}^T \Sigma^{-1} \mathbf{x} + \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln |\Sigma|$
  其中 $-\frac{1}{2} \mathbf{x}^T \Sigma^{-1} \mathbf{x}$ 对所有类别都一样，不影响比大小，可以省略；
  
  再忽略常数项：
  $g_i(\mathbf{x}) = \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i)$
  为了找到决策边界，我们需要使得 $g_i(\mathbf{x}) = g_j(\mathbf{x})$ ，即：
  $\mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i) = \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_j - \frac{1}{2} \boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j + \ln P(\omega_j)$
  整理得：
  $(\mathbf{x}^T \Sigma^{-1}) (\boldsymbol{\mu}_i - \boldsymbol{\mu}_j) = \frac{1}{2} \left( \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j \right) + \ln \frac{P(\omega_i)}{P(\omega_j)}$
  我们可以写成：
  $\mathbf{w}^T (\mathbf{x} - \mathbf{x}_0) = 0$
  - 其中：
    $\mathbf{w} = \Sigma^{-1}(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)$
    
    $\mathbf{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\ln \left[P\left(\omega_i\right) / P\left(\omega_j\right)\right]}{\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \Sigma^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)$
  由于我们有相同的协方差矩阵，判别边界是一个超平面（在二维空间中是直线），其法向量由 $\Sigma^{-1} (\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)$ 给出。这个超平面穿过 $\frac{1}{2} (\boldsymbol{\mu}_i + \boldsymbol{\mu}_j)$ （两类均值的中点），并且偏移量由先验概率差和均值的距离决定。
- Case 3: $\Sigma_i \ne \Sigma_j$ —— 一般的贝叶斯分类器
  
  从 $g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right)$
  
  将其展开整理得到：
  $\begin{aligned} g_i(\mathbf{x})= & -\frac{1}{2} \mathbf{x}^T \Sigma_i^{-1} \mathbf{x}+\boldsymbol{\mu}_i^T \Sigma_i^{-1} \mathbf{x}-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i \\ & -\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) \end{aligned}$
  这个式子可以重新写成：
  
  $g_i(\mathbf{x})=\mathbf{x}^T \mathbf{W}_i \mathbf{x}+\mathbf{w}_i^T \mathbf{x}+w_{i 0}$
  
  其中：
  - $\mathbf{W}_i=-\frac{1}{2} \Sigma_i^{-1}$ 是一个对称矩阵
  - $\mathbf{w}_i=\Sigma_i^{-1} \boldsymbol{\mu}_i $
  - $w_{i 0}=-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right)$
- 三种情况的决策边界分析：
  - case1：
    
    判别函数：
    $g_i(\mathbf{x})=\mathbf{w}_i^T \mathbf{x}+w_{i 0}, \quad \mathbf{w}_i=\frac{1}{\sigma^2} \boldsymbol{\mu}_i$
    决策边界方程：
    $\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \mathbf{x}=\frac{1}{2}\left(\left\|\boldsymbol{\mu}_i\right\|^2-\left\|\boldsymbol{\mu}_j\right\|^2\right)+\sigma^2 \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}$
    几何解释：
    - 这是一个线性方程，决策边界是超平面（在二维空间中是直线）。
    - 如果先验概率相等 $\left(P\left(\omega_i\right)=P\left(\omega_j\right)\right)$ ，边界是两类均值连线的垂直平分线。
    - 如果先验不等，边界会向较小概率的类别方向偏移。
  - case2：
    
    判别函数：
    $g_i(\mathbf{x})=\mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i+\ln P\left(\omega_i\right)$
    决策边界方程：
    $\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \Sigma^{-1} \mathbf{x}=\frac{1}{2}\left(\boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i-\boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j\right)+\ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}$
    几何解释：
    - 仍然是一个线性方程，决策边界是超平面（在二维空间中是直线）。
    - 但边界的法向量由 $\Sigma^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)$ 决定，而不再是简单的 $\boldsymbol{\mu}_i-\boldsymbol{\mu}_j$ 。
    - 如果 $\Sigma$ 不是对角矩阵，决策边界会旋转，不再垂直于均值连线。
  - case3：
    判别函数：
    $g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right)$
    决策边界方程：
    $-\frac{1}{2} \mathbf{x}^T\left(\Sigma_i^{-1}-\Sigma_j^{-1}\right) \mathbf{x}+\mathbf{x}^T\left(\Sigma_i^{-1} \boldsymbol{\mu}_i-\Sigma_j^{-1} \boldsymbol{\mu}_j\right)+C=0 \\ \text{常数项}C=-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i+\frac{1}{2} \boldsymbol{\mu}_j^T \Sigma_j^{-1} \boldsymbol{\mu}_j-\frac{1}{2} \ln \frac{\left|\Sigma_i\right|}{\left|\Sigma_j\right|}+\ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}$
    几何解释：
    - 决策边界是二次曲面（在二维空间中为圆锥曲线：椭圆、双曲线或抛物线）。
    - 弯曲程度由 $\Sigma_i$ 和 $\Sigma_j$ 的差异决定,（如一个为水平椭圆，另一个为垂直椭圆），边界会明显弯曲。
    - $\ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}$ 控制边界的偏移，向小概率类方向移动。