当前位置：首页 > news >正文

【硬核数学】3. AI如何应对不确定性？概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》

news 2025/6/30 12:41:58

在前两章中，我们已经掌握了如何用向量和矩阵来优雅地表示数据（线性代数），以及如何通过梯度下降等方法让模型学习和优化（微积分）。但这些似乎都建立在一个“确定性”的世界里：数据是给定的，参数只要朝着梯度的反方向更新，就一定能变得更好。

然而，现实世界并非如此。你训练一个猫狗分类器，输入的图片可能因为光照、角度、遮挡而千变万化；你构建一个语言模型，对于“今天天气真好，我们去…”这句话，后续的可能性有无数种。这些都属于“不确定性”的范畴。AI如果不能理解和处理不确定性，就只能是一个脆弱的、只能处理理想情况的“玩具”。

概率统计，正是数学中用于描述、量化和推理不确定性的语言和工具。它构成了从经典机器学习（如朴素贝叶斯分类器）到现代深度学习（如生成模型、LLM中的文本生成）的理论核心。今天，我们将一起揭开它的面纱，看看它是如何为AI注入“灵魂”的。

第一部分：描述不确定性 —— 概率分布与核心统计量

在AI的世界里，我们遇到的几乎所有数据都可以看作是某个随机过程的结果。一张图片中的像素值、一段语音的声波信号、一个用户的点击行为，都带有随机性。为了对这些数据建模，我们首先需要一种数学语言来描述这种不确定性。

随机变量：将不确定事件数值化

我们首先要引入一个核心概念：随机变量 (Random Variable)。

不要被“变量”这个词迷惑，它和我们初中代数里的 $x, y$ 不太一样。随机变量更像一个“函数”或“映射”，它将一个随机事件的每一个可能的结果，映射到一个数值。这么做的好处是，我们可以用数学工具（比如函数、微积分）来分析原本可能是非数值性的、随机的事件。

随机变量通常用大写字母表示，如 $X, Y$ 。它们分为两类：

离散随机变量 (Discrete Random Variable)：它的可能取值是有限的或可数的。比如，抛一次硬币的结果 $X$ ，可以取值为 {0 (反面), 1 (正面)}；掷一个骰子的点数 $Y$ ，可以取值为 {1, 2, 3, 4, 5, 6}。
连续随机变量 (Continuous Random Variable)：它的可能取值是连续的、不可数的。比如，一个成年男性的身高 $H$ ，理论上可以取 [1.50m, 2.20m] 区间内的任何一个实数值；一个城市明天的气温 $T$ ，可以取 [-10.0°C, 40.0°C] 区间内的任何值。

在AI中，我们无时无刻不在与随机变量打交道。一个模型的预测类别（是猫还是狗？）、一个句子中的某个词、一张图片中某个像素的灰度值，都可以被看作是随机变量。

概率分布：不确定性的“画像”

知道了随机变量可以将事件数值化，下一个问题是：这些数值出现的可能性有多大？这就引出了概率分布 (Probability Distribution) 的概念。

概率分布就像是给一个随机变量画了一张“画像”，它完整地描述了这个随机变量所有可能取值的概率情况。

对于离散随机变量，我们用概率质量函数 (Probability Mass Function, PMF) 来描述其分布。PMF直接给出了每个离散值的概率。我们通常用 $P (X = x)$ 来表示。例如，对于一个公平的骰子，其PMF就是：
$\dots = P(X=6) = \frac{1}{6}$

对于连续随机变量，情况稍微复杂一些。因为它的取值是无限多的，任何单个精确值的概率都是0（比如，身高正好是1.7500000…米的概率是0）。因此，我们不谈论单点的概率，而是谈论一个值落在某个区间内的概率。我们使用概率密度函数 (Probability Density Function, PDF)，通常用 $p (x)$ 或 $f (x)$ 表示。

PDF本身的值不是概率，但它曲线下的面积是概率。一个值落在区间 $[a, b]$ 内的概率就是PDF曲线在 $[a, b]$ 上的积分：
$\le X \le b) = \int_a^b p(x) dx$
PDF的值越高，意味着随机变量的取值落在该点附近的概率密度越大。

在这里插入图片描述

在AI领域，最著名的连续分布莫过于正态分布 (Normal Distribution)，也叫高斯分布。它的钟形曲线无处不在。为什么它如此重要？中心极限定理告诉我们，大量独立的随机变量之和，其分布会趋向于正态分布。在AI中，我们经常假设模型的误差、或者某些特征的分布服从正态分布，这极大地简化了模型的数学处理。

期望与方差：抓住分布的“重心”与“胖瘦”

一个完整的概率分布信息量很大，我们希望能有几个简单的数字来概括它的核心特点。最重要的两个统计量就是期望和方差。

期望 (Expectation, $E [X]$ )
期望是一个随机变量所有可能取值的“加权平均值”，权重就是每个值对应的概率。它反映了随机变量取值的中心趋势或“重心”所在。通俗地讲，就是大量重复试验后，我们期望得到的平均结果。

对于离散随机变量 $X$ ，其期望计算公式为：
$\sum_i x_i P(X=x_i)$
比如，掷一个公平骰子的期望点数是： $\times \frac{1}{6} + 2 \times \frac{1}{6} + \dots + 6 \times \frac{1}{6} = 3.5$ 。注意，期望值不一定是随机变量的一个可能取值。

对于连续随机变量 $X$ ，其期望计算公式为：
$\int_{-\infty}^{\infty} x \cdot p(x) dx$
方差 (Variance, $Va r (X)$ )
如果我们只知道期望，是远远不够的。两个分布可能期望相同，但一个非常集中，另一个非常分散。方差就是用来度量随机变量取值分散程度或“波动性”的指标。

方差的定义是“随机变量与其期望值之差的平方的期望”，听起来有点绕，看公式就清晰了：
$Var(X) = E[(X - E[X])^2]$
方差越大，说明数据点越分散，分布曲线越“胖”；方差越小，说明数据点越集中，分布曲线越“瘦”。方差的平方根，即标准差 (Standard Deviation, $\sigma$ )，也常被使用，因为它和随机变量本身具有相同的量纲。

在这里插入图片描述

(这张图会展示两条正态分布曲线，它们的中心位置（期望）相同，但一条又高又瘦（小方差），另一条又矮又胖（大方差）。)

在AI中，期望和方差是评估和理解模型的基础。例如：

模型评估：我们关心模型在测试集上期望的准确率是多少。
风险控制：一个投资组合预测模型，我们不仅关心它的期望回报率，更关心回报率的方差，因为高方差意味着高风险。
不确定性量化：在贝叶斯深度学习中，模型不仅给出一个预测值（可以看作是期望），还会给出一个方差，告诉我们这个预测有多“自信”。方差越大，模型越不确定。

第二部分：推理与决策 —— 条件概率与贝叶斯定理

掌握了描述不确定性的基本工具后，我们进入更激动人心的部分：如何利用已知信息进行推理。这就像侦探破案，根据已有的线索（信息），更新对真相（某个事件的概率）的判断。

条件概率：当信息出现时

条件概率 (Conditional Probability) 是概率论的基石之一。它回答了这样一个问题：“在事件B已经发生的条件下，事件A发生的概率是多少？”。我们记作 $P (A ∣ B)$ ，读作“在B发生的条件下A的概率”。

它的计算公式非常直观：
$\frac{P(A \cap B)}{P(B)}$
其中， $\cap B)$ 是事件A和事件B同时发生的概率， $P (B)$ 是事件B发生的概率。这个公式的直观理解是：当我们知道B已经发生了，我们的“样本空间”（所有可能结果的集合）就从整个宇宙缩小到了只有B。在这个新宇宙里，A要发生，就必须是那个“A和B都发生”的部分。所以我们用 $\cap B)$ 去除以新的基准 $P (B)$ 。

在AI中的应用：序列建模
条件概率是所有序列模型（如语言模型、语音识别）的核心。当我们使用一个LLM生成文本时，它实际上在做一个序列预测任务。比如，给定前文“今天天气很好，我们去”，模型需要预测下一个词。

这本质上是在计算一个巨大的条件概率分布：
$P(\text{下一个词} | \text{“今天天气很好，我们去”})$

模型会计算出“公园”、“散步”、“吃饭”等所有可能词的条件概率，然后根据这些概率来选择下一个词。每一个词的生成，都是基于前面所有已生成词的条件概率计算。所以，你可以把ChatGPT的每一次回答，都看作是一连串条件概率计算的宏伟交响乐。

贝叶斯定理：执果索因的“上帝视角”

如果说条件概率是正向推理，那么贝叶斯定理 (Bayes’ Theorem) 就是逆向推理的利器，它让我们能够“执果索因”。

很多时候，我们容易获得“因”到“果”的概率，比如 $P(\text{症状} | \text{疾病})$ 。医生知道，如果一个人得了某种流感（因），他有90%的概率会发烧（果）。但现实中的问题往往是反过来的：一个病人来到诊所，他发烧了（果），医生需要判断他得了这种流感（因）的概率有多大，即 $P(\text{疾病} | \text{症状})$ 。

贝叶斯定理给了我们一个“翻转”条件概率的公式：
$\frac{P(E|H) \cdot P(H)}{P(E)}$

让我们来解读这个看似简单的公式，它蕴含了深刻的哲学思想：

$P (H ∣ E)$ ：后验概率 (Posterior Probability)。这是我们最终想知道的，即在观察到证据E之后，假设H成立的概率。
$P (E ∣ H)$ ：似然 (Likelihood)。在假设H成立的情况下，观察到证据E的概率。这就是我们前面说的“因”到“果”的概率，通常可以从数据中统计或作为模型的一部分。
$P (H)$ ：先验概率 (Prior Probability)。在没有任何证据之前，我们对假设H成立的原始信念。比如，在没有见到病人前，医生根据季节和流行病学数据，对某人患此流感的概率有一个初始判断。
$P (E)$ ：证据 (Evidence)。观察到证据E的概率，它是一个归一化常数，确保所有可能的假设的后验概率之和为1。它的计算方式是 $\sum_i P(E|H_i)P(H_i)$ 。

贝叶斯定理的伟大之处在于，它提供了一个动态更新信念的框架：
先验信念 + 新证据 → 后验信念

AI应用：朴素贝叶斯分类器 (Naive Bayes Classifier)
这是贝叶斯定理最经典的机器学习应用，尤其在文本分类（如垃圾邮件过滤）中大放异彩。

假设我们要判断一封邮件是否是垃圾邮件。

$H$ 可以是“是垃圾邮件”或“不是垃圾邮件”。
$E$ 是邮件中的词语，比如 “viagra”, “free”, “offer”。

我们的目标是计算 $P(\text{是垃圾邮件} | \text{“viagra”, “free”, ...})$ 和 $P(\text{不是垃圾邮件} | \text{“viagra”, “free”, ...})$ ，然后看哪个概率更大。

根据贝叶斯定理：
$P(\text{是垃圾邮件} | \text{词语}) \propto P(\text{词语} | \text{是垃圾邮件}) \cdot P(\text{是垃圾邮件})$

这里的 $P(\text{是垃圾邮件})$ 是先验概率，我们可以通过统计邮件库中垃圾邮件的比例得到。
关键在于计算似然 $P(\text{词语} | \text{是垃圾邮件})$ 。直接计算所有词语组合的概率是极其困难的。于是，“朴素”的假设登场了：假设所有词语在给定邮件类别（垃圾或非垃圾）的条件下是相互独立的。

这意味着：
$P(\text{“viagra”, “free”} | \text{是垃圾邮件}) \approx P(\text{“viagra”} | \text{是垃圾邮件}) \times P(\text{“free”} | \text{是垃圾邮件})$

这个假设在现实中显然不成立（“free”和“offer”经常一起出现），但它极大地简化了计算，而且在实践中效果惊人地好。我们只需要从大量的已标记邮件中，分别统计每个词在垃圾邮件和非垃圾邮件中出现的频率，就可以构建出整个分类器。

在这里插入图片描述

第三部分：从数据中学习 —— 最大似然估计

我们已经知道如何描述和推理不确定性了。但还有一个至关重要的问题：概率分布本身，以及其中的参数（如正态分布的均值和方差），是从哪里来的？答案是：从数据中学习。

最大似然估计 (Maximum Likelihood Estimation, MLE) 是连接概率论和机器学习模型训练的最重要的桥梁之一。它是一种参数估计方法，其核心思想简单而强大。

什么是“似然”？

首先，我们要区分概率 (Probability) 和似然 (Likelihood)。这两个词在日常生活中经常混用，但在统计学中泾渭分明。

概率：是在参数已知的情况下，对结果的预测。
- 例：给定一枚公平的硬币（参数 $p = 0.5$ ），问抛10次得到7次正面的概率是多少？
似然：是在结果已知的情况下，对参数的推断。
- 例：观测到抛10次硬币得到了7次正面（结果），问硬币的参数 $p$ 是多少的可能性最大？

似然函数通常写作 $L(\theta | \text{data})$ ，它在数值上等于 $P(\text{data} | \theta)$ ，但我们把它看作是参数 $\theta$ 的函数。我们的目标就是找到那个能让似然函数最大的 $\theta$ 。

最大似然估计：让数据“发声”

最大似然估计的原则是：我们已经观测到了一组数据，那么我们就应该选择这样一个参数，它使得我们观测到这组数据的概率（似然）最大。

这背后是一种“谁最像，就选谁”的思想。我们手头的数据，就是对真实世界的一次采样。那么，什么样的概率分布最可能产生出我们手里的这批样本呢？MLE就是要找到那个“最可能”的分布。

让我们用一个经典的例子来理解这个过程：
假设我们有一枚硬币，但不知道它是否公平。我们抛了10次，结果是：“正反正正正反正正正反”（7正3反）。我们想估计这枚硬币抛出正面的概率 $p$ 。

写出似然函数：
假设每次抛硬币是独立同分布的。那么观测到这个特定序列的概率是：
$P(\text{data} | p) = p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) = p^7 (1-p)^3$
这就是我们的似然函数： $\text{data}) = p^7 (1-p)^3$ 。
最大化似然函数：
我们要找到一个 $p$ (在[0, 1]之间)，使得 $L (p)$ 最大。直接对 $L (p)$ 求导比较复杂，一个常用的技巧是取对数，因为对数函数是单调递增的，最大化 $L (p)$ 等价于最大化 $\log L(p)$ 。
对数似然函数 (Log-Likelihood)：
$log L(p) = \log(p^7 (1-p)^3) = 7 \log(p) + 3 \log(1-p)$
求导并令其为0（这不就是我们在微积分中学到的求极值的方法吗！）：
$\frac{d}{dp} \log L(p) = \frac{7}{p} - \frac{3}{1-p} = 0$
解这个方程，我们得到：
$\implies 7 - 7p = 3p \implies 10p = 7 \implies \hat{p} = 0.7$

这个结果 $\hat{p} = 7/10$ 非常符合直觉。MLE给了我们一个坚实的数学框架，来确认这个直觉。

在这里插入图片描述

MLE与机器学习损失函数的深刻联系
这才是MLE真正让我们感到震撼的地方。我们之前学习的很多机器学习模型的训练过程，其背后竟然就是最大似然估计！

线性回归与最小二乘法：在线性回归中，我们通常假设预测值与真实值之间的误差服从均值为0的正态分布。在这种假设下，最大化数据点的联合似然函数，等价于最小化均方误差（MSE）损失函数。我们在线性代数和微积分中推导的最小二乘法，原来在概率视角下有如此深刻的含义。
逻辑回归与交叉熵损失：在二分类问题中，我们使用逻辑回归模型，其输出可以看作是样本属于正类的概率。模型的训练目标是最大化所有训练样本被正确分类的联合概率。这个过程，等价于最小化我们熟知的交叉熵（Cross-Entropy）损失函数。

所以，当我们说“训练模型”时，很多时候我们其实是在说：“通过调整模型参数，找到一个能最大化地解释（似然）我们所观测到的训练数据的概率模型”。这个思想贯穿了整个监督学习。

融会贯通：概率统计在现代AI中的角色

至此，我们已经建立了概率统计的核心认知。现在，让我们将这些知识融会贯通，看看它们是如何在最前沿的AI技术，特别是大型语言模型（LLM）中发挥作用的。

LLMs：终极的概率序列模型
一个LLM，如GPT-4，其核心就是一个极其复杂的概率模型。它的任务，正如我们前面提到的，就是计算条件概率 $P(\text{token}_{n+1} | \text{token}_1, \dots, \text{token}_n)$ 。

训练：LLM的训练过程，本质上是一个大规模的最大似然估计。它阅读了海量的文本数据（万亿级别的token），通过调整其内部数千亿个参数（还记得线性代数中的矩阵和微积分中的梯度吗？），来最大化这些真实文本序列出现的联合概率。换句话说，模型在学习一个能够最好地“解释”人类语言的概率分布。
推理（文本生成）：当LLM生成文本时，它并不是简单地每次都选择概率最高的那个词。这样做会使生成的文本非常单调、缺乏创造性。相反，它是在我们计算出的概率分布上进行采样 (Sampling)。
- Temperature Sampling：这是一个调节分布“形状”的参数。高温（Temperature > 1）会使概率分布变得更平坦，模型会更倾向于选择一些低概率的词，表现得更有“创造力”和“随机性”。低温（Temperature < 1）则会使分布更尖锐，模型更倾向于选择高概率的词，表现得更“保守”和“确定”。
- Top-k / Top-p (Nucleus) Sampling：为了避免采样到完全不相关的词，这些策略会先对词表进行筛选。Top-k只在概率最高的k个词中进行采样；Top-p则在概率之和刚好超过p的最小词集中进行采样。这两种方法都是在原始概率分布上进行巧妙的修改，以平衡生成文本的质量和多样性。

模型评估：困惑度 (Perplexity)
我们如何衡量一个语言模型的好坏？一个关键指标是困惑度 (Perplexity, PPL)。困惑度是基于模型在测试集上分配的概率来计算的，它本质上是交叉熵损失的指数形式。

一个模型的困惑度越低，意味着它对测试集中真实出现的词序列赋予的概率越高。换句话说，模型对真实语言的模式感到“不那么困惑”。这直接反映了模型概率建模能力的强弱。

总结

今天，我们踏上了一段从不确定性的基本描述到复杂AI模型应用的概率之旅。我们从最基础的概念出发：

概率分布与统计量：我们学会了用概率分布（PMF/PDF）、期望和方差来为不确定性“画像”和“概括”。
条件概率与贝叶斯定理：我们掌握了进行概率推理的强大工具，学会了如何根据新信息更新我们的信念，并理解了朴素贝叶斯分类器等经典模型的工作原理。
最大似然估计 (MLE)：我们揭示了机器学习模型训练的核心驱动力之一，理解了“学习”过程在概率层面上就是寻找最能解释数据的模型参数。

最终，我们将这些珠子串联起来，看到了它们如何在LLM这样的现代AI奇迹中闪耀光芒。无论是模型的训练（MLE）、文本的生成（概率采样），还是性能的评估（困惑度），背后都深深地烙印着概率统计的思想。

线性代数给了AI结构，微积分给了AI动力，而概率统计则赋予了AI在不确定世界中思考、推理和创造的灵魂。至此，我们已经集齐了构建经典机器学习模型所需的三大数学基石。在接下来的文章中，我们将继续深入，探索优化理论、信息论等更高级的主题，一步步迈向对AI认知体系的全面构建。

习题

为了巩固今天学习的知识，请尝试完成以下几道练习题。

第1题：条件概率
一个盒子里有10个球，其中6个是红球，4个是蓝球。你从中不放回地随机抽取两次。求：在已知第一次抽到红球的条件下，第二次抽到蓝球的概率是多少？

第2题：贝叶斯定理
假设某种疾病在人群中的发病率是 0.5%（即 $P(\text{患病})=0.005$ ）。一种检测该疾病的测试，其准确率如下：如果一个人患病，测试结果为阳性的概率是99%（灵敏度）；如果一个人未患病，测试结果为阴性的概率是98%（特异度）。现在，有一个人随机接受了测试，结果为阳性。请问他确实患病的概率是多少？

第3题：最大似然估计 (MLE)
你正在观测一个放射源的衰变事件。在单位时间内，发生 $k$ 次衰变事件的概率服从泊松分布 (Poisson Distribution)，其概率质量函数为 $\frac{\lambda^k e^{-\lambda}}{k!}$ ，其中 $\lambda$ 是未知的平均发生率参数。你连续观测了3个单位时间，分别记录到2次、0次、3次衰变。请问参数 $\lambda$ 的最大似然估计值是多少？

答案

第1题答案：
这是一个条件概率问题。设事件A为“第一次抽到红球”，事件B为“第二次抽到蓝球”。我们要求的是 $P (B ∣ A)$ 。
当事件A（第一次抽到红球）发生后，盒子里还剩下9个球，其中红球有5个，蓝球有4个。
因此，在这个条件下，第二次抽到蓝球的概率就是 $\frac{4}{9}$ 。
$\frac{4}{9} \approx 0.444$

第2题答案：
这是一个经典的贝叶斯定理应用。

H: 患病, $\neg$ H: 未患病
E: 测试结果为阳性

我们已知：

先验概率 $P (H) = 0.005$ , 那么 $P(\neg H) = 1 - 0.005 = 0.995$
似然 $P (E ∣ H) = 0.99$ (灵敏度)
$P(\neg E|\neg H) = 0.98$ (特异度), 所以 $P(E|\neg H) = 1 - 0.98 = 0.02$ (假阳性率)

我们要求的是后验概率 $P (H ∣ E)$ 。
根据贝叶斯定理：
$\frac{P(E|H) P(H)}{P(E)}$

首先计算分母，即证据 $P (E)$ ：
$P(E|\neg H)P(\neg H)$
$\times 0.005) + (0.02 \times 0.995)$
$P (E) = 0.00495 + 0.0199 = 0.02485$

现在计算后验概率：
$\frac{0.00495}{0.02485} \approx 0.1992$

所以，即使测试结果为阳性，该人实际患病的概率也只有大约19.92%。这个结果常常出乎人们的直觉，它凸显了先验概率的重要性。

第3题答案：
这是一个最大似然估计问题。
观测数据为 $k_1=2, k_2=0, k_3=3$ 。
假设每次观测独立，联合似然函数是三次观测概率的乘积：
$L(\lambda | \text{data}) = P(k_1=2) \times P(k_2=0) \times P(k_3=3)$
$L(\lambda) = \frac{\lambda^2 e^{-\lambda}}{2!} \times \frac{\lambda^0 e^{-\lambda}}{0!} \times \frac{\lambda^3 e^{-\lambda}}{3!}$
$L(\lambda) = \frac{e^{-3\lambda} \lambda^{2+0+3}}{2! \cdot 0! \cdot 3!} = \frac{e^{-3\lambda} \lambda^5}{12}$ (注意 $0! = 1$ )