当前位置: 首页 > news >正文

【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》

在前两章中,我们已经掌握了如何用向量和矩阵来优雅地表示数据(线性代数),以及如何通过梯度下降等方法让模型学习和优化(微积分)。但这些似乎都建立在一个“确定性”的世界里:数据是给定的,参数只要朝着梯度的反方向更新,就一定能变得更好。

然而,现实世界并非如此。你训练一个猫狗分类器,输入的图片可能因为光照、角度、遮挡而千变万化;你构建一个语言模型,对于“今天天气真好,我们去…”这句话,后续的可能性有无数种。这些都属于“不确定性”的范畴。AI如果不能理解和处理不确定性,就只能是一个脆弱的、只能处理理想情况的“玩具”。

概率统计,正是数学中用于描述、量化和推理不确定性的语言和工具。它构成了从经典机器学习(如朴素贝叶斯分类器)到现代深度学习(如生成模型、LLM中的文本生成)的理论核心。今天,我们将一起揭开它的面纱,看看它是如何为AI注入“灵魂”的。

第一部分:描述不确定性 —— 概率分布与核心统计量

在AI的世界里,我们遇到的几乎所有数据都可以看作是某个随机过程的结果。一张图片中的像素值、一段语音的声波信号、一个用户的点击行为,都带有随机性。为了对这些数据建模,我们首先需要一种数学语言来描述这种不确定性。

随机变量:将不确定事件数值化

我们首先要引入一个核心概念:随机变量 (Random Variable)

不要被“变量”这个词迷惑,它和我们初中代数里的 x , y x, y x,y 不太一样。随机变量更像一个“函数”或“映射”,它将一个随机事件的每一个可能的结果,映射到一个数值。这么做的好处是,我们可以用数学工具(比如函数、微积分)来分析原本可能是非数值性的、随机的事件。

随机变量通常用大写字母表示,如 X , Y X, Y X,Y。它们分为两类:

  1. 离散随机变量 (Discrete Random Variable):它的可能取值是有限的或可数的。比如,抛一次硬币的结果 X X X ,可以取值为 {0 (反面), 1 (正面)};掷一个骰子的点数 Y Y Y,可以取值为 {1, 2, 3, 4, 5, 6}。
  2. 连续随机变量 (Continuous Random Variable):它的可能取值是连续的、不可数的。比如,一个成年男性的身高 H H H,理论上可以取 [1.50m, 2.20m] 区间内的任何一个实数值;一个城市明天的气温 T T T,可以取 [-10.0°C, 40.0°C] 区间内的任何值。

在AI中,我们无时无刻不在与随机变量打交道。一个模型的预测类别(是猫还是狗?)、一个句子中的某个词、一张图片中某个像素的灰度值,都可以被看作是随机变量。

概率分布:不确定性的“画像”

知道了随机变量可以将事件数值化,下一个问题是:这些数值出现的可能性有多大?这就引出了概率分布 (Probability Distribution) 的概念。

概率分布就像是给一个随机变量画了一张“画像”,它完整地描述了这个随机变量所有可能取值的概率情况。

对于离散随机变量,我们用概率质量函数 (Probability Mass Function, PMF) 来描述其分布。PMF直接给出了每个离散值的概率。我们通常用 P ( X = x ) P(X=x) P(X=x) 来表示。例如,对于一个公平的骰子,其PMF就是:
P ( X = 1 ) = P ( X = 2 ) = ⋯ = P ( X = 6 ) = 1 6 P(X=1) = P(X=2) = \dots = P(X=6) = \frac{1}{6} P(X=1)=P(X=2)==P(X=6)=61

对于连续随机变量,情况稍微复杂一些。因为它的取值是无限多的,任何单个精确值的概率都是0(比如,身高正好是1.7500000…米的概率是0)。因此,我们不谈论单点的概率,而是谈论一个值落在某个区间内的概率。我们使用概率密度函数 (Probability Density Function, PDF),通常用 p ( x ) p(x) p(x) f ( x ) f(x) f(x) 表示。

PDF本身的值不是概率,但它曲线下的面积是概率。一个值落在区间 [ a , b ] [a, b] [a,b] 内的概率就是PDF曲线在 [ a , b ] [a, b] [a,b] 上的积分:
P ( a ≤ X ≤ b ) = ∫ a b p ( x ) d x P(a \le X \le b) = \int_a^b p(x) dx P(aXb)=abp(x)dx
PDF的值越高,意味着随机变量的取值落在该点附近的概率密度越大。

在这里插入图片描述

在AI领域,最著名的连续分布莫过于正态分布 (Normal Distribution),也叫高斯分布。它的钟形曲线无处不在。为什么它如此重要?中心极限定理告诉我们,大量独立的随机变量之和,其分布会趋向于正态分布。在AI中,我们经常假设模型的误差、或者某些特征的分布服从正态分布,这极大地简化了模型的数学处理。

期望与方差:抓住分布的“重心”与“胖瘦”

一个完整的概率分布信息量很大,我们希望能有几个简单的数字来概括它的核心特点。最重要的两个统计量就是期望方差

  1. 期望 (Expectation, E [ X ] E[X] E[X])
    期望是一个随机变量所有可能取值的“加权平均值”,权重就是每个值对应的概率。它反映了随机变量取值的中心趋势或“重心”所在。通俗地讲,就是大量重复试验后,我们期望得到的平均结果。

    对于离散随机变量 X X X,其期望计算公式为:
    E [ X ] = ∑ i x i P ( X = x i ) E[X] = \sum_i x_i P(X=x_i) E[X]=ixiP(X=xi)
    比如,掷一个公平骰子的期望点数是: 1 × 1 6 + 2 × 1 6 + ⋯ + 6 × 1 6 = 3.5 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + \dots + 6 \times \frac{1}{6} = 3.5 1×61+2×61++6×61=3.5。注意,期望值不一定是随机变量的一个可能取值。

    对于连续随机变量 X X X,其期望计算公式为:
    E [ X ] = ∫ − ∞ ∞ x ⋅ p ( x ) d x E[X] = \int_{-\infty}^{\infty} x \cdot p(x) dx E[X]=xp(x)dx

  2. 方差 (Variance, V a r ( X ) Var(X) Var(X))
    如果我们只知道期望,是远远不够的。两个分布可能期望相同,但一个非常集中,另一个非常分散。方差就是用来度量随机变量取值分散程度或“波动性”的指标。

    方差的定义是“随机变量与其期望值之差的平方的期望”,听起来有点绕,看公式就清晰了:
    V a r ( X ) = E [ ( X − E [ X ] ) 2 ] Var(X) = E[(X - E[X])^2] Var(X)=E[(XE[X])2]
    方差越大,说明数据点越分散,分布曲线越“胖”;方差越小,说明数据点越集中,分布曲线越“瘦”。方差的平方根,即标准差 (Standard Deviation, σ \sigma σ),也常被使用,因为它和随机变量本身具有相同的量纲。

在这里插入图片描述

(这张图会展示两条正态分布曲线,它们的中心位置(期望)相同,但一条又高又瘦(小方差),另一条又矮又胖(大方差)。)

在AI中,期望和方差是评估和理解模型的基础。例如:

  • 模型评估:我们关心模型在测试集上期望的准确率是多少。
  • 风险控制:一个投资组合预测模型,我们不仅关心它的期望回报率,更关心回报率的方差,因为高方差意味着高风险。
  • 不确定性量化:在贝叶斯深度学习中,模型不仅给出一个预测值(可以看作是期望),还会给出一个方差,告诉我们这个预测有多“自信”。方差越大,模型越不确定。

第二部分:推理与决策 —— 条件概率与贝叶斯定理

掌握了描述不确定性的基本工具后,我们进入更激动人心的部分:如何利用已知信息进行推理。这就像侦探破案,根据已有的线索(信息),更新对真相(某个事件的概率)的判断。

条件概率:当信息出现时

条件概率 (Conditional Probability) 是概率论的基石之一。它回答了这样一个问题:“在事件B已经发生的条件下,事件A发生的概率是多少?”。我们记作 P ( A ∣ B ) P(A|B) P(AB),读作“在B发生的条件下A的概率”。

它的计算公式非常直观:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P(AB)=P(B)P(AB)
其中, P ( A ∩ B ) P(A \cap B) P(AB) 是事件A和事件B同时发生的概率, P ( B ) P(B) P(B) 是事件B发生的概率。这个公式的直观理解是:当我们知道B已经发生了,我们的“样本空间”(所有可能结果的集合)就从整个宇宙缩小到了只有B。在这个新宇宙里,A要发生,就必须是那个“A和B都发生”的部分。所以我们用 P ( A ∩ B ) P(A \cap B) P(AB) 去除以新的基准 P ( B ) P(B) P(B)

在AI中的应用:序列建模
条件概率是所有序列模型(如语言模型、语音识别)的核心。当我们使用一个LLM生成文本时,它实际上在做一个序列预测任务。比如,给定前文“今天天气很好,我们去”,模型需要预测下一个词。

这本质上是在计算一个巨大的条件概率分布:
P ( 下一个词 ∣ “今天天气很好,我们去” ) P(\text{下一个词} | \text{“今天天气很好,我们去”}) P(下一个词今天天气很好,我们去)

模型会计算出“公园”、“散步”、“吃饭”等所有可能词的条件概率,然后根据这些概率来选择下一个词。每一个词的生成,都是基于前面所有已生成词的条件概率计算。所以,你可以把ChatGPT的每一次回答,都看作是一连串条件概率计算的宏伟交响乐。

贝叶斯定理:执果索因的“上帝视角”

如果说条件概率是正向推理,那么贝叶斯定理 (Bayes’ Theorem) 就是逆向推理的利器,它让我们能够“执果索因”。

很多时候,我们容易获得“因”到“果”的概率,比如 P ( 症状 ∣ 疾病 ) P(\text{症状} | \text{疾病}) P(症状疾病)。医生知道,如果一个人得了某种流感(因),他有90%的概率会发烧(果)。但现实中的问题往往是反过来的:一个病人来到诊所,他发烧了(果),医生需要判断他得了这种流感(因)的概率有多大,即 P ( 疾病 ∣ 症状 ) P(\text{疾病} | \text{症状}) P(疾病症状)

贝叶斯定理给了我们一个“翻转”条件概率的公式:
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(HE)=P(E)P(EH)P(H)

让我们来解读这个看似简单的公式,它蕴含了深刻的哲学思想:

  • P ( H ∣ E ) P(H|E) P(HE)后验概率 (Posterior Probability)。这是我们最终想知道的,即在观察到证据E之后,假设H成立的概率。
  • P ( E ∣ H ) P(E|H) P(EH)似然 (Likelihood)。在假设H成立的情况下,观察到证据E的概率。这就是我们前面说的“因”到“果”的概率,通常可以从数据中统计或作为模型的一部分。
  • P ( H ) P(H) P(H)先验概率 (Prior Probability)。在没有任何证据之前,我们对假设H成立的原始信念。比如,在没有见到病人前,医生根据季节和流行病学数据,对某人患此流感的概率有一个初始判断。
  • P ( E ) P(E) P(E)证据 (Evidence)。观察到证据E的概率,它是一个归一化常数,确保所有可能的假设的后验概率之和为1。它的计算方式是 P ( E ) = ∑ i P ( E ∣ H i ) P ( H i ) P(E) = \sum_i P(E|H_i)P(H_i) P(E)=iP(EHi)P(Hi)

贝叶斯定理的伟大之处在于,它提供了一个动态更新信念的框架:
先验信念 + 新证据 → 后验信念

AI应用:朴素贝叶斯分类器 (Naive Bayes Classifier)
这是贝叶斯定理最经典的机器学习应用,尤其在文本分类(如垃圾邮件过滤)中大放异彩。

假设我们要判断一封邮件是否是垃圾邮件。

  • H H H 可以是“是垃圾邮件”或“不是垃圾邮件”。
  • E E E 是邮件中的词语,比如 “viagra”, “free”, “offer”。

我们的目标是计算 P ( 是垃圾邮件 ∣ “viagra”, “free”, ... ) P(\text{是垃圾邮件} | \text{“viagra”, “free”, ...}) P(是垃圾邮件“viagra”, “free”, ...) P ( 不是垃圾邮件 ∣ “viagra”, “free”, ... ) P(\text{不是垃圾邮件} | \text{“viagra”, “free”, ...}) P(不是垃圾邮件“viagra”, “free”, ...),然后看哪个概率更大。

根据贝叶斯定理:
P ( 是垃圾邮件 ∣ 词语 ) ∝ P ( 词语 ∣ 是垃圾邮件 ) ⋅ P ( 是垃圾邮件 ) P(\text{是垃圾邮件} | \text{词语}) \propto P(\text{词语} | \text{是垃圾邮件}) \cdot P(\text{是垃圾邮件}) P(是垃圾邮件词语)P(词语是垃圾邮件)P(是垃圾邮件)

这里的 P ( 是垃圾邮件 ) P(\text{是垃圾邮件}) P(是垃圾邮件) 是先验概率,我们可以通过统计邮件库中垃圾邮件的比例得到。
关键在于计算似然 P ( 词语 ∣ 是垃圾邮件 ) P(\text{词语} | \text{是垃圾邮件}) P(词语是垃圾邮件)。直接计算所有词语组合的概率是极其困难的。于是,“朴素”的假设登场了:假设所有词语在给定邮件类别(垃圾或非垃圾)的条件下是相互独立的

这意味着:
P ( “viagra”, “free” ∣ 是垃圾邮件 ) ≈ P ( “viagra” ∣ 是垃圾邮件 ) × P ( “free” ∣ 是垃圾邮件 ) P(\text{“viagra”, “free”} | \text{是垃圾邮件}) \approx P(\text{“viagra”} | \text{是垃圾邮件}) \times P(\text{“free”} | \text{是垃圾邮件}) P(“viagra”, “free”是垃圾邮件)P(“viagra”是垃圾邮件)×P(“free”是垃圾邮件)

这个假设在现实中显然不成立(“free”和“offer”经常一起出现),但它极大地简化了计算,而且在实践中效果惊人地好。我们只需要从大量的已标记邮件中,分别统计每个词在垃圾邮件和非垃圾邮件中出现的频率,就可以构建出整个分类器。

在这里插入图片描述

第三部分:从数据中学习 —— 最大似然估计

我们已经知道如何描述和推理不确定性了。但还有一个至关重要的问题:概率分布本身,以及其中的参数(如正态分布的均值和方差),是从哪里来的?答案是:从数据中学习

最大似然估计 (Maximum Likelihood Estimation, MLE) 是连接概率论和机器学习模型训练的最重要的桥梁之一。它是一种参数估计方法,其核心思想简单而强大。

什么是“似然”?

首先,我们要区分概率 (Probability)似然 (Likelihood)。这两个词在日常生活中经常混用,但在统计学中泾渭分明。

  • 概率:是在参数已知的情况下,对结果的预测。
    • 例:给定一枚公平的硬币(参数 p = 0.5 p=0.5 p=0.5),问抛10次得到7次正面的概率是多少?
  • 似然:是在结果已知的情况下,对参数的推断。
    • 例:观测到抛10次硬币得到了7次正面(结果),问硬币的参数 p p p 是多少的可能性最大?

似然函数通常写作 L ( θ ∣ data ) L(\theta | \text{data}) L(θdata),它在数值上等于 P ( data ∣ θ ) P(\text{data} | \theta) P(dataθ),但我们把它看作是参数 θ \theta θ 的函数。我们的目标就是找到那个能让似然函数最大的 θ \theta θ

最大似然估计:让数据“发声”

最大似然估计的原则是:我们已经观测到了一组数据,那么我们就应该选择这样一个参数,它使得我们观测到这组数据的概率(似然)最大

这背后是一种“谁最像,就选谁”的思想。我们手头的数据,就是对真实世界的一次采样。那么,什么样的概率分布最可能产生出我们手里的这批样本呢?MLE就是要找到那个“最可能”的分布。

让我们用一个经典的例子来理解这个过程:
假设我们有一枚硬币,但不知道它是否公平。我们抛了10次,结果是:“正反正正正反正正正反”(7正3反)。我们想估计这枚硬币抛出正面的概率 p p p

  1. 写出似然函数
    假设每次抛硬币是独立同分布的。那么观测到这个特定序列的概率是:
    P ( data ∣ p ) = p ⋅ ( 1 − p ) ⋅ p ⋅ p ⋅ p ⋅ ( 1 − p ) ⋅ p ⋅ p ⋅ p ⋅ ( 1 − p ) = p 7 ( 1 − p ) 3 P(\text{data} | p) = p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) = p^7 (1-p)^3 P(datap)=p(1p)ppp(1p)ppp(1p)=p7(1p)3
    这就是我们的似然函数: L ( p ∣ data ) = p 7 ( 1 − p ) 3 L(p | \text{data}) = p^7 (1-p)^3 L(pdata)=p7(1p)3

  2. 最大化似然函数
    我们要找到一个 p p p (在[0, 1]之间),使得 L ( p ) L(p) L(p) 最大。直接对 L ( p ) L(p) L(p) 求导比较复杂,一个常用的技巧是取对数,因为对数函数是单调递增的,最大化 L ( p ) L(p) L(p) 等价于最大化 log ⁡ L ( p ) \log L(p) logL(p)
    对数似然函数 (Log-Likelihood)
    log ⁡ L ( p ) = log ⁡ ( p 7 ( 1 − p ) 3 ) = 7 log ⁡ ( p ) + 3 log ⁡ ( 1 − p ) \log L(p) = \log(p^7 (1-p)^3) = 7 \log(p) + 3 \log(1-p) logL(p)=log(p7(1p)3)=7log(p)+3log(1p)

  3. 求导并令其为0(这不就是我们在微积分中学到的求极值的方法吗!):
    d d p log ⁡ L ( p ) = 7 p − 3 1 − p = 0 \frac{d}{dp} \log L(p) = \frac{7}{p} - \frac{3}{1-p} = 0 dpdlogL(p)=p71p3=0
    解这个方程,我们得到:
    7 ( 1 − p ) = 3 p ⟹ 7 − 7 p = 3 p ⟹ 10 p = 7 ⟹ p ^ = 0.7 7(1-p) = 3p \implies 7 - 7p = 3p \implies 10p = 7 \implies \hat{p} = 0.7 7(1p)=3p77p=3p10p=7p^=0.7

这个结果 p ^ = 7 / 10 \hat{p} = 7/10 p^=7/10 非常符合直觉。MLE给了我们一个坚实的数学框架,来确认这个直觉。

在这里插入图片描述

MLE与机器学习损失函数的深刻联系
这才是MLE真正让我们感到震撼的地方。我们之前学习的很多机器学习模型的训练过程,其背后竟然就是最大似然估计!

  • 线性回归与最小二乘法:在线性回归中,我们通常假设预测值与真实值之间的误差服从均值为0的正态分布。在这种假设下,最大化数据点的联合似然函数,等价于最小化均方误差(MSE)损失函数。我们在线性代数和微积分中推导的最小二乘法,原来在概率视角下有如此深刻的含义。

  • 逻辑回归与交叉熵损失:在二分类问题中,我们使用逻辑回归模型,其输出可以看作是样本属于正类的概率。模型的训练目标是最大化所有训练样本被正确分类的联合概率。这个过程,等价于最小化我们熟知的交叉熵(Cross-Entropy)损失函数

所以,当我们说“训练模型”时,很多时候我们其实是在说:“通过调整模型参数,找到一个能最大化地解释(似然)我们所观测到的训练数据的概率模型”。这个思想贯穿了整个监督学习。

融会贯通:概率统计在现代AI中的角色

至此,我们已经建立了概率统计的核心认知。现在,让我们将这些知识融会贯通,看看它们是如何在最前沿的AI技术,特别是大型语言模型(LLM)中发挥作用的。

LLMs:终极的概率序列模型
一个LLM,如GPT-4,其核心就是一个极其复杂的概率模型。它的任务,正如我们前面提到的,就是计算条件概率 P ( token n + 1 ∣ token 1 , … , token n ) P(\text{token}_{n+1} | \text{token}_1, \dots, \text{token}_n) P(tokenn+1token1,,tokenn)

  • 训练:LLM的训练过程,本质上是一个大规模的最大似然估计。它阅读了海量的文本数据(万亿级别的token),通过调整其内部数千亿个参数(还记得线性代数中的矩阵和微积分中的梯度吗?),来最大化这些真实文本序列出现的联合概率。换句话说,模型在学习一个能够最好地“解释”人类语言的概率分布。

  • 推理(文本生成):当LLM生成文本时,它并不是简单地每次都选择概率最高的那个词。这样做会使生成的文本非常单调、缺乏创造性。相反,它是在我们计算出的概率分布上进行采样 (Sampling)

    • Temperature Sampling:这是一个调节分布“形状”的参数。高温(Temperature > 1)会使概率分布变得更平坦,模型会更倾向于选择一些低概率的词,表现得更有“创造力”和“随机性”。低温(Temperature < 1)则会使分布更尖锐,模型更倾向于选择高概率的词,表现得更“保守”和“确定”。
    • Top-k / Top-p (Nucleus) Sampling:为了避免采样到完全不相关的词,这些策略会先对词表进行筛选。Top-k只在概率最高的k个词中进行采样;Top-p则在概率之和刚好超过p的最小词集中进行采样。这两种方法都是在原始概率分布上进行巧妙的修改,以平衡生成文本的质量和多样性。

模型评估:困惑度 (Perplexity)
我们如何衡量一个语言模型的好坏?一个关键指标是困惑度 (Perplexity, PPL)。困惑度是基于模型在测试集上分配的概率来计算的,它本质上是交叉熵损失的指数形式。

一个模型的困惑度越低,意味着它对测试集中真实出现的词序列赋予的概率越高。换句话说,模型对真实语言的模式感到“不那么困惑”。这直接反映了模型概率建模能力的强弱。

总结

今天,我们踏上了一段从不确定性的基本描述到复杂AI模型应用的概率之旅。我们从最基础的概念出发:

  1. 概率分布与统计量:我们学会了用概率分布(PMF/PDF)、期望和方差来为不确定性“画像”和“概括”。
  2. 条件概率与贝叶斯定理:我们掌握了进行概率推理的强大工具,学会了如何根据新信息更新我们的信念,并理解了朴素贝叶斯分类器等经典模型的工作原理。
  3. 最大似然估计 (MLE):我们揭示了机器学习模型训练的核心驱动力之一,理解了“学习”过程在概率层面上就是寻找最能解释数据的模型参数。

最终,我们将这些珠子串联起来,看到了它们如何在LLM这样的现代AI奇迹中闪耀光芒。无论是模型的训练(MLE)、文本的生成(概率采样),还是性能的评估(困惑度),背后都深深地烙印着概率统计的思想。

线性代数给了AI结构,微积分给了AI动力,而概率统计则赋予了AI在不确定世界中思考、推理和创造的灵魂。至此,我们已经集齐了构建经典机器学习模型所需的三大数学基石。在接下来的文章中,我们将继续深入,探索优化理论、信息论等更高级的主题,一步步迈向对AI认知体系的全面构建。


习题

为了巩固今天学习的知识,请尝试完成以下几道练习题。

第1题:条件概率
一个盒子里有10个球,其中6个是红球,4个是蓝球。你从中不放回地随机抽取两次。求:在已知第一次抽到红球的条件下,第二次抽到蓝球的概率是多少?

第2题:贝叶斯定理
假设某种疾病在人群中的发病率是 0.5%(即 P ( 患病 ) = 0.005 P(\text{患病})=0.005 P(患病)=0.005)。一种检测该疾病的测试,其准确率如下:如果一个人患病,测试结果为阳性的概率是99%(灵敏度);如果一个人未患病,测试结果为阴性的概率是98%(特异度)。现在,有一个人随机接受了测试,结果为阳性。请问他确实患病的概率是多少?

第3题:最大似然估计 (MLE)
你正在观测一个放射源的衰变事件。在单位时间内,发生 k k k 次衰变事件的概率服从泊松分布 (Poisson Distribution),其概率质量函数为 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ,其中 λ \lambda λ 是未知的平均发生率参数。你连续观测了3个单位时间,分别记录到2次、0次、3次衰变。请问参数 λ \lambda λ 的最大似然估计值是多少?


答案

第1题答案:
这是一个条件概率问题。设事件A为“第一次抽到红球”,事件B为“第二次抽到蓝球”。我们要求的是 P ( B ∣ A ) P(B|A) P(BA)
当事件A(第一次抽到红球)发生后,盒子里还剩下9个球,其中红球有5个,蓝球有4个。
因此,在这个条件下,第二次抽到蓝球的概率就是 4 9 \frac{4}{9} 94
P ( B ∣ A ) = 4 9 ≈ 0.444 P(B|A) = \frac{4}{9} \approx 0.444 P(BA)=940.444

第2题答案:
这是一个经典的贝叶斯定理应用。

  • H: 患病, ¬ \neg ¬H: 未患病
  • E: 测试结果为阳性

我们已知:

  • 先验概率 P ( H ) = 0.005 P(H) = 0.005 P(H)=0.005, 那么 P ( ¬ H ) = 1 − 0.005 = 0.995 P(\neg H) = 1 - 0.005 = 0.995 P(¬H)=10.005=0.995
  • 似然 P ( E ∣ H ) = 0.99 P(E|H) = 0.99 P(EH)=0.99 (灵敏度)
  • P ( ¬ E ∣ ¬ H ) = 0.98 P(\neg E|\neg H) = 0.98 P(¬E∣¬H)=0.98 (特异度), 所以 P ( E ∣ ¬ H ) = 1 − 0.98 = 0.02 P(E|\neg H) = 1 - 0.98 = 0.02 P(E∣¬H)=10.98=0.02 (假阳性率)

我们要求的是后验概率 P ( H ∣ E ) P(H|E) P(HE)
根据贝叶斯定理:
P ( H ∣ E ) = P ( E ∣ H ) P ( H ) P ( E ) P(H|E) = \frac{P(E|H) P(H)}{P(E)} P(HE)=P(E)P(EH)P(H)

首先计算分母,即证据 P ( E ) P(E) P(E)
P ( E ) = P ( E ∣ H ) P ( H ) + P ( E ∣ ¬ H ) P ( ¬ H ) P(E) = P(E|H)P(H) + P(E|\neg H)P(\neg H) P(E)=P(EH)P(H)+P(E∣¬H)P(¬H)
P ( E ) = ( 0.99 × 0.005 ) + ( 0.02 × 0.995 ) P(E) = (0.99 \times 0.005) + (0.02 \times 0.995) P(E)=(0.99×0.005)+(0.02×0.995)
P ( E ) = 0.00495 + 0.0199 = 0.02485 P(E) = 0.00495 + 0.0199 = 0.02485 P(E)=0.00495+0.0199=0.02485

现在计算后验概率:
P ( H ∣ E ) = 0.00495 0.02485 ≈ 0.1992 P(H|E) = \frac{0.00495}{0.02485} \approx 0.1992 P(HE)=0.024850.004950.1992

所以,即使测试结果为阳性,该人实际患病的概率也只有大约19.92%。这个结果常常出乎人们的直觉,它凸显了先验概率的重要性。

第3题答案:
这是一个最大似然估计问题。
观测数据为 k 1 = 2 , k 2 = 0 , k 3 = 3 k_1=2, k_2=0, k_3=3 k1=2,k2=0,k3=3
假设每次观测独立,联合似然函数是三次观测概率的乘积:
L ( λ ∣ data ) = P ( k 1 = 2 ) × P ( k 2 = 0 ) × P ( k 3 = 3 ) L(\lambda | \text{data}) = P(k_1=2) \times P(k_2=0) \times P(k_3=3) L(λdata)=P(k1=2)×P(k2=0)×P(k3=3)
L ( λ ) = λ 2 e − λ 2 ! × λ 0 e − λ 0 ! × λ 3 e − λ 3 ! L(\lambda) = \frac{\lambda^2 e^{-\lambda}}{2!} \times \frac{\lambda^0 e^{-\lambda}}{0!} \times \frac{\lambda^3 e^{-\lambda}}{3!} L(λ)=2!λ2eλ×0!λ0eλ×3!λ3eλ
L ( λ ) = e − 3 λ λ 2 + 0 + 3 2 ! ⋅ 0 ! ⋅ 3 ! = e − 3 λ λ 5 12 L(\lambda) = \frac{e^{-3\lambda} \lambda^{2+0+3}}{2! \cdot 0! \cdot 3!} = \frac{e^{-3\lambda} \lambda^5}{12} L(λ)=2!0!3!e3λλ2+0+3=12e3λλ5 (注意 0 ! = 1 0!=1 0!=1)

取对数似然函数:
log ⁡ L ( λ ) = log ⁡ ( e − 3 λ λ 5 12 ) = − 3 λ + 5 log ⁡ ( λ ) − log ⁡ ( 12 ) \log L(\lambda) = \log(\frac{e^{-3\lambda} \lambda^5}{12}) = -3\lambda + 5\log(\lambda) - \log(12) logL(λ)=log(12e3λλ5)=3λ+5log(λ)log(12)

λ \lambda λ 求导并令其为0:
d d λ log ⁡ L ( λ ) = − 3 + 5 λ = 0 \frac{d}{d\lambda} \log L(\lambda) = -3 + \frac{5}{\lambda} = 0 dλdlogL(λ)=3+λ5=0
5 λ = 3 ⟹ λ ^ = 5 3 \frac{5}{\lambda} = 3 \implies \hat{\lambda} = \frac{5}{3} λ5=3λ^=35

参数 λ \lambda λ 的最大似然估计值是 5 / 3 5/3 5/3。这恰好是观测数据的平均值 ( 2 + 0 + 3 ) / 3 (2+0+3)/3 (2+0+3)/3,对于泊松分布,其参数 λ \lambda λ 的MLE就是样本均值。

http://www.lqws.cn/news/571933.html

相关文章:

  • 【HuggingFace】模型下载至本地访问
  • SpringMVC实战:从配置到JSON处理全解析
  • 开源免费计划工具:帮你高效规划每一天
  • UE5 Grid3D 学习笔记
  • 什么是IPFS(InterPlanetary File System,星际文件系统)
  • c# 在sql server 数据库中批插入数据
  • C++ 格式化输入输出
  • 「Java案例」输出24个希腊字母
  • 计算机组成原理与体系结构-实验一 进位加法器(Proteus 8.15)
  • Linux下的调试器-gdb(16)
  • 信息安全与网络安全---引言
  • 矩阵的定义和运算 线性代数
  • 设计模式 | 组合模式
  • VMware设置虚拟机为固定IP
  • Transformer结构与代码实现详解
  • redisson看门狗实现原理
  • Linux基本命令篇 —— head命令
  • 【锁相环系列5】再谈数字锁相环
  • python sklearn 机器学习(1)
  • 多模态大语言模型arxiv论文略读(143)
  • 代理模式 - Flutter中的智能替身,掌控对象访问的每一道关卡!
  • ⚙️ 深度学习模型编译器实战:解锁工业级部署新范式​​—— 基于PyTorch-MLIR的全流程优化指南(开源工具链集成)​​
  • Python银行管理系统01升级(适合初学者)
  • 【百日精通JAVA | 语法篇】static关键字
  • CppCon 2017 学习:Undefined Behavior in 2017
  • idea运行到远程机器 和 idea远程JVM调试
  • x86 rop攻击理解2
  • 设计模式-外观模式、适配器模式
  • 设备健康状态实时监测:从技术原理到中讯烛龙的智能实践
  • X-Search:Spring AI实现的AI智能搜索