什么是 A/B 测试?
一, 什么是 A/B 测试?
A/B 测试的基本思想是:将用户随机分成两组,分别使用不同的版本,观察结果差异是否显著。
-
A组:使用旧版本(或基线方案)
-
B组:使用新版本(或新模型)
然后对比它们的表现,例如:
-
点击率(CTR)
-
转化率(Conversion Rate)
-
用户停留时长
-
任务完成率
-
微调后模型的自动应答准确率、满意度等
二, 为什么叫 A/B?
-
A 代表“控制组”(Control Group):通常是当前线上正在运行的版本
-
B 代表“实验组”(Treatment Group):是你希望测试的新版本(如微调后的模型)
如果你有多个版本(如 C、D、E),就可以进行 A/B/C 或多版本对比测试,叫 A/B/n 测试。
三,举个模型相关的例子:
你微调了一个客服问答模型,希望它在实际业务中表现更好:
用户组 | 使用的模型 | 收集的指标 |
---|---|---|
A组 | 原始模型 | 问题解决率、满意度、转人工率等 |
B组 | 微调后的模型 | 同样的指标 |
运行几天或几周后,你可以根据数据统计:
-
B组的满意度是否显著提升?
-
问题解决率有没有上升?
-
是否没有引入新的错误回答?
如果表现优于 A组,并且统计上显著(通常使用 p 值 < 0.05 的假设检验),就可以认为微调后的模型是有效的,值得上线。
四,A/B 测试优点
-
实验科学、客观、可量化
-
易于部署,结果直观
-
适用于上线前评估模型对真实用户的影响
⚠️ 注意事项
-
随机分组要均衡,否则容易被用户分布等因素干扰
-
样本量要足够大,否则结果不具统计显著性
-
测试周期要覆盖波动周期,例如周末、节假日等
📌 总结一句
A/B 测试的核心就是:“一半用旧的,一半用新的,看谁更好”。它是真实环境中评估新模型是否真的“更好”的最可靠方法之一。