KTO: Model Alignment as Prospect Theoretic Optimization
一、引言
本报告介绍了一种基于前景理论(Prospect Theory)的大型语言模型对齐方法 ——KTO(Kahneman-Tversky Optimization)。该方法通过设计人类感知损失函数(HALO),直接最大化模型生成的效用,而非依赖人类偏好数据的对数似然,旨在解决现有对齐方法(如 PPO、DPO)依赖高成本偏好数据的局限性。报告将从 KTO 的创新思路、理论基础、原理、核心代码、性能对比及消融实验等方面展开详细阐述。
二、KTO 的创新点与思路
2.1 现有方法的局限性与启发
PPO、DPO 等传统对齐方法的有效性源于其损失函数隐含了类似前景理论中的人类偏见(如损失厌恶),属于人类意识损失(HALOs)的范畴。然而,这些方法依赖成对的人类偏好数据(如 (x, yw, yl)),数据收集成本高且稀缺,限制了模型在数据有限场景下的应用。
2.2 KTO 的核心创新
KTO 的核心突破在于:
- 基于前景理论的效用优化