当前位置：首页 > news >正文

R²ec: 构建具有推理能力的大型推荐模型，显著提示推荐系统性能！！

news 2025/7/12 11:14:19

摘要：大型推荐模型通过编码或项目生成将大型语言模型（LLMs）扩展为强大的推荐工具，而近期在LLM推理方面的突破也同步激发了在推荐领域探索推理的动机。目前的研究通常将LLMs定位为外部推理模块，以提供辅助性思考来增强传统的推荐流程。然而，这种分离式的设计存在显著的资源成本高和次优联合优化的限制。为了解决这些问题，我们提出了R²ec，这是一个具有内在推理能力的统一大型推荐模型。首先，我们重新构思了模型架构，以便在自回归过程中实现推理和推荐的交错进行。随后，我们提出了RecPO，这是一个相应的强化学习框架，能够在单一策略更新中同时优化R²ec的推理和推荐能力；RecPO引入了一种融合奖励方案，仅利用推荐标签来模拟推理能力，从而消除了对专门推理注释的依赖。在三个数据集上与各种基线模型的实验验证了R²ec的有效性，显示出在Hit@5指标上相对提升了68.67%，在NDCG@20指标上相对提升了45.21%。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 模型设计

架构设计

推理和推荐的交替过程

3.2 训练优化

轨迹采样

奖励和优势估计

四、实验结论

4.1 性能显著提升

4.2 推理模块有效性

4.3 优势估计方法对比

4.4 轨迹采样和组大小的影响

五、总结

一、背景动机

论文题目：R²ec: TOWARDS LARGE RECOMMENDER MODELS WITH REASONING

论文地址：https://arxiv.org/pdf/2505.16994

随着 LLMs 在推理任务中的突破，研究者开始探索如何将推理能力引入推荐系统。然而，现有的研究通常将 LLMs 作为外部推理模块，与传统的推荐流程解耦，这增加了内存占用和推理延迟。此外，推理和推荐模块只能交替更新，无法实现端到端的学习，导致性能次优。

该文章提出推理与推荐统一的大模型架构，通过双任务头和融合奖励机制解决传统解耦设计的缺陷。证明强化学习可在无人工推理标注下优化推荐模型的推理能力，为推荐系统引入可解释性和复杂决策能力。

二、核心贡献

提出 R²ec 模型：R²ec 是一个统一的大型推荐模型，具有内在的推理能力。该模型通过重新设计架构，将推理和推荐任务集成到一个自回归过程中，通过一个策略更新同时优化推理和推荐能力。
RecPO训练框架：为了训练 R²ec，作者提出了 RecPO，一个基于强化学习的训练框架，它通过引入融合奖励方案（结合离散排名奖励和连续相似性奖励）来优化模型，无需依赖专门的推理注释。

三、实现方法

3.1 模型设计

R²ec 的核心设计是将推理（reasoning）和推荐（recommendation）任务集成到一个统一的模型架构中，通过自回归过程实现推理和推荐的交替进行。

架构设计

基础架构：R²ec 基于一个解码器架构（decoder-only backbone），类似于常见的 Transformer 模型。
任务特定头（Task-specific Heads）：
- 语言建模头（lm_head）：负责生成推理标记（reasoning tokens）。它通过自回归的方式逐步生成推理过程中的文本内容。
- 推荐头（rec_head）：用于预测推荐项目。它通过计算候选项目与生成的推理标记的相似度来生成推荐分数。

推理和推荐的交替过程

推理生成：模型首先通过语言建模头生成一系列推理标记，这些标记描述了用户可能感兴趣的内容或推荐的逻辑。
项目预测：在推理标记生成完成后，模型通过推荐头对候选项目进行评分，最终生成推荐列表。

3.2 训练优化

为了训练 R²ec，文章提出了 RecPO，一个基于强化学习（RL）的训练框架。RecPO 的目标是同时优化推理和推荐能力，而无需依赖专门的推理注释。具体实现如下：

轨迹采样

采样过程：对于每个用户，模型通过当前策略采样多条推理轨迹（reasoning trajectories）。每条轨迹包括一系列推理标记和最终推荐的项目。
采样策略：使用温度（temperature）和 top-K 采样来控制生成轨迹的随机性和多样性。

奖励和优势估计

奖励计算：为了评估生成轨迹的质量，文章设计了一个融合奖励方案，结合了离散排名奖励（Rd）和连续相似性奖励（Rc）。
- 离散排名奖励（Rd）：使用 NDCG@k（Normalized Discounted Cumulative Gain）来衡量推荐项目的排名质量。
- 连续相似性奖励（Rc）：计算生成的推理标记与目标项目之间的 softmax 相似度。
- 融合奖励：通过线性组合将两种奖励结合起来，其中 β 是一个权重参数，用于平衡两种奖励的贡献。

优势估计：使用 GRPO或 RLOO 等方法来估计每条轨迹的优势值，这些优势值用于指导模型的更新方向。

四、实验结论

4.1 性能显著提升

R2EC 在所有实验数据集上均显著优于传统推荐系统、基于 LLM 的推荐系统和推理增强的推荐系统。具体来说，R2EC 在 Hit@5 和 NDCG@20 指标上分别实现了 68.67% 和 45.21% 的相对提升，表明其在推荐准确性和排名质量上都表现出色。

4.2 推理模块有效性

无推理（w/o Reasoning）：移除推理模块后，模型性能显著下降，表明推理模块对推荐性能有重要贡献。R2EC 在所有指标上平均提升了约 15%。
无连续奖励（w/o Rc）：仅使用离散排名奖励 Rd 时，模型性能优于仅使用连续相似性奖励 Rc，但融合奖励方案进一步提升了性能。
无离散奖励（w/o Rd）：仅使用连续相似性奖励 Rc 时，模型性能下降，表明离散奖励在优化过程中更为关键。

4.3 优势估计方法对比

训练奖励（Train Reward）：两种方法在训练过程中都表现出高方差，但 GRPO 在初始阶段学习更快。
验证奖励（Val Reward）：GRPO 在验证集上的表现优于 RLOO，表明其在早期训练中能够提供更大的梯度。
推理长度（Reasoning Length）：GRPO 的推理长度随着训练的进行逐渐增加，而 RLOO 保持相对稳定。

4.4 轨迹采样和组大小的影响

采样温度（Temperature）：增加采样温度可以提高推理的多样性和推荐性能，但过高的温度会导致推理长度过长。
top-K 采样：增加 top-K 会缩短推理长度，但过多的候选标记会引入噪声，降低推荐性能。
组大小（Group Size）：较大的组大小可以提高性能，但会增加训练成本。实验表明，组大小为 6 或 8 时性能提升最为显著。

五、总结

文章提出了一种新的大型推荐模型 R²ec，它通过引入推理能力显著提升了推荐性能。R²ec 的设计和训练方法为推荐系统领域带来了新的视角，特别是在如何将推理能力与推荐任务紧密结合方面。

http://www.lqws.cn/news/176113.html

相关文章：

市面上哪款AI开源软件做ppt最好？

思尔芯携手Andes晶心科技，加速先进RISC-V 芯片开发

sklearn 和 pytorch tensorflow什么关系

解决 VSCode 中无法识别 Node.js 的问题

集群与分布式与微服务

Unity优化篇之DrawCall

Webpack的基本使用 - babel

动态IP与静态IP：数字世界的“变脸术”与“身份证”

FPGA 动态重构配置流程

Flutter：下拉框选择

mitmproxy 爬虫，下载自己的博客图片

国内环境修改 flutter.bat 来设置 flutter 的网络环境

华为大规模——重塑生产力

Editing Language Model-based Knowledge Graph Embeddings

基于AWS Serverless架构：零运维构建自动化SEO内容生成系统

aardio 简单网页自动化

大模型安全测试报告：千问、GPT 全系列、豆包、Claude 表现优异，DeepSeek、Grok-3 与 Kimi 存在安全隐患

在.NET Core控制器中获取AJAX传递的Body参数

小牛电动NXT，市场销量第一

vscode .husky/pre-commit: line 4: npx: command not found

C++ 基础特性深度解析

【AI论文】超越80/20规则：高熵少数令牌驱动LLM推理的有效强化学习

3步布局关键词让流量更精准

Spring Cloud核心组件深度解析（2025终极指南）

【业务框架】3C-相机-Cinemachine

EasyRTC嵌入式音视频通信SDK助力物联网/视频物联网音视频打造全场景应用

python报错No module named ‘tensorflow.keras‘

rk3588 区分两个相同的usb相机

机器学习KNN算法全解析：从原理到实战

边缘计算服务器