当前位置: 首页 > news >正文

R²ec: 构建具有推理能力的大型推荐模型,显著提示推荐系统性能!!

摘要:大型推荐模型通过编码或项目生成将大型语言模型(LLMs)扩展为强大的推荐工具,而近期在LLM推理方面的突破也同步激发了在推荐领域探索推理的动机。目前的研究通常将LLMs定位为外部推理模块,以提供辅助性思考来增强传统的推荐流程。然而,这种分离式的设计存在显著的资源成本高和次优联合优化的限制。为了解决这些问题,我们提出了R²ec,这是一个具有内在推理能力的统一大型推荐模型。首先,我们重新构思了模型架构,以便在自回归过程中实现推理和推荐的交错进行。随后,我们提出了RecPO,这是一个相应的强化学习框架,能够在单一策略更新中同时优化R²ec的推理和推荐能力;RecPO引入了一种融合奖励方案,仅利用推荐标签来模拟推理能力,从而消除了对专门推理注释的依赖。在三个数据集上与各种基线模型的实验验证了R²ec的有效性,显示出在Hit@5指标上相对提升了68.67%,在NDCG@20指标上相对提升了45.21%。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 模型设计

架构设计

推理和推荐的交替过程

3.2 训练优化

轨迹采样

奖励和优势估计

四、实验结论

4.1 性能显著提升

4.2 推理模块有效性

4.3 优势估计方法对比

4.4 轨迹采样和组大小的影响

五、总结


一、背景动机

论文题目:R²ec: TOWARDS LARGE RECOMMENDER MODELS WITH REASONING

论文地址:https://arxiv.org/pdf/2505.16994

随着 LLMs 在推理任务中的突破,研究者开始探索如何将推理能力引入推荐系统。然而,现有的研究通常将 LLMs 作为外部推理模块,与传统的推荐流程解耦,这增加了内存占用和推理延迟。此外,推理和推荐模块只能交替更新,无法实现端到端的学习,导致性能次优。

该文章提出推理与推荐统一的大模型架构,通过双任务头和融合奖励机制解决传统解耦设计的缺陷。证明强化学习可在无人工推理标注下优化推荐模型的推理能力,为推荐系统引入可解释性和复杂决策能力。

二、核心贡献

  • 提出 R²ec 模型:R²ec 是一个统一的大型推荐模型,具有内在的推理能力。该模型通过重新设计架构,将推理和推荐任务集成到一个自回归过程中,通过一个策略更新同时优化推理和推荐能力。
  • RecPO训练框架:为了训练 R²ec,作者提出了 RecPO,一个基于强化学习的训练框架,它通过引入融合奖励方案(结合离散排名奖励和连续相似性奖励)来优化模型,无需依赖专门的推理注释。

三、实现方法

3.1 模型设计

R²ec 的核心设计是将推理(reasoning)和推荐(recommendation)任务集成到一个统一的模型架构中,通过自回归过程实现推理和推荐的交替进行。

架构设计

  • 基础架构:R²ec 基于一个解码器架构(decoder-only backbone),类似于常见的 Transformer 模型。

  • 任务特定头(Task-specific Heads)

    • 语言建模头(lm_head):负责生成推理标记(reasoning tokens)。它通过自回归的方式逐步生成推理过程中的文本内容。

    • 推荐头(rec_head):用于预测推荐项目。它通过计算候选项目与生成的推理标记的相似度来生成推荐分数。

推理和推荐的交替过程

  • 推理生成:模型首先通过语言建模头生成一系列推理标记,这些标记描述了用户可能感兴趣的内容或推荐的逻辑。

  • 项目预测:在推理标记生成完成后,模型通过推荐头对候选项目进行评分,最终生成推荐列表。

3.2 训练优化

为了训练 R²ec,文章提出了 RecPO,一个基于强化学习(RL)的训练框架。RecPO 的目标是同时优化推理和推荐能力,而无需依赖专门的推理注释。具体实现如下:

轨迹采样

  • 采样过程:对于每个用户,模型通过当前策略采样多条推理轨迹(reasoning trajectories)。每条轨迹包括一系列推理标记和最终推荐的项目。

  • 采样策略:使用温度(temperature)和 top-K 采样来控制生成轨迹的随机性和多样性。

奖励和优势估计

  • 奖励计算:为了评估生成轨迹的质量,文章设计了一个融合奖励方案,结合了离散排名奖励(Rd)和连续相似性奖励(Rc)。

    • 离散排名奖励(Rd):使用 NDCG@k(Normalized Discounted Cumulative Gain)来衡量推荐项目的排名质量。

    • 连续相似性奖励(Rc):计算生成的推理标记与目标项目之间的 softmax 相似度。

    • 融合奖励:通过线性组合将两种奖励结合起来,其中 β 是一个权重参数,用于平衡两种奖励的贡献。

  • 优势估计:使用 GRPO或 RLOO 等方法来估计每条轨迹的优势值,这些优势值用于指导模型的更新方向。

四、实验结论

4.1 性能显著提升

R2EC 在所有实验数据集上均显著优于传统推荐系统、基于 LLM 的推荐系统和推理增强的推荐系统。具体来说,R2EC 在 Hit@5 和 NDCG@20 指标上分别实现了 68.67% 和 45.21% 的相对提升,表明其在推荐准确性和排名质量上都表现出色。

4.2 推理模块有效性

  • 无推理(w/o Reasoning):移除推理模块后,模型性能显著下降,表明推理模块对推荐性能有重要贡献。R2EC 在所有指标上平均提升了约 15%。

  • 无连续奖励(w/o Rc):仅使用离散排名奖励 Rd​ 时,模型性能优于仅使用连续相似性奖励 Rc​,但融合奖励方案进一步提升了性能。

  • 无离散奖励(w/o Rd):仅使用连续相似性奖励 Rc​ 时,模型性能下降,表明离散奖励在优化过程中更为关键。

4.3 优势估计方法对比

  • 训练奖励(Train Reward):两种方法在训练过程中都表现出高方差,但 GRPO 在初始阶段学习更快。

  • 验证奖励(Val Reward):GRPO 在验证集上的表现优于 RLOO,表明其在早期训练中能够提供更大的梯度。

  • 推理长度(Reasoning Length):GRPO 的推理长度随着训练的进行逐渐增加,而 RLOO 保持相对稳定。

4.4 轨迹采样和组大小的影响

  • 采样温度(Temperature):增加采样温度可以提高推理的多样性和推荐性能,但过高的温度会导致推理长度过长。

  • top-K 采样:增加 top-K 会缩短推理长度,但过多的候选标记会引入噪声,降低推荐性能。

  • 组大小(Group Size):较大的组大小可以提高性能,但会增加训练成本。实验表明,组大小为 6 或 8 时性能提升最为显著。

五、总结

文章提出了一种新的大型推荐模型 R²ec,它通过引入推理能力显著提升了推荐性能。R²ec 的设计和训练方法为推荐系统领域带来了新的视角,特别是在如何将推理能力与推荐任务紧密结合方面。

http://www.lqws.cn/news/176113.html

相关文章:

  • 市面上哪款AI开源软件做ppt最好?
  • 思尔芯携手Andes晶心科技,加速先进RISC-V 芯片开发
  • sklearn 和 pytorch tensorflow什么关系
  • 解决 VSCode 中无法识别 Node.js 的问题
  • 集群与分布式与微服务
  • Unity优化篇之DrawCall
  • Webpack的基本使用 - babel
  • 动态IP与静态IP:数字世界的“变脸术”与“身份证”
  • FPGA 动态重构配置流程
  • Flutter:下拉框选择
  • mitmproxy 爬虫,下载自己的博客图片
  • 国内环境修改 flutter.bat 来设置 flutter 的网络环境
  • 华为大规模——重塑生产力
  • Editing Language Model-based Knowledge Graph Embeddings
  • 基于AWS Serverless架构:零运维构建自动化SEO内容生成系统
  • aardio 简单网页自动化
  • 大模型安全测试报告:千问、GPT 全系列、豆包、Claude 表现优异,DeepSeek、Grok-3 与 Kimi 存在安全隐患
  • 在.NET Core控制器中获取AJAX传递的Body参数
  • 小牛电动NXT,市场销量第一
  • vscode .husky/pre-commit: line 4: npx: command not found
  • C++ 基础特性深度解析
  • 【AI论文】超越80/20规则:高熵少数令牌驱动LLM推理的有效强化学习
  • 3步布局关键词让流量更精准
  • Spring Cloud核心组件深度解析(2025终极指南)
  • 【业务框架】3C-相机-Cinemachine
  • EasyRTC嵌入式音视频通信SDK助力物联网/视频物联网音视频打造全场景应用
  • python报错No module named ‘tensorflow.keras‘
  • rk3588 区分两个相同的usb相机
  • 机器学习KNN算法全解析:从原理到实战
  • 边缘计算服务器