当前位置: 首页 > news >正文

【读代码】从预训练到后训练:解锁语言模型推理潜能——Xiaomi MiMo项目深度解析

项目开源地址:https://github.com/XiaomiMiMo/MiMo
在这里插入图片描述

一、基本介绍

Xiaomi MiMo是小米公司开源的7B参数规模语言模型系列,专为复杂推理任务设计。项目包含基础模型(MiMo-7B-Base)、监督微调模型(MiMo-7B-SFT)和强化学习模型(MiMo-7B-RL)等多个版本。其核心创新在于通过全流程优化解锁模型的推理潜力:

技术亮点

  • 预训练阶段:优化数据管道,提升推理模式密度
  • 训练目标:引入多token预测(MTP)加速推理
  • 后训练阶段:创新性代码奖励机制与数据重采样策略
  • 工程优化:无缝rollout引擎实现1.9倍训练加速

性能表现

  • 在AIME2024数学竞赛达到68.2%准确率(超过DeepSeek R1)
  • LiveCodeBench v5代码基准57.8%准确率
  • 推理速度提升90%(MTP加速)

二、快速上手

环境配置

# 使用官方推荐环境
conda create -n mimo python=3.10
conda activate mimo
pip install vllm>=0.7.3 torch==2.3.0

基础推理示例

from vllm import LLM, SamplingParamsmodel = LLM("XiaomiMiMo/MiMo-7B-RL",trust_remote_code=True,num_speculative_tokens=1)prompt = "解方程:x² -5x +6 = 0"
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)outputs 
http://www.lqws.cn/news/128449.html

相关文章:

  • NLP常用工具包
  • 打卡第36天:模型可视化以及推理
  • [Linux] Linux GPIO应用编程深度解析与实践指南(代码示例)
  • 乘用车自动驾驶和非乘用车(矿车,卡车)自动驾驶区别
  • 从传统 RAG 到知识图谱 + Agent
  • MySQL补充知识点学习
  • Java中Git基础操作详解(clone、commit、push、branch)
  • 高防IP可以防护什么攻击类型?企业网络安全的第一道防线
  • 【投稿优惠】2025年人工智能与图像处理国际会议(AIIP 2025)
  • (eNSP)配置WDS手拉手业务
  • Python绘图库及图像类型
  • Linux系统-基本指令(6)
  • 纹理压缩格式优化
  • 保险丝选型
  • 防火墙设置实战操作案例(小白的“升级打怪”成长之路)
  • java的迭代器
  • 【推荐算法】推荐系统核心算法深度解析:协同过滤 Collaborative Filtering
  • 如何在 HTML 中添加按钮
  • 《复制粘贴的奇迹:原型模式》
  • Devops自动化运维---py基础篇一
  • TypeScript 编译 ES6+ 语法到兼容的 JavaScript介绍
  • C++性能优化指南
  • vue源码解析——diff算法
  • OpenCV C++ 心形雨动画
  • 多分辨率 LCD 的 GUI 架构设计与实现
  • 【从零学习JVM|第二篇】字节码文件
  • 深入解析 Java ClassLoader:揭开 JVM 动态加载的神秘面纱
  • Openlayers从入门到入坟
  • nmcli connection常用命令及设置wifi为AP模式
  • 第N1周:one-hot编码案例