当前位置: 首页 > news >正文

M-DPO复现

《BUILDING MATH AGENTS WITH MULTI-TURN ITERA- TIVE PREFERENCE LEARNING》

SFT

conda create -n MDP python=3.10.9 -y
conda activate MDPconda install nvidia/label/cuda-12.2.0::cuda-nvccpip3 install torch==2.1.2 torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simplepip install /home/chenjh2/flash_attn-2.6.3+cu123torch2.1cxx11abiTRUE-cp310-cp310-linux_x86_64.whlpip install huggingface-hub==0.24.7 --no-cache-dir -i https://pypi.tuna.tsinghua.edu.cn/simplegit clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simplevim /src/axolotl/utils/bench.py
from pynvml import NVMLErrorgit clone https://github.com/lm-sys/FastChat.git
cd FastChat
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pydantic==2.6.3 pydantic-core==2.16.3 pydantic-settings==2.2.1 -i https://pypi.tuna.tsinghua.edu.cn/simplepip install deepspeed -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wandb -i https://pypi.tuna.tsinghua.edu.cn/simplewandb login
901e4416d671cd0e712b05256590973d905828a7
huggingface-cli login
hf_hnEyGRuGEFpPQHdaPsNppKiIRjtQyTdYHqcd axolotl
##多个
CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7" torchrun --nproc_per_node 8 --master_port 20001 -m axolotl.cli.train examples/gemma/qlora.yml
#单个
CUDA_VISIBLE_DEVICES="0" torchrun --nproc_per_node 1 --master_port 20001 -m axolotl.cli.train examples/gemma/qlora.yml

推理

M-DPO

http://www.lqws.cn/news/445249.html

相关文章:

  • 从Excel到知识图谱再到数据分析:数据驱动智能体构建指南
  • HALCON相机标定
  • 安装MySQL 5.7导入数据,修改密码,创建账号并授权
  • CppCon 2017 学习:Everything You Ever Wanted to Know about DLLs
  • craw14ai 框架的入门讲解和实战指南——基于Python的智能爬虫框架,集成AI(如NLP/OCR)实现自动化数据采集与处理
  • 协作式机器人助力提高生产速度和效益
  • Molmo and PixMo论文精读
  • Java SE - String自定义类型
  • Docker 日志
  • XMOS基于边缘AI+DSP+MCU+I/O智算芯片的音频解决方案矩阵引领行业创新潮流
  • 运维人员常用网站列表
  • 【深度学习】条件随机场(CRF)深度解析:原理、应用与前沿
  • day35-Django(1)
  • MySQL 面试之事务和锁篇
  • 如何设计可维护、可扩展的测试框架
  • 软件范式正在经历第三次革命
  • 全网独家源码出售,电商任务系统补单平台系统源码部署搭建全开源支持二次开发
  • ubuntu 系统 pgm图片和png相互转化
  • Haproxy搭建web集群
  • 泛微OAe9-后端二开常见数据库操作
  • C++实现手写strlen函数
  • AI Agent与Agentic AI:原理、应用、挑战与未来展望
  • C++11 lambda 表达
  • c++读写锁
  • CppCon 2017 学习:folly::Function A Non-copyable Alternative to std::function
  • AWK在网络安全中的高效应用:从日志分析到威胁狩猎
  • 基于Python的机动车辆推荐及预测分析系统
  • GRBL_UNO R3编译下载
  • 2025虚幻引擎文件与文件夹命名规律
  • 质检滞后?物料浪费?MES系统破解传统制造七大死结