当前位置: 首页 > news >正文

AI大模型:(二)3.2 Llama-Factory微调训练deepseek-r1实践

目录

1.环境准备

2.模型下载

2.1.显存计算

2.2.存储计算

2.3.模型下载

3.Llama-Factory下载

4.数据准备

5.训练

5.1.Llama-Factory数据格式

5.2.配置外部数据集

5.3.运行Llama-Factory

5.4.UI界面配置

5.5.开始训练

5.6.评测

5.7.推理

5.8.导出模型


1.环境准备

     我们使用python虚拟环境做隔离,防止包冲突:

python -m venv python_model       # 创建名为python_model的虚拟环境
source python_model /bin/activate  # 激活环境(Linux/macOS)python_model\Scripts\activate.bat  # 激活环境 windows

2.模型下载

训练时选择模型大小,需要考虑gpu显存、模型存储(存储一般现在存储资源也不贵,也很大,一般都够):

2.1.显存计算

gpu显存计算公式:</

http://www.lqws.cn/news/202123.html

相关文章:

  • 微前端架构下的B端页面设计:模块化与跨团队协作的终极方案
  • 【图像处理基石】如何构建一个简单好用的美颜算法?
  • 向 AI Search 迈进,腾讯云 ES 自研 v-pack 向量增强插件揭秘
  • JAVA理论第五章-JVM
  • JVM 垃圾回收器 详解
  • LVGL手势识别事件无上报问题处理记录
  • C++图书管理
  • 《前缀和》题集
  • [yolov11改进系列]基于yolov11融合改进检测头特征融合模块AFPN的python源码+训练源码
  • CCPC chongqing 2025 H
  • 振动力学:多自由度系统
  • AI书签管理工具开发全记录(十五):TUI基本逻辑实现与数据展示
  • 【Hot 100】295. 数据流的中位数
  • PyTorch 中contiguous函数使用详解和代码演示
  • Linux(14)——库的制作与原理
  • 华为云Flexus+DeepSeek征文 | 从零到一:用Flexus云服务打造低延迟联网搜索Agent
  • 为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)
  • Vue3中computed和watch的区别
  • CSS3 的特性
  • redis分布式锁
  • DAY 24 元组和OS模块
  • 机器学习期末复习
  • 【leetcode】递归,回溯思想 + 巧妙解法-解决“N皇后”,以及“解数独”题目
  • 16-Oracle 23 ai-JSON-Relational Duality-知识准备
  • Java并发编程之并发编程的调试与测试
  • 性能测试-jmeter实战2
  • 打卡第38天:早停策略和模型权重的保存
  • 企业微信授权登录(uniapp项目)
  • 数据通信与计算机网络——数据与信号
  • Nodejs工程化实践:构建高性能前后端交互系统