当前位置: 首页 > news >正文

【大模型问题】ms-swift微调时,显存持续增长原因分析与解决方案

问题原因分析

  1. 缺少梯度检查点(Gradient Checkpointing)

    • 未启用梯度检查点会导致完整的前向传播激活值保存在显存中
    • 这是显存增长的主要因素
  2. 未使用混合精度训练

    • 缺少 --dtype 参数,默认使用 FP32 训练
    • FP32 比 FP16/BF16 多占用一倍显存
  3. LoRA 目标模块设置问题

    • --target_modules all-linear 包含过多模块
    • VL 模型的视觉编码器部分有大量线性层
  4. 未限制最大样本长度

    • 缺少 --max_length 参数
    • 长文本样本会导致显存占用不稳定
  5. 缺少梯度累积控制

    • 未设置梯度累积步数
    • 每个 batch 都立即更新,效率低且显存波动大
  6. 未冻结视觉编码器参数

    • 虽然设置了 --freeze_vit true&#x
http://www.lqws.cn/news/500815.html

相关文章:

  • 【CS创世SD NAND征文】基于全志V3S与CS创世SD NAND的物联网智能路灯网关数据存储方案
  • Nginx负载均衡
  • Docker 数据持久化完全指南:Volume、Bind Mount 与匿名卷
  • OpenCV CUDA模块设备层-----创建一个“常量指针访问器” 的工具函数constantPtr()
  • Docker Compose与私有仓库部署
  • Vue3+TypeScript移动端H5播放器选型指南:M3U8与主流播放器深度解析
  • 聚宽量化——股票时间序列函数
  • 传统消防演练与 VR 消防演练的区别有哪些
  • Unreal5从入门到精通之如何录制360°VR全景视频
  • Python-3-数据结构(列表)
  • Android edge-to-edge兼容适配
  • 监管报送面试回答思路和示例
  • Learning Dynamic Prompts for All-in-One Image Restoration
  • 利用 Python 脚本批量查找并删除指定 IP 的 AWS Lightsail 实例
  • 数据采集合规安全是品牌控价基石
  • 【unitrix】 4.3 左移运算(<<)的实现(shl.rs)
  • Jupyter Notebook 完全指南:从入门到生产力工具
  • 【格与代数系统】示例2
  • 在训练词编码模型使用mask还是自回归,在训练生成大模型采用mask还是自回归?
  • 【格与代数系统】示例
  • linux 下 Doris 单点部署
  • 优化 ArcPy 脚本性能
  • 华为云 Flexus+DeepSeek 征文|基于 CCE 集群部署 Dify 平台工作流:科研论文翻译与 SEO 优化工具的全流程设计实践
  • python中学物理实验模拟:平抛运动和抛物运动
  • 基于 SpringBoot+JSP 的医疗预约与诊断系统设计与实现
  • JavaWeb学习——day8(MVC模式与session、cookie)
  • Node.js特训专栏-实战进阶:7.Express模板引擎选型与使用
  • Java SE - 图书管理系统模拟实现
  • Python csv 模块
  • leetcode82.删除排序链表中的重复元素II