当前位置: 首页 > news >正文

【nvidia-H100-ib排障实战2】:服务器 InfiniBand 网络性能问题深度分析

目录

 InfiniBand 网络性能日志:

实际生产服务器 InfiniBand 网络性能问题深度分析

一、核心问题定位:mlx5_1 设备性能异常

二、问题详细分析

1. mlx5_1 设备异常原因推测

(1)硬件连接故障

(2)驱动或固件问题

(3)资源争用或配置错误

2. CPU 频率不一致问题

三、其他设备性能分析

1. 正常设备表现

2. 异常偏高设备:mlx5_10

四、系统性优化建议

1. 硬件层面

2. 软件与配置层面

3. 测试方法改进

五、故障处理优先级建议


 InfiniBand 网络性能日志:

test@h3-1-gpu:~/nccl-tests$ nvidia-smi 
Mon Jun 23 14:01:32 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   P
http://www.lqws.cn/news/488161.html

相关文章:

  • 深入理解JavaScript设计模式之迭代器模式
  • 【python实用小脚本-111】基于PyTorch的人脸口罩检测系统技术文档
  • 构建你的API防护盾 - 抵御恶意爬虫、注入与业务欺诈
  • qwen 的词编码模型中tokenid 到 高维向量是什么实现的,tokenid的排列有什么特点
  • 【Altium Designer】---- 02创建元器件符号和封装
  • 基本图算法介绍
  • Maven 之 JUnit 测试体系构建全解析
  • 淘宝直播带货API开发:弹幕抓取与商品点击热力图生成系统
  • 春秋云镜【CVE-2017-18349】fastjson wp
  • 从java到vue3:第一天
  • 支持向量机(SVM):数学引擎与工程实践深度解析——从最大间隔到核技巧的完整推导与应用
  • 【技术分享】XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
  • 从 0 到 1 构建 Graph RAG 系统:本地图谱 + 通义千问落地实践
  • 【DeepSeek实战】2、DeepSeek特训:Function Calling与ReAct双引擎驱动大模型智能升级实战指南
  • Redis04
  • Solidity 入门教程(三):函数 Function 详解 —— 用对函数,写好合约
  • npm ci对比npm install
  • 榕壹云无人售货机管理系统:开源架构赋能私有化部署,打造智能零售技术解决方案
  • Angular进阶之十二:Chrome DevTools+Angular实战诊断指南
  • mfc与vs成功在xp系统所需做的修改
  • leetcode83.删除排序链表中的重复元素
  • mongoDB服务本地化部署
  • 利用栈,实现括号匹配功能
  • OVS Faucet练习(下)
  • 百胜软件胜券AI:打造智慧零售运营新范式
  • 预训练语言模型基础知识概述
  • 使用Vue重新构建应用程序
  • PDF-XSS
  • xss利用meta强制跳转 CPS report-uri 报错泄露利用 -- GPN CTF 2025 Free Parking Network 1 2
  • 设计模式 - 抽象工厂