当前位置: 首页 > news >正文

centos 7 安装NVIDIA Container Toolkit

要在 CentOS 7 上离线安装 NVIDIA Container Toolkit,需确保已安装 NVIDIA 驱动和 Docker 环境。以下是完整步骤及注意事项:


⚙️ 一、环境准备

  1. 验证 NVIDIA 驱动
    运行 nvidia-smi 确认驱动已正确安装,若未安装需先离线安装驱动:

    • 下载对应 GPU 型号的驱动包(如 NVIDIA-Linux-x86_64-xxx.run)。
    • 禁用系统自带 nouveau 驱动(修改 /etc/modprobe.d/blacklist.conf 并重建 initramfs)。
    • 通过 init 3 进入命令行模式安装驱动。
  2. 安装 Docker CE
    若未安装 Docker,需离线部署:

    • 下载 Docker 静态二进制包(如 docker-20.10.9.tgz)。
    • 解压并复制到 /usr/bin/
      tar xzvf docker-20.10.9.tgz
      sudo cp docker/* /usr/bin/
      
    • 配置 systemd 服务并启动(详见)。

📦 二、获取离线 RPM 包

在联网机器下载所需组件(需与 CentOS 7 架构一致):

sudo yum install -y --downloadonly --downloaddir=/path/to/download \nvidia-container-toolkit \nvidia-container-runtime \libnvidia-container1 \libnvidia-container-tools \nvidia-docker2

关键组件清单

包名作用来源
libnvidia-container*容器底层库支持
nvidia-container-runtime容器运行时接口
nvidia-container-toolkit核心工具包
nvidia-docker2Docker 集成配置

💡 注:将所有 RPM 包传输到目标服务器的离线环境(如 /opt/nvidia-rpms/)。


🔧 三、安装步骤

  1. 批量安装 RPM 包
    进入存放目录执行:

    cd /opt/nvidia-rpms
    sudo rpm -Uvh *.rpm --nodeps --force  # 忽略依赖强制安装
    

    ⚠️ 若遇依赖错误,需手动补充缺失包(如 dkms)。

  2. 配置 Docker 使用 NVIDIA Runtime
    生成默认配置并重启服务:

    sudo nvidia-ctk runtime configure --runtime=docker  # 生成 /etc/docker/daemon.json
    sudo systemctl restart docker
    

    确认 /etc/docker/daemon.json 包含:

    {"runtimes": {"nvidia": {"path": "nvidia-container-runtime","runtimeArgs": []}},"default-runtime": "nvidia"
    }
    

🧪 四、验证安装

  1. 检查工具包版本
    nvidia-ctk --version  # 应输出类似 1.14.1
    
  2. 运行测试容器
    docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
    
    成功则显示与宿主机一致的 GPU 信息。

⚠️ 关键注意事项

  1. 依赖冲突处理
    若强制安装(--nodeps)后 Docker 启动失败,检查日志 journalctl -u docker,常见问题为内核版本不匹配或缺失 libcuda.so

  2. 离线环境限制

    • CUDA 镜像需提前在联网环境下载(如 nvidia/cuda:11.0-base)。
    • 避免升级内核,否则需重新编译驱动。
  3. GPU 资源隔离
    多容器共享 GPU 时,可通过 docker run --gpus '"device=0"' 指定设备。


💎 额外建议

  • CUDA 版本兼容性:确保容器内 CUDA 版本 ≤ 宿主机驱动支持的版本(通过 nvidia-smi 顶部显示信息比对)。
  • 替代方案:若环境允许,优先通过代理设置在线安装(修改 /etc/yum.conf 添加 proxy=http://x.x.x.x:port)。

遇到问题可参考 NVIDIA 官方文档:Container Toolkit 离线指南。

http://www.lqws.cn/news/532279.html

相关文章:

  • 鸿蒙原子化服务与元服务:轻量化服务的未来之路
  • Spring Security 安全控制终极指南
  • postman接口功能测试
  • 【音视频】Ubuntu下配置ffmpeg库
  • Learning a Neural Solver for Multiple Object Tracking
  • 表单数据收集实现分析
  • vue3+element-plus 组件功能实现 上传功能
  • python的文学名著分享系统
  • Unity热更新 之 Lua
  • docker 命令
  • Unity AR构建维护系统的以AI驱动增强现实知识检索系统
  • 专题:2025中国游戏科技发展研究报告|附130+份报告PDF、原数据表汇总下载
  • [mcp-servers] docs | AI客户端-MCP服务器-AI 架构
  • 国外开源客服系统chathoot部署,使用教程
  • Windows 下让任何 .bat 脚本后台运行的方法:使用 NSSM 注册为服务,告别误关窗口
  • 常见的排序方法
  • VUE-----常用指令
  • 如何使用 vue vxe-table 来实现一个产品对比表表格
  • ​​深入解析 Vue 中的 pathRewrite:路径重写规则详解​​
  • 算法 按位运算
  • 光场操控新突破!3D 光学信息处理迎来通用 PSF 工程时代--《自然》子刊:无需复杂算法,这一技术让 3D 光学成像实现 “即拍即得”念日
  • AI智能体——OpenManus 源码学习
  • [3D-portfolio] 版块包装高阶组件(封装到HOC) | Email表单逻辑 | 链式调用
  • Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告
  • 记dwz(JUI)前端框架使用之--服务端响应提示框
  • Jenkins与Kubernetes深度整合实践
  • 从零开始理解百度语音识别API的Python实现
  • Trae IDE 大师评测:驾驭 MCP Server - Figma AI Bridge 一键成就前端瑰宝
  • HDC 2025丨华为云AI原生中间件,构建应用运行的领先架构
  • DAY 43 复习日