使用GPU设备透传功能前,请务必确保所有准备工作已完成且准确无误。以下详细介绍GPU设备透传功能的操作步骤:
ROM文件是用于物理GPU透传的配置文件。ROM文件上传后,将直接更新到已添加的规格对应的物理GPU中。
ZStack Cloud已内置基础ROM文件,满足绝大部分物理GPU透传。若用户需要使用其他ROM文件,请自行在显卡供应商官网获取所需的ROM文件并上传。
在ZStack Cloud主菜单,点击资源中心 > 云资源池 > 计算配置 > GPU规格,进入GPU规格界面,选中需要设置ROM的物理GPU规格并点击批量操作 > 设置ROM按钮,在弹出的设置ROM页面上传ROM文件。
在云主机管理界面点击云主机名称,进入云主机详情页的配置信息页面的物理GPU设备栏,执行加载操作,手动加载物理GPU。
在云主机管理界面选择一台或多台云主机,点击批量操作 > 系统配置 > 设置GPU策略按钮,批量为已有云主机设置GPU策略,选择加载物理GPU设备或物理GPU规格。
获取GPU设备匹配的显卡驱动和CUDA toolkit文件。
lsmod | grep nouveau
命令,若有输出内容表示存在nouveau驱动,可参考以下方法禁用nouveau驱动;若不存在nouveau驱动,跳过此步骤即可。# touch /etc/modprobe.d/nvidia-installer-disable-nouveau.conf #创建文件,将以下两行内容保存至文件中 blacklist nouveau options nouveau modeset=0
# yum install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r) #重构 initramfs 镜像 # cp /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak # dracut /boot/initramfs-$(uname -r).img $(uname -r) --force #只使用文本模式重启云主机 # systemctl set-default multi-user.target # init 3 # reboot # lsmod | grep nouveau #云主机重新启动后,检查nouveau驱动应该没有被使用
# chmod +x NVIDIA-Linux-x86_64-346.47.run #配置可执行权限 # ./NVIDIA-Linux-x86_64-346.47.run #运行驱动文件
命令执行后将开始解压驱动包并进入安装步骤,安装过程可能出现一些警告,依次确认即可,不影响驱动安装。若出现error报错,请参考表 1检查环境。报错 | 解决方案 |
---|---|
ERROR: Unable to find the kernel source tree for the currently running kernel. Please make sure you have installed the kernel source files for your kernel and that they are properly configured; on Red Hat Linux systems, for example, be sure you have the 'kernel-source' or 'kernel-devel' RPM installed. If you know the correct kernel source files are installed, you may specify the kernel source path with the '--kernel-source-path' command line option. | 需要确保kernel、kernel-headers、kernel-devel是否均已安装,并且版本号完全一致 |
ERROR: The Nouveau kernel driver is currently in use by your system. This driver is incompatible with the NVIDIA driver, and must be disabled before proceeding. Please consult the ow to correctly disable the Nouveau kernel driver. | 需要禁用nouveau驱动 |
ERROR: Failed to find dkms on the system! ERROR: Failed to install the kernel module through DKMS. No kernel module was installed; please try installing again without DKMS, or check the DKMS logs for more information. | 需要安装DKMS,它可以帮我们维护内核外的驱动程序,在内核版本变动之后可以自动重新生成新的模块 |
ERROR: Unable to load the kernel module 'nvidia.ko'. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release. | 执行命令./NVIDIA-Linux-x86_64-384.98.run --kernel-source-path=/usr/src/kernels/3.10.0-XXX.x86_64/ -k $(uname -r) 即可 |
# lspci |grep NVIDIA # nvidia-smi
# chmod +x cuda_8.0.61_375.26_linux.run #配置可执行权限 # ./cuda_8.0.61_375.26_linux.run #运行驱动文件
vim /root/.bashrc
命令,将以下内容保存至此文件,完成环境变量配置:#gpu driver export CUDA_HOME=/usr/local/cuda-8.0 export PATH=/usr/local/cuda-8.0/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH export LD_LIBRARY_PATH="/usr/local/cuda-8.0/lib:${LD_LIBRARY_PATH}"
# source ~/.bashrc # cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery # make # ./deviceQuery
# 创建挂载点 mkdir /mnt/cdrom # 挂载CD-ROM镜像 mount /dev/cdrom /mnt/cdrom # 安装性能优化工具 cd /mnt/cdrom/ bash ./zs-tools-install.sh # 卸载CD-ROM镜像(可选) cd ~ umount /mnt/cdrom
selinux
,否则将影响QGA配置功能。在ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警器 > 资源报警器,进入资源报警器界面,点击创建资源报警器,选择报警类型为云主机或物理机,报警条目为物理GPU相关条目 (目前包括:物理GPU利用率、物理GPU显存利用率、物理GPU温度),按需设置报警阈值并绑定通知对象即可。
在ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警器 > 事件报警器,进入事件报警器界面,点击创建事件报警器,选择资源类型为物理机,报警条目为物理GPU相关条目 (目前包括:物理GPU拔出或失联、GPU状态异常),并绑定通知对象即可。
学习路径
ZStack Cloud 产品学习路径
版本号:
ZStack Cloud 产品学习路径
快速梳理文档,点击相应文本链接,快速跳转到相应文档的页面,学习 ZStack Cloud 产品。
我知道了
业务咨询:
400-962-2212 转 1售后咨询:
400-962-2212 转 2其他(漏洞提交、投诉举报等)
400-962-2212 转 3业务咨询:
400-962-2212 转 1ZStack学院:
training@zstack.io业务咨询:
400-962-2212 转 1售后咨询:
400-962-2212 转 2其他(漏洞提交、投诉举报等)
400-962-2212 转 3业务咨询:
400-962-2212 转 1售后咨询:
400-962-2212 转 2其他(漏洞提交、投诉举报等)
400-962-2212 转 3业务咨询:
400-962-2212 转 1商务联系:
channel@zstack.io业务咨询:
400-962-2212 转 1商务联系:
channel@zstack.io成功提交申请。
我们将安排工作人员尽快与您取得联系。感谢您使用 ZStack 产品和服务。
信息提交成功。
我们将安排工作人员尽快与您取得联系,请保持电话畅通。感谢您使用 ZStack 产品和服务。
感谢您使用 ZStack 产品和服务。
商务咨询:
400-962-2212 转 1售后咨询:
400-962-2212 转 2商务联系:
sales@zstack.io成功提交申请。
我们将安排工作人员尽快与您取得联系。感谢您使用 ZStack 产品和服务。