麒麟服务器OS V11 2503+搭建英伟达CUDA、CUDNN攻略

内容分享1周前发布
0 0 0

项目场景:

网上基于ubuntuOS安装cuda教程很多。但麒麟服务器OS V11现有教程极少。Cuda安装教程更是难找,英伟达在cuda、cudnn官网尚无kylinOS V11 2503版本匹配包。摸黑安装教程如下。

问题描述

1.麒麟安装英伟达4090驱动后,lightdm启动后黑屏,无响应。

2.英伟达在cuda、cudnn官网尚无kylinOS V11 2503版本匹配包:
参见英伟达官网,这里就不截图了。
3.官网教程安装cudnn rpm包后,cudnn无法定位。

import torch
a = torch.tensor(1.)
print(a.cuda())
tensor(1., device=‘cuda:0’)
print(cudnn.is_acceptable(a.cuda()))
Traceback (most recent call last):
File “”, line 1, in
NameError: name ‘cudnn’ is not defined

解决方案:

提示:这里填写该问题的具体解决方案:

一、安装英伟达驱动前,禁用开源驱动 nouveau
编辑黑名单文件:
sudo gedit /etc/modprobe.d/blacklist.conf
添加以下内容并保存:
blacklist nouveau
options nouveau modeset=0
更新配置并重启:
sudo update-initramfs -u
sudo reboot
验证是否禁用成功(无输出即成功):
lsmod | grep nouveau
二、下载英伟达cuda
1.按照英伟达官网教程下载安装cuda-repo-kylin10-13-0-local(需梯子)
2.安装后配置环境变量
3.nvcc -V验证是否成功
三、英伟达cudnn官网尚无kylinOS V11 2503版本匹配包

使用RHEL10版本rpm包替代,按官网指定命令安装安装PYtorch
找到对应cuda版本pytorch,使用命令:
pip install torch2.8.0 torchvision0.23.0 torchaudio==2.8.0将…/python3.11/site-packages/nvidia/cudnn中lib文件夹cudnn.h文件和include中的全部文件复制到
usr/local/cuda-13.0文件夹对应的lib64文件夹和include文件夹后,执行:
sudo chmod a+r /usr/local/cuda-12.0/include/cudnn.h
sudo chmod a+r /usr/local/cuda-12.0/lib64/libcudnn*
4.在python环境中验证:

检查cuda和cudnn是否安装成功的代码


import torch
a = torch.tensor(1.)
print(a.cuda())
from torch.backends import cudnn
print(cudnn.is_available())
print(cudnn.is_acceptable(a.cuda()))
print(torch.cuda.is_available())
print(torch.cuda.device_count())

5.验证成功
麒麟服务器OS V11 2503+搭建英伟达CUDA、CUDNN攻略

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...