cuda, torch, tensorflow, your own GPU, and DCNv2 supports decent pytorch such as torch 安装卸载指南

1 minute read

Published: November 21, 2024

今天在搞category-level pose estimation，fork这个project时候遇到了 RuntimeError: CUDA error: no kernel image is available for execution on the device (rastervision)

首先:

1. Cuda 和自身的电脑的GPU 的算力要对应。

Screenshot from 2024-11-21 00-38-24

link：https://developer.nvidia.com/cuda-gpus

这里需要用，算力对应的cuda版本

Screenshot from 2024-11-21 00-39-41

link: https://docs.nvidia.com/datacenter/tesla/drivers/index.html#cuda-arch-matrix

比如说我的显卡是 RTX 3060,就需要选择 11.0 以上的 cuda进行支持，同时这里的最大支持如果没错的话，需要用nvidia-smi进行查看，右上角的cuda version 就是最大的cuda 的support 的版本。

(base) tianyi@tianyi-Redmi-G-2022:~$ nvidia-smi
Thu Nov 21 00:41:21 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3060 ...    Off | 00000000:01:00.0  On |                  N/A |
| N/A   38C    P5              20W /  80W |   2201MiB /  6144MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      1389      G   /usr/lib/xorg/Xorg                          107MiB |
|    0   N/A  N/A      1773      G   /usr/lib/xorg/Xorg                         1051MiB |
|    0   N/A  N/A      1920      G   /usr/bin/gnome-shell                        201MiB |
|    0   N/A  N/A     34438      G   ...23,262144 --variations-seed-version      563MiB |
|    0   N/A  N/A     39888      G   ...erProcess --variations-seed-version      234MiB |
|    0   N/A  N/A     64865      G   wemeetapp                                     5MiB |
|    0   N/A  N/A     66325      G   /usr/lib/firefox/firefox                      9MiB |
+---------------------------------------------------------------------------------------+

这里还有一个cudnn，但是这个一般没什么问题，跳过了

2. 然后知道可以安装的cuda 区间，我们还需要知道 torch 和 cuda 的对应关系，这里的版本也需要对应起来。

我也不知道这个每个cuda对应torch 版本是怎么来的，简直是是山代码，但是如果你有要求的torch版本，一定要按照这个来。。。 link是： https://pytorch.org/get-started/previous-versions/

Screenshot from 2024-11-21 00-48-28

3.然后在找DCN 的torch和cuda和numpy的支持的版本是什么，搞笑的是，他们也是拼凑起来的版本，一个一个测试能不能work，https://github.com/lucasjinreal/DCNv2_latest

因为我看到这里面写的是，能稳定运行torch 1.11所以我就顺着这个和之前的corresponding 的版本来联系起来，找到一个能连起来互相兼容的cuda torch。。。。。。。最后经验是多卸载cuda，就能跑了是山代码

cuda 卸载重装，千万别搞错吧nvidia-smi也uninstall，就麻烦大了

跟随标准uninstall:

其实cuda安装时就已经准备好了卸载的接口，卸载程序在 /usr/local/cuda-xx.x/bin 下，需要注意的是cuda10.0及之前的版本卸载程序名为 uninstall_cuda_xx.x.pl，而cuda10.1及之后的版本卸载程序名为 cuda-uninstaller。

tianyi@tianyi-Redmi-G-2022:/usr/local/cuda-11.3/bin$ sudo ./cuda-uninstaller 
 Successfully uninstalled 

选择新cuda: https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=20.04&target_type=runfile_local

使用runfile安装，最不容易出错。

The base installer is available for download below.

Base Installer	
Installation Instructions:
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

重复卸载cuda 遇到的问题

电脑进入纯文本模式解决 cuda 残留

重复卸载cuda 导致 cuda nvidia 有残骸在电脑里，阻止了新的cuda 安装，需要通过GRU 进入纯文本模式安装 cuda

nvidia official guidance for install: [text](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#installation)

alt text

Share on

Twitter Facebook LinkedIn

Tianyi Xiang

cuda, torch, tensorflow, your own GPU, and DCNv2 supports decent pytorch such as torch 安装卸载指南

1. Cuda 和自身的电脑的GPU 的算力要对应。

这里需要用，算力对应的cuda版本

2. 然后知道可以安装的cuda 区间，我们还需要知道 torch 和 cuda 的对应关系，这里的版本也需要对应起来。

3.然后在找DCN 的torch和cuda和numpy的支持的版本是什么，搞笑的是，他们也是拼凑起来的版本，一个一个测试能不能work，https://github.com/lucasjinreal/DCNv2_latest

cuda 卸载重装，千万别搞错吧nvidia-smi也uninstall，就麻烦大了

重复卸载cuda 遇到的问题

电脑进入纯文本模式解决 cuda 残留

Share on

You May Also Enjoy

Leetcode

9. Palindrome Number

Topics of CV works

Topics of CV works

some interesting RSS workshops

Tianyi Xiang

1. Cuda 和 自身的电脑的GPU 的算力要对应。

这里需要用，算力对应的cuda版本

2. 然后知道可以安装的cuda 区间，我们还需要知道 torch 和 cuda 的对应关系，这里的版本也需要对应起来。

3.然后在找DCN 的torch和cuda和numpy的支持的版本是什么，搞笑的是，他们也是拼凑起来的版本，一个一个测试能不能work，https://github.com/lucasjinreal/DCNv2_latest

cuda 卸载重装，千万别搞错吧nvidia-smi也uninstall，就麻烦大了

重复卸载cuda 遇到的问题

电脑进入 纯文本模式 解决 cuda 残留

Share on

You May Also Enjoy

Leetcode

9. Palindrome Number

Topics of CV works

Topics of CV works

some interesting RSS workshops

1. Cuda 和自身的电脑的GPU 的算力要对应。

电脑进入纯文本模式解决 cuda 残留