PyTorchを走らせるのにたぶん一番良く使われているプラットフォームだと思うのだけれど、Ubuntuの場合nVidiaのドライバ、CUDAのバージョンなどの管理が何がどうなっているのか分からず、今のところ手詰まり。
このホームページでは複数バージョンのCUDAとcuDNNがインストールできる、と書いてあるが、この通りにやってもCUDA 11.3のライブラリがインストールされた状態にはならない。
nvidia-smiではCUDA 11.5と出るが、これはコンパイルツールのバージョンとは別とのこと。
$ nvidia-smi
Thu Dec 23 07:22:39 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.29.05 Driver Version: 495.29.05 CUDA Version: 11.5 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... On | 00000000:17:00.0 Off | N/A |
| 20% 31C P8 8W / 250W | 15MiB / 11176MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1237 G /usr/lib/xorg/Xorg 9MiB |
| 0 N/A N/A 1373 G /usr/bin/gnome-shell 3MiB |
+-----------------------------------------------------------------------------+
nvcc -Vでは当初10.2というバージョンが出ていたが、.bashrcに下記を追加して source .bashrcしたところ、
export PATH=/usr/local/cuda-11.3/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
今度は
$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Mon_May__3_19:15:13_PDT_2021
Cuda compilation tools, release 11.3, V11.3.109
Build cuda_11.3.r11.3/compiler.29920130_0
とnvccで表示されるバージョンが11.3になった。しかし、ここでPyTorchの公式サイトの指示通りにインストールしようとすると、
$ pip3 install torch==1.10.1+cu113 torchvision==0.11.2+cu113 torchaudio==0.10.1+cu113
ERROR: Could not find a version that satisfies the requirement torch==1.10.1+cu113 (from versions: none)
ERROR: No matching distribution found for torch==1.10.1+cu113
というエラーメッセージが出てインストールできない。