一、更换源

从软件更新中设置,自行选择最佳服务器,完成后执行:sudo apt-get update

二、Nvidia驱动安装

检查驱动安装

1
nvidia-smi

如果显示以下界面,则驱动状态正常。

若没有安装驱动则首先需要安装。输入以下指令,可以查看支持的驱动版本。

1
ubuntu-drivers devices

ubuntu系统显卡的驱动安装是比较容易出问题的地方,一般有三种方式。

(1)从软件更新中选择驱动安装

选择合适的驱动,应用更改,等待下载安装即可。需要一段时间。

(2)使用指令安装,假设选择上图中可用的 nvidia-utils-470 驱动,执行

1
sudo apt install nvidia-utils-470

(3)驱动文件包安装

通过 Nvidia驱动官网: 下载 NVIDIA 官方驱动 | NVIDIA 选择下载适配自己显卡的驱动。

下载后执行指令安装

1
sudo sh NVIDIA-Linux-x86_64-470.256.02.run

三、Docker安装

Docker Engine安装参考:https://docs.docker.com/engine/install/ubuntu/

(1)配置Docker的apt仓(需要科学上网,如果无法科学上网,还有离线安装的方法)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

# Add the repository to Apt sources:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt-get update

(2)安装Docker包

1
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

(3)hello-world验证,完成安装

1
sudo docker run hello-world

如果在第(1)步的最后执行 sudo apt-get update 时报 download.docker.com 443 无法连接,则可以离线下载这些安装包安装:

(1)去网址:https://download.docker.com/linux/ubuntu/dists/

(2)在列表中选择你的Ubuntu版本,以Ubuntu 20.04为例,输入查看指令后选择 focal

1
lsb_release -a

(3)进入到 /pool/stable 路径下,确定你的应用架构。我选 amd64

 

(4)需要下载的以下几个deb安装文件,版本(可选最新)和架构(不能错)都确认好。

1
2
3
4
5
containerd.io_<version>_<arch>.deb
docker-ce_<version>_<arch>.deb
docker-ce-cli_<version>_<arch>.deb
docker-buildx-plugin_<version>_<arch>.deb
docker-compose-plugin_<version>_<arch>.deb

(5)下载到一个文件夹下后,终端进入该文件夹,执行安装

1
sudo dpkg -i *.deb

(6)hello-world验证,完成安装

1
2
sudo service docker start
sudo docker run hello-world

四、安装Nvidia容器工具包

1、通过Apt安装

(1)配置下载仓

1
2
3
4
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

(2)执行更新

1
sudo apt-get update

(3)安装Nvidia容器工具包

1
sudo apt-get install -y nvidia-container-toolkit

2、配置Docker

(1)使用 nvidia-ctk 指令配置容器

1
sudo nvidia-ctk runtime configure --runtime=docker

(2)重启Docker进程

1
sudo systemctl restart docker

五、docker去掉sudo

docker刚安装完,执行指令时都是需要sudo docker,去除如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#(1)查看用户组及成员
sudo cat /etc/group | grep docker

#(2)添加docker组
sudo groupadd docker

#(3)添加用户到docker组
sudo gpasswd -a ${USER} docker

#(4)增加读写权限
sudo chmod a+rw /var/run/docker.sock

#(5)重启docker
sudo systemctl restart docker