记录一下装的过程:
1.装显卡驱动,到https://www.nvidia.com/Download/index.aspx下载相应的驱动。并且查看你要装的cuda版本和驱动对应的关系
cuda和驱动版本要求:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html 这上面有对应的关系。
a. 检测相应的内核文件,我直接装的Ubuntu 16.04好像没有执行也没出问题
sudo apt-get install linux-headers-$(uname -r)
b. 编辑/etc/modprobe.d/blacklist.conf 禁止第三方驱动
sudo vim /etc/modprobe.d/blacklist.conf
文件末尾加上下两行
blacklist nouveau
options nouveau modeset=0
c.重启
reboot
d.检测禁止是否成功,下面的命令没有输出就代表可以了。
lsmod | grep nouvea
f.通过ctrl+alt+f2进入终端,登入账户,通过下面命令关闭图像界面
sudo service lightdm stop
g.切换到你下的nvidia driver目录 然后执行
sudo bash NVIDIA-Linux-x86_64-430.26.run -no-opengl-files
其中按提示操作就可以了,似乎不加-no-opengl-files有的时候会出现循环登入问题。
h.装完就可以执行下面的命令开启图像界面,然后登入了,没有出现循环登入就可以了
sudo service lightdm start
执行下面命令,查看
i.nvidia-smi
到此就完成了驱动的安装
2.安装cuda 10.0
1.到https://developer.nvidia.com/cuda-downloads下好cuda_10.0.130_410.48_linux
2.切换到下载好的目录具体怎么切自行百度
3.执行下面命令,除了装驱动选择no,其他都是yes
sudo bash cuda_10.0.130_410.48_linux
4.一般用户目录下会创建NVIDIA_CUDA-10.0_Samples的测试样例,cd进入这个目录,执行编译
make -j8
我这里通过8核编译,具体看自己的机子,编译完成后,执行
cd bin/x86_64/linux/release/
./deviceQuery
会出现pass就是过了。
5.配置环境变量
在用户目录下有.bashrc文件
vim ~/.bashrc
写入
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:$PATH
一般安装完cuda会出现/usr/local/cuda这个软连接,你也可以写cuda-10.0
然后保存退出
source ~/.bashrc 载入配置
nvcc -V 查看版本,出现版本信息就说明配置好了
3.安装cudnn 7.6
1. 下载cudnn,https://developer.nvidia.com/cudnn,要注册账号才能下。
下载好 cudnn-10.0-linux-x64-v7.6.0.64.tgz
2. tar -zxvf cudnn-10.0-linux-x64-v7.6.0.64.tgz #解压
3. 执行下面的命令,把cudnn的头文件和库拷贝到cuda下的include和lib64下
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
4. 到目前就已经是装好了。如果要验证的话,可以安装一个tensorflow
pip install tensorflow-gpu=1.13.1
命令行输入python 就可以进行python解释器环境
然后输入下面的就可以看到gpu信息了,如果没有说明没装好。
import tensorflow as tf
gpu_device_name = tf.test.gpu_device_name()
print(gpu_device_name)
5. 到这里就基本装好了。
4.装的过程出现问题
1.如果出现循环登入问题,就ctrl+alt+f2进入终端卸载驱动。
sudo service lightdm stop
sudo apt-get remove --purge nvidia-*
然后重新装驱动就可以了。
2.出现cuda和driver版本不一致,一般装新的驱动基本能支持cuda,如果驱动太旧可能不满足cuda的要求。
3.tensorflow 版本和cuda、cudnn版本不匹配,出现各种问题。最好装相应匹配的版本。
https://www.tensorflow.org/install/source#tested_source_configurations有对应的cuda、cudnn、tensorflow版本对应。
参考:https://blog.csdn.net/u013538542/article/details/83830249
https://www.jianshu.com/p/e087bc0cd934