当前位置: 首页 > 工具软件 > CUDA > 使用案例 >

硬件踩坑——CUDA版本选择/安装(不同的深度学习项目需要不同CUDA,显卡与cuda匹配问题)

景胜涝
2023-12-01

源起

  1. 9月-11月测试深度学习的项目,由于个人的方向的论文主要集中于2017,2019年左右,这个阶段很多代码都是tensorflow1与tensorflow2兼有、python2与python3兼有,cuda主要用的是cuda8,cuda10
  2. 我的机器显卡是3060的(R9000P);然后租的机器是3090的,借的机器是A100的,显卡太新,跑不了我研究方向的很多项目(很长一段时间我都在抑郁,我的显卡不赖呀,竟然跑不起来代码,都想换课题了)

尝试的方法

  1. 在3060、3090的机器上安装cuda8 (不要这个干!!!瞎浪费时间,但是学会了超快安装cuda的方式,以至于我现在拿到机器本能的作出以下的反映);

  2. tensorflow1的项目使用tensorflow2环境跑(可以,但是需要改,会报以下几种错误,一般import tensorflow.compat.v1 as tf代替 import tensorflow as tf 可解决);

    • tf.placeholder() is not compatible with eager execution. (解决办法:在程序的开始加:tf.compat.v1.disable_eager_execution()
    • module ‘tensorflow’ has no attribute ‘…’ (解决办法:import tensorflow.compat.v1 as tf代替 import tensorflow as tf )
    • TypeError: batch_to_space_v2() got an unexpected keyword argument ‘block_size’ (解决办法:import tensorflow.compat.v1 as tf代替 import tensorflow as tf )
    • Not creating XLA devices, tf_xla_enable_xla_devices not set (可暂时性的忽视)
  3. 换项目,读代码,读项目中的issues (非常有用,对现在环境搭不起来有启发性作用,还能避免踩别人踩过的坑。我迷茫了,不知道干什么了,我要提醒自己干这个)

  4. 开始认真看报错:

    • libcudart.so.8.0: cannot open shared object file: No such file or directory (说明我的cuda版本不合适,项目要cuda8, 我的却是cuda11.7; 或在tensorflow的版本不合适)
    • errors_impl.NotFoundError: libcudart.so.8.0 (同上)
  5. 机器的显卡太新, 跑不了cuda

    • 在咸鱼上搞台老点的机器 (放弃了,没服务器方便,服务器可以一键换镜像)
    • 租老的显卡(像1080ti)
  6. 在python3 的conda 环境装 Python2 (emmmm,这个方法其实不管用,因为用的时候还是要不python3,要不python2, 不能像我想的那样——可以python2, python3代码混着写。 感觉自己好傻呀)

cuda的安装

参考:

  1. 安装步骤: https://blog.csdn.net/sinat_36721621/article/details/115326307
  2. 官方不同的版本:https://developer.nvidia.com/cuda-toolkit-archive
 类似资料: