问题：

Gpu慢速的TensorFlow宽线性模型推断

上官凯歌

2023-03-14

我正在训练一个关于tensorflow的稀疏逻辑回归模型。这个问题是关于推理部分的。我试图在cpu和gpu上对推理进行基准测试。我使用英伟达P100 GPU（4个骰子）在我目前的GCE盒上。我是gpu新手，很抱歉提出了一些幼稚的问题。

模型相当大~54k操作（与dnn或Imagenet模型相比，它算大吗？）。当我记录设备放置，我只看到gpu： 0正在使用，其余的未使用？我在训练期间不做任何设备放置，但在推断期间，我希望它能最佳地放置和使用图形处理器。我观察到的一些事情：我的输入节点放置（feed_dict）放在cpu上，所以我假设我的数据正从cpu复制到gpu？feed_dict幕后是怎么运作的？

1）如何将要运行预测的数据直接放在gpu上？注意：我的训练是在分布式cpu上运行的，有好几TB的内存，所以在训练过程中我不能在图形中直接使用常量或变量，但我的推断是，我可以直接在gpu上放置小批量的数据。我有没有办法做到这一点？2）由于我使用的是P100 gpu，我认为它与主机有统一的内存，是否可以使用zerocopy并直接将数据加载到gpu中？如何从python、java和c代码中实现这一点。目前我使用的feed_dict来自谷歌的各种资源，我认为这根本不是最优的。3）当我分析代码时，是否可以使用一些工具或探查器查看，如：

for epoch_step in epochs:
    start_time = time.time()
    for i in range(epoch_step):
            result = session.run(output, feed_dict={input_example: records_batch})
    end_time = time.time()
    print("Batch {} epochs {} :time {}".format(batch_size, epoch_step, str(end_time - start_time)))

花费了多少时间1）cpu到gpu数据搬迁2）会话运行开销3）gpu利用率（目前我定期使用nvidia-smi来监控4）cpu和gpu的内核调用开销（我假设每次调用sess.run调用1内核调用对吗？

我当前的基准测试结果：CPU:

Batch size : 10
NumberEpochs   TimeGPU    TimeCPU 
10             5.473      0.484
20             11.673     0.963
40             22.716     1.922
100            56.998     4.822
200            113.483    9.773

Batch size : 100
NumberEpochs   TimeGPU    TimeCPU 
10             5.904      0.507
20             11.708     1.004
40             23.046     1.952
100            58.493     4.989
200            118.272    9.912

Batch size : 1000 
NumberEpochs   TimeGPU    TimeCPU   
10             5.986      0.653
20             12.020     1.261
40             23.887     2.530
100            59.598     6.312
200            118.561    12.518

Batch size : 10k
NumberEpochs   TimeGPU    TimeCPU 
10             7.542      0.969
20             14.764     1.923
40             29.308     3.838
100            72.588     9.822
200            146.156    19.542

Batch size : 100k
NumberEpochs   TimeGPU    TimeCPU 
10             11.285     9.613
20             22.680     18.652
40             44.065     35.727
100            112.604    86.960
200            225.377    174.652

Batch size : 200k
NumberEpochs   TimeGPU    TimeCPU 
10             19.306     21.587
20             38.918     41.346
40             78.730     81.456
100            191.367    202.523
200            387.704    419.223

一些值得注意的观察结果：随着批处理大小的增加，我看到我的gpu利用率增加（它使用的唯一gpu达到100%，我有没有办法告诉tf也使用其他gpu）在批处理大小200k是我唯一一次看到我的幼稚基准测试显示gpu与cpu相比增益较小。在给定的时间段内增加批处理大小对cpu和gpu直到批处理大小的时间影响最小

如何进一步改进我的推理，我相信我并没有优化所有GPU。关于如何更好地进行基准测试以获得更好的cpu时间细分，有什么想法吗-

任何更多的想法来改进基于gpu的推断。可能是基于xla的优化或张量？我希望有高性能的推理代码在gpu上运行这些计算，而应用服务器在cpu上运行。

共有1个答案

黄聪

2023-03-14

一个信息来源是关于性能的TensorFlow文档，包括针对GPU和高性能模型的优化。

也就是说，这些指南倾向于针对训练而不是批量推理，尽管某些原则仍然适用。

我会注意到，除非您使用DistributionStrategy，否则TensorFlow不会自动将ops放在多个GPU（源）上。

在您的特殊情况下，我认为GPU还没有很好地调整以完成您的模型所需的稀疏操作类型，因此我实际上并不期望它在GPU上做得那么好（如果您记录设备放置，则有可能在CPU上完成查找）。一个逻辑回归模型只有一个（稀疏的）输入层和一个输出层，所以通常只有很少的数学运算。GPU在进行大量矩阵乘法、卷积等运算时最为出色。

最后，我鼓励您使用TensorRT来优化您的图，尽管对于您的特定模型，不能保证它做得更好。

类似资料：

GPU tensorflow运行速度比笔记本电脑上的CPU tensorflow慢？

我最近在我的笔记本电脑上安装了GPU tenstorflow、CUDA和cuDNN，使用本教程使用我的GPU训练我的模型。我的笔记本电脑是联想ideapad 510，处理器=i5-7代，GPU=GForce 940MX（4GB）。根据教程，我安装并配置了使用GPU所需的所有更改。每个epoc只需6秒钟就可以编译60000张图像。在表中，我可以看到我的GPU内存使用量是19MiB。在本教程中，他的
TensorFlow Lite GPU Compute比CPU Compute慢得多

我目前正在将一个模型从TensorFlow转换为TensorFlow Lite。通过首先创建一个检查点和一个保存的失重图（.pbtxt），然后使用freeze\u graph（）函数将模型冻结为具有图权重的.pb，最后在冻结的模型文件上运行tflite\u convert命令，我将模型从常规TF1.x会话转换为.tflite文件。在此过程中没有量化-保留了浮动。在那之后，我把模型放进Android
执行模型后清除Tensorflow GPU内存

问题内容：我已经训练了3个模型，现在正在运行代码，依次加载3个检查点中的每一个并使用它们运行预测。我正在使用GPU。加载第一个模型时，它会预先分配整个GPU内存（我希望通过它来处理第一批数据）。但是它不会在完成时卸载内存。当第二模型被加载，同时使用和GPU存储器仍从第一模型完全消耗，并且所述第二模型然后饥饿的存储器。除了使用Python子进程或多进程来解决该问题（我通过Google搜索找到的
使用Tensorflow-GPU禁用GPU设置(CPU与GPU速度对比)

本文向大家介绍使用Tensorflow-GPU禁用GPU设置(CPU与GPU速度对比)，包括了使用Tensorflow-GPU禁用GPU设置(CPU与GPU速度对比)的使用技巧和注意事项，需要的朋友参考一下禁用GPU设置 CPU与GPU对比显卡：GTX 1066 CPU GPU 简单测试：GPU比CPU快5秒补充知识：tensorflow使用CPU可以跑（运行），但是使用GPU却不能用的情况
Aparapi GPU执行速度比CPU慢

我正在尝试测试Aparapi的性能。我看到过一些博客，其中的结果显示，Aparapi确实在做数据并行操作的同时提高了性能。但我在测试中没有看到这一点。这里是我所做的，我写了两个程序，一个使用Aparapi，另一个使用普通循环。方案1：在Aparapi 程序2：使用循环程序1需要大约330ms，而程序2只需要大约55ms。我是不是做错什么了？我在Aparpai程序中打印出了执行模式，它打印出的
tensorflow lite模型的安全性

我正在开发一个Android应用程序，该应用程序将包含用于离线推理的张量流精简模型。我知道要完全避免有人偷我的模型是不可能的，但我想让尝试它的人很难受。我想将我的. tflite模型保留在. apk中，但没有顶层的权重。然后，在执行时，我可以下载最后一层的权重并将其加载到内存中。因此，如果有人试图窃取我的模型，他会得到一个无用的模型，因为它无法使用，因为最后一层的权重缺失。是否可以在没有最

Gpu慢速的TensorFlow宽线性模型推断

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档