当前位置: 首页 > 知识库问答 >
问题:

Tensorflow在GPT-2程序中未充分利用GPU

盖向荣
2023-03-14

我正在运行大型模型(774M)的GPT-2代码。它用于通过交互式_条件_样本生成文本样本。林克:这里

因此,我给出了一个输入文件,其中包含自动选择生成输出的提示。此输出也会自动复制到文件中。简而言之,我不是在训练它,而是在使用模型生成文本。而且,我使用的是一个GPU。

我在这方面面临的问题是,代码没有充分利用GPU。

通过使用NVIDIASMI命令,我可以看到下图

https://imgur.com/CqANNdB

共有1个答案

从经略
2023-03-14

这取决于你的申请。当batch\u size较小时,GPU利用率较低并不罕见。尝试增加批处理大小以提高GPU利用率。

在本例中,您已经在程序中设置了batch_size=1。将批处理单元大小增加到更大的数值,并验证GPU的利用率。

让我解释一下使用MNIST大小的网络。它们很小,很难为它们实现高GPU(或CPU)效率。批量越大,计算效率越高,这意味着每秒可以处理更多的示例,但统计效率也会降低,这意味着需要处理更多的示例才能达到目标精度。因此,这是一种权衡。对于微小的角色模型,在批大小=100后,统计效率会很快下降,因此可能不值得尝试增加批大小以进行训练。为了进行推断,您应该使用可以使用的最大批量。

希望这能回答你的问题。快乐学习。

 类似资料:
  • GPT-2 是一种基于 transformer 的大型语言模型,具有 15 亿个参数,在 800 万网页数据集上进行训练。 它是论文《语言模型是无人监督的多任务学习者》(Language Models are Unsupervised Multitask Learners)的代码实现。 目前发布了 GPT-2 的小型(117M 参数)和中型(345M 参数)版本,还没有发布更大的模型,但已经发布了

  • 问题内容: 我维护一个定制的类似CMS的应用程序。 每当提交文档时,都会执行一些任务,这些任务可以大致分为以下几类: MySQL查询。 HTML内容解析。 搜索索引更新。 类别1包括对与文档内容有关的各种MySQL表的更新。 类别2包括对存储在MySQL LONGTEXT字段中的HTML内容的解析,以执行一些自动锚标记转换。我怀疑此任务花费了大量计算时间。 类别3仅使用与文档相对应的几个字段就对基

  • 在北网的优化指南中,针对英特尔GPU的OpenCL开源实现 工作组大小应大于16,并且是16的倍数。 Gen上有两个可能的SIMD车道是8或16。为了不浪费SIMD车道,我们需要遵循这个规则。 英特尔处理器图形Gen7.5的计算架构中也提到: 对于Gen7。基于5个产品,每个EU有7个线程,总计28 KB的通用寄存器文件(GRF)。 。。。 在Gen7上。5计算架构,大多数SPMD编程模型都采用这

  • 出于实验/学习目的(假设我的应用程序有很多持久/并发流量),我有一个运行docker的虚拟机。对于docker,我有以下设置: 所有东西都有自己的容器,并与端口通信。我试图模拟两个不同的服务器(Nginx),通过HAProxy实现负载平衡。 现在它工作得很好,但是据我所知,节点仍然只在单线程中运行。 Nginx包含的唯一配置是作为节点的反向代理(其他所有配置都是默认配置)。每个Nginx服务器只处

  • 在Android系统中使用Reverfit2的模式是什么? 事先谢谢你