当前位置: 首页 > 知识库问答 >
问题:

Tensorflow资源耗尽,但未耗尽任何资源

东郭弘方
2023-03-14

我正在我的GTX 1060 6gb上使用Python中的Tensorflow 1.2训练LSTM。

在每个时代,我用这种方法保存模型

def save_model(self,session,epoch,save_model_path):

    save_path = self.saver.save(session, save_model_path + "lstm_model_epoch_" + str(epoch) + ".ckpt")
    print("Model saved in file: %s" % save_path)

一切正常,但在九个时代之后,当我试图用这种方法保存模型时,我得到了ResourceExhaustedError。

我在培训期间检查了我的资源,但没有耗尽任何资源。

我得到的错误如下:

2017-06-29 12:43:02.865845: W tenstorflow/core/框架/op_kernel.cc:1158]资源耗尽:log/example_0/lstm_models/lstm_model_epoch_9.ckpt.data-00000-of-00001.tempstate10865381291487648358 Traceback(最近一次调用):File"main.py",第32行,在File"/home/alb3rto/Scrivania/Tesi中/sentiment_classification/text_lstm/LSTM_sentence.py",第306行,在train_lstmFile"/home/alb3rto/Script/Tesi/sentiment_classification/text_lstm/LSTM_sentence.py",第449行,在save_modelFile"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/训练/saver.py",第1472行,在另存File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/客户端/session.py",第789行,在运行File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/客户端/session.py",第997行,在_runFile"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tenorflow/python/客户端/session.py",第1132行,在_do_runFile"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tenorflow/python/客户端/session.py",行1152,_do_calltensorflow.python.framework.errors_impl。ResourceExhaustedError: log/example_0/lstm_models/lstm_model_epoch_9.ckpt.data-00000-of-00001.tempstate10865381291487648358[[节点:保存/SaveV2=SaveV2[dtype=[DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT],_device="/作业:localhost/replica:0/任务:0/cpu: 0"](_arg_save/Const_0_0,保存/SaveV2/tensor_names,保存/SaveV2/shape_and_slices,变量/_21,变量/亚当/_23,变量/Adam_1/_25,Variable_1/_27,Variable_1/亚当/_29,Variable_1/Adam_1/_31,beta1_power/_33,beta2_power/_35,rnn/basic_lstm_cell/偏置/_37,rnn/basic_lstm_cell/偏置/亚当/_39,rnn/basic_lstm_cell/偏置/Adam_1/_41,rnn/basic_lstm_cell/内核/_43,rnn/basic_lstm_cell/内核/亚当/_45,rnn/basic_lstm_cell/内核/Adam_1/_47)]]由操作u'保存/SaveV2'引起,定义于:文件main.py,第28行,在lstm_sentence=lstm()File"/home/alb3rto/Script/Tesi/sentiment_classification/text_lstm/LSTM_sentence.py",第18行,在init File"/home/alb3rto/Script/Tesi/sentiment_classification/text_lstm/LSTM_sentence.py"中,第117行,在build_lstmFile"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/培训/saver.py"中,第1139行,在initself.build()File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/训练/saver.py",第1170行,在构建restore_sequentially=自己。_restore_sequentially)File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/Tensorflow/python/训练/saver.py",第689行,在构建save_tensor=自我中。_AddSaveOps(filename_tensor,可保存)File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tenorflow/python/训练/saver. py",第276行,在_AddSaveOps保存=自己。save_op(filename_tensor,可保存)File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tenorflow/python/训练/saver. py",第219行,在save_op张量)文件"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/ops/gen_io_ops. py",第745行,在save_v2文件"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tenorflow/python/框架/op_def_library. py",第767行,在apply_op文件"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-packages/tensorflow/python/framework/ops.py",第2506行,create_oporiginal_op=自我。_default_original_op,op_def=op_def)File"/home/alb3rto/anaconda2/envs/tesi/lib/python2.7/site-包/tensorflow/python/框架/ops. py",第1269行,init自我。_traceback=_extract_stack()ResourceExhaustedError(见上文回溯):log/example_0/lstm_models/lstm_model_epoch_9. ckpt. data-00000-of-00001. temstate10865381291487648358[[节点:保存/SaveV2=SaveV2[dtype=[DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT,DT_FLOAT],_device="/作业:localhost/复制:0/任务:0/cpu:0"](_arg_save/Const_0_0,保存/SaveV2/tensor_names,保存/SaveV2/shape_and_slices,变量/_21,变量/亚当/_23,变量/Adam_1/_25,Variable_1/_27,Variable_1/亚当/_29,Variable_1/Adam_1/_31,beta1_power/_33,beta2_power/_35,rnn/basic_lstm_cell/偏倚/_37,rnn/basic_lstm_cell/偏倚/亚当/_39,rnn/basic_lstm_cell/偏倚/Adam_1/_41,rnn/basic_lstm_cell/kernel/_43, rnn/basic_lstm_cell/内核/亚当/_45, rnn/basic_lstm_cell/内核/Adam_1/_47)]

我怎么才能修好它?

共有1个答案

须曜文
2023-03-14

当在GPU上遇到OOMResourceExausted Error时,我相信首先尝试更改(减少)批量大小是正确的选择。

对于不同的GPU,您可能需要不同的批量大小,具体取决于您拥有的GPU内存。

最近我遇到了类似的问题,做了很多不同类型的实验。

这是问题的链接(也包括一些技巧)。

然而,在减少批次大小的同时,您可能会发现您的训练变得更慢。所以如果你有多个GPU,你可以使用它们。要检查你的GPU,你可以在终端上写,

nvidia-smi

它将显示你的gpu机架的必要信息。

 类似资料:
  • 我目前在Azure中托管了几十个网站,最近开始在每个web应用的门户刀片中看到“内存资源耗尽”警告: 我在两个S3标准(大型)应用程序服务计划中托管我的网站,我在所有网站上都会收到警告,无论它们在哪个应用程序服务计划上。 有趣的是,当查看任一应用服务计划的内存使用率时,我总是低于40%,内存使用率实际上相当一致。我从未看到峰值或任何接近85%内存使用率的东西。 我的问题是,我是否误解了警告消息?是

  • 我有一个wordpress博客。当我登录到仪表板时,以下异常在顶部突出显示: 从异常消息中,我可以推断它与谷歌分析及其API有关 然而,我很想知道是什么导致了这个异常。此外,我可以采取哪些措施来避免此类例外情况?

  • 本文向大家介绍Linux磁盘空间被未知资源耗尽的解决方法,包括了Linux磁盘空间被未知资源耗尽的解决方法的使用技巧和注意事项,需要的朋友参考一下 在linux中,当我们使用rm在linux上删除了大文件,但是如果有进程打开了这个大文件,却没有关闭这个文件的句柄,那么linux内核还是不会释放这个文件的磁盘空间,最后造成磁盘空间占用100%,整个系统无法正常运行。这种情况下,通过df和du命令查找

  • 我正在从cloud vision API示例repo运行以下代码。我遵循了这里的说明:https://cloud.google.com/vision/docs/quickstart-client-libraries?refresh=1设置服务帐户和身份验证,但我仍然无法成功执行此功能。 这会产生以下错误: 错误:8资源_耗尽:配额指标“请求”和限制“每分钟服务请求”愿景超出了配额。古格里皮斯。co

  • 问题内容: 我在这里研究了几个“太多客户”的相关主题,但仍然无法解决我的问题,因此我不得不针对我的具体情况再次询问。 基本上,我设置了本地Postgres服务器,并且需要执行数以万计的查询,因此我使用了Python psycopg2package。这是我的代码: 较小的df,代码运行良好。如果我重复df 10000次,则会收到错误消息,提示连接池已耗尽。尽管我使用的连接已被以下行关闭: tcp.p

  • 问题内容: 我的JDBC代码有问题。这是相关代码: 这是例外: 这是怎么引起的,我该如何解决? 问题答案: 您没有检查next的返回值。如果没有行,就会遇到麻烦…