在使用Spyder在AWS服务器上使用python代码加载数据集时,我得到以下错误:
File "<ipython-input-19-7b2e7b5812b3>", line 1, in <module>
ffemq12 = load_h2odataframe_returns(femq12) #; ffemq12 = add_fold_column(ffemq12)
File "D:\Ashwin\do\init_sm.py", line 106, in load_h2odataframe_returns
fr=h2o.H2OFrame(python_obj=returns)
File "C:\Program Files\Anaconda2\lib\site-packages\h2o\frame.py", line 106, in __init__
column_names, column_types, na_strings, skipped_columns)
File "C:\Program Files\Anaconda2\lib\site-packages\h2o\frame.py", line 147, in _upload_python_object
self._upload_parse(tmp_path, destination_frame, 1, separator, column_names, column_types, na_strings, skipped_columns)
File "C:\Program Files\Anaconda2\lib\site-packages\h2o\frame.py", line 321, in _upload_parse
ret = h2o.api("POST /3/PostFile", filename=path)
File "C:\Program Files\Anaconda2\lib\site-packages\h2o\h2o.py", line 104, in api
return h2oconn.request(endpoint, data=data, json=json, filename=filename, save_to=save_to)
File "C:\Program Files\Anaconda2\lib\site-packages\h2o\backend\connection.py", line 415, in request
raise H2OConnectionError("Unexpected HTTP error: %s" % e)
我正在AWS服务器上的Spyder上运行此python代码。该代码可以正常工作,最多可以运行一半的数据集(1.5gb/3gb),但如果我增加数据大小会引发错误。我尝试将RAM从61gb增加到122 GB,但它仍然给我同样的错误。
加载数据文件
femq12 = pd.read_csv(r"H:\Ashwin\dta\datafile.csv")
ffemq12 = load_h2odataframe_returns(femq12)
初始化h2o
h2o.init(nthreads = -1,max_mem_size="150G")
装载h2o
连接到位于的H2O服务器http://127.0.0.1:54321...成功。---------------------------------------------------------H2O群集正常运行时间:01秒H2O群集时区:UTC H2O数据解析时区:联合技术H2O群集版本:3.22.1.3 H2O群集版龄:18天H2O群集总节点数:1个H2O群集空闲内存:133.3 Gb H2O群集总数核心数:16个H2O集群允许核心数:16H2O群集状态:接受新成员,健康H2O连接代理:H2O内部安全:
假H2O API扩展:Algos,AutoML、Core V3和Core V4 Python版本:2.7.15最终版
我怀疑这是内存问题。但是即使增加了内存和max_mem_size,数据集也没有加载。
任何修复错误的想法将不胜感激。谢谢你。
解决方案:不要使用pd。read_csv()
和h2o。H2OFrame()
,而使用h2o。直接导入file()
。
错误消息出现在POST/3/PostFile
REST命令中。据我所知,从您的html" target="_blank">代码和日志片段来看,这意味着它正在上传到localhost?这是非常低效的。
(如果不是本地主机,也就是说,您的datafile.csv文件在您的计算机上,不在AWS中,那么首先将其上传到S3。如果你在你的电脑上做一些数据管理,那么就这样做,然后把它保存为一个新文件,并上传到S3。不一定是S3:如果您的H2O集群中只有一台机器,也可以是硬盘。)
有关一些背景信息,请参阅我最近在 https://stackoverflow.com/a/54568511/841830 和 https://stackoverflow.com/a/54459577/841830 的答案。(我没有标记为重复,好像建议是相同的,在每种情况下,原因都有所不同;在这里我想知道您是否达到了最大HTTP POST文件大小的限制,也许是2GB?我想它也可能耗尽磁盘空间,从所有多个临时副本。
由于java的版本,我无法在R中启动h2o并收到以下错误 H2O还没有开始跑步,现在开始... 注意:如果出现错误,请查看以下日志文件:C:\Users\Vaibhav\AppData\Local\Temp\RtmpMBUt0r\file1db069d01678/h2o_Vaibhav _started_from_r。输出C:\Users\Vaibhav\AppData\Local\Temp\Rt
环境:Python 3.5,h2o 3.10.4.2
H2O 是一个经过优化的 HTTP 服务器实现,可用于一个标准的独立服务器或者是一个 HTTP 服务器开发包。 支持的协议有: HTTP/1.0 (http and https) HTTP/1.1 (http and https) Websocket (RFC6455, both ws and wss) HTTP/2.0 (draft 14, via Upgrade, NPN, ALPN) 依
我试图通过R使用H2O来构建多个模型,使用一个大型数据集的子集(~ 10GB)。该数据是一年的数据,我试图建立51个模型(即第一周的训练,第二周的预测,等等。)每周大约150-250万行,有8个变量。 我在一个循环中完成了这个操作,我知道这并不总是R中的最佳方法。我发现另一个问题是H2O实体会积累之前的对象,所以我创建了一个函数来删除除主数据集以外的所有对象。 该脚本运行良好一段时间,然后崩溃-经
我正在使用Flash和PHP创建一个JPG。我让Flash和PHP在本地主机服务器上按预期工作。当我上传到服务器时,出现以下错误: 分析错误:语法错误,在/home/carlosrg/public\u html/mysubdomain/image中出现意外的“:”。php在线6 以及守则: 提前感谢您的时间。
H2O 的核心是一个统计分析引擎,它使用 Hadoop 的分布式文件系统(HDFS)作为其存储平台,但是它们的最终目标是像谷歌的 BigQuery 一样简单。H2O 的用户交互是通过一个简单的网络搜索和标准 R 统计分析语法。另外,用户还可以在 Microsoft Excel 或 RStudio 的集成开发环境中使用 REST API 调用 H2O。