我正在Spark/Bluemix环境中使用IPython
我有一个csv上传到对象存储,我可以阅读它确定使用sc.textfile
但我得到文件不存在
当我使用熊猫pd.read_csv
>
data=sc.text文件("swift://notebooks.books/rtenews.csv")
将熊猫导入pd
data=pd.read_csv('swift://notebooks.books/rtenews.csv')
IOError文件swift://notebooks.books/rtenews.csv不存在
为什么会这样?如何将csv文件读取到熊猫数据帧?
将CSV文件上载到Bluemix对象存储后,可以使用Spark直接读取CSV文件:
data = sc.textFile("swift://notebooks.books/rtenews.csv")
这是可能的,因为已经完成了配置以启用此功能。
如果您尝试使用pandas以以下代码读取CSV文件:
import pandas as pd
data = pd.read_csv('swift://notebooks.books/rtenews.csv')
这将不起作用,因为熊猫
不支持直接访问Bluemix对象存储。看看pandas.read_csv()
的API留档:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html它只支持一些有效的URL方案。
但是,可以将Bluemix对象存储上的CSV文件作为StringIO
对象读取到熊猫中。DataFrame
。
您可以在“降水分析”示例笔记本中找到说明:
不要对大型CSV文件使用此方法!
当我只想要列的一个子集(例如总共20列中的第4和第7列)时,如何使用Pandas读取.csv文件(没有头)?我似乎无法执行
我试图读取熊猫泡菜时出错,例如方法,该方法存储在谷歌云存储中。我正在努力做到以下几点: 我得到以下错误: 或者我试着: 它可以在本地工作,但不能在CloudML上工作! 给我一个错误:AttributeError:'bytes'对象没有属性'seek'
问题内容: 我正在查询一个SQL数据库,我想使用熊猫来处理数据。但是,我不确定如何移动数据。以下是我的输入和输出。 问题答案: 答案更简短
我是新的Python熊猫和工作在一个小的应用程序,在那里我想读我的excel文件有数据在印地语。 我面临的问题是,熊猫不能阅读印地语单词,正在放置一些任意的“?”符号。 我曾尝试将编码添加到utf-8,但也不起作用。 我的Excel数据: Python代码: 输出: 任何帮助都是值得赞赏的。提前感谢。
问题内容: 我试图读取通过via 创建的数据框,但得到了。我认为这可能与索引为MultiIndex的事实有关,但我不确定如何处理。 调用了55k行的原始数据框,并通过以下方式创建了该数据框: 如果要使用它,这是输出。 当我对这小部分数据(5行)进行处理时,我得到一个。 这是完整的堆栈: 但是,当我在整个数据帧(55k行)上执行此操作时,我得到一个无效的指针错误,并且IPython内核死亡。有任何想
我正在尝试使用在我的Quarkus应用程序中读取环境变量,但没有成功。我认为仅指定变量名应该就足够了,但它不起作用: 我还尝试在应用程序中指定一个属性。属性 读起来就像 但变量始终为空。 我错过什么了吗?在Quarkus中读取环境变量的正确方法是什么 我正在使用Quarkus 1.2.0。最终的