当前位置: 首页 > 知识库问答 >
问题:

熊猫。在Spark环境(IBM Bluemix)中读取\u csv

莫誉
2023-03-14

我正在Spark/Bluemix环境中使用IPython

我有一个csv上传到对象存储,我可以阅读它确定使用sc.textfile但我得到文件不存在当我使用熊猫pd.read_csv

>

  • data=sc.text文件("swift://notebooks.books/rtenews.csv")

    将熊猫导入pddata=pd.read_csv('swift://notebooks.books/rtenews.csv')

    IOError文件swift://notebooks.books/rtenews.csv不存在

    为什么会这样?如何将csv文件读取到熊猫数据帧?


  • 共有1个答案

    隆长卿
    2023-03-14

    将CSV文件上载到Bluemix对象存储后,可以使用Spark直接读取CSV文件:

    data = sc.textFile("swift://notebooks.books/rtenews.csv")
    

    这是可能的,因为已经完成了配置以启用此功能。

    如果您尝试使用pandas以以下代码读取CSV文件:

    import pandas as pd 
    data = pd.read_csv('swift://notebooks.books/rtenews.csv')
    

    这将不起作用,因为熊猫不支持直接访问Bluemix对象存储。看看pandas.read_csv()的API留档:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html它只支持一些有效的URL方案。

    但是,可以将Bluemix对象存储上的CSV文件作为StringIO对象读取到熊猫中。DataFrame

    您可以在“降水分析”示例笔记本中找到说明:

    • 根据示例创建新笔记本:新建笔记本-

    不要对大型CSV文件使用此方法!

     类似资料:
    • 当我只想要列的一个子集(例如总共20列中的第4和第7列)时,如何使用Pandas读取.csv文件(没有头)?我似乎无法执行

    • 我试图读取熊猫泡菜时出错,例如方法,该方法存储在谷歌云存储中。我正在努力做到以下几点: 我得到以下错误: 或者我试着: 它可以在本地工作,但不能在CloudML上工作! 给我一个错误:AttributeError:'bytes'对象没有属性'seek'

    • 问题内容: 我正在查询一个SQL数据库,我想使用熊猫来处理数据。但是,我不确定如何移动数据。以下是我的输入和输出。 问题答案: 答案更简短

    • 我是新的Python熊猫和工作在一个小的应用程序,在那里我想读我的excel文件有数据在印地语。 我面临的问题是,熊猫不能阅读印地语单词,正在放置一些任意的“?”符号。 我曾尝试将编码添加到utf-8,但也不起作用。 我的Excel数据: Python代码: 输出: 任何帮助都是值得赞赏的。提前感谢。

    • 我正在尝试使用在我的Quarkus应用程序中读取环境变量,但没有成功。我认为仅指定变量名应该就足够了,但它不起作用: 我还尝试在应用程序中指定一个属性。属性 读起来就像 但变量始终为空。 我错过什么了吗?在Quarkus中读取环境变量的正确方法是什么 我正在使用Quarkus 1.2.0。最终的

    • 问题内容: 我试图读取通过via 创建的数据框,但得到了。我认为这可能与索引为MultiIndex的事实有关,但我不确定如何处理。 调用了55k行的原始数据框,并通过以下方式创建了该数据框: 如果要使用它,这是输出。 当我对这小部分数据(5行)进行处理时,我得到一个。 这是完整的堆栈: 但是,当我在整个数据帧(55k行)上执行此操作时,我得到一个无效的指针错误,并且IPython内核死亡。有任何想