问题：

熊猫。在Spark环境（IBM Bluemix）中读取\u csv

莫誉

2023-03-14

我正在Spark/Bluemix环境中使用IPython

我有一个csv上传到对象存储，我可以阅读它确定使用sc.textfile但我得到文件不存在当我使用熊猫pd.read_csv

data=sc.text文件（"swift://notebooks.books/rtenews.csv"）

将熊猫导入pddata=pd.read_csv（'swift://notebooks.books/rtenews.csv'）

IOError文件swift://notebooks.books/rtenews.csv不存在

为什么会这样？如何将csv文件读取到熊猫数据帧？

共有1个答案

隆长卿

2023-03-14

将CSV文件上载到Bluemix对象存储后，可以使用Spark直接读取CSV文件：

data = sc.textFile("swift://notebooks.books/rtenews.csv")

这是可能的，因为已经完成了配置以启用此功能。

如果您尝试使用pandas以以下代码读取CSV文件：

import pandas as pd 
data = pd.read_csv('swift://notebooks.books/rtenews.csv')

这将不起作用，因为熊猫不支持直接访问Bluemix对象存储。看看pandas.read_csv（）的API留档：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html它只支持一些有效的URL方案。

但是，可以将Bluemix对象存储上的CSV文件作为StringIO对象读取到熊猫中。DataFrame。

您可以在“降水分析”示例笔记本中找到说明：

根据示例创建新笔记本：新建笔记本-

不要对大型CSV文件使用此方法！

类似资料：

熊猫在没有标头的表格中读取

当我只想要列的一个子集（例如总共20列中的第4和第7列）时，如何使用Pandas读取.csv文件（没有头）？我似乎无法执行
在CloudML的Tensorflow中读取熊猫泡菜文件

我试图读取熊猫泡菜时出错，例如方法，该方法存储在谷歌云存储中。我正在努力做到以下几点：我得到以下错误：或者我试着：它可以在本地工作，但不能在CloudML上工作！给我一个错误：AttributeError:'bytes'对象没有属性'seek'
从pyodbc读取数据到熊猫

问题内容：我正在查询一个SQL数据库，我想使用熊猫来处理数据。但是，我不确定如何移动数据。以下是我的输入和输出。问题答案：答案更简短
在Python熊猫中用印地语读取Excel数据

我是新的Python熊猫和工作在一个小的应用程序，在那里我想读我的excel文件有数据在印地语。我面临的问题是，熊猫不能阅读印地语单词，正在放置一些任意的“？”符号。我曾尝试将编码添加到utf-8，但也不起作用。我的Excel数据： Python代码：输出：任何帮助都是值得赞赏的。提前感谢。
熊猫读取json不适用于MultiIndex

问题内容：我试图读取通过via 创建的数据框，但得到了。我认为这可能与索引为MultiIndex的事实有关，但我不确定如何处理。调用了55k行的原始数据框，并通过以下方式创建了该数据框：如果要使用它，这是输出。当我对这小部分数据（5行）进行处理时，我得到一个。这是完整的堆栈：但是，当我在整个数据帧（55k行）上执行此操作时，我得到一个无效的指针错误，并且IPython内核死亡。有任何想
如何在Quarkus中读取环境变量

我正在尝试使用在我的Quarkus应用程序中读取环境变量，但没有成功。我认为仅指定变量名应该就足够了，但它不起作用：我还尝试在应用程序中指定一个属性。属性读起来就像但变量始终为空。我错过什么了吗？在Quarkus中读取环境变量的正确方法是什么我正在使用Quarkus 1.2.0。最终的

熊猫。在Spark环境（IBM Bluemix）中读取\u csv

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档