当前位置: 首页 > 面试题库 >

Spark DataFrame方法“ toPandas”实际上在做什么?

厍晋鹏
2023-03-14
问题内容

我是Spark-DataFrame API的初学者。

我使用此代码将制表符分隔的csv加载到Spark Dataframe中

lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)

假设我从新文件中使用Spark创建了DataFrame,然后使用内置方法toPandas()将其转换为熊猫,

  • 是否将Pandas对象存储到本地内存
  • 熊猫的低级计算是否全部由Spark处理?
  • 它是否公开了所有熊猫数据框功能?(我想是的)
  • 我可以将它转换为熊猫并完成它,而无需动动DataFrame API吗?

问题答案:

使用spark将CSV文件读取到中pandas是实现将CSV文件读取到内存的最终目标的一种round回方法。

似乎您可能误解了此处使用的技术的用例。

Spark用于分布式计算(尽管可以在本地使用)。通常,它太重了,无法用于简单地读取CSV文件。

在您的示例中,该sc.textFile方法将简单地为您提供火花RDD,该火花RDD实际上是文本行列表。这可能不是您想要的。不会执行类型推断,因此,如果您想对CSV文件中的一列数字求和,则将无法执行,因为就Spark而言,它们仍然是字符串。

只需使用pandas.read_csv并将整个CSV读取到内存中即可。熊猫会自动推断每列的类型。Spark不会这样做。

现在回答您的问题:

它是否将Pandas对象存储到本地内存

是。toPandas()会将Spark DataFrame转换成Pandas DataFrame,它当然在内存中。

熊猫的低级计算是否全部由Spark处理

否。熊猫运行自己的计算,spark和pandas之间没有相互作用,仅存在 一些 API兼容性。

它是否公开了所有熊猫数据框功能?

否。例如,Series对象具有interpolatePySparkColumn对象中不可用的方法。Pandas
API中有很多方法和函数,而PySpark API中没有。

我可以将它转换为Pandas并完成它,而无需过多接触DataFrame API吗?

绝对。实际上,在这种情况下,您甚至根本不应该使用Spark。pandas.read_csv除非你是一个工作很可能会处理你的使用情况 庞大 的数据量。

尝试使用简单,技术含量低,易于理解的库来解决您的问题,并且 在需要 时才 去处理更复杂的问题。很多时候,您将不需要更复杂的技术。



 类似资料:
  • 问题内容: 我是Spark-DataFrame API的初学者。 我使用此代码将制表符分隔的csv加载到Spark Dataframe中 假设我从新文件中使用Spark创建了DataFrame,然后使用内置方法toPandas()将其转换为熊猫, 是否将Pandas对象存储到本地内存? 熊猫的低级计算是否全部由Spark处理? 它是否公开了所有熊猫数据框功能?(我想是的) 我可以将它转换为熊猫并完

  • 我只是第一次涉足iOS开发,我必须做的第一件事就是实现一个自定义容器视图控制器——让我们称之为SideBarViewController——它交换了几种可能的视图控制器中的哪一种它显示的子视图控制器,几乎与标准的Tab Bar Controller一模一样。(它几乎是一个标签栏控制器,但有一个可隐藏的侧菜单,而不是标签栏。) 根据Apple文档中的说明,每当我向容器中添加子ViewControll

  • 问题内容: 什么是真正做? 它的定义是 刷新实体时,此字段中保存的所有实体也会刷新 但这实际上意味着什么?有人可以给我一个简单的例子吗? 问题答案: 单独的CascadeType描述可能会有些混乱,但是有一种简单的方法可以从一般情况中找出来。 对于任何值,这意味着如果使用接口在实例上调用了操作,并且该实例具有对其他实体实例的引用,并且已经定义了关联,则该操作也将应用于该关联实体。 因此定义为: 从

  • 我正试图把我的头缠在Apache Mesos上,需要澄清几个项目。 我对Mesos的理解是,它是一个安装在集群中的每个物理/VM服务器(“节点”)上的可执行文件,然后提供一个Java API(不知何故),将每个单独的节点视为计算资源(CPU/RAM/等)的集体池。因此,对于使用Java API编码的程序,他们只看到一组资源,而不必担心如何/在哪里部署代码。 因此,首先,我在这里的理解可能是根本错误

  • 从文档中可以看出,-Xss用于设置JVM的堆栈大小。但我对这一说法感到非常困惑。 在Java中,每个线程都有自己的堆栈。-Xss指定的数字是否: > 线程的每个堆栈的大小。e、 如果将-Xss设置为256K,则每个线程将有一个256K大的堆栈。因此,10个线程将总共使用2560K。 非常感谢你。 编辑: 谢谢你的回答。看起来像是上面的(2)senario-Xss指定特定线程的最大堆栈大小。 然后我

  • 我在看一个典型的for循环: 我对int I=1后的分号很满意:它是一个声明新变量的语句。如果i也是一个语句,为什么后面没有分号? 另一个例子。我打开Jshell并放置以下内容: 换句话说,命令可以工作,与是否有分号无关。我希望没有它就无法工作。 最后一个示例(改编自关于