当前位置: 首页 > 面试题库 >

如何在同一个Spark项目中同时使用Scala和Python?

谷梁鸣
2023-03-14
问题内容

可以将 Spark RDD 通过管道传输到Python吗?

因为我需要一个python库来对数据进行一些计算,但是我的主要Spark项目基于Scala。有没有办法将两者混合使用或让python访问相同的spark上下文?


问题答案:

实际上,您可以使用Scala和Spark以及常规Python脚本来传递到python脚本。

test.py

#!/usr/bin/python

import sys

for line in sys.stdin:
  print "hello " + line

火花壳(scala

val data = List("john","paul","george","ringo")

val dataRDD = sc.makeRDD(data)

val scriptPath = "./test.py"

val pipeRDD = dataRDD.pipe(scriptPath)

pipeRDD.foreach(println)

输出量

你好约翰

你好林戈

你好乔治

你好保罗



 类似资料:
  • 问题内容: Eclipse是一个非常好的编辑器,我更喜欢使用它,但是缺少用于Eclipse的GUI设计工具。另一方面,NetBeans在GUI设计中确实很好用。 使用NetBeans进行GUI设计并将Eclipse用于同一项目上的其他所有内容,是否有任何提示,技巧或陷阱? 编辑: 我尝试了Maven,它似乎不起作用(太复杂,对于我的需求)。 问题答案: 使用Netbeans创建GUI。将Eclip

  • 问题内容: 我必须在同一Maven项目中使用注释处理(apt)和AspectJ。 两者都适合自己,但是我需要基于apt创建的代码来创建方面。因此,我需要进行二进制编织(原始源文件由apt扩展)。如何在Maven项目中启用二进制编织? 我知道唯一的标准选项是使用weaveDependencies参数提供依赖关系,但这太糟糕了。还有其他办法吗? 好的,我可以使用Maven Antrun插件嵌入Aspe

  • 基本上我有: 错误:只有在显式请求批注处理时才接受类名“test” 非常感谢所有的回复:)

  • 我想在现有的CSV文件中追加表。我使用下面的代码: 每次下面的代码块运行时,都会在data/outputs.CSV(其中outputs.CSV是文件夹而不是CSV文件)中创建一个新文件。

  • 正在处理一个庞大复杂的应用程序,该应用程序目前正在使用hibernate LocalSessionFactoryBean、HibernateTransactionManager和HibernateTemplate。有没有可能我可以使用JPA进行我的新特性开发,这样我就可以使用SPRING DATA JPA在我的持久性层上工作了?我的当前配置如下。 但是,我想为新的东西添加LocalContaine

  • 我有一个(基于Maven的)项目a加载在Intellij中,它有许多依赖项。 我想在B中放置断点并调试项目A,以便在项目B中达到断点时A停止。 在Eclipse中,我只需要将两个项目放在同一个工作区中,它就可以工作了。由于Intellij中没有工作区,我想知道该如何做,以及是否可能。