当前位置：首页 > 面试题库 >

如何在同一个Spark项目中同时使用Scala和Python？

谷梁鸣

2023-03-14

问题内容：

可以将 Spark RDD 通过管道传输到Python吗？

因为我需要一个python库来对数据进行一些计算，但是我的主要Spark项目基于Scala。有没有办法将两者混合使用或让python访问相同的spark上下文？

问题答案：

实际上，您可以使用Scala和Spark以及常规Python脚本来传递到python脚本。

test.py

#!/usr/bin/python

import sys

for line in sys.stdin:
  print "hello " + line

火花壳（scala）

val data = List("john","paul","george","ringo")

val dataRDD = sc.makeRDD(data)

val scriptPath = "./test.py"

val pipeRDD = dataRDD.pipe(scriptPath)

pipeRDD.foreach(println)

输出量

你好约翰

你好林戈

你好乔治

你好保罗

类似资料：

在同一个项目上同时使用Eclipse和NetBeans

问题内容： Eclipse是一个非常好的编辑器，我更喜欢使用它，但是缺少用于Eclipse的GUI设计工具。另一方面，NetBeans在GUI设计中确实很好用。使用NetBeans进行GUI设计并将Eclipse用于同一项目上的其他所有内容，是否有任何提示，技巧或陷阱？编辑：我尝试了Maven，它似乎不起作用（太复杂，对于我的需求）。问题答案：使用Netbeans创建GUI。将Eclip
使用Maven在同一个项目中的APT和AOP

问题内容：我必须在同一Maven项目中使用注释处理（apt）和AspectJ。两者都适合自己，但是我需要基于apt创建的代码来创建方面。因此，我需要进行二进制编织（原始源文件由apt扩展）。如何在Maven项目中启用二进制编织？我知道唯一的标准选项是使用weaveDependencies参数提供依赖关系，但这太糟糕了。还有其他办法吗？好的，我可以使用Maven Antrun插件嵌入Aspe
如何在Java中调用同一个包和同一个目录中的类？

基本上我有：错误：只有在显式请求批注处理时才接受类名“test” 非常感谢所有的回复：）
使用Scala Spark在同一个csv文件中追加新表

我想在现有的CSV文件中追加表。我使用下面的代码：每次下面的代码块运行时，都会在data/outputs.CSV（其中outputs.CSV是文件夹而不是CSV文件）中创建一个新文件。
JPA和Hibernate在同一个spring项目中

正在处理一个庞大复杂的应用程序，该应用程序目前正在使用hibernate LocalSessionFactoryBean、HibernateTransactionManager和HibernateTemplate。有没有可能我可以使用JPA进行我的新特性开发，这样我就可以使用SPRING DATA JPA在我的持久性层上工作了？我的当前配置如下。但是，我想为新的东西添加LocalContaine
如何在Intellij中调试一个项目，同时在另一个项目中设置断点

我有一个（基于Maven的）项目a加载在Intellij中，它有许多依赖项。我想在B中放置断点并调试项目A，以便在项目B中达到断点时A停止。在Eclipse中，我只需要将两个项目放在同一个工作区中，它就可以工作了。由于Intellij中没有工作区，我想知道该如何做，以及是否可能。

如何在同一个Spark项目中同时使用Scala和Python？

相关阅读

相关文章

相关问答

相关工具

相关文档