可以将 Spark RDD 通过管道传输到Python吗?
因为我需要一个python库来对数据进行一些计算,但是我的主要Spark项目基于Scala。有没有办法将两者混合使用或让python访问相同的spark上下文?
实际上,您可以使用Scala和Spark以及常规Python脚本来传递到python脚本。
test.py
#!/usr/bin/python
import sys
for line in sys.stdin:
print "hello " + line
火花壳(scala)
val data = List("john","paul","george","ringo")
val dataRDD = sc.makeRDD(data)
val scriptPath = "./test.py"
val pipeRDD = dataRDD.pipe(scriptPath)
pipeRDD.foreach(println)
输出量
你好约翰
你好林戈
你好乔治
你好保罗
问题内容: Eclipse是一个非常好的编辑器,我更喜欢使用它,但是缺少用于Eclipse的GUI设计工具。另一方面,NetBeans在GUI设计中确实很好用。 使用NetBeans进行GUI设计并将Eclipse用于同一项目上的其他所有内容,是否有任何提示,技巧或陷阱? 编辑: 我尝试了Maven,它似乎不起作用(太复杂,对于我的需求)。 问题答案: 使用Netbeans创建GUI。将Eclip
问题内容: 我必须在同一Maven项目中使用注释处理(apt)和AspectJ。 两者都适合自己,但是我需要基于apt创建的代码来创建方面。因此,我需要进行二进制编织(原始源文件由apt扩展)。如何在Maven项目中启用二进制编织? 我知道唯一的标准选项是使用weaveDependencies参数提供依赖关系,但这太糟糕了。还有其他办法吗? 好的,我可以使用Maven Antrun插件嵌入Aspe
基本上我有: 错误:只有在显式请求批注处理时才接受类名“test” 非常感谢所有的回复:)
我想在现有的CSV文件中追加表。我使用下面的代码: 每次下面的代码块运行时,都会在data/outputs.CSV(其中outputs.CSV是文件夹而不是CSV文件)中创建一个新文件。
正在处理一个庞大复杂的应用程序,该应用程序目前正在使用hibernate LocalSessionFactoryBean、HibernateTransactionManager和HibernateTemplate。有没有可能我可以使用JPA进行我的新特性开发,这样我就可以使用SPRING DATA JPA在我的持久性层上工作了?我的当前配置如下。 但是,我想为新的东西添加LocalContaine
我有一个(基于Maven的)项目a加载在Intellij中,它有许多依赖项。 我想在B中放置断点并调试项目A,以便在项目B中达到断点时A停止。 在Eclipse中,我只需要将两个项目放在同一个工作区中,它就可以工作了。由于Intellij中没有工作区,我想知道该如何做,以及是否可能。