当前位置: 首页 > 知识库问答 >
问题:

来自XML的Spark Scala rdd不能执行countby、first或任何其他rdd函数

桑睿识
2023-03-14

从Sandy Ryza的存储库中粘贴代码,以确保我没有输入错误(如下),并得到一个运行时错误,其中作业停止并产生以下错误。

请注意,如果我有任何其他简单的RDD,所有这些操作都可以正常工作--似乎只有medline数据有问题。

https://github.com/sryza/aas/blob/master/ch07-graph%2fsrc%2fmain%2fscala%2fcom%2fcloudera%2fdatascience%2fgraph%2frungraph.scala

当它碰到下面的val topicCounts行时,它特别开始抛出下面的异常:如果我尝试执行书中的示例(而不是他的代码中的lelem.label、elem.attributes),它会抛出类似的错误。

val主题:RDD[String]=MedLine.FlatMap(mesh=>mesh)val topicCounts=Topics.countByValue()

驱动程序stacktrace:在org.apache.spark.scheduler.dagscheduler.org上$apache$spark.scheduler.dagscheduler$$failjobandindependentstages(dagscheduler.scala:1214)在org.apache.spark.scheduler.dagscheduler$$anonfun$abortstage$1上。apply(dagscheduler.scala:1203)在org.apache.spark.scheduler.dagscheduler$$anonfun$abortstage$1上。OrElse(dagschedul.scala:1420)在akka.actor.actor$class.aroundreceive(actor.scala:465)在org.apache.spark.scheduler.dagschedul.scala:1375)在akka.actor.actor.aroundreceive(dagschedul.scala:1375)在akka.actor.actorcell.receiveMessage(actorcell.scala:516)在akka.actor.actorcell.receive(actorcell.scala:516)在

共有1个答案

谯皓君
2023-03-14

发现问题出在Sandy的示例代码上--将其作为问题https://github.com/sryza/aas/issues/42提出

基本上,def loadMedline代码的开始和结束标记键不正确(MedlineCitation而不是MetlineCitationSet)

 类似资料:
  • 我尝试创建一个JavaRDD,其中包含另一系列RDD。 RDD机器。foreach(机器- 第一:有没有可能这样做?如果没有,我可以用什么方式尝试做一些不同的事情? 让我展示一下我尝试做的事情: 我尝试在每台机器上启动我的算法,这台机器必须从Elasticsearch中的数据中学习。 因此,我尝试在每个“机器”中获取查询的所有数据。我的问题是:Spark有可能做到这一点吗?或者以其他方式?当我点燃

  • 由于这个xml代码,我无法构建我的项目,但无法找出问题的确切位置。我首先使用scrollView,我确实删除了它,并使用ListView代替。从那时起不能运行我的项目。我得到的错误是: > 这是密码

  • 问题内容: 我一直在尝试检查屏幕上的像素是否正在更改。我需要做什么? 我上网已经很长时间了,没有成功。我对网络上提供的代码进行了实验,发现我的代码仅从运行代码时打开的屏幕中提供数据。即,如果在运行代码时屏幕为白色,即使屏幕颜色已经更改,它将从白色屏幕读取像素。 我运行了代码并开始播放了一个视频,我期望值会不断变化,但是我得到的只是 (255,255,255) (空闲的白色屏幕),我也尝试手动更改屏

  • 我的项目是用Angular CLI版本1.2.6生成的。 我可以编译项目,它的工作原理很好,但我总是得到错误的VSCode告诉我: 我已经附上了我的文件这让我非常沮丧,花了2个小时来找出问题所在,我还卸载并重新安装了VSCode,但它不起作用。 以下是我的环境规范: 微软vs 10企业版 项目根文件夹 node_modules文件夹 :

  • 问题内容: 我需要将父目录和其他子目录中的文件包含到子目录中。我之前只使用include(’/ rootdirectory / file.php’); 但现在看来似乎行不通。 只是想知道我该怎么做,谢谢。 这是我的确切行: 它给我这个错误(页面仍在运行): 警告: include(/forums/groups.php)[function.include]:无法打开流:C:\ xampp \ htd

  • 需要进行一些运行时澄清。 在我读到的其他地方的一个线程中,有人说Spark Executor应该只分配一个核心。然而,我想知道这是否真的永远是真的。阅读各种so问题和诸如此类的问题,以及Karau、Wendell等人的著作,可以清楚地看到,有相同或相反的专家指出,在某些情况下,每个执行者应该指定更多的内核,但讨论往往更多的是技术性的,而不是功能性的。也就是说,缺少功能性的例子。 > 我的理解是RD