我试图在GCP上下文中测试Spark-HBase连接器,并尝试遵循1,它要求使用Maven(我尝试了Maven 3.6.3)对Spark 2.4进行本地封装连接器[2],在dataproc
上提交作业时(完成后[3])得到以下错误。
知道吗?
谢谢你的支持
[2]https://github.com/hortonworks-spark/shc/tree/branch-2.4
[3]Spark-HBASE-GCP模板(1/3)-如何本地封装Hortonworks连接器?
命令
考虑阅读这些相关的SO问题:1和2。
在您所遵循的教程以及所指出的问题之一的背后,使用HortonWorks提供的Apache Spark-Apache HBase连接器。
这个问题似乎与JSON4S
库的版本不兼容有关:在这两种情况下,似乎在构建过程中使用版本3.2.10
或3.2.11
就可以解决这个问题。
<dependency>
<groupId>org.json4s</groupId>
<artifactId>json4s-jackson_2.11</artifactId>
<version>3.2.11</version>
</dependency>
我们在下面的框架中编写了一些Spark/Scala单元测试用例:-https://github.com/holdenk/spark-testing-base
我们在下面的框架中编写了一些Spark/Scala单元测试用例:-https://github.com/holdenk/spark-testing-base 对于我们的一些特性,我们将“JSON4S-Jackson”升级到“3.5.3”--在将jackson版本升级到最新版本后,我们所有的单元测试用例都失败了,错误如下:
贡献者:TsingJyujing Apache Spark 是一个分布式的、用于在内存中处理数据的软件框架,在许多场景中用于代替 MapReduce。 Spark 本身已经超出了本文档的范围,请参考 Spark 的项目及子项目的网站来获取更多信息。本文档将会集中在 4 个主要的 HBase 和 Spark 交互的要点上,这四点分别是: 基础 Spark 这可以在 Spark DAG 中的任意一点使
基本上,我必须使用Spark分析HDFS上的一些复杂JSON。 我使用“for理解”来(预)过滤json4s的JSON和“提取”方法,将其包装成一个case类 这个很好用! 到目前为止还不错! 当我尝试将(预)过滤的JSON提取到我的CaseClass时,我得到了以下结果: 线程“main”组织中出现异常。阿帕奇。火花SparkException:作业因阶段失败而中止:任务不可序列化:java。伊
我正在尝试使用GCP模板执行管道:https://cloud.google.com/dataflow/docs/templates/provided-templates#cloud-storage-text-to-bigquery 但我得到了错误: 任何人都可以共享一个工作的CSV文件以用作运行该管道的输入吗?