当前位置: 首页 > 知识库问答 >
问题:

SPARK-HBASE-GCP模板(2/3)-JSON4S版本问题?

尹乐邦
2023-03-14

我试图在GCP上下文中测试Spark-HBase连接器,并尝试遵循1,它要求使用Maven(我尝试了Maven 3.6.3)对Spark 2.4进行本地封装连接器[2],在dataproc上提交作业时(完成后[3])得到以下错误。

知道吗?

谢谢你的支持

[2]https://github.com/hortonworks-spark/shc/tree/branch-2.4

[3]Spark-HBASE-GCP模板(1/3)-如何本地封装Hortonworks连接器?

命令

共有1个答案

颛孙哲
2023-03-14

考虑阅读这些相关的SO问题:1和2。

在您所遵循的教程以及所指出的问题之一的背后,使用HortonWorks提供的Apache Spark-Apache HBase连接器。

这个问题似乎与JSON4S库的版本不兼容有关:在这两种情况下,似乎在构建过程中使用版本3.2.103.2.11就可以解决这个问题。

<dependency>
  <groupId>org.json4s</groupId>
  <artifactId>json4s-jackson_2.11</artifactId>
  <version>3.2.11</version>
</dependency>
 类似资料:
  • 我们在下面的框架中编写了一些Spark/Scala单元测试用例:-https://github.com/holdenk/spark-testing-base

  • 我们在下面的框架中编写了一些Spark/Scala单元测试用例:-https://github.com/holdenk/spark-testing-base 对于我们的一些特性,我们将“JSON4S-Jackson”升级到“3.5.3”--在将jackson版本升级到最新版本后,我们所有的单元测试用例都失败了,错误如下:

  • 贡献者:TsingJyujing Apache Spark 是一个分布式的、用于在内存中处理数据的软件框架,在许多场景中用于代替 MapReduce。 Spark 本身已经超出了本文档的范围,请参考 Spark 的项目及子项目的网站来获取更多信息。本文档将会集中在 4 个主要的 HBase 和 Spark 交互的要点上,这四点分别是: 基础 Spark 这可以在 Spark DAG 中的任意一点使

  • 基本上,我必须使用Spark分析HDFS上的一些复杂JSON。 我使用“for理解”来(预)过滤json4s的JSON和“提取”方法,将其包装成一个case类 这个很好用! 到目前为止还不错! 当我尝试将(预)过滤的JSON提取到我的CaseClass时,我得到了以下结果: 线程“main”组织中出现异常。阿帕奇。火花SparkException:作业因阶段失败而中止:任务不可序列化:java。伊

  • 我正在尝试使用GCP模板执行管道:https://cloud.google.com/dataflow/docs/templates/provided-templates#cloud-storage-text-to-bigquery 但我得到了错误: 任何人都可以共享一个工作的CSV文件以用作运行该管道的输入吗?