SPARK-HBASE-GCP模板（2/3）-JSON4S版本问题？

尹乐邦

2023-03-14

我试图在GCP上下文中测试Spark-HBase连接器，并尝试遵循1，它要求使用Maven（我尝试了Maven 3.6.3)对Spark 2.4进行本地封装连接器[2]，在dataproc上提交作业时（完成后[3])得到以下错误。

知道吗？

谢谢你的支持

[2]https://github.com/hortonworks-spark/shc/tree/branch-2.4

[3]Spark-HBASE-GCP模板（1/3）-如何本地封装Hortonworks连接器？

命令

共有1个答案

颛孙哲

2023-03-14

考虑阅读这些相关的SO问题：1和2。

在您所遵循的教程以及所指出的问题之一的背后，使用HortonWorks提供的Apache Spark-Apache HBase连接器。

这个问题似乎与JSON4S库的版本不兼容有关：在这两种情况下，似乎在构建过程中使用版本3.2.10或3.2.11就可以解决这个问题。

<dependency>
  <groupId>org.json4s</groupId>
  <artifactId>json4s-jackson_2.11</artifactId>
  <version>3.2.11</version>
</dependency>

类似资料：

Spark-Cassandra 3.x连接器版本
Spark单元测试失败，出现“ExceptioninInitializerError”（最新版本为“json4s-jackson”）

我们在下面的框架中编写了一些Spark/Scala单元测试用例：-https://github.com/holdenk/spark-testing-base
Spark单元测试以“ExceptioninInitializerError”失败，使用最新版本的“JSON4S-Jackson”

我们在下面的框架中编写了一些Spark/Scala单元测试用例：-https://github.com/holdenk/spark-testing-base 对于我们的一些特性，我们将“JSON4S-Jackson”升级到“3.5.3”--在将jackson版本升级到最新版本后，我们所有的单元测试用例都失败了，错误如下：
HBase 与 Spark

贡献者：TsingJyujing Apache Spark 是一个分布式的、用于在内存中处理数据的软件框架，在许多场景中用于代替 MapReduce。 Spark 本身已经超出了本文档的范围，请参考 Spark 的项目及子项目的网站来获取更多信息。本文档将会集中在 4 个主要的 HBase 和 Spark 交互的要点上，这四点分别是：基础 Spark 这可以在 Spark DAG 中的任意一点使
在Spark上使用json4s的NotSerializableException

基本上，我必须使用Spark分析HDFS上的一些复杂JSON。我使用“for理解”来（预）过滤json4s的JSON和“提取”方法，将其包装成一个case类这个很好用！到目前为止还不错！当我尝试将（预）过滤的JSON提取到我的CaseClass时，我得到了以下结果：线程“main”组织中出现异常。阿帕奇。火花SparkException:作业因阶段失败而中止：任务不可序列化：java。伊
使用GCP模板的云存储文本到BigQuery

我正在尝试使用GCP模板执行管道：https://cloud.google.com/dataflow/docs/templates/provided-templates#cloud-storage-text-to-bigquery 但我得到了错误：任何人都可以共享一个工作的CSV文件以用作运行该管道的输入吗？

SPARK-HBASE-GCP模板（2/3）-JSON4S版本问题？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档