问题：

火花与涌入：OKIO冲突

骆嘉石

2023-03-14

22:17:54 ERROR ApplicationMaster - User class threw exception: java.lang.NoSuchMethodError: okio.BufferedSource.readUtf8LineStrict(J)Ljava/lang/String;
java.lang.NoSuchMethodError: okio.BufferedSource.readUtf8LineStrict(J)Ljava/lang/String;
    at okhttp3.internal.http1.Http1Codec.readHeaderLine(Http1Codec.java:212)
    at okhttp3.internal.http1.Http1Codec.readResponseHeaders(Http1Codec.java:189)

val cdhVersion = "cdh5.12.2"
val sparkVersion = "2.2.0.cloudera2"
val parquetVersion = s"1.5.0-$cdhVersion"
val hadoopVersion = s"2.6.0-$cdhVersion"
val awsVersion = "1.11.295"
val log4jVersion = "1.2.17"
val slf4jVersion = "1.7.5" 

lazy val sparkDependencies = Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-hive" % sparkVersion,
  "org.apache.spark" %% "spark-sql" % sparkVersion,
  "org.apache.spark" %% "spark-streaming" % sparkVersion,
  "org.apache.hadoop" % "hadoop-common" % "2.2.0"
)

lazy val otherDependencies = Seq(
  "org.apache.spark" %% "spark-streaming-kinesis-asl" % "2.2.0",
  "org.clapper" %% "grizzled-slf4j" % "1.3.1",
  "org.apache.logging.log4j" % "log4j-slf4j-impl" % "2.6.2" % "runtime",
  "org.slf4j" % "slf4j-log4j12" % slf4jVersion,
  "com.typesafe" % "config" % "1.3.1",
  "org.rogach" %% "scallop" % "3.0.3",
  "org.influxdb" % "influxdb-java" % "2.9"
)


libraryDependencies ++= sparkDependencies.map(_ % "provided" ) ++ otherDependencies

dependencyOverrides ++= Set("com.squareup.okio" % "okio" % "1.13.0")

（当我在打字的时候，我想试试阴影，我现在就做）谢谢

共有1个答案

冯宏放

2023-03-14

我在Spark2.1.0上也遇到了同样的问题。

解决方案：我已经将inflxdb-java依赖项从2.11版本（2.12有空的子依赖项，我们在fat jar组装方面有问题）降级到2.1版本。

InfluxDB-Java2.1有一个不同的API，但它适用于spark-submit应用程序。

类似资料：

CountVectorizerModel错误与apache火花-JavaAPI

我正在使用Apache Spark的示例代码follow文档：https://spark.apache.org/docs/latest/ml-features.html#countvectorizer 但我收到错误消息： 22年10月15日23:04:20信息BlockManagerMaster：使用703.6 MB RAM注册block manager localhost:56882，Block
火花：多个火花-并行提交

一些脚本在工作时什么也不做，当我手动运行它们时，其中一个失败了，出现了以下消息：错误SparkUI：未能绑定SparkUI java.net.bindexception：地址已在使用：服务“SparkUI”在重试16次后失败！所以我想知道是否有一种特定的方法来并行运行脚本？
火花流式DStream元素与RDD

本质上，我想对dStream中的每个元素应用一组函数。目前，我正在为pyspark.streaming.dstream使用“map”函数。根据文档，我的方法似乎是正确的。http://spark.apache.org/docs/latest/api/python/pyspark.streaming.html#pyspark.streaming.dstream map（f,preservesPart
火花加入*无*随机播放

我正在尝试优化我的火花应用工作。我试图理解这个问题的要点:如何在唯一键上连接数据帧时避免混乱？ > 我已经确保必须发生加入操作的键分布在同一分区中（使用我的自定义分区程序）。我也不能做广播加入，因为我的数据可能会根据情况变大。在上面提到的问题的答案中，重新分区只优化了连接，但我需要的是无需切换即可连接。在分区内的键的帮助下，我对连接操作很满意。有可能吗？如果不存在类似的功能，我想实现像jo
火花流加入Kafka主题比较

我们需要在Kafka主题上实现连接，同时考虑延迟数据或“不在连接中”，这意味着流中延迟或不在连接中的数据不会被丢弃/丢失，但会被标记为超时，连接的结果被产生以输出Kafka主题（如果发生超时字段）。（独立部署中的火花2.1.1，Kafka 10） Kafka在主题：X，Y,...输出主题结果将如下所示：我发现三个解决方案写在这里，1和2从火花流官方留档，但与我们不相关（数据不在加入Dtsre
火花：HDFS块与集群核心与rdd分区

我对spark有疑问：HDFS块vs集群核心vs rdd分区。假设我正在尝试在HDFS中处理一个文件（例如块大小为64MB，文件为6400MB）。所以理想情况下它确实有100个分裂。我的集群总共有 200 个核心，我提交了包含 25 个执行程序的作业，每个执行程序有 4 个核心（意味着可以运行 100 个并行任务）。简而言之，我在rdd中默认有100个分区，100个内核将运行。这是一个好方

火花与涌入：OKIO冲突

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档