问题：

Spark结构化流媒体制作。c000.csv文件

何宏博

2023-03-14

我试图从kafka主题获取数据并将其推送到hdfs位置。我面临以下问题。

在每条消息（kafka）之后，hdfs位置都会更新为带有.c000.csv格式的部分文件。我已经在HDFS位置的顶部创建了一个hive表，但是HIVE无法读取从火花结构化流写入的任何数据。

以下是spark结构化流媒体之后的文件格式

  part-00001-abdda104-0ae2-4e8a-b2bd-3cb474081c87.c000.csv

以下是我要插入的代码：

val kafkaDatademostr = spark.readStream.format("kafka").option("kafka.bootstrap.servers","ttt.tt.tt.tt.com:8092").option("subscribe","demostream").option("kafka.security.protocol","SASL_PLAINTEXT").load

val interval=kafkaDatademostr.select(col("value").cast("string")) .alias("csv").select("csv.*")

val interval2=interval.selectExpr("split(value,',')[0] as rog" ,"split(value,',')[1] as vol","split(value,',')[2] as agh","split(value,',')[3] as aght","split(value,',')[4] as asd")

//   interval2.writeStream.outputMode("append").format("console").start()
       interval2.writeStream.outputMode("append").partitionBy("rog").format("csv").trigger(Trigger.ProcessingTime("30 seconds")).option("path", "hdfs://vvv/apps/hive/warehouse/area.db/test_kafcsv/").start()

谁能帮帮我，为什么要创建这样的文件？

如果我执行dfs-cat/part-00001-ad35a3b6-8485-47c8-b9d2-bab2f723d840。csv我可以看到我的值。。。。但由于格式问题，无法使用配置单元读取。。。

共有1个答案

微生善

2023-03-14

这个c000文件是流数据写入数据的临时文件。当您处于附加模式时，火花执行器会持有该写入器线程，这就是为什么在运行时您无法使用hive序列化器读取它，尽管hadoop fs-cat正在工作。

类似资料：

Kafka结构化流媒体java.lang.NoClassDefFoundError

我以前能够运行Kafka结构流编程。但是突然间，我所有的结构流python程序都失败了，出现了一个错误。我从Spark网站上拿了基本的Kafka结构流式编程，也以同样的错误失败。 spark-submit--packages org.apache.spark:spark-sql-kafka-0-102.11:2.2.0c:\users\ranjith.gangam\pycharmprojects\
在spark流媒体/结构化流媒体中阅读来自Kafka的avro消息

我第一次使用pyspark。Spark版本：2.3.0Kafka版本：2.2.0 我有一个Kafka制作人，它以avro格式发送嵌套数据，我正试图在pyspark中编写spark流/结构化流的代码，它将来自Kafka的avro反序列化为数据帧，并进行转换，将其以拼花格式写入s3。我在spark/scala中找到了avro转换器，但pyspark中的支持尚未添加。如何在pyspark中转换相同的值。
Spark结构流媒体-联合两个或多个流媒体源

这是因为检查点只存储了其中一个数据流的偏移量吗？浏览Spark结构流文档，似乎可以在Spark 2.2或>中进行流源的联接/联合
如何处理spark结构化流媒体中的小文件问题？

我的项目中有一个场景，我正在使用spark-sql-2.4.1版本阅读Kafka主题消息。我能够使用结构化流媒体处理一天。一旦收到数据并进行处理后，我需要将数据保存到hdfs存储中的各个拼花文件中。我能够存储和读取拼花文件，我保持了15秒到1分钟的触发时间。这些文件的大小非常小，因此会产生许多文件。这些拼花地板文件需要稍后通过配置单元查询读取。那么1）该策略在生产环境中有效吗？还是会导致以后
Spark流与结构化流

在过去的几个月里，我已经使用了相当多的结构化流来实现流作业（在大量使用Kafka之后）。在阅读了《Stream Processing with Apache Spark》一书之后，我有这样一个问题：有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming？如果我投入一些时间来研究它，或者由于im已经使用了Spark结构化流，我应该坚持使用它，而之
在Spark结构化流媒体中使用来自Kafka的Avro事件

我设计了一个 Nifi 流，将以 Avro 格式序列化的 JSON 事件推送到 Kafka 主题中，然后我尝试在 Spark 结构化流式处理中使用它。虽然Kafka部分工作正常，但Spark结构化流媒体无法读取Avro事件。它失败，错误如下。火花代码 Spark中使用的模式 Kafka中的示例主题数据以下是版本信息感谢您的帮助。

Spark结构化流媒体制作。c000.csv文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档