当前位置: 首页 > 知识库问答 >
问题:

如何从kafka读取Avro模式类型的事件并将其存储在配置单元表中

孙承弼
2023-03-14

我的想法是使用Spark流媒体Kafka从Kafka巴士上获取事件。在检索了一批avro编码的事件之后,我想用Spark avro将它们转换为SparkSQL数据帧,然后将数据帧写入配置单元表。

这种方法可行吗?我是Spark的新手,我不完全确定是否可以使用Spark Avro包来解码Kafka Events,因为在留档中只提到了avro文件。但到目前为止,我的理解是,这是可能的。

下一个问题是:如果这是可能的,我的理解是,我有一个符合Dataframe的SparkSQL,我可以将其写入hive表。我的假设正确吗?

提前感谢您提供的任何提示和提示。

共有1个答案

向安福
2023-03-14

是的,你可以做到http://aseigneurin.github.io/2016/03/04/kafka-spark-avro-producing-and-consuming-avro-messages.html

可以将数据集保存为hive表或以orc格式写入数据。您还可以在hdfs中以所需格式写入数据并在此基础上创建外部hive

 类似资料: