我的想法是使用Spark流媒体Kafka从Kafka巴士上获取事件。在检索了一批avro编码的事件之后,我想用Spark avro将它们转换为SparkSQL数据帧,然后将数据帧写入配置单元表。
这种方法可行吗?我是Spark的新手,我不完全确定是否可以使用Spark Avro包来解码Kafka Events,因为在留档中只提到了avro文件。但到目前为止,我的理解是,这是可能的。
下一个问题是:如果这是可能的,我的理解是,我有一个符合Dataframe的SparkSQL,我可以将其写入hive表。我的假设正确吗?
提前感谢您提供的任何提示和提示。
是的,你可以做到http://aseigneurin.github.io/2016/03/04/kafka-spark-avro-producing-and-consuming-avro-messages.html
可以将数据集保存为hive表或以orc格式写入数据。您还可以在hdfs中以所需格式写入数据并在此基础上创建外部hive表
有2个配置单元avro格式的表 Main_Table,Table_A 主表已包含数据。与主表相比,avro模式没有多少额外的列。场景为表A数据必须与主表合并 表A中的列是动态的,几天后可能会更改。 如何将Table_A与Main_Table合并?
问题内容: 我正在尝试建立一个非常简单的Web服务器,用户可以在其中访问站点并编写一个字符串和一个整数。然后我想保存这两个输入,我的想法是将其保存到一个文本文件中,该文件也可以显示在浏览器:… / textfile / 我不知道关于SO的规范是多少代码可以发布,但是到目前为止,这是我所拥有的: 还有我的HTML表单:(没有所有格式) 所以我最初的想法是实现两个函数returnInput()和sav
我正在使用Spark SQL读取一个配置单元表,并将其分配给一个scala val 有什么方法可以绕过这个错误吗?我需要将记录插入到同一个表中。 嗨,我试着按建议做,但仍然得到同样的错误。
问题内容: 我是React.js的新手,我实现了一个组件,在其中我从服务器获取数据并像这样使用它, 我想将Url存储在配置文件中,所以当我将其部署在测试服务器或生产环境中时,我只需要更改配置文件中的url(而不是js文件中的URL),但是我不知道如何在react.js中使用配置文件 谁能指导我如何实现这一目标? 问题答案: 使用webpack,您可以将env特定的配置放入以下字段中 如果要将配置存