当前位置: 首页 > 知识库问答 >
问题:

火花数据帧转换JSON到ORC满足"列矛盾异常"

闽朝
2023-03-14

我正在使用spark数据帧,读取JSON数据,然后将其保存到orc。代码非常简单:

DataFrame json = sqlContext.read().json(input);

json.write().format("orc").save(output);

工作失败了。这个例外有什么问题?谢谢。

共有1个答案

蒋胡非
2023-03-14

密钥必须具有相同的名称。在创建df和做一些连接时,你需要删除其中一个键。

 类似资料:
  • 并将其应用于数据表的一列--这是我希望这样做的: 我还没有找到任何简单的方法,正在努力找出如何做到这一点。一定有一个更简单的方法,比将数据rame转换为和RDD,然后从RDD中选择行来获得正确的字段,并将函数映射到所有的值,是吗?创建一个SQL表,然后用一个sparkSQL UDF来完成这个任务,这更简洁吗?

  • 我想过滤掉具有“c2”列前3个字符的记录,无论是“MSL”还是“HCP”。 所以输出应该如下所示。 有谁能帮忙吗? 我知道df。过滤器($c2.rlike(“MSL”))--用于选择记录,但如何排除记录? 版本:Spark 1.6.2 Scala:2.10

  • 我有一个Spark dataframe,如下所示: 在此数据Frame中,features列是一个稀疏向量。在我的脚本,我必须保存这个DF文件在磁盘上。这样做时,features列被保存为文本列:示例。如您所料,在Spark中再次导入时,该列将保持字符串。如何将列转换回(稀疏)向量格式?

  • 我使用rdd读取csv文件,只从dataframe中获取一列,并使用scala toArray将其转换为数组。 之后,我在sql中使用这个数组来检查这个数组中是否有一个字段值。 我使用Postgresql和jooq 3.11,但无论我怎么努力,我不能呈现sql,因为它需要。 下面的代码是。但是,它不会生成sql。我在用和,以及()中的相同问题的版本:

  • 我正在尝试使用Apache Spark,以便将具有多个连接和子选择的(大型)SQL查询的结果加载到来自Spark的DataFrame中,如从SQL查询创建Spark Dataframe中所述。 不幸的是,我这样做的尝试导致了拼花错误: 线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException:无法推断拼花地板的架构。必须手动指定。 我从谷歌看到的信息表明,当数据帧为空

  • 在PySpark中或者至少在Scala中,Apache Spark中是否有与Pandas Melt函数等价的函数? 到目前为止,我一直在用Python运行一个示例数据集,现在我想对整个数据集使用Spark。