问题：

火花数据帧转换JSON到ORC满足"列矛盾异常"

闽朝

2023-03-14

我正在使用spark数据帧，读取JSON数据，然后将其保存到orc。代码非常简单：

DataFrame json = sqlContext.read().json(input);

json.write().format("orc").save(output);

工作失败了。这个例外有什么问题？谢谢。

共有1个答案

蒋胡非

2023-03-14

密钥必须具有相同的名称。在创建df和做一些连接时，你需要删除其中一个键。

类似资料：

将函数应用于火花数据帧列

并将其应用于数据表的一列--这是我希望这样做的：我还没有找到任何简单的方法，正在努力找出如何做到这一点。一定有一个更简单的方法，比将数据rame转换为和RDD，然后从RDD中选择行来获得正确的字段，并将函数映射到所有的值，是吗？创建一个SQL表，然后用一个sparkSQL UDF来完成这个任务，这更简洁吗？
火花数据帧滤波器

我想过滤掉具有“c2”列前3个字符的记录，无论是“MSL”还是“HCP”。所以输出应该如下所示。有谁能帮忙吗？我知道df。过滤器（$c2.rlike（“MSL”））--用于选择记录，但如何排除记录？版本：Spark 1.6.2 Scala:2.10
将字符串列转换为向量列火花数据

我有一个Spark dataframe，如下所示：在此数据Frame中，features列是一个稀疏向量。在我的脚本，我必须保存这个DF文件在磁盘上。这样做时，features列被保存为文本列：示例。如您所料，在Spark中再次导入时，该列将保持字符串。如何将列转换回（稀疏）向量格式？
火花数据帧列在jooq选择查询

我使用rdd读取csv文件，只从dataframe中获取一列，并使用scala toArray将其转换为数组。之后，我在sql中使用这个数组来检查这个数组中是否有一个字段值。我使用Postgresql和jooq 3.11，但无论我怎么努力，我不能呈现sql，因为它需要。下面的代码是。但是，它不会生成sql。我在用和，以及（）中的相同问题的版本：
从SQL查询火花数据帧

我正在尝试使用Apache Spark，以便将具有多个连接和子选择的（大型）SQL查询的结果加载到来自Spark的DataFrame中，如从SQL查询创建Spark Dataframe中所述。不幸的是，我这样做的尝试导致了拼花错误：线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。我从谷歌看到的信息表明，当数据帧为空
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。

火花数据帧转换JSON到ORC满足"列矛盾异常"

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档