问题：

通过SparkSQL读取嵌套JSON-[Analysis Exception]无法解析列

章誉

2023-03-14

我有这样的JSON数据：

{  
   "parent":[  
      {  
         "prop1":1.0,
         "prop2":"C",
         "children":[  
            {  
               "child_prop1":[  
                  "3026"
               ]
            }
         ]
      }
   ]
}

从Spark读取数据后，我得到以下模式：

val df = spark.read.json("test.json")

df.printSchema
root
 |-- parent: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- children: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- child_prop1: array (nullable = true)
 |    |    |    |    |    |-- element: string (containsNull = true)
 |    |    |-- prop1: double (nullable = true)
 |    |    |-- prop2: string (nullable = true)

现在，我想从df中选择child_prop1。但是当我尝试选择它时，我得到了org.apache.spark.sql.分析异常。像这样：

df.select("parent.children.child_prop1")

org.apache.spark.sql.AnalysisException: cannot resolve '`parent`.`children`['child_prop1']' due to data type mismatch: argument 2 requires integral type, however, ''child_prop1'' is of string type.;;
'Project [parent#60.children[child_prop1] AS child_prop1#63]
+- Relation[parent#60] json

  at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:82)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:74)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:310)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:310)
  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformUp(TreeNode.scala:309)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$4.apply(TreeNode.scala:307)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$4.apply(TreeNode.scala:307)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$5.apply(TreeNode.scala:331)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:188)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformChildren(TreeNode.scala:329)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformUp(TreeNode.scala:307)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.transformExpressionUp$1(QueryPlan.scala:282)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$2(QueryPlan.scala:292)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$2$1.apply(QueryPlan.scala:296)
  at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
  at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
  at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
  at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
  at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
  at scala.collection.AbstractTraversable.map(Traversable.scala:104)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$2(QueryPlan.scala:296)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$7.apply(QueryPlan.scala:301)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:188)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.transformExpressionsUp(QueryPlan.scala:301)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:74)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:67)
  at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:128)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.checkAnalysis(CheckAnalysis.scala:67)
  at org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:57)
  at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:48)
  at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:63)
  at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$withPlan(Dataset.scala:2822)
  at org.apache.spark.sql.Dataset.select(Dataset.scala:1121)
  at org.apache.spark.sql.Dataset.select(Dataset.scala:1139)
  ... 48 elided

尽管如此，当我从df中仅选择children时，效果很好。

df.select("parent.children").show(false)

+------------------------------------+
|children                            |
+------------------------------------+
|[WrappedArray([WrappedArray(3026)])]|
+------------------------------------+

我无法理解为什么它会出现异常，即使该列存在于数据帧中。

感谢您的帮助！

共有2个答案

慕佑运

2023-03-14

如果查看模式，则子prop1在根数组父数组的嵌套数组中。所以我们需要能够定义child_prop1的位置，这就是错误建议您定义的
转换json格式应该可以做到这一点
将json更改为

{"parent":{"prop1":1.0,"prop2":"C","children":{"child_prop1":["3026"]}}}

并应用

df.select("parent.children.child_prop1").show(false)

将输出为

+-----------+
|child_prop1|
+-----------+
|[3026]     |
+-----------+

以及将json更改为

{"parent":{"prop1":1.0,"prop2":"C","children":[{"child_prop1":["3026"]}]}}

并应用

df.select("parent.children.child_prop1").show(false)

将导致

+--------------------+
|child_prop1         |
+--------------------+
|[WrappedArray(3026)]|
+--------------------+

我希望答案有帮助

寿飞飙

2023-03-14

您的Json是一个有效的json，我认为您不需要更改输入数据。

使用explode将数据作为

import org.apache.spark.sql.functions.explode

val data = spark.read.json("src/test/java/data.json")
val child = data.select(explode(data("parent.children"))).toDF("children")

child.select(explode(child("children.child_prop1"))).toDF("child_prop1").show()

如果您可以更改输入数据，您可以遵循@raesh建议

类似资料：

Java无法解析嵌套的json对象

下面是一些示例代码： On doing JSONObject innerObj = （JSONObject） obj.get（“root1”）;- 它给出：线程“main”中出现异常Java . lang . classcastexception:Java . lang . string不能转换为org.json.JSONObject 我尝试了Gson、JSONParser-但仍然无法做到...
jQuery读取嵌套的JSON

问题内容：我有以下JSON，如下所示。我正在尝试读取值TOP1，TOP2。我不太确定该如何做。我正在使用以下..但这只是给我一个对象，该对象具有用于TOP1和TOP2的嵌套对象。如何获取值TOP1和TOP2？和下面的数据问题答案：您似乎想通过循环，因此请更改以下内容：对此：现在，您正在使用该对象遍历该对象数组，这些对象就是具有属性的对象，例如：和。
主干解析嵌套json

问题内容：我正在将我的第一个应用程序构建在骨干网中，我想知道哪种方法是解析具有多个级别的json的最佳模式。这是一个简单的json小示例：要打印它，我正在使用collection并在主干中查看，如下所示：COLLECTION：这就是称为视图的两个视图，因为我想要的每个酒店都有不同的视图：我的模板是：但是不打印名称，我也尝试过：但是我无法打印值名称，该怎么做？谢谢问题答案：首先，JS
通过jquery或javascript通过AJAX读取嵌套的JSON并输出到表中

问题内容：我真的很想有一个快速便捷的方法来遍历JSON中的多个记录，每个记录都有潜在的深层嵌套。我只想输出到表。我不确定$ .each（）或$ .ajax（）成功的javascript方法需要通过function（）传递哪些参数。所有示例似乎都使用通用词“ data”或“ obj”，但它们使我感到困惑-它们是内置函数参数还是我可以根据需要命名？以及如何跟踪循环/嵌套中的位置？我更喜欢使用J
解析嵌套的JSON数据

问题内容：此JSON输出来自MongoDB聚合查询。我本质上需要将嵌套数据JSON解析为以下’ 和值。我尝试了5种不同的技术来从中获得所需的信息，但是使用和模块却遇到了问题。理想情况下，输出将是这样的：问题答案：注意：来自MongoDB的JSON响应实际上无效。JSON需要双引号（），而不是单引号（）。我不确定为什么您的响应中有单引号而不是双引号，但是从其外观上，您可以替换它们，然后只
解析ANDROID中的嵌套JSON

问题内容：我正在尝试解析这种结构：（它使我发疯，并且我尝试了我能想到的一切。但是我不是很有经验） “ topDrop”就像文件名吗？player是一个JSONArray，包含5个播放器JSONObject。但是在JSON术语中，最重要的是什么。我在JSON验证程序上签出有效的凭证，我需要这样的凭证： topDrop作为JSONObject Player，作为JSONArray，并循环遍历数组中的

通过SparkSQL读取嵌套JSON-[Analysis Exception]无法解析列

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档