我正在使用下面链接中的代码来平整嵌套的数据帧在Scala中平整一个数据帧,里面有不同的数据类型....我得到以下错误:
代码:
object flatten {
def main(args: Array[String]) {
if (args.length < 1) {
System.err.println("Usage: XMLParser.jar <config.properties>")
println("Please provide the Configuration File for the XML Parser Job")
System.exit(1)
}
val sc = new SparkContext(new SparkConf().setAppName("Spark XML Process"))
val sqlContext = new HiveContext(sc)
val prop = new Properties()
prop.load(new FileInputStream(args(0)))
val dfSchema = sqlContext.read.format("com.databricks.spark.xml").option("rowTag",prop.getProperty("xmltag")).load(prop.getProperty("input"))
val flattened_DataFrame=flattenDf(dfSchema)
// flattened_DataFrame.printSchema()
}
使用
val renamed_df = df.toDF(Seq("col1","col2","col3"))
重命名列
以下脚本: Floor1正在正确执行,Floor2使用相同的df执行,但使用重命名的列则不正确。我得到一个关键错误: 我知道,有一个类似的问题:重命名列后get keyerror 但我并没有真正得到答案,更重要的是,我没有找到解决办法。
我正在用PySpark DataFrames分析一些数据。假设我有一个正在聚合的数据帧< code>df: 这将给我: 聚合工作得很好,但我不喜欢新的列名。有没有办法将此列重命名为人类可以从方法中读取的内容?也许更类似于中的操作:
问题内容: 如何在spark数据帧中强制转换结构数组? 让我通过一个例子来说明我要做什么。我们将从创建一个数据框开始,该数据框包含行和嵌套行的数组。我的整数尚未在数据框中强制转换,它们已创建为字符串: 这是创建的数据框的架构: 我想做的是将所有可以为整数的字符串都转换为整数。我尝试执行以下操作,但没有成功: 我有以下异常: 任何人都有正确的查询将所有值转换为INTEGER吗?我将不胜感激。 非常感
我有麻烦重命名基于csv的数据帧的标头。 我得到了以下数据帧:df1: 现在我想根据csv文件更改列名(第一行),如下所示: 因此,我期望数据帧如下所示: 有什么想法吗?感谢您的帮助:)
我想将以下数据框的第1列重命名为“Ref”。我有很多列,因此无法重命名每个列或为每个列设置名称。 这是数据帧 现在我想将第一列重命名为'Ref'。我试过这个 它重命名所有标题与列[1]相似的列。
当我尝试重命名和删除列从熊猫data.frame我遇到一个错误说