问题：

Spark：在scala中以编程方式创建数据帧模式

柯唯

2023-03-14

我有一个小数据集，它将是Spark工作的结果。为了方便起见，我正在考虑在作业结束时将此数据集转换为数据帧，但很难正确定义模式。问题是下面的最后一个字段（topValues）；它是一个元组数组缓冲区——键和计数。

  val innerSchema =
    StructType(
      Array(
        StructField("value", StringType),
        StructField("count", LongType)
      )
    )
  val outputSchema =
    StructType(
      Array(
        StructField("name", StringType, nullable=false),
        StructField("index", IntegerType, nullable=false),
        StructField("count", LongType, nullable=false),
        StructField("empties", LongType, nullable=false),
        StructField("nulls", LongType, nullable=false),
        StructField("uniqueValues", LongType, nullable=false),
        StructField("mean", DoubleType),
        StructField("min", DoubleType),
        StructField("max", DoubleType),
        StructField("topValues", innerSchema)
      )
    )

  val result = stats.columnStats.map{ c =>
    Row(c._2.name, c._1, c._2.count, c._2.empties, c._2.nulls, c._2.uniqueValues, c._2.mean, c._2.min, c._2.max, c._2.topValues.topN)
  }

  val rdd = sc.parallelize(result.toSeq)

  val outputDf = sqlContext.createDataFrame(rdd, outputSchema)

  outputDf.show()

我得到的错误是一个匹配错误：scala。MatchError:ArrayBuffer（（10,2）、（20,3）、（8,1））（类scala.collection.mutable.ArrayBuffer）

当我调试和检查我的对象时，我看到了这个：

rdd: ParallelCollectionRDD[2]
rdd.data: "ArrayBuffer" size = 2
rdd.data(0): [age,2,6,0,0,3,14.666666666666666,8.0,20.0,ArrayBuffer((10,2), (20,3), (8,1))]
rdd.data(1): [gender,3,6,0,0,2,0.0,0.0,0.0,ArrayBuffer((M,4), (F,2))]

在我看来，我已经准确地描述了innerSchema中元组的ArrayBuffer，但Spark不同意。

知道我应该如何定义模式吗？

共有3个答案

习宸

2023-03-14

import spark.implicits._
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._


val searchPath = "/path/to/.csv"
val columns = "col1,col2,col3,col4,col5,col6,col7"
val fields = columns.split(",").map(fieldName => StructField(fieldName, StringType, 
nullable = true))
val customSchema = StructType(fields)
var dfPivot =spark.read.format("com.databricks.spark.csv").option("header","false").option("inferSchema", "false").schema(customSchema).load(searchPath)

与使用默认模式加载数据相比，使用自定义模式加载数据的速度要快得多

阳兴朝

2023-03-14

正如David指出的，我需要使用ArrayType。Spark对此感到满意：

  val outputSchema =
    StructType(
      Array(
        StructField("name", StringType, nullable=false),
        StructField("index", IntegerType, nullable=false),
        StructField("count", LongType, nullable=false),
        StructField("empties", LongType, nullable=false),
        StructField("nulls", LongType, nullable=false),
        StructField("uniqueValues", LongType, nullable=false),
        StructField("mean", DoubleType),
        StructField("min", DoubleType),
        StructField("max", DoubleType),
        StructField("topValues", ArrayType(StructType(Array(
          StructField("value", StringType),
          StructField("count", LongType)
        ))))
      )
    )

胡嘉歆

2023-03-14

val rdd = sc.parallelize(Array(Row(ArrayBuffer(1,2,3,4))))
val df = sqlContext.createDataFrame(
  rdd,
  StructType(Seq(StructField("arr", ArrayType(IntegerType, false), false)
)

df.printSchema
root
 |-- arr: array (nullable = false)
 |    |-- element: integer (containsNull = false)

df.show
+------------+
|         arr|
+------------+
|[1, 2, 3, 4]|
+------------+

类似资料：

Spark和Scala中数据帧的转换模式

我想使用Spark和Scala强制转换dataframe的模式以更改某些列的类型。具体地说，我正在尝试使用AS[U]函数，其描述为：“返回一个新的数据集，其中每个记录都映射到指定的类型。用于映射列的方法取决于U的类型。” 原则上，这正是我想要的，但我不能使它起作用。下面是一个取自https://github.com/apache/spark/blob/master/sql/core/src/t
在Swift中以编程方式创建UITableView

问题内容：我尝试以编程方式实现UITableView，而不使用xib或Storyboards。这是我的代码： ViewController.swift MyTableViewController.swift 但是当我运行应用程序时，我得到的只是空表。在日志中，我看到了和的几行，但没有。如何修复此代码以获取包含6行文本的表格？问题答案：注意：正如您提到的，您刚刚开始在中进行编程。我以编程方式
在Swift中以编程方式创建UITableViewCell

问题内容：我正在尝试为自己创建一个自定义单元，但是遇到了一些困难。首先，我无法使用InterfaceBuilder，因为我正在Xcode中对该bug进行变体。每次我在Interface Builder中单击一个元素时，该视图中的所有内容的高度和宽度均为零，并在视图外部重新定位。此外，我想学习如何以编程方式执行此操作。其次，我在项目中使用Swift语言。我一直在尝试遵循此演示，并尽最大努力将O
在Swift中以编程方式创建UIButton

问题内容：我正在尝试以编程方式构建UI。如何使该动作起作用？我正在用Swift开发。 viewDidLoad中的代码：问题答案：您只是在选择器名称的末尾缺少冒号。因为按下需要一个参数，所以冒号必须在该位置。而且，您按下的函数不应嵌套在viewDidLoad中。编辑：更新以反映Swift 2.2中的最佳实践。应该使用#selector（）而不是不推荐使用的文字字符串。
在Windows中以编程方式创建快捷方式

问题内容：有没有一种方法可以在Windows中创建链接？我发现使用的样本或必须下载的样本。我需要一个简单的解决方案。那可能吗？问题答案：好了，我不得不使用创建快捷方式的方法，但是实际上我需要的是一个文件夹，但是会创建一个。最终我用来创建。
当第一行是模式时，如何从Spark中的csv（使用scala）创建数据帧？

我是Spark的新手，我正在使用scala编程。我想从HDFS或S3中读取一个文件，并将其转换为Spark数据帧。Csv文件的第一行是模式。但是，如何创建具有未知列的模式的数据框架呢？我使用下面的代码为一个已知的模式创建数据框架。 }

Spark：在scala中以编程方式创建数据帧模式

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档