当前位置: 首页 > 知识库问答 >
问题:

如何将cassandraRow转换为Row(apache spark)?

凤修为
2023-03-14

我正在尝试从RDD[cassandraRow]创建一个数据帧。。但我不能,因为createDataframe(RDD[Row],schema:StructType)需要RDD[Row],而不是RDD[cassandraRow]。

  • 我怎样才能做到这一点

根据这个问题的答案,如何在spark中将rdd对象转换为数据帧

(答案之一)关于在RDD[行]上使用toDF()从RDD获取数据帧的建议,对我来说并不适用。我在另一个示例中尝试使用RDD[行](尝试使用toDF()。

  • 我也不知道如何用RDD实例(RDD[行])调用Dataframe(toDF())方法

共有1个答案

萧波峻
2023-03-14

如果您真的需要这一点,您可以随时将数据映射到Spark行:

sqlContext.createDataFrame(
  rdd.map(r => org.apache.spark.sql.Row.fromSeq(r.columnValues)),
  schema
)

但如果需要数据帧,最好直接导入数据:

val df = sqlContext
  .read
  .format("org.apache.spark.sql.cassandra")
  .options(Map( "table" -> table, "keyspace" -> keyspace))
  .load()
 类似资料:
  • 问题内容: 有一种简单的方法可以将给定的Row对象转换为json吗? 但是我只想将一个Row转换为json。这是我要尝试执行的伪代码。 更准确地说,我正在读取json作为Dataframe中的输入。我正在产生主要基于列的新输出,但对于所有不适合列的信息都具有一个json字段。 我的问题是编写此函数的最简单方法是什么:convertRowToJson() Psidom解决方案: 仅当行只有一个级别而

  • 问题内容: 我想从Spark v.1.6(使用scala)数据帧创建JSON。我知道这样做很简单。 但是,我的问题看起来有些不同。例如,考虑具有以下列的数据框: 我想最后有一个数据框 其中,C是含有JSON ,,。不幸的是,我在编译时不知道数据框是什么样子(除了列,列始终是“固定的”)。 至于我为什么需要这个的原因:我正在使用Protobuf发送结果。不幸的是,我的数据框有时具有比预期更多的列,并

  • 问题内容: 我已经编写了使用SparkSQL访问Hive表的代码。这是代码: 我想知道如何将完整的输出转换为String或String数组?当我尝试与另一个只能传递String或String type Array值的模块一起使用时。 我试过其他方法,例如将类型转换为字符串值或将其转换为字符串值。但是没有为我工作。 请让我知道如何将DataSet值转换为String? 问题答案: 这是Java中的示

  • 问题内容: 我在mySQL 5.1中有一个数据类型的日期列。如何将其转换为DATE? 这是我到目前为止所拥有的- 得到这个 错误-#1064-您的SQL语法有错误;查看与您的MySQL服务器版本相对应的手册以获取正确的语法,以在’FROM 7 FOR 4附近使用) 请帮忙。 问题答案: 您可以使用MySQL的功能 尽管我怀疑您使用Unix时间戳会更轻松

  • 问题内容: 有没有一种简单的方法可以避免处理文本编码问题? 问题答案: 您确实无法避免处理文本编码问题,但是Apache Commons中已有一些解决方案: 至: 至: 您只需要选择所需的编码即可。

  • 问题内容: 如何使用Java将Dicom文件(.dcm)转换为jpeg图像?这是我的代码: 我在运行项目时遇到以下错误 请帮助并提前感谢 问题答案: 这是使用dcm4che 2将DICOM转换为JPEG的链接 以下是我的代码,效果很好,我将其与导入一起放置,因此可能用完了。 用于运行它的罐子 dcm4che-imageio-2.0.28.jar dcm4che-image-2.0.28.jar j