我在将过滤后的数据写入文件时遇到了一个问题。在本地文件系统中创建了大约27个文件,但没有输出。
下面是使用的代码:
我把文件当做数据帧来读
val in_df=火花。阅读csv(“file:///home/Desktop/Project/inputdata.csv“”)。选择EXPR(“_c0作为Id”,“_c1作为名称”,“_c2作为部门”)
然后将此数据帧注册为临时表
in_df.registerTempTable(雇员详细信息)
现在的要求是统计每个部门的员工数量,并将其存储到一个文件中。
val employeeDeptCount=spark。sql(“按部门从employeedetails组中选择部门,计数(*))
//下面的代码是作为n号拼花文件写入Hive默认仓库。
ount.write.saveAsTable(聚合计数)
//以下代码正在写入LFS,但没有输出,但创建了n个文件
雇员接受人数。写模式(“附加”)。csv(“file:///home/Desktop/Project")
val in_df=spark.read.csv("file:///home/Desktop/Project/inputdata.csv").selectExpr("_c0 as Id","_c1 as name","_c2 as dept")
// please, show your result
in_df.show(false)
val employeeDeptCount= in_df.groupBy("dept").count().alias("count")
employeeDeptCount.persist()
employeeDeptCount.write.format("csv").mode(SaveMode.Overwrite).saveAsTable("aggregatedcount")
employeeDeptCount.repartition(1).write.mode("append").csv("file:///home/Desktop/Project")
employeeDeptCount.unpersist()
// in_df.createOrReplaceTempView()
// in_df.createOrReplaceGlobalTempView()
问题内容: 有 DataFrame.to_sql 方法,但仅适用于mysql,sqlite和oracle数据库。我无法传递给此方法postgres连接或sqlalchemy引擎。 问题答案: 从pandas 0.14(2014年5月发行)开始,支持postgresql。该模块现在用于支持不同的数据库风格。您可以为PostgreSQL数据库传递sqlalchemy引擎(请参阅docs)。例如: 您是
问题内容: 我有一个pandas数据框,我想将其写入CSV文件。我正在使用以下方法: 并得到错误: 有什么方法可以轻松解决此问题(即我的数据框中有Unicode字符)吗?有没有一种方法可以使用例如“ to-tab”方法(我认为不存在)写入制表符分隔文件而不是CSV? 问题答案: 要用制表符分隔,可以使用参数: 要使用特定的编码(例如),请使用参数:
问题内容: 我有一个问题-如何将结果/数据库选择写入JTextArea。我的JButton的方法是: 如果使用 -在控制台中看到输出,但是如何将Text设置为JTextArea? 问题答案: 请参阅文档。
我在将Spark dataframe插入配置单元表时遇到了一个问题。有人能帮帮我吗。HDP版本3.1,Spark版本2.3提前感谢。 //原始代码部分 与在Spark中将out_temp保存为tempview不同,有什么方法可以直接在hive中创建表吗?有没有办法从spark dataframe插入到配置单元表中? 谢谢大家抽出时间!
使用与hive 2.2.0集成的Spark2.3thriftserver。从火花直线运行。尝试将数据插入配置单元hbase表(以hbase作为存储的配置单元表)。插入到配置单元本机表是可以的。当插入到配置单元hbase表时,它会引发以下异常:
问题内容: 将结构转储到提供的csv文件中的惯用golang方法是什么?我在一个func里面,我的结构作为接口{}传递: 为什么要使用界面{}?-从JSON读取数据,可能会返回一些不同的结构,因此尝试编写足够通用的函数。 我的类型的一个例子: 问题答案: 如果您使用具体类型,将会容易得多。您可能想要使用该软件包,这是一个相关示例;https://golang.org/pkg/encoding/cs