是否可以将火花中的DataFrame
直接保存到Hive?
我尝试过将数据帧转换为Rdd,然后保存为文本文件,然后加载到hive中。但我想知道是否可以直接将数据帧保存到hive
我看不到df。写保存表(…)已弃用。它在亚马逊EMR上对我们有效。我们完全能够将S3中的数据读取到一个数据帧中,对其进行处理,根据结果创建一个表,并使用MicroStrategy读取它。不过,维奈斯的答案也起到了作用。
使用DataFrameWriter。保存表。(df.write.saveAsTable(…)
)请参阅《Spark SQL和DataFrame指南》。
您可以创建内存中的临时表,并使用sqlContext将其存储在配置单元表中。
假设您的数据帧是myDf。可以使用创建一个临时表,
myDf.createOrReplaceTempView("mytempTable")
然后,您可以使用简单的hive语句创建表并从临时表中转储数据。
sqlContext.sql("create table mytable as select * from mytempTable");
问题内容: 我有一个熊猫DataFrame,我想上传到新的CSV文件。问题是在将文件传输到s3之前,我不想在本地保存文件。是否有像to_csv这样的方法可以将数据帧直接写入s3?我正在使用boto3。 这是我到目前为止的内容: 问题答案: 您可以使用:
我有一个熊猫的数据文件,我想上传到一个新的CSV文件。问题是我不想在将文件转移到S3之前将其保存在本地。是否有类似于to_csv的方法可以直接将数据文件写入s3?我使用的是boto3。 以下是我目前所拥有的:
我用的是Flink 1.4.0 我正在尝试将Table API查询的结果保存到CSV文件,但我收到错误。以下是详细信息: 我的输入文件如下所示: 我对此运行查询以仅选择犬类,我想将其保存到csv文件中: 当我运行此命令时,我看到数据集的结果被输出: 犬科动物,2 然而,我在输出文件中没有得到任何结果,我在下面看到了这些错误。我能做些什么来解决这个问题?谢谢
问题内容: 在ipython Notebook中,首先创建一个pandas Series对象,然后通过调用实例方法.hist(),浏览器将显示该图。 我想知道如何将该图形保存到文件中(不是通过右键单击另存为,而是脚本中所需的命令)。 问题答案: 使用方法,如下所示: 它不必以结尾结尾,有很多选择。查看文档。 或者,您可以使用该接口,并仅作为函数调用来保存最近创建的图形:
我创建了一个简单的应用程序,裁剪图像。现在我想保存这个图像到消防基地。 如何将此图像保存到Firebase。我尝试了很多教程,但都没有成功。请用简单的代码验证。
是的。这是这个问题的重复。然而,答案是错误的和误导性的。答案建议将密钥写入一个其他应用程序可以访问该文件的文件。如果我没看错的话,keystore的目的是生成并存储只能被你的app看到的私钥,所以我甚至不确定为什么答案在那个问题中被接受了。 另一个问题是关于加密和解密的,但并不是真正关于将数据保存到密钥存储区的问题。 好的,所以我发现一旦您调用就可以自动生成密钥,就像这个应用程序中演示的那样。但我