当前位置：首页 > 知识库问答 >

问题：

熊猫用append将数据帧写入拼花格式

黄查猛

2023-03-14

我正试图在append模式下将pandas数据框写入parquet文件格式（在最新的pandas版本0.21.0中引入）。但是，文件将被新数据覆盖，而不是附加到现有文件。我错过了什么？

写入语法是

df.to_parquet(path, mode='append')

读取语法是

pd.read_parquet(path)

共有3个答案

羊舌新荣

2023-03-14

我用过aws牧马人图书馆。它很有魅力

以下是参考文档

https://aws-data-wrangler.readthedocs.io/en/latest/stubs/awswrangler.s3.to_parquet.html

我读过kinesis stream，并使用kinesis python库读取消息并写入s3。我没有包括json的处理逻辑，因为本文处理的是无法将数据附加到s3的问题。在aws sagemaker jupyter执行

以下是我使用的示例代码：

!pip install awswrangler
import awswrangler as wr
import pandas as pd
evet_data=pd.DataFrame({'a': [a], 'b':[b],'c':[c],'d':[d],'e': [e],'f':[f],'g': [g]},columns=['a','b','c','d','e','f','g'])
#print(evet_data)
s3_path="s3://<your bucker>/table/temp/<your folder name>/e="+e+"/f="+str(f)
try:
    wr.s3.to_parquet(
    df=evet_data,
    path=s3_path,
    dataset=True,
    partition_cols=['e','f'],
    mode="append",
    database="wat_q4_stg",
    table="raw_data_v3",
    catalog_versioning=True  # Optional
    )
    print("write successful")       
except Exception as e:
    print(str(e))

任何澄清准备帮助。在更多的帖子中，我已经阅读了读取数据并再次覆盖。但是随着数据变得越来越大，它会减慢过程。效率低下

督灿

2023-03-14

pandas中没有附加模式。到_parquet（）。你可以做的是读取现有文件，更改它，然后写回它，覆盖它。

上官扬

2023-03-14

要追加，请执行以下操作：

import pandas as pd 
import pyarrow.parquet as pq
import pyarrow as pa

dataframe = pd.read_csv('content.csv')
output = "/Users/myTable.parquet"

# Create a parquet table from your dataframe
table = pa.Table.from_pandas(dataframe)

# Write direct to your parquet file
pq.write_to_dataset(table , root_path=output)

这将自动附加到您的表中。

类似资料：

将spark数据帧写入单个拼花文件

我试图做一些非常简单的事情，我有一些非常愚蠢的挣扎。我想这一定与对火花的基本误解有关。我非常感谢任何帮助或解释。我有一张非常大的桌子（~3 TB，~300毫米行，25k个分区），在s3中保存为拼花地板，我想给一些人一个很小的拼花文件样本。不幸的是，这要花很长时间才能完成，我不明白为什么。我尝试了以下方法：然后当这不起作用时，我尝试了这个，我认为应该是一样的，但我不确定。（我添加了，以尝试调试。
将大熊猫数据帧分块写入CSV文件

问题内容：如何将大数据文件分块写入CSV文件？我有一组大型数据文件（1M行x 20列）。但是，我只关注该数据的5列左右。我想通过只用感兴趣的列制作这些文件的副本来使事情变得更容易，所以我可以使用较小的文件进行后期处理。因此，我计划将文件读取到数据帧中，然后写入csv文件。我一直在研究将大数据文件以块的形式读入数据框。但是，我还无法找到有关如何将数据分块写入csv文件的任何信息。这是我现在
熊猫将数据框列写入csv

问题内容：我正在编写一个脚本，以将带有标头的大.xlsx文件减少到一个csv中，然后根据标头名称仅写有所需列的新csv文件。我得到的错误是最后一部分代码，它说我确定我忽略了一些愚蠢的事情，但是我已经阅读了熊猫网站上的to_csv文档，但我仍然感到茫然。我知道我使用了不正确的to_csv参数，但我似乎无法理解我猜的文档。任何帮助表示赞赏，谢谢！问题答案：选择特定列的方法是这样的-
将CSV文件导入为熊猫数据帧

Python是如何将CSV文件读入pandas数据帧的（我可以使用它进行统计操作，可以有不同类型的列，等等）？我的CSV文件有以下内容：在R中，我们将使用以下方法读取此文件：这将返回一个R数据。框架：有没有类似python的方法来获得相同的功能？
如何将熊猫数据帧的第n行提取为熊猫数据帧？

假设熊猫数据帧如下所示：如何将第三行（如row3）提取为pd数据帧？换句话说，row3.shape应该是（1,5），row3.head（）应该是：
Spark：将大型数据帧写入拼花文件时出现LeaseExpiredException

我有一个很大的数据框，我正在HDFS中写入拼花文件。从日志中获取以下异常：谷歌对此进行了搜索，但找不到任何具体的解决方案。将推测设置为false:conf.Set（“spark.投机”，“false”）但仍然没有帮助。它只完成了几个任务，生成了几个零件文件，然后突然因此错误而停止。详细信息：Spark版本：2.3.1（这在1.6x中没有发生）只有一个会话正在运行，这排除了不同会话访问同一位

相关问答

熊猫数据帧绘图将熊猫数据帧从宽到长 Python熊猫数据帧加入两个数据帧[复制]火花：将数据帧写入CSV时出错熊猫数据帧列的转换时间格式

相关文章

将熊猫数据框中的列上移一格？熊猫的CSV写入-附加与写入将值写入python中熊猫表中的特定单元格熊猫数据框到JSON列表格式来自熊猫数据帧的成对矩阵

相关阅读

PDD拼多多数据分析一面拼多多数据分析师凉经熊猫优选交互设计师面经拼多多数据分析校招面经 Memcached append 命令

相关工具

熊猫Flash播放器 flume-append-file-sink 标准TVL格式数据解析拼图莲花

相关文档

变现猫接入文档 v1.4 大数据入门指南 IBM DB2 数据库快速入门 Matplotlib 数据科学入门教程数据采集从入门到放弃