我想将多个csv文件合并为一个df。
它们都是这种通用格式,带有两个索引列:
1 2
CU0112-005287-7 Output Energy, (Wh/h) 0.064 0.066
CU0112-005287-7 Lights (Wh) 0 0
1 2
CU0112-001885-L Output Energy, (Wh/h) 1.33 1.317
CU0112-001885-L Lights (Wh) 1.33 1.317
等等…
合并的df为:
1 2
CU0112-005287-7 Output Energy, (Wh/h) 0.064 0.066
CU0112-005287-7 Lights (Wh) 0 0
CU0112-001885-L Output Energy, (Wh/h) 1.33 1.317
CU0112-001885-L Lights (Wh) 1.33 1.317
我正在尝试此代码:
import os
import pandas as pd
import glob
files = glob.glob(r'2017-12-05\Aggregated\*.csv') //folder which contains all the csv files
df = pd.merge([pd.read_csv(f, index_col=[0,1])for f in files], how='outer')
df.to_csv(r'\merged.csv')
但我收到此错误:
TypeError: merge() takes at least 2 arguments (2 given)
我认为你需要concat
,而不是merge
:
df = pd.concat([pd.read_csv(f, index_col=[0,1]) for f in files])
我有一个文件。 使用Pandas,从这个文件中获得两个DataFrame和的最佳策略是什么? 输入如下所示: 到目前为止,我想到的最好的方法是转换这个文件转换为Excel工作簿(),将表格拆分为工作表并使用: 然而: 这种方法需要模块。 这些日志文件必须被实时分析,这样就可以更好地找到一种方法来分析它们,因为它们来自日志。 真正的日志比那两个有更多的表。
问题内容: 我有两列带有字符串。我想将它们结合起来并忽略值。这样: 我试过了,但是如果任一列是nan,那都会创建一个nan值。我也考虑过使用。 我想我可以解决这个问题,然后再使用一些,但这似乎很可行。 问题答案: 调用并传递一个空的str作为填充值,然后使用param :
我有多个csv文件(每个文件包含N行(例如,1000行)和43列)。 我想把文件夹中的几个csv文件读入pandas,并将它们合并到一个数据帧中。 不过我还没能弄明白。 问题是,数据帧的最终输出(即,)将所有列(即43列)合并到代码的一列(见附图)屏幕截图中 选定行和列的示例(文件一) 选择的行和列(文件二)Client_IDClient_NamePointer_of_Bins日期权重C00000
我试图将一个目录中的几个csv文件读入pandas,并将它们连接到一个大数据帧中,但出现以下错误: 这是我的密码 我不知道为什么它不起作用。我试图用chmod解决这个问题,但一切都变了
我有一个商业案例,使用Spring batch将多个csv文件(每个文件大约1000个,包含1000条记录)合并成单个csv。 请帮助我提供方法和性能方面的指导和解决方案。 到目前为止,我已经尝试了两种方法, 方法1。 Tasklet chunk与multiResourceItemReader一起从目录中读取文件,FlatFileItemWriter作为项目编写器。 这里的问题是,它的处理速度非常
对理解这一差异的任何帮助都是感激的。