问题：

如何在python中改进我的append和读取excel For循环

江俊能

2023-03-14

希望你能帮助我。

我有一个文件夹，里面有几个结构相似的. xlsx文件（注意，有些文件可能大于50MB）。我想把它们组合在一起，（最终）把它们发送到数据库。但是在那之前，我需要提高这段代码的性能，因为有时处理所有这些文件需要很多时间。

问题代码如下：

df_list = []    
for file in location:
    df_list.append(pd.read_excel(file, header=0, engine='openpyxl'))

df_concat = pd.concat(df_list)

有什么建议吗？

我在某处读到将 Excel 文件转换为 CSV 可能会提高性能，但我应该在附加文件之前还是在连接所有内容之后执行此操作？考虑到df_list是一个列表，我可以进行转换吗？

共有2个答案

宗政永望

2023-03-14

如你所说，在熊猫中阅读excel文件很慢，你应该看看这个答案。在运行python脚本之前，它基本上使用vbscript将excel文件转换为csv文件，对于python脚本来说，CSV文件的读取速度更快。

为了更具体地回答你问题的第二部分，你应该在用熊猫加载Excel文件之前将其转换为csv。read_excel功能是慢速部分。

龙隐水

2023-03-14

我找到了使用 xlsx2csv 的解决方案

xlsx_path = './data/Extract/'
csv_path = './data/csv/'
list_of_xlsx = glob.glob(xlsx_path+'*.xlsx')


for xlsx in list_of_xlsx:
    # Extract File Name on group 2 "(.+)"
    filename = re.search(r'(.+[\\|\/])(.+)(\.(xlsx))', xlsx).group(2)
    # Setup the call for subprocess.call()
    call = ["python", "./xlsx2csv.py", xlsx, csv_path+filename+'.csv']
    try:
        subprocess.call(call) # On Windows use shell=True
    except:
        print('Failed with {}'.format(filepath)

outputcsv = './data/bigcsv.csv' #specify filepath+filename of output csv

listofdataframes = []
for file in glob.glob(csv_path+'*.csv'):
    df = pd.read_csv(file)
    if df.shape[1] == 24: # make sure 24 columns
        listofdataframes.append(df)
    else:
        print('{}  has {} columns - skipping'.format(file,df.shape[1]))

bigdataframe = pd.concat(listofdataframes).reset_index(drop=True)
bigdataframe.to_csv(outputcsv,index=False)

我试图为我做这项工作，但没有成功。也许你可以让它为你工作？还是有人有什么想法？

如何在python中改进我的append和读取excel For循环

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档