如何在Python中将读取的大型csv文件拆分为均匀大小的块？

蓟雪峰

2023-03-14

问题内容：

基本上，我要进行下一步。

import csv
reader = csv.reader(open('huge_file.csv', 'rb'))

for line in reader:
    process_line(line)

请参阅此相关问题。我想每100行发送一次处理行，以实现批量分片。

有关实现相关答案的问题是csv对象无法下标并且不能使用len。

>>> import csv
>>> reader = csv.reader(open('dataimport/tests/financial_sample.csv', 'rb'))
>>> len(reader)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: object of type '_csv.reader' has no len()
>>> reader[10:]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable
>>> reader[10]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable

我该如何解决？

问题答案：

只需将您的reader下标包装到即可list。显然，这会在大型文件上中断（请参见下面的更新中的替代方法）：

>>> reader = csv.reader(open('big.csv', 'rb'))
>>> lines = list(reader)
>>> print lines[:100]
...

进一步阅读：如何在Python中将列表分成均匀大小的块？

更新1 （列表版本）：另一种可能的方法是处理每个卡盘，因为它们在html" target="_blank">遍历行时到达：

#!/usr/bin/env python

import csv
reader = csv.reader(open('4956984.csv', 'rb'))

chunk, chunksize = [], 100

def process_chunk(chuck):
    print len(chuck)
    # do something useful ...

for i, line in enumerate(reader):
    if (i % chunksize == 0 and i > 0):
        process_chunk(chunk)
        del chunk[:]  # or: chunk = []
    chunk.append(line)

# process the remainder
process_chunk(chunk)

更新2 （生成器版本）：我尚未对其进行基准测试，但是也许可以通过使用块 生成器 来提高性能：

#!/usr/bin/env python

import csv
reader = csv.reader(open('4956984.csv', 'rb'))

def gen_chunks(reader, chunksize=100):
    """ 
    Chunk generator. Take a CSV `reader` and yield
    `chunksize` sized slices. 
    """
    chunk = []
    for i, line in enumerate(reader):
        if (i % chunksize == 0 and i > 0):
            yield chunk
            del chunk[:]  # or: chunk = []
        chunk.append(line)
    yield chunk

for chunk in gen_chunks(reader):
    print chunk # process chunk

# test gen_chunk on some dummy sequence:
for chunk in gen_chunks(range(10), chunksize=3):
    print chunk # process chunk

# => yields
# [0, 1, 2]
# [3, 4, 5]
# [6, 7, 8]
# [9]

@totalhack
指出，这是一个小陷阱：

请注意，这会反复产生具有不同内容的相同对象。如果您计划在每次迭代之间使用大块来完成所需的所有操作，则此方法很好用。

如何在Python中将读取的大型csv文件拆分为均匀大小的块？

相关阅读

相关文章

相关问答

相关工具

相关文档