在python中解析大型.csv的最有效方法？

楚浩然

2023-03-14

问题内容：

我尝试寻找其他答案，但仍不确定正确的方法。我有许多个非常大的.csv文件（每个文件可以是一个千兆字节），我想首先获取它们的列标签，因为它们并不完全相同，然后根据用户的喜好使用某些条件提取其中的一些列。在开始提取部分之前，我做了一个简单的测试，以了解解析此文件的最快方法，这是我的代码：

def mmapUsage():
    start=time.time()
    with open("csvSample.csv", "r+b") as f:
        # memory-mapInput the file, size 0 means whole file
        mapInput = mmap.mmap(f.fileno(), 0)
        # read content via standard file methods
        L=list()
        for s in iter(mapInput.readline, ""):
            L.append(s)
        print "List length: " ,len(L)
        #print "Sample element: ",L[1]
        mapInput.close()
        end=time.time()
        print "Time for completion",end-start

def fileopenUsage():
    start=time.time()
    fileInput=open("csvSample.csv")
    M=list()
    for s in fileInput:
            M.append(s)
    print "List length: ",len(M)
    #print "Sample element: ",M[1]
    fileInput.close()
    end=time.time()
    print "Time for completion",end-start

def readAsCsv():
    X=list()
    start=time.time()
    spamReader = csv.reader(open('csvSample.csv', 'rb'))
    for row in spamReader:
        X.append(row)
    print "List length: ",len(X)
    #print "Sample element: ",X[1]
    end=time.time()
    print "Time for completion",end-start

我的结果是：

=======================
Populating list from Mmap
List length:  1181220
Time for completion 0.592000007629

=======================
Populating list from Fileopen
List length:  1181220
Time for completion 0.833999872208

=======================
Populating list by csv library
List length:  1181220
Time for completion 5.06700015068

因此，似乎大多数人使用的csv库确实比其他人慢很多。也许以后证明当我开始从csv文件中提取数据时它会更快，但是我不确定。在开始实施之前有任何建议和技巧吗？非常感谢！

问题答案：

正如其他几次指出的那样，前两种方法不进行实际的字符串解析，它们一次只读取一行，而没有提取字段。我认为CSV中看到的大多数速度差异是由于这一点。

如果您包含的文本数据可能包含比逗号更多的“标准” CSV语法，则CSV模块非常有用，尤其是从Excel格式读取数据时。

如果只有“ 1,2,3,4”这样的行，您可以通过简单的拆分就可以了，但是如果您有这样的行，那么您"1,2,'Hello, my name\'s fred'"将疯狂地尝试无错误地进行解析。

CSV还将透明地处理带引号的字符串中间的换行符。一个简单的for..in不带CSV的文件将会遇到麻烦。

如果我像这样使用Unicode字符串，那么CSV模块对我来说总是可以正常工作：

f = csv.reader(codecs.open(filename, 'rU'))

对于导入具有unicode，带引号的字符串，带引号的字符串中间的换行符，末尾缺少字段的行等的数以千计的行文件，以及具有合理读取时间的导入，它具有足够的鲁棒性。

我会首先尝试使用它，并且如果您确实需要额外的速度，则只在它之上寻找优化。

在python中解析大型.csv的最有效方法？

相关阅读

相关文章

相关问答

相关工具

相关文档