pandas从内存中读取csv

杨志强

2023-03-14

问题内容：

当我写这篇文章时，我尝试使用Pandas处理大型CSV文件。

df = pd.read_csv(strFileName,sep='\t',delimiter='\t')

它会引发“ pandas.parser.CParserError：错误标记数据。C错误：内存不足” wc
-l表示有13822117行，我需要在此csv文件数据帧上进行汇总，有没有办法处理其他然后拆分CSV成几个文件，并编写代码以合并结果？有什么建议吗？谢谢

输入是这样的：

columns=[ka,kb_1,kb_2,timeofEvent,timeInterval]
0:'3M' '2345' '2345' '2014-10-5',3000
1:'3M' '2958' '2152' '2015-3-22',5000
2:'GE' '2183' '2183' '2012-12-31',515
3:'3M' '2958' '2958' '2015-3-10',395
4:'GE' '2183' '2285' '2015-4-19',1925
5:'GE' '2598' '2598' '2015-3-17',1915

所需的输出是这样的：

columns=[ka,kb,errorNum,errorRate,totalNum of records]
'3M','2345',0,0%,1
'3M','2958',1,50%,2
'GE','2183',1,50%,2
'GE','2598',0,0%,1

如果数据集较小，则可以使用下面的代码（由另一个提供）

df2 = df.groupby(['ka','kb_1'])['isError'].agg({ 'errorNum':  'sum',
                                             'recordNum': 'count' })

df2['errorRate'] = df2['errorNum'] / df2['recordNum']

ka kb_1  recordNum  errorNum  errorRate

3M 2345          1         0        0.0
   2958          2         1        0.5
GE 2183          2         1        0.5
   2598          1         0        0.0

（错误记录的定义：当kb_1！= kb_2时，相应的记录被视为异常记录）

问题答案：

根据您的代码段中的内存不足错误，当逐行读取csv文件时，逐行读取。

我认为这kb_2是错误指示，

groups={}
with open("data/petaJoined.csv", "r") as large_file:
    for line in large_file:
        arr=line.split('\t')
        #assuming this structure: ka,kb_1,kb_2,timeofEvent,timeInterval
        k=arr[0]+','+arr[1]
        if not (k in groups.keys())
            groups[k]={'record_count':0, 'error_sum': 0}
        groups[k]['record_count']=groups[k]['record_count']+1
        groups[k]['error_sum']=groups[k]['error_sum']+float(arr[2])
for k,v in groups.items:
    print ('{group}: {error_rate}'.format(group=k,error_rate=v['error_sum']/v['record_count']))

此代码段将所有组存储在字典中，并在读取整个文件后计算错误率。

如果组的组合太多，它将遇到内存不足的异常。

pandas从内存中读取csv

相关阅读

相关文章

相关问答

相关工具

相关文档