当前位置：首页 > 面试题库 >

使用python脚本从csv文件中删除重复的行

宗穆冉

2023-03-14

问题内容：

目标

我已经从hotmail下载了CSV文件，但其中有很多重复项。这些重复项是完整的副本，我不知道为什么我的手机会创建它们。

我想摆脱重复。

方法

编写python脚本以删除重复项。

技术指标

Windows XP SP 3
Python 2.7
带有400个联系人的CSV文件

问题答案：

更新：2016

如果您乐于使用有用的more_itertools外部库：

from more_itertools import unique_everseen
with open('1.csv','r') as f, open('2.csv','w') as out_file:
    out_file.writelines(unique_everseen(f))

@IcyFlame解决方案的更有效版本

with open('1.csv','r') as in_file, open('2.csv','w') as out_file:
    seen = set() # set for fast O(1) amortized lookup
    for line in in_file:
        if line in seen: continue # skip duplicate

        seen.add(line)
        out_file.write(line)

要就地编辑同一文件，您可以使用此

import fileinput
seen = set() # set for fast O(1) amortized lookup
for line in fileinput.FileInput('1.csv', inplace=1):
    if line in seen: continue # skip duplicate

    seen.add(line)
    print line, # standard output is now redirected to the file

类似资料：

使用CSV文件中的Python删除行

问题内容：我只想删除第三行中值为‘0’的行。数据示例如下：因此，第一行将需要删除，而第二行将保留。到目前为止，我所拥有的如下：任何帮助都会很棒问题答案：你很亲密目前，您将整数与进行比较，然后将其与字符串进行比较。当您从文件中读取数据时，它是一个字符串而不是整数，因此这就是您的整数检查当前失败的原因：另外，您可以使用关键字使当前代码略显pythonic，从而减少代码中的行，并且可以省
使用Java删除文件中的重复行

问题内容：作为我正在做的项目的一部分，我想清理我生成的重复行条目的文件。但是，这些重复项通常不会彼此靠近发生。我想出了一种用Java执行此操作的方法（基本上是复制文件，然后使用嵌套的while语句将一个文件中的每一行与其他文件中的每一行进行比较）。问题是我生成的文件很大而且文本很重（大约22.5万行文本，大约40兆）。我估计目前的程序需要63个小时！这绝对是不可接受的。但是，我需要一个集成的解
用于从CSV中删除空白列的Powershell脚本

用于从CSV中删除空白列的Powershell脚本我有一个电子表格，我正在将其导入MySQL数据库，由于电子表格中的空白列，导入失败。是否有一个PowerShell脚本，我可以运行/创建，将检查任何给定的CSV文件并删除空白列？ Col1，Col2，Col3，Col4，，，Val1，Val2，Val3，Val4
从csv中删除一行而不复制文件

问题内容：有多个SO问题解决了该主题的某种形式，但它们似乎都无法从csv文件中仅删除一行（通常涉及复制整个文件），效率非常低下。如果我的csv格式如下：删除Sarah的行的最有效方法是什么？如果可能，我要避免复制整个文件。问题答案：您这里有一个基本问题。当前的文件系统（据我所知）没有提供一种从文件中间删除一堆字节的功能。您可以覆盖现有字节，或写入新文件。因此，您的选择是：创建该文件的副本
从python脚本编写Json文件[重复]

作为入门代码编写者，我们正忙于Python中的一个刮取工具。它几乎完成了，但是现在我们想要在一个JSON文件中得到结果。我们试过了，但不起作用。有没有一个代码英雄可以帮助我们？
使用ant删除重复文件？

问题内容：有没有一种方法可以使用ant删除重复文件？具体来说，如果我在两个不同的输出目录中具有相同的文件名，则要从第二个目录中删除它。问题答案：我想我想出了一个解决方案。

相关阅读

从文本文件中删除行？Java CSV / CSV文件中的删除列使用联接从表中删除重复的行 Python CSV：从值中删除引号从表中删除重复的行

相关文章

JavaScript之文本框脚本（表单脚本）Python文件基本操作 Linux删除文件或目录（rm命令）删除重复数字后的最大数字---华为od刷题 R语言CSV文件

相关问答

如何从python文件运行bash脚本？[重复]使用Gradle从war中删除/删除文件从csv到文本文件的Python Python-从Dict/List中删除项[重复]在Python/NumPy[duplicate]中删除文件中的所有重复行

相关工具

使用Shell脚本批量打包生成可配置的.ipa文件 Monster 脚本中文 Python Qore 脚本语言 SQLite的基本使用

相关文档

Python 文本处理 StackExchange.Redis 中文使用文档 Python XlsxWriter 中文文档 Shell 脚本学习 Python Cookbook 中文版