当前位置：首页 > 面试题库 >

在Python中使用分隔符分割大文本文件

岳风畔

2023-03-14

问题内容：

我想像这将是一个简单的任务，但在以前的StackOverflow问题中我找不到我正在寻找的东西……

我有一个专有格式的大文本文件，看起来像这样：

:Entry
- Name
John Doe

- Date
20/12/1979
:Entry

-Name
Jane Doe
- Date
21/12/1979

依此类推。

文本文件的大小从10kb到100mb不等。我需要用:Entry定界符分割此文件。如何基于:Entry块处理每个文件？

问题答案：

您可以使用itertools.groupby对:Entry列表中出现的行进行分组：

import itertools as it
filename='test.dat'

with open(filename,'r') as f:
    for key,group in it.groupby(f,lambda line: line.startswith(':Entry')):
        if not key:
            group = list(group)
            print(group)

产量

['- Name\n', 'John Doe\n', '\n', '- Date\n', '20/12/1979\n']
['\n', '-Name\n', 'Jane Doe\n', '- Date\n', '21/12/1979\n']

或者，要处理组，您实际上不需要转换group为列表：

with open(filename,'r') as f:
    for key,group in it.groupby(f,lambda line: line.startswith(':Entry')):
        if not key:
            for line in group:
                ...

类似资料：

Java-使用扫描仪分割分隔符上的大SQL文本文件（OutOfMemoryError）

我正在尝试编写一个应用程序，它将占用一个非常大的sql文本文件~60GB（2.57亿行），并将每个COPY语句拆分为单独的文本文件。但是，我目前使用的代码会导致OutOfMemoryError，因为行超过了扫描仪缓冲区限制。第一个语句将是4000万行。请提供建议，说明这是执行此操作的错误方法还是对现有方法的修改。谢啦
使用系统文件分隔符分割文件名

问题内容：我有完整的文件路径，我想获取文件名。我正在使用以下指令：但是在Windows上它提供了：我可以避免这种例外吗？有一个更好的方法吗？问题答案：问题是必须转义才能在正则表达式中将其用作反斜杠。您应该使用不使用正则表达式的拆分API __ ，或者首先使用：甚至更好，为此使用API：
在Python中使用多个分隔符分割字符串

问题内容：我在网上找到了一些答案，但是我没有使用正则表达式的经验，我相信这里是需要的。我有一个字符串，需要用分隔或也就是说，它必须是分号或逗号后跟一个空格。没有尾随空格的单个逗号应保持不变示例字符串：应该拆分为包含以下内容的列表：问题答案：幸运的是，Python内置了:) 更新：在你的评论之后：
分割文本文件Python

我正在处理这样的文本文件：第01章乱数假文多洛·希特·阿梅特，一位杰出的献身者，他是一位临时顾问第02章献祭临时行政长官第03章等等，多洛尔·马格纳·阿利夸。带有分隔符，如“章”、“章”、“章”等...和1或2位数（“第1章”或“第01章”）。我使用和现在我需要拆分我的字符串，以便获得“第二十章”的文本。对于第02章，这将是：献祭临时行政长官我是Python新手，我读
用python中的分隔符分割字符串

问题内容：如何在定界符哪里分割此字符串获得？的输出问题答案：你可以使用以下功能：
使用python[复制]分割文本文件

我是新使用python阅读文本文件。我需要读一个文件，每行有4个我需要的数据，这是我的文本文件我的问题是，如果我使用，它只用每行创建一个向量，但是我只需要一个向量用于第一列，一个用于第二列，一个用于第三列，还有一个用于第四列...有谁能帮帮我吗？

相关阅读

如何在python中分割一个巨大的文本文件用|分割字符串 Java中的分隔符在Python中，如何分割字符串并保留分隔符？使用特殊的分隔线将文本文件拆分为部分-python 按最大行分割非常大的文本文件

相关文章

在C语言中使用英文字符分析发现文件 Python文件基本操作分割均衡字符串 - 华为OD统一考试（C卷）VBA文本文件

相关问答

使用Python Pandas读取制表符分隔的文件将文本文件中的重复分隔符替换为备用字符 Itext：使用条形码分隔符拆分pdf文档从url[复制]分割文本在python中使用多分隔符进行解析

相关工具

genius中文分词多层次图像分割中文 Python Marlin 中文版本 LCD 《Python Cookbook》第三版中文版

相关文档

Python 文本处理 Python XlsxWriter 中文文档 StackExchange.Redis 中文使用文档 R 统计分析语言中文教程 Python 中文官方文档 v2.7