当前位置：首页 > 面试题库 >

Python Pandas：如何仅读取CSV文件的前n行？

潘飞英

2023-03-14

问题内容：

我有一个非常大的数据集，我无法读取其中的整个数据集。因此，我正在考虑只读取其中的一个数据块进行训练，但是我不知道该怎么做。任何想法将不胜感激。

问题答案：

如果您只想读取前999,999行（非标题）：

read_csv(..., nrows=999999)

如果您只想读取1,000,000 … 1,999,999行

read_csv(..., skiprows=1000000, nrows=999999)

nrows ：int，默认值无要读取的文件行数。对读取大文件有用*

skiprows ：类似于列表或整数的行号，在文件开始处要跳过（索引为0）或要跳过的行数（整数）

对于大文件，您可能还需要使用chunksize：

chunksize ：int，默认为None返回TextFileReader对象进行迭代

pandas.io.parsers.read_csv文档

类似资料：

读取（流）前n行为空的csv文件

我使用papa parse读取远程托管的csv文件。问题是头行不在文件的第一行，而是文件以几行空行开始，然后是头行，然后是所有数据。我正在努力让papa parse忽略文件开头的空行。有什么我遗漏的吗？我希望避免加载整个文件（只需要6000多行中的前几行）。
如何仅下载/读取文件的前80KB？

问题内容：我正在为具有许多Flash文件的网站制作Greasemonkey脚本。我想对闪存进行哈希处理，问题是闪存文件最大为10 MB。这很慢；我希望只能获取要散列的前80KB。最终结果将是一种将某些包含有害内容的Flash文件列入黑名单的简便方法。我的脚本如何仅抓取文件的前80 KB（或大约80 KB）？问题答案：发送的头在你的AJAX请求。例如：（对于与目标页面位于同一域中的文件。
如何读取csv文件中的文件路径

是否可以传入文件路径或从csv中的其他文件读取？我的测试设置是这样的。测试仪测试 CSV数据配置我想在csv项目列和jmeter测试中包含一个文件，它将读取和发布json项目。
如何部分读取巨大的CSV文件？

问题内容：我有一个很大的csv文件，因此无法将它们全部读入内存。我只想阅读和处理其中的几行内容。所以我正在Pandas中寻找一个可以处理此任务的函数，基本的python可以很好地处理此任务：但是，如果我在熊猫中这样做，我总是会读第一行：我正在寻找一些更简单的方法来处理熊猫中的这项任务。例如，如果我想读取1000到2000的行。如何快速执行此操作？我想使用熊猫，因为我想将数据读入数据框。问
Python-如何用pandas读取6gb csv文件

问题内容：我正在尝试在pandas中读取较大的csv文件（大约6 GB），并且遇到以下内存错误：任何帮助吗？问题答案：该错误表明机器没有足够的内存来一次将整个CSV读入。假设你一次也不需要整个数据集都在内存中，那么避免该问题的一种方法是分批处理CSV（通过指定chunksize参数）：该参数指定每个块的行数。（当然，最后一块可能少于行。）
读取巨大的.csv文件

问题内容：我目前正在尝试从Python 2.7中的.csv文件中读取数据，该文件最多包含100万行和200列（文件范围从100mb到1.6gb）。对于少于300,000行的文件，我可以（非常缓慢地）执行此操作，但是一旦超过该行，就会出现内存错误。我的代码如下所示：在getstuff函数中使用else子句的原因是，所有符合条件的元素都将一起列在csv文件中，因此当我经过它们时，为了节省时间，我离

Python Pandas：如何仅读取CSV文件的前n行？

相关阅读

相关文章

相关问答

相关工具

相关文档