问题：

Pandas读取\u csv低\u内存和数据类型选项

丁子石

2023-03-14

打电话的时候

df = pd.read_csv('somefile.csv')

我得到：

/Users/josh/anaconda/envs/py27/lib/python2。7/站点包/熊猫/io/解析器。py:1130:DtypeWarning:列（4,5,7,16）具有混合类型。在导入时指定dtype选项或将低内存设置为False。

为什么dtype选项与low_memory相关，为什么将其设为False有助于解决此问题？

共有3个答案

柴嘉石

2023-03-14

df = pd.read_csv('somefile.csv', low_memory=False)

这应该可以解决问题。当从CSV读取180万行时，我得到了完全相同的错误。

广宏远

2023-03-14

尝试：

dashboard_df = pd.read_csv(p_file, sep=',', error_bad_lines=False, index_col=False, dtype='unicode')

根据文件：

dtype：输入列的名称或判决-

至于low_memory，默认情况下为True，尚未记录。不过，我不认为这有什么关系。错误消息是通用的，所以无论如何都不需要弄乱low_memory。希望这有助于让我知道如果你有进一步的问题

欧镜

2023-03-14

low_memory选项没有被正确地弃用，但它应该被弃用，因为它实际上没有做任何不同的事情[源]

出现此low_memory警告的原因是，猜测每列的数据类型非常需要内存。Pandas试图通过分析每列中的数据来确定要设置的数据类型。

熊猫只能在读取整个文件后确定列应该具有什么dtype。这意味着在读取整个文件之前不能真正解析任何内容，除非在读取最后一个值时必须更改该列的dtype。

考虑一个文件的例子，该文件有一个名为UsSeriID的列，它包含1000万个用户用户名总是数字的行。由于pandas无法知道它只是数字，所以它可能会将其作为原始字符串保留，直到它读取了整个文件。

添加

dtype={'user_id': int}

到pd。read_csv（）调用将使Panda在开始读取文件时知道这只是整数。

同样值得注意的是，如果文件中的最后一行将在user_id列中写入"fobar"，则如果指定上述dtype，加载将崩溃。

import pandas as pd
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO


csvdata = """user_id,username
1,Alice
3,Bob
foobar,Caesar"""
sio = StringIO(csvdata)
pd.read_csv(sio, dtype={"user_id": int, "username": "string"})

ValueError: invalid literal for long() with base 10: 'foobar'

数据类型通常很重要，请在此处阅读有关它们的更多信息：http://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html

我们可以访问numpy数据类型：float、int、bool、timedelta64[ns]和datetime64[ns]。请注意，numpy日期/时间数据类型不支持时区。

Pandas使用自己的数据类型扩展了这组数据类型：

'datetime64[ns，

类别，本质上是一个枚举（由保存的整数键表示的字符串

“period[]”不要与timedelta混淆，这些对象实际上锚定到特定的时间段

“稀疏”、“稀疏[int]”、“稀疏[float]”用于稀疏数据或“有很多洞的数据”，而不是在数据帧中保存NaN或None，它省略了对象，节省了空间。

间隔本身是一个主题，但它的主要用途是索引。在这里看到更多

'Int8'、'Int16'、'Int32'、'Int64'、'UInt8'、'UInt16'、'UInt32'、'UInt64'都是熊猫特定的整数，这些整数可以为空，不同于Numpy变体。

String是一个特定的dtype，用于处理字符串数据，并提供对序列上的. str属性的访问权限。

“boolean”类似于numpy的“bool”，但它也支持缺少的数据。

请阅读此处的完整参考资料：

数据类型参考

设置dtype=ject将使上述警告保持沉默，但不会提高内存效率，只有进程效率。

设置dtype=unicode不会起任何作用，因为对于numpy，unicode表示为object。

@sparrow正确地指出了转换器的用法，以避免熊猫在指定为int的列中遇到'foobar'时爆炸。我想补充一点，在熊猫身上使用转换器确实很重而且效率低下，应该作为最后的手段。这是因为读取csv过程是一个单独的过程。

CSV文件可以逐行处理，因此可以通过简单地将文件切成段并运行多个进程来更有效地由多个转换器并行处理，熊猫不支持这一点。但这是一个不同的故事。

Pandas读取\u csv低\u内存和数据类型选项

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档