熊猫read_csv low_memory和dtype选项

薛兴言

2023-03-14

问题内容：

打电话时

df = pd.read_csv('somefile.csv')

我得到：

/Users/josh/anaconda/envs/py27/lib/python2.7/site-
packages/pandas/io/parsers.py:1130：DtypeWarning：列（4,5,7,16）具有混合类型。在导入时指定dtype选项，或将low_memory
= False设置为false。

为什么dtype选项与关联low_memory，为什么使它False有助于解决此问题？

问题答案：

该low_memory选项未正确弃用，但应该正确使用，因为它实际上没有做任何不同的事情[来源]

收到此low_memory警告的原因是因为猜测每列的dtypes非常需要内存。熊猫尝试通过分析每一列中的数据来确定要设置的dtype。

Dtype猜测（非常糟糕）

一旦读取了整个文件，熊猫便只能确定列应具有的dtype。这意味着在读取整个文件之前，无法进行任何真正的解析，除非您冒着在读取最后一个值时不得不更改该列的dtype的风险。

考虑一个文件的示例，该文件具有名为user_id的列。它包含1000万行，其中user_id始终是数字。由于熊猫不能只知道数字，因此它可能会一直保留为原始字符串，直到它读取了整个文件。

指定dtypes（应该总是这样做）

加

dtype={'user_id': int}

该pd.read_csv()呼叫将使大熊猫知道它开始读取文件时，认为这是唯一的整数。

还值得注意的是，如果文件的最后一行将被"foobar"写入user_id列中，那么如果指定了上述dtype，则加载将崩溃。

定义dtypes时会中断的中断数据示例

import pandas as pd
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO


csvdata = """user_id,username
1,Alice
3,Bob
foobar,Caesar"""
sio = StringIO(csvdata)
pd.read_csv(sio, dtype={"user_id": int, "username": "string"})

ValueError: invalid literal for long() with base 10: 'foobar'

dtypes通常是一个numpy的东西，请在这里阅读有关它们的更多信息：http
://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html

存在哪些dtype？

我们可以访问numpy dtypes：float，int，bool，timedelta64 [ns]和datetime64
[ns]。请注意，numpy日期/时间dtypes 不识别时区。

熊猫通过自己的方式扩展了这套dtypes：

‘datetime64 [ns，]’这是一个时区感知的时间戳。

‘category’本质上是一个枚举（以整数键表示的字符串以保存

‘period []’不要与timedelta混淆，这些对象实际上是固定在特定时间段的

“ Sparse”，“ Sparse [int]”，“ Sparse
[float]”用于稀疏数据或“其中有很多孔的数据”，而不是在数据框中保存NaN或None，它忽略了对象，从而节省了空间。

“间隔”本身是一个主题，但其主要用途是用于索引。在这里查看更多

与numpy变体不同，“ Int8”，“ Int16”，“ Int32”，“ Int64”，“ UInt8”，“ UInt16”，“ UInt32”，“
UInt64”都是可为空的熊猫特定整数。

‘string’是用于处理字符串数据的特定dtype，可访问.str系列中的属性。

‘boolean’类似于numpy’bool’，但它也支持丢失数据。

在此处阅读完整的参考：

熊猫DType参考

陷阱，注意事项，笔记

设置dtype=object将使上面的警告静音，但不会使它的内存使用效率更高，仅在处理任何事情时才有效。

设置dtype=unicode不会做任何事情，因为对于numpy，aunicode表示为object。

转换器的用法

@sparrow正确指出了转换器的用法，以避免在遇到'foobar'指定为的列时遇到大熊猫int。我想补充一点，转换器在熊猫中使用时确实很笨重且效率低下，应该作为最后的手段使用。这是因为read_csv进程是单个进程。

CSV文件可以逐行处理，因此可以通过简单地将文件切成段并运行多个进程来由多个转换器并行更有效地进行处理，而这是pandas所不支持的。但这是一个不同的故事。

熊猫read_csv low_memory和dtype选项

Dtype猜测（非常糟糕）

指定dtypes（应该总是这样做）

定义dtypes时会中断的中断数据示例

存在哪些dtype？

陷阱，注意事项，笔记

转换器的用法

相关阅读

相关文章

相关问答

相关工具

相关文档