对于大熊猫,有人会知道,除了
(i)float64
,int64
(以及np.number
like等的其他变体float32
,int8
等等)
(ii) bool
(iii)datetime64
,timedelta64
如字符串列,总有一个dtype
的object
?
另外,我想知道,如果有来自任何数据类型分开(I),(II)和(iii)在上面的列表中pandas
不会使这是dtype
一个object
?
pandas1.0.0发布后,于2020年2月编辑
熊猫通常为每个Series使用NumPy数组和dtype(数据帧是Series的集合,每个都有自己的dtype)。NumPy的文档进一步解释了dtype,数据类型和数据类型对象。另外,@ lcameron05提供的答案很好地描述了numpy
dtype。此外,关于dtypes的pandas文档还有很多其他信息。
存储在pandas对象中的主要类型是float,int,bool,datetime64 [ns],timedelta
[ns]和object。另外,这些dtype具有项目大小,例如int64和int32。默认情况下,整数类型为int64,浮点类型为float64,是平台的REGARDLESS(32位或64位)。以下将导致int64 dtype。
但是,Numpy在创建数组时会选择依赖于平台的类型。以下WILL会在32位平台上生成int32。其中一个重大变化,以大熊猫的1.0.0版本引进
pd.NA
来表示标缺失值(而不是以前的值np.nan
,pd.NaT
或None
根据使用情况)。
Pandas扩展了NumPy的类型系统,还允许用户在扩展类型上编写他们的内容。以下列出了所有熊猫扩展名类型。
1)时区处理
数据类型:tz感知日期时间(请注意,NumPy不支持时区感知日期时间)。
数据类型:DatetimeTZDtype
标量:时间戳
数组:arrays.DatetimeArray
字符串别名:“ datetime64 [ns,]”
2)分类数据
数据种类:分类
数据类型:CategoricalDtype
标量:(无)
数组:分类
字符串别名:“类别”
3)时间跨度表示
数据种类:时间段(时间跨度)
数据类型:PeriodDtype
标量:期间
数组:arrays.PeriodArray
字符串别名:“ period []”,“ Period []”
4)稀疏的数据结构
数据种类:稀疏
数据类型:SparseDtype
标量:(无)
数组:arrays.SparseArray
字符串别名:’Sparse’,’Sparse [int]’,’Sparse [float]’
5)间隔索引
数据种类:间隔
数据类型:IntervalDtype
标量:间隔
数组:arrays.IntervalArray
字符串别名:“间隔”,“间隔”,“间隔[]”,“间隔[datetime64 [ns,]]”,“间隔[timedelta64 []]”
6)可空整数数据类型
数据种类:可为空的整数
数据类型:Int64Dtype,…
标量:(无)
数组:arrays.IntegerArray
字符串别名:’Int8’,’Int16’,’Int32’,’Int64’,’UInt8’,’UInt16’,’UInt32’,’UInt64’
7)处理文本数据
数据种类:字符串
数据类型:StringDtype
标量:str
数组:arrays.StringArray
字符串别名:“ string”
8)缺少值的布尔数据
数据类型:布尔值(不适用)
数据类型:BooleanDtype
标量:布尔
数组: arrays.BooleanArray
字符串别名:“ boolean”
对于熊猫,有人知道,除了 (i) ,(以及的其他变体,如,等) (ii) (iii), 例如字符串列,总是有一个的? 或者,我想知道,在上面的列表中,除了(I)、(ii)和(iii)之外,是否有任何数据类型不使其成为对象?
问题内容: Numpy似乎在和类型之间进行了区分。例如我可以做:: 其中dtype(’S’)和dtype(’O’)分别对应于和。 但是熊猫似乎就缺少了区分,并要挟到。:: 强制类型也无济于事。:: 此行为有任何解释吗? 问题答案: Numpy的字符串dtypes不是python字符串。 因此,故意使用本机python字符串,这需要对象dtype。 首先,让我演示一下numpy的字符串与众不同的含义
我有一个数据帧,其中包含各种不同的值,表示丢失。我对其进行了修改,现在应将它们全部指定为“NaN”,如下所示: 但是使用建立在公认的缺失值上的熊猫函数不起作用,我认为这是由于我没有导入指定值的数据帧(因为这会导致其他问题,我正在处理一个比示例)我现在正在寻找一种方法来在此数据集中应用熊猫函数,如。
我对Python是新手。我有以下代码:
我正在努力使用pandas的to_datetime函数将csv文件中的条目转换为datetime对象,以便将它们用于可视化。我似乎误解了一些关于如何创建datetime对象或参数的简单问题。 我有一个csv文件,包括几个日期记录,一个日期/时间记录的例子(即一行csv文件的例子)... 我想使用matplotlib可视化这个csv文件中的每个时间。我正在阅读留档,我记得看到Matplotlib与d
参考这个答案,Lev说包括开始和停止索引,所以我尝试了这个: 但它们也不同。为什么啊? 有人能帮我吗?