数据结构简介(Introduction to Data Structures)
优质
小牛编辑
128浏览
2023-12-01
熊猫处理以下三种数据结构 -
- Series
- DataFrame
- Panel
这些数据结构构建在Numpy数组之上,这意味着它们很快。
尺寸和描述
考虑这些数据结构的最佳方式是较高维度的数据结构是其较低维度数据结构的容器。 例如,DataFrame是Series的容器,Panel是DataFrame的容器。
数据结构 | 外形尺寸 | 描述 |
---|---|---|
Series | 1 | 1D标记的同质阵列,sizeimmutable。 |
数据框架 | 2 | 一般2D标记的,尺寸可变的表格结构,具有潜在的异质类型柱。 |
Panel | 3 | 一般3D标记,大小可变阵列。 |
构建和处理两个或更多维数组是一项繁琐的任务,在编写函数时,用户需要考虑数据集的方向。 但是使用Pandas数据结构,可以减少用户的心理努力。
例如,对于表格数据(DataFrame),考虑index (行)和columns而不是轴0和轴1在语义上更有帮助。
可变性(Mutability)
所有Pandas数据结构都是值可变的(可以更改),而Series Series都是大小可变的。 系列大小不可变。
Note - DataFrame被广泛使用,是最重要的数据结构之一。 面板的使用要少得多。
系列
系列是具有同质数据的一维数组结构。 例如,以下系列是整数10,23,56,...的集合。
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
关键点
- 同质数据
- Size Immutable
- 数据可变的值
DataFrame
DataFrame是具有异构数据的二维数组。 例如,
名称 | 年龄 | 性别 | 评分 |
---|---|---|---|
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
该表格表示组织销售团队的整体绩效评级数据。 数据以行和列表示。 每列代表一个属性,每行代表一个人。
列的数据类型
四列的数据类型如下 -
柱 | 类型 |
---|---|
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
关键点
- 异构数据
- 大小可变
- 数据可变
Panel
Panel是具有异构数据的三维数据结构。 很难用图形表示来表示面板。 但是可以将面板说明为DataFrame的容器。
关键点
- 异构数据
- 大小可变
- 数据可变