当前位置: 首页 > 文档资料 > Python 数据科学 >

Python Pandas

优质
小牛编辑
125浏览
2023-12-01

Pandas是一个开源Python库,用于使用其强大的数据结构进行高性能数据处理和数据分析。 Python与pandas一起用于各种学术和商业领域,包括金融,经济,统计,广告,网络分析等。 使用Pandas,我们可以完成数据处理和分析中的五个典型步骤,无论数据来源如何 - 加载,组织,操作,建模和分析数据。

以下是Pandas的一些重要功能,专门用于数据处理和数据分析工作。

熊猫的主要特点

  • 具有默认和自定义索引的快速高效的DataFrame对象。
  • 用于将数据加载到来自不同文件格式的内存数据对象的工具。
  • 数据对齐和缺失数据的集成处理。
  • 日期集的重塑和旋转。
  • 基于标签的切片,索引和大数据集的子集化。
  • 可以删除或插入数据结构中的列。
  • 按数据分组以进行聚合和转换。
  • 高性能的合并和数据连接。
  • 时间序列功能。

熊猫处理以下三种数据结构 -

  • Series
  • DataFrame

这些数据结构构建在Numpy阵列之上,使其快速高效。

尺寸和描述

考虑这些数据结构的最佳方式是较高维度的数据结构是其较低维度数据结构的容器。 例如,DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构外形尺寸描述
Series11D标记的同构数组,大小不可变。
数据框架2一般2D标记的,尺寸可变的表格结构,具有潜在的异质类型柱。

DataFrame被广泛使用,它是最重要的数据结构。

系列

系列是具有同质数据的一维数组结构。 例如,以下系列是整数10,23,56,...的集合。

10235617526173902672

系列要点

  • 同质数据
  • Size Immutable
  • 数据可变的值

DataFrame

DataFrame是具有异构数据的二维数组。 例如,

名称年龄性别评分
Steve32Male3.45
Lia28Female4.6
Vin45Male3.9
Katie38Female2.78

该表格表示组织销售团队的整体绩效评级数据。 数据以行和列表示。 每列代表一个属性,每行代表一个人。

列的数据类型

四列的数据类型如下 -

类型
NameString
AgeInteger
GenderString
RatingFloat

数据框的要点

  • 异构数据
  • 大小可变
  • 数据可变

在接下来的章节中,我们将看到许多关于在数据科学工作中使用python的pandas库的例子。