当前位置: 首页 > 编程笔记 >

使用Python Pandas进行数据分析

林炫明
2023-03-14
本文向大家介绍使用Python Pandas进行数据分析,包括了使用Python Pandas进行数据分析的使用技巧和注意事项,需要的朋友参考一下

在本教程中,我们将看到使用Python pandas库进行的数据分析。图书馆的熊猫都是用C语言编写的。因此,我们在速度上没有任何问题。它以数据分析而闻名。我们在熊猫中有两种类型的数据存储结构。它们是SeriesDataFrame。让我们一一看。

1.系列

系列是具有自定义索引和值的一维数组。我们可以使用pandas.Series(data,index)类创建一个Series对象。系列将整数,列表,字典作为数据。让我们看一些例子。

示例

# importing the pandas library
import pandas as pd
# data
data = [1, 2, 3]
# creating Series object
# Series automatically takes the default index
series = pd.Series(data)
print(series)

输出结果

如果运行上面的程序,您将得到以下结果。

0 1
1 2
2 3
dtype: int64

如何拥有定制索引?参见示例。

示例

# importing the pandas library
import pandas as pd
# data
data = [1, 2, 3]
# index
index = ['a', 'b', 'c']
# creating Series object
series = pd.Series(data, index)
print(series)

输出结果

如果运行上面的程序,您将得到以下结果。

a 1
b 2
c 3
dtype: int64

当我们将数据作为字典提供给Series类时,它将键作为索引,将值作为实际数据。让我们看一个例子。

示例

# importing the pandas library
import pandas as pd
# data
data = {'a':97, 'b':98, 'c':99}
# creating Series object
series = pd.Series(data)
print(series)

输出结果

如果运行上面的程序,您将得到以下结果。

a 97
b 98
c 99
dtype: int64

我们可以使用索引访问系列中的数据。让我们看看例子。

示例

# importing the pandas library
import pandas as pd
# data
data = {'a':97, 'b':98, 'c':99}
# creating Series object
series = pd.Series(data)
# accessing the data from the Series using indexes
print(series['a'], series['b'], series['c'])

输出结果

如果运行上面的代码,您将得到以下结果。

97 98 99

2.熊猫

我们有如何在熊猫中使用Series类的信息。让我们看看如何使用DataFrame类。包含行和列的pandas中的DataFrame数据结构类。

我们可以使用列表,字典,系列等创建DataFrame对象。让我们使用列表创建DataFrame。

示例

# importing the pandas library
import pandas as pd
# lists
names = ['Nhooo', 'Mohit', 'Sharma']
ages = [25, 32, 21]
# creating a DataFrame
data_frame = pd.DataFrame({'Name': names, 'Age': ages})
# printing the DataFrame
print(data_frame)

输出结果

如果运行上面的程序,您将得到以下结果。

               Name    Age
0    Nhooo    25
1             Mohit    32
2            Sharma    21

让我们看看如何使用Series创建数据框对象。

示例

# importing the pandas library
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# creating a DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# printing the DataFrame
print(data_frame)

输出结果

如果运行上面的代码,您将得到以下结果。

   a  b  c
0  1  1  1
1  2  4  8
2  3  9  27

我们可以使用列名从DataFrames中访问数据。让我们看一个例子。

示例

# importing the pandas library
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# creating a DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# accessing the entire column with name 'a'
print(data_frame['a'])

输出结果

如果运行上面的代码,您将得到以下结果。

0 1
1 2
2 3
Name: a, dtype: int64

结论

如果您对本教程有任何疑问,请在评论部分中提及。

 类似资料:
  • 我有一个数据帧,我想按两个参数分组(1)相同的第一列中的连续编号和(2)第二列中的匹配值 数据帧: 组1包括前2行,因为30和31是连续的,第二列匹配。创建组2是因为Col1中的31和35不是连续的。创建组3是因为H和E不匹配。 在pandas groupby中对列表中的行进行分组 我很感谢你给我的建议

  • 问题内容: 在不使用sql / hiveContext的Spark中使用groupby-having的语法是什么?我知道我能做 但是我该如何使用类似的语法 这似乎不存在。 问题答案: 是的,它不存在。您表达了相同的逻辑,后跟:

  • 本文向大家介绍Python使用SQLite和Excel操作进行数据分析,包括了Python使用SQLite和Excel操作进行数据分析的使用技巧和注意事项,需要的朋友参考一下 昨日,女票拿了一个Excel文档,里面有上万条数据要进行分析,刚开始一个字段分析,Excel用的不错,还能搞定,到后来两个字段的分析,还有区间比如年龄段的数据分析,实在是心疼的不行,于是就想给她程序处理之。 当然,我是一直C

  • 我正在编写一个Python脚本来从我的数码相机导入图片,并且我正在使用Pandas来帮助记账传入的图像。我正在使用EXIF数据为单个图像标记信息,例如相机型号、图像模式、图像格式和相机获取图像的时间戳。这些数据用于将图像分离到目录结构中。我正在努力解决的是如何使用Pandas根据一组时间戳对图像进行分组,例如,这些时间戳都在彼此相隔半小时之内。举个例子,假设我有六张照片,其中三张是在相隔9分钟内拍

  • 本书是学习 Python 数据分析最好的参考书。本来想把书名直接译为《Python 数据分析》,这样更简短。但是为了尊重第 1 版的翻译,考虑到继承性,还是用老书名。

  • 问题内容: NumPy / SciPy或相关库中是否有类似Matlab的函数? 以供参考。Procrustes分析的目的是对齐2组点(换句话说,是2个形状),以通过消除缩放,平移和旋转扭曲分量来最小化它们之间的平方距离。 Matlab中的示例: NumPy中的相同任务: 注意:我只对对齐的形状感兴趣,因为平方误差(在Matlab代码中可变)很容易从2个形状中计算出来。 问题答案: 我不知道Pyth