import pandas as pd 8.1 解析 Unix 时间戳 在 pandas 中处理 Unix 时间戳不是很容易 - 我花了相当长的时间来解决这个问题。 我们在这里使用的文件是一个软件包流行度文件,我在我的系统上的/var/log/popularity-contest找到的。 这里解释了这个文件是什么。 # Read it, and remove the last row popcon
# 通常的开头 %matplotlib inline import pandas as pd import matplotlib.pyplot as plt import numpy as np # 使图表更大更漂亮 pd.set_option('display.mpl_style', 'default') plt.rcParams['figure.figsize'] = (15, 5) plt.
import pandas as pd pd.set_option('display.mpl_style', 'default') figsize(15, 3) 我们前面看到,Pandas 真的很善于处理日期。 它也善于处理字符串! 我们从第 5 章回顾我们的天气数据。 weather_2012 = pd.read_csv('../data/weather_2012.csv', parse_dat
5.1 下载一个月的天气数据 在处理自行车数据时,我需要温度和降水数据,来弄清楚人们下雨时是否喜欢骑自行车。 所以我访问了加拿大历史天气数据的网站,并想出如何自动获得它们。 这里我们将获取 201 年 3 月的数据,并清理它们。 以下是可用于在蒙特利尔获取数据的网址模板。 url_template = "http://climate.weather.gc.ca/climateData/bulkda
import pandas as pd pd.set_option('display.mpl_style', 'default') # 使图表漂亮一些 figsize(15, 5) 好的! 我们将在这里回顾我们的自行车道数据集。 我住在蒙特利尔,我很好奇我们是一个通勤城市,还是以骑自行车为乐趣的城市 - 人们在周末还是工作日骑自行车? 4.1 向我们的DataFrame中刚添加weekday列 首
# 通常的开头 import pandas as pd # 使图表更大更漂亮 pd.set_option('display.mpl_style', 'default') figsize(15, 5) # 始终展示所有列 pd.set_option('display.line_width', 5000) pd.set_option('display.max_columns', 60) 让我们继续 N
# 通常的开头 import pandas as pd # 使图表更大更漂亮 pd.set_option('display.mpl_style', 'default') pd.set_option('display.line_width', 5000) pd.set_option('display.max_columns', 60) figsize(15, 5) 我们将在这里使用一个新的数据集,来
import pandas as pd pd.set_option('display.mpl_style', 'default') # 使图表漂亮一些 figsize(15, 5) 1.1 从 CSV 文件中读取数据 您可以使用read_csv函数从CSV文件读取数据。 默认情况下,它假定字段以逗号分隔。 我们将从蒙特利尔(Montréal)寻找一些骑自行车的数据。 这是原始页面(法语),但它已经
如果你尝试某个操作并且看到如下异常: >>> if pd.Series([False, True, False]): print("I was true") Traceback ... ValueError: The truth value of an array is ambiguous. Use a.empty, a.any() or a.all(). 解释及处理方式请见比较。
CSV 参考:写入 CSV 文件。 1、 写入 csv 文件: In [141]: df.to_csv('foo.csv') 2、 从 csv 文件中读取: In [142]: pd.read_csv('foo.csv') Out[142]: Unnamed: 0 A B C D 0 2000-01-01 0
具体文档参看:绘图文档。 In [135]: ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000)) In [136]: ts = ts.cumsum() In [137]: ts.plot() Out[137]: <matplotlib.axes._subplots.AxesSubp
从 0.15 版本开始,pandas 可以在DataFrame中支持 Categorical 类型的数据,详细 介绍参看:Categorical 简介和API documentation。 In [127]: df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']}) 1、 将原始的grad
Pandas 在对频率转换进行重新采样时拥有简单、强大且高效的功能(如将按秒采样的数据转换为按5分钟为单位进行采样的数据)。这种操作在金融领域非常常见。具体参考:时间序列。 In [108]: rng = pd.date_range('1/1/2012', periods=100, freq='S') In [109]: ts = pd.Series(np.random.randint(0, 50
详情请参阅 层次索引 和 改变形状。 Stack In [95]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', ....: 'foo', 'foo', 'qux', 'qux'], ....: ['one', 'two', 'one', 'two',
对于”group by”操作,我们通常是指以下一个或多个操作步骤: (Splitting)按照一些规则将数据分为不同的组; (Applying)对于每组数据分别执行一个函数; (Combining)将结果组合到一个数据结构中; 详情请参阅:Grouping section In [91]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',