当前位置：首页 > 面试题库 >

如何对每个列应用不同功能的数据框进行重新采样？

单于皓轩

2023-03-14

问题内容：

我对熊猫的温度和辐射有一个时间序列dataframe。时间分辨率通常为1分钟。

import datetime
import pandas as pd
import numpy as np

date_times = pd.date_range(datetime.datetime(2012, 4, 5, 8, 0),
                           datetime.datetime(2012, 4, 5, 12, 0),
                           freq='1min')
tamb = np.random.sample(date_times.size) * 10.0
radiation = np.random.sample(date_times.size) * 10.0
frame = pd.DataFrame(data={'tamb': tamb, 'radiation': radiation},
                     index=date_times)
frame
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 241 entries, 2012-04-05 08:00:00 to 2012-04-05 12:00:00
Freq: T
Data columns:
radiation    241  non-null values
tamb         241  non-null values
dtypes: float64(2)

如何将其降采样dataframe为一个小时的分辨率，以计算温度的小时 平均值 和辐射的小时总和？

问题答案：

使用pandas 0.18，重新采样API发生了变化（请参阅docs）。因此，对于> = 0.18的熊猫，答案是：

In [31]: frame.resample('1H').agg({'radiation': np.sum, 'tamb': np.mean})
Out[31]: 
                         tamb   radiation
2012-04-05 08:00:00  5.161235  279.507182
2012-04-05 09:00:00  4.968145  290.941073
2012-04-05 10:00:00  4.478531  317.678285
2012-04-05 11:00:00  4.706206  335.258633
2012-04-05 12:00:00  2.457873    8.655838

旧答案：

我正在回答我的问题，以反映与时间序列相关的变化pandas >= 0.8（所有其他答案均已过时）。

使用> = 0.8的熊猫，答案是：

In [30]: frame.resample('1H', how={'radiation': np.sum, 'tamb': np.mean})
Out[30]: 
                         tamb   radiation
2012-04-05 08:00:00  5.161235  279.507182
2012-04-05 09:00:00  4.968145  290.941073
2012-04-05 10:00:00  4.478531  317.678285
2012-04-05 11:00:00  4.706206  335.258633
2012-04-05 12:00:00  2.457873    8.655838

类似资料：

Clojure-如何对每一列应用不同的函数？

我是新来的Clojure和玩它的乐趣。我正在阅读一个CSV文件，并希望对每一列应用一个不同的函数。什么是一个优雅的（既简洁又可读）方法来做到这一点？我探讨了两种方法： null 对于每一行... ...我想对每个元素应用一个不同的函数，得到这样的结果：我要使用的函数是： null 使用此方法,我首先将每一行转换为一个映射：编辑：并且我想获取此地图：转换器也存储在映射中：最后我会把数据放入
如何基于Pandas数据框中的列表对索引行进行重新排序

问题内容：我有一个看起来像这样的数据框：它是使用以下代码创建的：我要做的是根据预定义的列表对行（带有索引）进行排序。结果是：我该如何实现？问题答案：你可以使用预定义的顺序设置指标像但是，如果按字母顺序排列，则可以使用如下所示，您需要将其分配给一些变量
如何进行数据采集

数据采集也即埋点，它是精细化分析的第一步。数据的准确性、可扩展性以及技术人员的高效性依次被视为数据采集的三大要点。埋点，保证了数据的准确性；事件、属性、值的结构保证了数据的可扩展性；埋点文档也保证了团队成员协同的高效性。为了帮助诸葛io的客户能够准确、高效的采集数据，我们建议您：一、数据分析需求梳理数据采集切忌大而全，产品不断迭代，数据分析的需求也是随着产品不断迭代的，明确长远阶段和当前阶段
如何重新取样（上采样）我的熊猫数据框？

我有一个小熊猫DataFrame我想重新取样，我希望你能帮我：）我不能给你看，因为它是保密的，但我可以给你描述一个更简单的版本。它有4列： -日期（YYYY-MM-DD格式） -国家 -数量 -频率下面是我想做的：根据行的不同，频率为每年或每月如果恰好是每月，则无需执行任何操作。但如果是每年一次，我想将其改为每月一次，并插入11个新行，以便在考虑的12行（现有行和11个新行）中，国家将保
根据列名对数据框中的列进行排序[重复]

我有一个，有200多列。问题在于订单生成时我需要对这些列进行如下排序：我有办法在Python中做到这一点吗？
如何在数据框的每一行上应用函数？

问题内容：我是Python的新手，我不确定如何解决以下问题。我有一个功能：说我有数据框而和是浮点类型。现在，我想将公式应用于数据帧的每一行，并将其作为额外的行“ Q”返回。一个示例（不起作用）将是：（仅返回“地图”类型）在我的项目中，我将需要更多此类处理，并希望找到可行的方法。问题答案：以下应该工作：如果您要做的只是计算某个结果的平方根，则使用矢量化的方法，它将大大加快速度：时

相关阅读

如何跨熊猫的多个数据框列“选择不同”？在每个组熊猫数据框中对列进行排序并选择前n行使用包含时间序列的多索引重新采样熊猫数据框按每X行对熊猫数据框进行一次Bin Python / Pyspark数据框重新排列列

相关文章

对数组元素进行排序如何学习数据库（新手必看）放几十亿数据的系统还能抗每秒上万并发，牛不牛？性能测试之后，发现一些性能指标有问题，应该如何进行优化？如何设计高性能的MySQL数据库架构？

相关问答

在spark scala中为数据帧中的每个组采样不同数量的随机行 Python：如何重复数据框中1到n行的每个组合？使用每列不同的逻辑折叠数据帧中的行[重复]pandas如何根据某列不同值，对其他列用不同的bins和labels进行cut函数切割？如何获取每个列表的首行数据？

相关工具

美容新闻采集易得网络数据采集系统 Tcl Web应用框架数据库处理框架定位功能

相关文档

利用 Python 进行数据分析 · 第 2 版数据采集从入门到放弃蓝天数据采集发布系统 KDB+ 高性能列式数据库中文教程设计数据密集型应用