当前位置：首页 > 知识库问答 >

问题：

太长的数据帧应用行函数

艾泰

2023-03-14

读取列中包含时间值的csv文件，并尽可能高效地获取包含1列值和日期时间索引的数据帧。我做了一个read_csv，然后是一个stack和下面的函数，但是这会消耗更多的时间和内存。

有人有更好的方法吗？

df.apply(lambda row: row['DATE'] + relativedelta( hours = int(row['level_2'][2:])), axis=1)

DATE        H01 H02 H03 H04 ...
2014/01/01  1.2 2.4 3.3 4.1
2014/01/02  4.3 2.6 3.2 4.1

并获得：

DATE
2014-01-01 00:00:00    1.2
2014-01-01 01:00:00    2.4
2014-01-01 02:00:00    3.3
2014-01-01 03:00:00    4.1

共有2个答案

澹台昆

2023-03-14

您要查找的命令是堆栈。留档中的更多信息：http://pandas.pydata.org/pandas-docs/stable/reshaping.html#reshaping-by-stacking-and-unstacking

基本上，您正在考虑使用堆栈，然后将Hxx转换为xx： 00:00，这应该很简单。

司徒河

2023-03-14

如果每小时（即24小时）都有一列，并且每个日期都存在，那么最好使用numpy进行重新整形（速度会快得多），只需通过date\u range生成DatetimeIndex即可。

假设日期是索引（它是一个DatetimeIndex），其他24列是小时：

vals = df.values.reshape(-1)
new_index = pd.date_range(start=df.index[0], periods=24*len(df), freq='H')
pd.Series(vals, new_index)

否则，您可以使用itertools产品创建新索引。。。。首先，我将在以下时间制作专栏：

df.columns = np.arange(0, len(df.columns)) * pd.offsets.Hour(1)

In [11]: df
Out[11]: 
            <0 * Hours>  <Hour>  <2 * Hours>  <3 * Hours>
DATE                                                     
2014-01-01          1.2     2.4          3.3          4.1
2014-01-02          4.3     2.6          3.2          4.1

注意：同样，重要的是DATE在这里是一个DatetimeIndex。

from itertools import product
new_index = [t + td for t, td in product(df.index, df.columns)]

In [21]: pd.Series(df.values.reshape(-1), new_index)
Out[21]: 
2014-01-01 00:00:00    1.2
2014-01-01 01:00:00    2.4
2014-01-01 02:00:00    3.3
2014-01-01 03:00:00    4.1
2014-01-02 00:00:00    4.3
2014-01-02 01:00:00    2.6
2014-01-02 02:00:00    3.2
2014-01-02 03:00:00    4.1
dtype: float64

类似资料：

对数据帧中的行对应用函数

我是熊猫数据框的新手，我想应用一个函数，在同一列中取几行。就像当你应用函数diff（），但我想计算文本之间的距离。所以我定义了一个测量距离的函数，我试图使用应用，但我不知道如何选择几行。下面我展示了一个我尝试过的例子和我所期望的：但它不起作用。我想得到的是：提前感谢您为我提供的任何帮助。
将函数按行应用于数据帧

我必须从二维坐标计算希尔伯特曲线上的距离。使用hilbertcurve包，我构建了自己的“hilbert”函数。坐标存储在数据帧（列1和列2）中。如您所见，我的函数在应用于两个值（test）时有效。然而，它只是不工作时，应用行明智通过应用函数！这是为什么呢？我到底做错了什么？我需要一个额外的列“希尔伯特”，希尔伯特距离在列“col_1”和“col_2”中给出。最后一个命令以错误结束：谢谢你的
MySQL数据太长？

我使用的mysql2库与NodeJS。我在本地机器和服务器上有相同的代码和数据库结构。当我上传一张照片到“照片”表时，在我的本地机器上，它工作正常。当我使用服务器时，我得到以下错误： {错误：数据太长，列'照片'在第1行Packet.as错误（/srv/project/server/node_modules/mysql2/lib/数据包/packet.js:716： 13）在查询。Command.
在数据帧上应用TimeZoneFinder函数

您好，Python新手，正在努力让TimeZoneFinder为我工作。我想根据其他两列中的地理位置，将timezone_at（）应用于timezone列。关于如何使这项工作有效，有什么建议吗？错误：
将函数应用于数据帧的列列表？

我从这个URL刮取了这个表： "https://www.patriotsoftware.com/blog/accounting/average-cost-living-by-state/" 看起来像这样：然后我编写了这个函数来帮助我将字符串转换成整数：当我只将函数应用于一列时，它就会工作。我在这里找到了关于在多个列上使用的答案：如何将函数应用于多个列但我下面的代码不起作用，也不会产生错误：
将函数应用于火花数据帧列

并将其应用于数据表的一列--这是我希望这样做的：我还没有找到任何简单的方法，正在努力找出如何做到这一点。一定有一个更简单的方法，比将数据rame转换为和RDD，然后从RDD中选择行来获得正确的字段，并将函数映射到所有的值，是吗？创建一个SQL表，然后用一个sparkSQL UDF来完成这个任务，这更简洁吗？

相关问答

将函数应用于数据帧的列列表？将函数应用于火花数据帧列将特定函数应用于数据帧的所有行时出错太多的值来解包试图调用函数的两个数据帧列使用应用和lambda “列的数据太长”-为什么？

相关文章

错误代码：1406。列的数据太长-MySQL 如何通过重复行数来增加R数据帧的长度？如何在数据框的每一行上应用函数？“参数列表太长”限制是否适用于shell内置函数？根据长度将数据帧分为相对均匀的块

相关阅读

Python len()函数：获取字符串长度或字节数 Java10 应用程序类数据共享数禾科技(数据应用工程师）一面用户增长业务数据指标体系面试题1 上海银行-数据分析与应用工程师一面面经

相关工具

iOS的函数响应型编程太空放置太空公司太极语言解析html网页的数据

相关文档

iOS 的函数响应型编程设计数据密集型应用 Excel 数据透视表应用大全利用 Python 进行数据分析 · 第 2 版 Linux C 函数使用手册