当前位置: 首页 > 面试题库 >

合并DataFrame中的重复列

郑富
2023-03-14
问题内容

如果我的数据框具有包含相同名称的列,是否可以将具有相同名称的列与某种功能(即求和)结合起来?

例如:

In [186]:

df["NY-WEB01"].head()
Out[186]:
                NY-WEB01    NY-WEB01
DateTime        
2012-10-18 16:00:00  5.6     2.8
2012-10-18 17:00:00  18.6    12.0
2012-10-18 18:00:00  18.4    12.0
2012-10-18 19:00:00  18.2    12.0
2012-10-18 20:00:00  19.2    12.0

如何通过对列名称相同的每一行求和来折叠NY-WEB01列(有一堆重复的列,而不仅仅是NY-WEB01)?


问题答案:

我相信这可以满足您的要求:

df.groupby(lambda x:x, axis=1).sum()

或者,取决于df的长度,快3%至15%:

df.groupby(df.columns, axis=1).sum()

编辑:要将其扩展到总和之外,请使用.agg()(的缩写.aggregate()):

df.groupby(df.columns, axis=1).agg(numpy.max)


 类似资料:
  • 我有两列,一列有年份,另一列有月份数据,我正试图从中创建一列(包含年份和月份)。 示例: 我想拥有 我试过了 但它给了我“无法从重复轴重新编制索引”错误。

  • 本文向大家介绍对DataFrame数据中的重复行,利用groupby累加合并的方法详解,包括了对DataFrame数据中的重复行,利用groupby累加合并的方法详解的使用技巧和注意事项,需要的朋友参考一下 pandas读取一组数据,可能存在重复索引,虽然可以利用drop_duplicate直接删除,但是会删除重要信息。 比如同一ID用户,多次登录学习时间。要计算该用户总共‘'学习时间‘',就要把

  • 问题内容: 我有一个熊猫,其中有多个列: 其中和是包含相同数据但名称不同的列。有没有一种方法可以将组成行的行移动到理想状态,同时保持名称? 最后,DataFrame应该显示为: 那就是构成bar的NaN值被替换为的值。 问题答案: 尝试这个: 如果您希望该数据成为新列,只需将结果分配给即可。

  • 如何将一个数据帧中的多列(比如3列)组合成一个列(在一个新的数据帧中),其中每一行都成为一个Spark DenseVector?类似于这个线程,但在Java中,有一些下面提到的调整。 我试着用这样的UDF: 然后注册UDF: 其中<code>数据类型<code>为: 当我在一个有3列的数据帧上调用这个UDF并打印出新数据帧的模式时,我得到如下结果: 这里的问题是,我需要一个向量在外部,而不是在结构

  • 我还尝试了以下操作: 同样,在我运行脚本之后,不会出现。我只有前两个字段名;第三个不停地掉下来。我该怎么解决这个?

  • 我试图通过合并另外两个列表来生成ArrayList。我允许重复对象,但是我的结果ArrayList必须包含两个初始列表之间的差异。我意识到这听起来可能很复杂,所以这里有一个例子: ArrayList 1:[obj1,obj1,obj1,obj2,obj4,obj4] ArrayList 2:[obj1,obj2,obj2,obj3] 我觉得这应该很简单,但我似乎想不通。我将使用ArrayList1