当前位置: 首页 > 知识库问答 >
问题:

在数据帧[duplicate]中将行值旋转到列

山翼
2023-03-14

我试图通过DF透视数据,但是我对如何继续下面的操作感到困惑。

case_id    status   quantity    MP
301867534   Closed       72   IN
421064162   Assigned    320   IN
423418908   Assigned    240   DE
301777530   Assigned    252   IN
301903013   Assigned    780   IN
423339220   Assigned    616   US
423503206   Resolved    95    DE
423418756   Resolved    120   US
421868409   Resolved    60    UK
301946232   Resolved    72    IN
422456682   Resolved    77    DE
422743650   Resolved    102   US
422404494   WIP         144   FR
423700455   WIP         160   IN
423560978   WIP         164   DE
423652445   WIP         244   US
423212192   WIP         402   IN
423447545   Closed      112   UK
423610645   Closed      74   DE
423667546   Closed      85   ES

以上是我的原始数据,我希望我的数据帧枢轴有状态列的总数,如下所示。

MP已关闭已解决分配

然而,我不确定如何在pandas中实现,因为pivot只反映状态的总计数,而不是每个值。

  MP    Assigned    Closed  Resolved    WIP Grand Total
  DE        1           1      2         1   5
  ES        1           1
  FR                    1                    1
  IN       3            1      1         2   7
  UK       1            1                    2
  US       1            2      1             4 

共有1个答案

爱刚捷
2023-03-14

使用交叉表删除最后一行:

df = pd.crosstab(df['MP'], df['status'], margins=True,margins_name='Grand Total').iloc[:-1]
print (df)
status  Assigned  Closed  Resolved  WIP  Grand Total
MP                                                  
DE             1       1         2    1            5
ES             0       1         0    0            1
FR             0       0         0    1            1
IN             3       1         1    2            7
UK             0       1         1    0            2
US             1       0         2    1            4

 类似资料:
  • 我是新的火花,我想,使用scala,枢轴数据帧的单行如下: 我的旋转数据帧应该如下所示 我尝试使用以下方法,但我不确定我是否正确地得到了聚合表达式:

  • 我有一个熊猫的数据框架,看起来像这样: 当列名是从15到159的A时,我想替换pr行名的值。我如何使用熊猫在Python中做到这一点?

  • 我有一个多索引数据框(索引和)如下: 我想将转换为以下内容(其中索引转换为列,其中为值,保留为索引): 我一直在努力做到这一点,但还没走多远。

  • 我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的,所以我希望逗号之间的每个值都有一列。为此,我尝试了以下步骤: 但我明白了: 这不是这篇文章的副本(如何将rdd对象转换为火花中的数据帧),因为我要求RDD[字符串]而不是RDD[行]。 而且它也不是火花加载CSV文件作为DataFrame的副本?因为这个问题不是关于将CSV文件读取为DataFrame。

  • 很抱歉,我一直在做一项基本的任务,但我对python还不熟悉,所以请耐心听我说。 我试图将pandas数据框中的两个值合并到一个单独的列中。我试图将日期值与运动值结合起来。见下面的代码: 我希望最终输出包括新的列“date_sport_concat”w/串联值:

  • 我有一个数据集,我想根据该行的2或列值从数据框中删除行。例如-我有关于美国所有电视节目的数据帧,我需要根据电视节目的季节和剧集删除电视节目的特定行。就像我需要删除高谭市电视台的行,但只删除包含第四季和第十集的行。 如果我能在这方面得到帮助,我将不胜感激。