我试图通过DF透视数据,但是我对如何继续下面的操作感到困惑。
case_id status quantity MP
301867534 Closed 72 IN
421064162 Assigned 320 IN
423418908 Assigned 240 DE
301777530 Assigned 252 IN
301903013 Assigned 780 IN
423339220 Assigned 616 US
423503206 Resolved 95 DE
423418756 Resolved 120 US
421868409 Resolved 60 UK
301946232 Resolved 72 IN
422456682 Resolved 77 DE
422743650 Resolved 102 US
422404494 WIP 144 FR
423700455 WIP 160 IN
423560978 WIP 164 DE
423652445 WIP 244 US
423212192 WIP 402 IN
423447545 Closed 112 UK
423610645 Closed 74 DE
423667546 Closed 85 ES
以上是我的原始数据,我希望我的数据帧枢轴有状态列的总数,如下所示。
MP已关闭已解决分配
然而,我不确定如何在pandas中实现,因为pivot只反映状态的总计数,而不是每个值。
MP Assigned Closed Resolved WIP Grand Total
DE 1 1 2 1 5
ES 1 1
FR 1 1
IN 3 1 1 2 7
UK 1 1 2
US 1 2 1 4
使用交叉表
删除最后一行:
df = pd.crosstab(df['MP'], df['status'], margins=True,margins_name='Grand Total').iloc[:-1]
print (df)
status Assigned Closed Resolved WIP Grand Total
MP
DE 1 1 2 1 5
ES 0 1 0 0 1
FR 0 0 0 1 1
IN 3 1 1 2 7
UK 0 1 1 0 2
US 1 0 2 1 4
我是新的火花,我想,使用scala,枢轴数据帧的单行如下: 我的旋转数据帧应该如下所示 我尝试使用以下方法,但我不确定我是否正确地得到了聚合表达式:
我有一个熊猫的数据框架,看起来像这样: 当列名是从15到159的A时,我想替换pr行名的值。我如何使用熊猫在Python中做到这一点?
我有一个多索引数据框(索引和)如下: 我想将转换为以下内容(其中索引转换为列,其中为值,保留为索引): 我一直在努力做到这一点,但还没走多远。
我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的,所以我希望逗号之间的每个值都有一列。为此,我尝试了以下步骤: 但我明白了: 这不是这篇文章的副本(如何将rdd对象转换为火花中的数据帧),因为我要求RDD[字符串]而不是RDD[行]。 而且它也不是火花加载CSV文件作为DataFrame的副本?因为这个问题不是关于将CSV文件读取为DataFrame。
很抱歉,我一直在做一项基本的任务,但我对python还不熟悉,所以请耐心听我说。 我试图将pandas数据框中的两个值合并到一个单独的列中。我试图将日期值与运动值结合起来。见下面的代码: 我希望最终输出包括新的列“date_sport_concat”w/串联值:
我有一个数据集,我想根据该行的2或列值从数据框中删除行。例如-我有关于美国所有电视节目的数据帧,我需要根据电视节目的季节和剧集删除电视节目的特定行。就像我需要删除高谭市电视台的行,但只删除包含第四季和第十集的行。 如果我能在这方面得到帮助,我将不胜感激。