所以我有两个指令列表..
list_yearly = [
{'name':'john',
'total_year': 107
},
{'name':'cathy',
'total_year':124
},
]
list_monthly = [
{'name':'john',
'month':'Jan',
'total_month': 34
},
{'name':'cathy',
'month':'Jan',
'total_month':78
},
{'name':'john',
'month':'Feb',
'total_month': 73
},
{'name':'cathy',
'month':'Feb',
'total_month':46
},
]
目标是获得如下所示的最终数据集:
{'name':'john',
'total_year': 107,
'trend':[{'month':'Jan', 'total_month': 34},{'month':'Feb', 'total_month': 73}]
},
{'name':'cathy',
'total_year':124,
'trend':[{'month':'Jan', 'total_month': 78},{'month':'Feb', 'total_month': 46}]
},
由于我的数据集是针对某一年所有12个月的大量学生的,所以我使用Pandas进行数据采集。这就是我的工作方式:
首先,使用name键将这两个列表组合为一个数据帧。
In [5]: df = pd.DataFrame(list_yearly).merge(pd.DataFrame(list_monthly))
In [6]: df
Out[6]:
name total_year month total_month
0 john 107 Jan 34
1 john 107 Feb 73
2 cathy 124 Jan 78
3 cathy 124 Feb 46
ln [7]: df['trend'] = df.apply(lambda x: [x[['month', 'total_month']].to_dict()], axis=1)
In [8]: df
Out[8]:
name total_year month total_month \
0 john 107 Jan 34
1 john 107 Feb 73
2 cathy 124 Jan 78
3 cathy 124 Feb 46
trend
0 [{u'total_month': 34, u'month': u'Jan'}]
1 [{u'total_month': 73, u'month': u'Feb'}]
2 [{u'total_month': 78, u'month': u'Jan'}]
3 [{u'total_month': 46, u'month': u'Feb'}]
In [9]: df[['name', 'total_year', 'trend']].to_dict(orient='records')
Out[9]:
[{'name': 'john',
'total_year': 107,
'trend': [{'month': 'Jan', 'total_month': 34}]},
{'name': 'john',
'total_year': 107,
'trend': [{'month': 'Feb', 'total_month': 73}]},
{'name': 'cathy',
'total_year': 124,
'trend': [{'month': 'Jan', 'total_month': 78}]},
{'name': 'cathy',
'total_year': 124,
'trend': [{'month': 'Feb', 'total_month': 46}]}]
很明显,最终的数据集并不完全是我想要的。我得到的不是两个月都分开的两个数据集,而是四个月分开的数据集。我该如何解决这个问题呢?我更愿意在熊猫自身中修复它,而不是使用这个最终的输出将它再次降低到所希望的状态
实际上,您应该使用groupby
根据name
和total_year
分组,而不是apply
(作为第二步),您可以在groupby中创建所需的列表。示例-
df = pd.DataFrame(list_yearly).merge(pd.DataFrame(list_monthly))
def func(group):
result = []
for idx, row in group.iterrows():
result.append({'month':row['month'],'total_month':row['total_month']})
return result
result = df.groupby(['name','total_year']).apply(func).reset_index()
result.columns = ['name','total_year','trend']
result_dict = result.to_dict(orient='records')
演示-
In [9]: df = pd.DataFrame(list_yearly).merge(pd.DataFrame(list_monthly))
In [10]: df
Out[10]:
name total_year month total_month
0 john 107 Jan 34
1 john 107 Feb 73
2 cathy 124 Jan 78
3 cathy 124 Feb 46
In [13]: def func(group):
....: result = []
....: for idx, row in group.iterrows():
....: result.append({'month':row['month'],'total_month':row['total_month']})
....: return result
....:
In [14]:
In [14]: result = df.groupby(['name','total_year']).apply(func).reset_index()
In [15]: result
Out[15]:
name total_year 0
0 cathy 124 [{'month': 'Jan', 'total_month': 78}, {'month'...
1 john 107 [{'month': 'Jan', 'total_month': 34}, {'month'...
In [19]: result.columns = ['name','total_year','trend']
In [20]: result
Out[20]:
name total_year trend
0 cathy 124 [{'month': 'Jan', 'total_month': 78}, {'month'...
1 john 107 [{'month': 'Jan', 'total_month': 34}, {'month'...
In [21]: result.to_dict(orient='records')
Out[21]:
[{'name': 'cathy',
'total_year': 124,
'trend': [{'month': 'Jan', 'total_month': 78},
{'month': 'Feb', 'total_month': 46}]},
{'name': 'john',
'total_year': 107,
'trend': [{'month': 'Jan', 'total_month': 34},
{'month': 'Feb', 'total_month': 73}]}]
问题内容: 如何以简洁明了的方式找出两个列表中的第一个公共元素(在本例中为“ 2”)?任何列表都可以为空,也可以没有公共元素-在这种情况下,没有一个很好。 我需要它来向新手展示python,所以越简单越好。 UPD:顺序对于我的目的并不重要,但让我们假设我正在寻找x中的第一个元素,该元素也出现在y中。 问题答案: 这应该很简单 几乎和它一样有效 (要获得更有效的解决方案,请检查Ashwini Ch
我试图在我的ArrayList“list1”中找到公共元素 它包含“dateFrom”和“dateTo”之间的所有日期以及我的列表“list2” 其中dateTime是一个变量,它仅存储具有以下结构的文本文件中的日期: 我尝试使用来查找清单2中也在清单1中的所有日期,但我认为我的问题是清单2不是一个ArrayList。我该怎么解决呢?
我有三张桌子: 我想从表1中选择COL1,从表2中选择COL5,从表3中选择COL4 它喜欢两个联接表,但是当我使用以下查询时,它不起作用,COL5是空白的。 请帮忙。 PS我复制了之前的一个类似示例,但输出不同。
问题内容: 我有两个数组: 我如何获得这两个数组中的常见项目列表 我无法使用,因为我想比较2个数组。 问题答案: 您还可以结合使用和: 我们考虑以下代码片段: 我用short和long s(10到100 s)(全部随机生成)做了一些(人工)基准测试。我总是用 我得到以下结果: 如果您不只转换为a,则更可取 结果说明 使用该方法使用“蛮力”搜索,该搜索具有时间复杂度 ,而与该方法相反。然而从转换到和
问题内容: 考虑以下列表: 我该如何实现? 我试过了: 但是,只有当我按一定顺序具有元组的元素时,它才起作用,这意味着它将导致以下结果: 问题答案: 您可以将元组视为图形中的边,而将目标视为在图形中查找连接的组件。然后,您可以简单地遍历顶点(元组中的项),并为尚未访问的每个顶点执行DFS生成组件: 输出: 注意,在上面,组件和组件中的元素都是随机顺序。
问题:如何将列表拆分为两个子列表,其中元素由元素中的选项卡分隔? 上下文:我想读取一个由制表符分隔的文件到Pandas DataFrame中。这些文件看起来像: 列1\t 123 列2\t 列3\t文本 这意味着每行有一列,后面跟着一个选项卡,然后是该列的一个值(有时没有值)。 我的想法是读取文件并将每行保存为列表的元素,然后将列表分成两个,将选项卡前的第一部分作为一个列表,选项卡后的第二部分作为