我经常想通过组合分组的DataFrame的多个列来创建新的DataFrame。apply()函数允许我执行此操作,但是它要求我创建不需要的索引:
In [359]: df = pandas.DataFrame({'x': 3 * ['a'] + 2 * ['b'], 'y': np.random.normal(size=5), 'z': np.random.normal(size=5)})
In [360]: df
Out[360]:
x y z
0 a 0.201980 -0.470388
1 a 0.190846 -2.089032
2 a -1.131010 0.227859
3 b -0.263865 -1.906575
4 b -1.335956 -0.722087
In [361]: df.groupby('x').apply(lambda x: pandas.DataFrame({'r': (x.y + x.z).sum() / x.z.sum(), 's': (x.y + x.z ** 2).sum() / x.z.sum()}))
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
/home/emarkley/work/src/partner_analysis2/main.py in <module>()
----> 1 df.groupby('x').apply(lambda x: pandas.DataFrame({'r': (x.y + x.z).sum() / x.z.sum(), 's': (x.y + x.z ** 2).sum() / x.z.sum()}))
/usr/local/lib/python3.2/site-packages/pandas-0.8.2.dev-py3.2-linux-x86_64.egg/pandas/core/groupby.py in apply(self, func, *args, **kwargs)
267 applied : type depending on grouped object and function
268 """
--> 269 return self._python_apply_general(func, *args, **kwargs)
270
271 def aggregate(self, func, *args, **kwargs):
/usr/local/lib/python3.2/site-packages/pandas-0.8.2.dev-py3.2-linux-x86_64.egg/pandas/core/groupby.py in _python_apply_general(self, func, *args, **kwargs)
417 group_axes = _get_axes(group)
418
--> 419 res = func(group, *args, **kwargs)
420
421 if not _is_indexed_like(res, group_axes):
/home/emarkley/work/src/partner_analysis2/main.py in <lambda>(x)
----> 1 df.groupby('x').apply(lambda x: pandas.DataFrame({'r': (x.y + x.z).sum() / x.z.sum(), 's': (x.y + x.z ** 2).sum() / x.z.sum()}))
/usr/local/lib/python3.2/site-packages/pandas-0.8.2.dev-py3.2-linux-x86_64.egg/pandas/core/frame.py in __init__(self, data, index, columns, dtype, copy)
371 mgr = self._init_mgr(data, index, columns, dtype=dtype, copy=copy)
372 elif isinstance(data, dict):
--> 373 mgr = self._init_dict(data, index, columns, dtype=dtype)
374 elif isinstance(data, ma.MaskedArray):
375 mask = ma.getmaskarray(data)
/usr/local/lib/python3.2/site-packages/pandas-0.8.2.dev-py3.2-linux-x86_64.egg/pandas/core/frame.py in _init_dict(self, data, index, columns, dtype)
454 # figure out the index, if necessary
455 if index is None:
--> 456 index = extract_index(data)
457 else:
458 index = _ensure_index(index)
/usr/local/lib/python3.2/site-packages/pandas-0.8.2.dev-py3.2-linux-x86_64.egg/pandas/core/frame.py in extract_index(data)
4719
4720 if not indexes and not raw_lengths:
-> 4721 raise ValueError('If use all scalar values, must pass index')
4722
4723 if have_series or have_dicts:
ValueError: If use all scalar values, must pass index
In [362]: df.groupby('x').apply(lambda x: pandas.DataFrame({'r': (x.y + x.z).sum() / x.z.sum(), 's': (x.y + x.z ** 2).sum() / x.z.sum()}, index=[0]))
Out[362]:
r s
x
a 0 1.316605 -1.672293
b 0 1.608606 -0.972593
有没有什么方法可以使用apply()或其他函数来获得相同的结果,而无需额外的零索引?
您正在为每个组生成合计的r和s值,因此应在Series
此处使用:
In [26]: df.groupby('x').apply(lambda x:
Series({'r': (x.y + x.z).sum() / x.z.sum(),
's': (x.y + x.z ** 2).sum() / x.z.sum()}))
Out[26]:
r s
x
a -0.338590 -0.916635
b 66.655533 102.566146
在将输出数据框写入excel文件之前,我需要在数据框中添加一行。下面是我的示例数据帧: mydict={'Col1':'P','Col2':'Q','Col3':'R','Col4':'S'} 现在我需要添加一个额外的行,在这个行中,应该从对应于列标题的mydict中选择新行值。 期望输出: 谁能帮忙吗。
我正在编写一个从站点中抓取信息的python代码,但我必须首先去掉一些cookies弹出窗口。要单击右侧按钮,我需要它们的XPath(据我所知)。问题是XPath的一部分每次都发生变化,我不知道如何找到它们,因为它们实际上没有任何属性,比如ID之类的。 这是按钮的HTML: 这是我现在使用的命令: 这是XPath: 变量每次都变,所以我改变了14。
我有一个Spring Boot应用程序,它可以根据特定条件将外部JAR文件复制到文件夹中。这些JAR可以包含许多Spring组件(即用注释或元注释的类),Spring应用程序应该能够扫描和实例化这些bean。根据某些条件,是否可以动态加载JAR文件的内容,并使它们可用于Spring应用程序上下文?我充分意识到这对安全的影响。 我已经阅读了Spring为其可执行JAR格式提供的不同类型的和,但是看起
是否有一种选择来实现同样的目标?
问题内容: 如何在不使用borders-width的情况下使用CSS给任何元素添加边框? 像在Photoshop中一样,我们可以给笔画-内部,中心和外部 我认为默认的CSS边框属性是中心,如photoshop中的中心,对吗? 我想在框内而不是外面给边框。并且不想在框宽中包含边框宽度。 问题答案: 这不会增加额外的宽度和高度。
问题内容: 我希望在不停止应用程序的情况下分析Java应用程序。我可以在应用程序运行时以某种方式添加Javaagent吗? 问题答案: 根据java.lang.instrument软件包的文档,应该是可能的。 VM启动后启动代理 一个实现可以提供一种机制,可以在VM启动之后的某个时间启动代理。有关如何启动的详细信息是特定于实现的,但通常应用程序已启动并且其主要方法已被调用。在虚拟机启动后实现支持启
问题内容: 我有两个活动,我分别从这两个活动向Firestore添加数据。但是,每当我向Firestore添加第二个活动数据时,它就会覆盖第一个活动数据。我在以下两个活动中使用了以下代码: 如何停止覆盖?我想将两个“活动”数据保存在同一文件夹中。 问题答案: 我建议您再添加一个文档或集合,以便它可以为单个用户存储多个数据值。 您可以为两个活动创建文档参考: 或者,您可以为其创建一个子集合: 更多关
问题内容: 如果我要使用DefaultServeMux(我将其指定为ListenAndServe的第二个参数来指定),那么我可以访问,您可以在Go Wiki的以下示例中看到该: 在当前代码中,我无法使用DefaultServeMux,即我将自定义处理程序传递给ListenAndServe 因此,我没有内置的代码。但是,我必须将一些授权代码修改为需要类似的授权代码。例如,如果我一直在使用Defaul