因此,我昨天开始了一个问题:基于同一行中的值的多个pandas赋值,我想知道如何对一行数据进行排序,并将排序分配给同一行中的不同列。我已经按照Ed Chum的建议解决了这个问题:如何一次将一个函数应用于pandas数据帧中的多个列。
它确实起作用了,但我注意到我在这一过程中创建了错误的列。一旦我修复了这个bug,它就不再工作了。。。。
因此,我尝试在一个玩具示例上重现这个问题,但在玩具示例上也不起作用。有人能告诉我这个错误吗?下面是代码(python 3):
import pandas as pd
import numpy as np
import scipy
df = pd.DataFrame(data={'a':[1,2,3],'b':[2,1,3],'c':[3,1,2],
'rank_a':[np.nan]*3,'rank_b':[np.nan]*3,'rank_c':[np.nan]*3})
def apply_rank(row):
vals = [row['a'],row['b'],row['c']]
ranked = scipy.stats.rankdata(vals)
d = len(vals)+1
ranked = [rank/d for rank in ranked]
rank_cols = [col for col in row.index if col.startswith("rank_")]
print("ranked: "+str(ranked))
for idx,rank_col in enumerate(rank_cols):
print("Before: "+str(row[rank_col]))
row[rank_col] = ranked[idx]
print("After: "+str(row[rank_col]))
然后运行:df。应用(lambda行:应用秩(行),轴=1)
,以查看分配是否正确完成。
然后运行:df
,查看未分配任何内容。。掌纹
df[colo]. iloc[[2,3,4]=2
在dataframe df中,在特定的列名col处,对于索引(2,3,4),我们可以将值设置为2,如上所示
您可以返回Series
,其中包含新列值的索引:
def apply_rank(row):
vals = [row['a'],row['b'],row['c']]
ranked = scipy.stats.rankdata(vals)
d = len(vals)+1
ranked = [rank/d for rank in ranked]
rank_cols = [col for col in row.index if col.startswith("rank_")]
return pd.Series(ranked, index=rank_cols)
df = df.apply(lambda row: apply_rank(row),axis=1)
print (df)
rank_a rank_b rank_c
0 0.250 0.500 0.750
1 0.750 0.375 0.375
2 0.625 0.625 0.250
编辑:如果之前存在新列,则可以向其追加数据并返回行
:
def apply_rank(row):
vals = [row['a'],row['b'],row['c']]
ranked = scipy.stats.rankdata(vals)
d = len(vals)+1
ranked = [rank/d for rank in ranked]
rank_cols = [col for col in row.index if col.startswith("rank_")]
row.loc[rank_cols] = ranked
return row
df = df.apply(apply_rank,axis=1)
print (df)
a b c rank_a rank_b rank_c
0 1.0 2.0 3.0 0.250 0.500 0.750
1 2.0 1.0 1.0 0.750 0.375 0.375
2 3.0 3.0 2.0 0.625 0.625 0.250
我有一个numpy数组,一个定义数组中范围的开始/结束索引列表,以及一个值列表,其中值的数量与范围的数量相同。在循环中执行此赋值当前非常慢,因此我想以矢量化的方式将值赋给数组中的相应范围。这可能吗? 这是一个具体的简化示例: <代码>a=np。零([10]) 下面是定义a中范围的开始索引和结束索引列表,如下所示: 这是我想分配给每个范围的值列表: <代码>值=[1、2、3、4] 我有两个问题。首先
问题内容: 这是在最近的PyCon演讲中提出的。 该声明 没有任何意义,但是也不会引发异常。我觉得这一定是由于拆箱规则造成的。您也可以使用列表对元组进行解包,例如, 符合您的期望。作为逻辑结果,当要拆包的元素数为0时,这也应该起作用,这将解释为什么分配给空列表是有效的。当您尝试将非空列表分配给空列表时会发生什么,进一步支持了该理论: 如果元组也是如此,我将对此解释感到满意。如果我们可以解压缩到包含
我正在使用pyspark,用spark-csv将一个大型csv文件加载到dataframe中,作为预处理步骤,我需要对其中一列(包含json字符串)中的可用数据应用各种操作。它将返回X个值,每个值都需要存储在它们自己单独的列中。 该功能将在UDF中实现。但是,我不确定如何从该UDF返回一个值列表,并将其输入到各个列中。下面是一个简单的例子: 生成以下内容:
问题内容: 我很想知道是否有一种“ pythonic”的方法来将列表中的值分配给元素?更清楚地说,我要的是这样的东西: 以便: 我正在寻找比手动执行任何其他更好的选择: 问题答案: 只需输入: 当您像上面那样被分配给多个变量时,Python就会使用。 在此扩展中,您还可以解压缩为多个小于使用star运算符的长度的变量:
问题内容: 我有两种想要反序列化为一个类的JSON格式。我知道我们不能将两个属性应用于一个属性。 您能否建议我实现这一目标的方法? 我希望并且两者都可以反序列化为规范类的属性。 问题答案: 一个不需要转换器的简单解决方案:只需向您的类添加第二个private属性,将其标记为,然后将其设置为第一个属性: 小提琴:https : //dotnetfiddle.net/z3KJj5
问题内容: 在Python中,我们可以将函数分配给变量。例如,math.sine函数: 有没有简单的方法可以将多个函数(即一个函数的一个函数)分配给一个变量?例如: 问题答案: 我认为作者想要的是某种形式的功能链。通常,这很困难,但是对于 接受一个论点 返回一个值, 列表中上一个函数的返回值与列表中下一个函数的输入类型具有相同的返回值 我们说有一个需要链接的函数列表,其中有一个参数,然后返回一个参