熊猫python COUNTIF在具有多个条件的多个列上

齐学文

2023-03-14

问题内容：

我有一个数据集，其中我试图确定每个人的危险因素数量。所以我有以下数据：

Person_ID  Age  Smoker  Diabetes
      001   30       Y         N
      002   45       N         N
      003   27       N         Y
      004   18       Y         Y
      005   55       Y         Y

每个属性（年龄，吸烟者，糖尿病）都有自己的条件来确定是否是危险因素。因此，如果年龄> = 45，则是一个危险因素。吸烟者和糖尿病为“
Y”是危险因素。我想要添加一列，以根据这些条件总计每个人的风险因素数量。因此数据如下所示：

Person_ID  Age  Smoker  Diabetes  Risk_Factors
      001   30       Y         N             1
      002   25       N         N             0
      003   27       N         Y             1
      004   18       Y         Y             2
      005   55       Y         Y             3

我有一个样本数据集，我在Excel中鬼混，而我这样做的方式是使用COUNTIF公式，如下所示：

=COUNTIF(B2,">45") + COUNTIF(C2,"=Y") + COUNTIF(D2,"=Y")

但是，我将要使用的实际数据集对于Excel来说太大了，因此我正在为python学习熊猫。我希望我可以提供一些例子，但坦率地说，我什至不知道从哪里开始。我看着这个问题，但是它并没有真正解决如何使用来自多个列的不同条件将其应用于整个新列的方法。有什么建议？

问题答案：

如果您想坚持使用熊猫。您可以使用以下…

解

isY = lambda x:int(x=='Y')
countRiskFactors = html" target="_blank">lambda row: isY(row['Smoker']) + isY(row['Diabetes']) + int(row["Age"]>45)

df['Risk_Factors'] = df.apply(countRiskFactors,axis=1)

这个怎么运作

isY-是一个存储的lambda函数，用于检查单元格的值是否为Y，否则返回1 countRiskFactors-汇总风险因素

最后一行使用apply方法，将参数键设置为1，该方法沿DataFrame逐行应用方法-first参数-并返回附加到DataFrame的Series。

打印df的输出

   Person_ID  Age Smoker Diabetes  Risk_Factors
0          1   30      Y        N             1
1          2   45      N        N             0
2          3   27      N        Y             1
3          4   18      Y        Y             2
4          5   55      Y        Y             3

熊猫python COUNTIF在具有多个条件的多个列上

解

相关阅读

相关文章

相关问答

相关工具

相关文档