问题：

基于输入和其他列的组合定义列[重复]

蔺宇

2023-03-14

我想基于现有列中的值在我的数据框架中创建一个新列。新列的输入应为布尔值。目前，我正在尝试以下方法：

import pandas as pd

df_edit = pd.DataFrame({'Included': [False, False, True, False], 'Update 
Check': [True, True, True, True], 'duplicate_fname': [True, False, False, 
False], 'duplicate_targetfname': [False, False, False, False]})

df_edit['test'] = df_edit['Included'] == False & 
df_edit['Update Check'] == True & (df_edit['duplicate_fname'] == True | 
df_edit['duplicate_targetfname'] == True)

当我尝试这样做时，我得到一个ValueError，说明如下：

ValueError：序列的真值不明确。使用a.empty，a.bool（），

还有别的办法吗？

我的预期输出将是由以下值组成的列：

True, False, False, False

共有1个答案

易宣

2023-03-14

不使用圆括号存在问题：

df_edit['test'] = (df_edit['Included'] == False) & \
                  (df_edit['Update Check'] == True) & \
                  ((df_edit['duplicate_fname'] == True) | 
                   (df_edit['duplicate_targetfname'] == True))

print (df_edit)
   Included  Update Check  duplicate_fname  duplicate_targetfname   test
0     False          True             True                  False   True
1     False          True            False                  False  False
2      True          True            False                  False  False
3     False          True            False                  False  False

但更好的方法是使用~反转布尔掩码，并忽略与Trues的比较：

df_edit['test'] = ~df_edit['Included'] & 
                   df_edit['Update Check'] & 
                   (df_edit['duplicate_fname'] | df_edit['duplicate_targetfname'])
print (df_edit)

   Included  Update Check  duplicate_fname  duplicate_targetfname   test
0     False          True             True                  False   True
1     False          True            False                  False  False
2      True          True            False                  False  False
3     False          True            False                  False  False

类似资料：

基于其他列值的Pyspark concat列

我正在使用pyspark下面是我的数据
基于其他列的SUM（DISTINCT）

问题内容：我目前有一张看起来像这样的表：我需要做的是获得“ 费率”列的信息，但每个名称仅获得一次。例如，我有三行John Doe，每行的比率为8。我需要将这些行的比率设为8，而不是24，因此它为每组名称都对比率进行一次计数。当然是行不通的，因为我试图对比率列而不是名称求和。我知道在对单个记录进行计数时，我可以使用，这就是我试图从中得到的行为类型。我怎样才能为每个名字获得一个比率？提前致谢
基于其他列将值映射到特定列

我有以下问题：包含带有字符串、或 C 的。带有的第二个。以及其他三列、和（这些列也命名为、和）。因此应获得现在我想遍历每一行，并根据中的条目将中的整数分配给列 A、B 或 C。如何实现此目的？ < code>df.withColumn()我不能使用(或者至少我不知道为什么),对于< code>val df2 = df.map(x = 提前期待您的帮助和感谢！
Pyspark udf 用于基于其他两列填充列

我有以下问题，因为我是pyspark的新手。基于来自两列的值的条件，我想填充第三列。条件是： < li >如果分号包含在col2中，请检查col1 < ul > < li >如果col1 == 1，则取分号前的值 < li >如果col1 == 2，则取分号后的值这就是数据帧的样子。我创建了下面的udf，它给出了错误“不能将列转换为布尔值:请使用” 我通过谷歌搜索各种功能构建了这个udf，所以
基于其他阵列形状的零垫阵列

问题内容：我有K个特征向量，它们全部共享维n，但具有可变维m（nxm）。他们都一起生活在一个清单中。我正在寻找的是一种聪明的方法，以零填充这些np.arrays的行，以便它们都共享相同的维m。我曾尝试使用np.pad解决它，但我还无法提出一个漂亮的解决方案。朝正确方向的任何帮助或推动将不胜感激！结果应该使数组看起来像这样：问题答案：您可以使用它，它也可以使用指定填充宽度的元组填充数组。为
MYSQL-基于其他列中的公共值的列的SUM

问题内容：我一直在努力设计MySQL查询来解决问题。我试图遍历“销售”列表，在其中尝试按客户ID的累计总支出对列出的客户ID进行排序。在客户ID相同的情况下，如何在汇总购买价格的表中进行迭代？预期结果如下：我要：从Sales中选择Customer ID，总和（PurchasePrice）作为PurchaseTotal，其中CustomerID =（从PurchaseTotal升序中选择与销

基于输入和其他列的组合定义列[重复]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档