我用这个最小的可复制的例子来说明我的问题。我已经设法解决了这个问题,但我确信还有更优雅的编码方式。
这个问题是关于基于多个标准的二元分类。为了满足要求,一个甜甜圈(编码1)需要至少3(或更多)的分数:“a”标准项中的至少一个、“B”标准项中的至少两个和“C”标准项中的至少三个。如果不满足这些要求,将不奖励甜甜圈(编码0)。
require(dplyr)
df <- data.frame("a1" = c(3,2,2,5),
"a2" = c(2,1,3,1),
"b1" = c(2,1,5,4),
"b2" = c(1,2,1,4),
"b3" = c(3,2,3,4),
"c1" = c(3,3,1,3),
"c2" = c(4,2,3,4),
"c3" = c(3,3,4,1),
"c4" = c(1,2,3,4),
stringsAsFactors = FALSE)
df_names <- names(df[, 1:9])
a_items <- names(df[, 1:2])
b_items <- names(df[, 3:5])
c_items <- names(df[, 6:9])
df_response <- df %>%
select(df_names) %>%
mutate_all(
funs(case_when(
. >=3 ~ 1,
is.na(.) ~ 0,
TRUE ~ 0))) %>%
mutate(a_crit = case_when( rowSums(.[ ,a_items]) >=1 ~ 1, # one a item needed
TRUE ~ 0)) %>%
mutate(b_crit = case_when( rowSums(.[ ,b_items]) >=2 ~ 1, # two b items needed
TRUE ~ 0)) %>%
mutate(c_crit = case_when( rowSums(.[ ,c_items]) >=3 ~ 1, # three c items needed
TRUE ~ 0)) %>%
mutate(overal_crit = case_when( a_crit == 1 & b_crit == 1 & c_crit == 1 ~ 1,
TRUE ~ 0))
df_response$overal_crit
我将使用简单的mutate
调用
library(dplyr)
df %>%
mutate(a_crit = as.integer(rowSums(.[a_items] >= 3) >= 1),
b_crit = as.integer(rowSums(.[b_items] >= 3) >= 2),
c_crit = as.integer(rowSums(.[c_items] >= 3) >= 3),
overal_crit = as.integer((a_crit + b_crit + c_crit) == 3))
# a1 a2 b1 b2 b3 c1 c2 c3 c4 a_crit b_crit c_crit overal_crit
#1 3 2 2 1 3 3 4 3 1 1 0 1 0
#2 2 1 1 2 2 3 2 3 2 0 0 0 0
#3 2 3 5 1 3 1 3 4 3 1 1 1 1
#4 5 1 4 4 4 3 4 1 4 1 1 1 1
我用的是spark 2.1,脚本是pyspark。请帮我一下,因为我被困在这里了。 问题陈述:根据多列的条件创建新列 输入<code>数据帧<code>如下 现在我需要创建一个新列作为FLG,我的条件是如果
问题内容: 我正在尝试计算连续4个单独的列中的不同条目,然后总计结果。 例如,表头看起来与此类似: 每个列(保存ID)可以具有文本值W,X,Y或Z。列可以具有相同的值。 我正在尝试做的是找到一种计算列中每个条目的方法,但是每行只对W,X,Y和Z进行一次计数。因此,如果: 结果表将是: 任何帮助将不胜感激。 问题答案: 也许我错过了一些东西,但这会很简单: 没有理由一起使用,因为这样做会使结果明显。
我有以下代码: 我的问题是我想让我的列表按多个东西排序: 1。)将它们分组为未来事件和过去事件(通过检查ystem.current毫秒()是否大于结束时间戳)2。)通过开始升序排序未来事件3。)通过结束降序排序过去事件 我可以用Java 8 Lambda来做这件事吗?或者我需要另一种排序项目的方法吗?
问题内容: 我有一个数据集,其中我试图确定每个人的危险因素数量。所以我有以下数据: 每个属性(年龄,吸烟者,糖尿病)都有自己的条件来确定是否是危险因素。因此,如果年龄> = 45,则是一个危险因素。吸烟者和糖尿病为“ Y”是危险因素。我想要添加一列,以根据这些条件总计每个人的风险因素数量。因此数据如下所示: 我有一个样本数据集,我在Excel中鬼混,而我这样做的方式是使用COUNTIF公式,如下所
问题内容: 可以使用Hibernate标准吗? 问题答案: 我遇到了完全相同的问题,并能够像这样解决它: 注:,和在上面的代码指在属性名,和类,相应地(类具有属性等)。 对于此解决方案,您甚至不需要在中设置和参数。
我想显示一个名为listaBaresFiltrada的列表,按多个值排序。 Evento模型: 现在,我可以创建第一个排序条件,如下所示: 但我不知道如何包括其他两个排序条件。