我有一个 pyspark df,它有很多列,但子集看起来像这样:
我想映射一个函数some_func(),它只使用列“lat”、“lon”和“event_id”来返回一个布尔值,该值将作为名为“验证”的单独列添加到df中。基本上,我需要单独检索函数中感兴趣的列并对它们进行操作。我知道我可以使用UDF或df.withColumn(),但它们用于映射到单列。为此,我需要将感兴趣的列连接为一列,这会使代码有点混乱。
有没有办法分别检索函数中的列值,并将该函数映射到整个数据帧?(类似于我们使用map-lambda对Pandas df所做的操作
您可以创建一个udf,它可以将多个列作为参数
前任:
from pyspark.sql.functions as f
from pyspark.sql.types import BooleanType
def your_function(p1, p2, p3):
# your logic goes here
# return a bool
udf_func = f.udf(your_function, BooleanType())
df = spark.read.....
df2 = df.withColumn("verified", udf_func(f.col("lat"), f.col("lon"), f.col("event_id")))
df2.show(truncate=False)
问题内容: 我正在开发一个处理以下两个实体的应用程序: 产品 (将其命名为X,Y,Z)和 材料 (a,b,c,…)。众所周知,每种产品都有一个配方,指示制造该产品所需的材料。例如,要产生一个X,我们需要2 a,6 c和4 d(X = 2a + 6c + 4d)。 这就是它在数据库表中的反映方式: 第三张表中的“计数”字段是同类材料(本例中为2、6、4)的系数。 所以我想以这种方式编写Product
接受一个可变参数函数并返回一个闭包,该闭包接受一个参数数组映射到该函数的输入。 使用闭包和展开运算符 (...) 将参数数组映射到函数的输入。 const spreadOver = fn => argsArr => fn(...argsArr); const arrayMax = spreadOver(Math.max); arrayMax([1, 2, 3]); // 3
问题内容: 当前,我有一堆实现接口的Java类,这意味着它们都具有方法。这个想法是,每个类都有几个(例如<10)成员,并且每个类都通过方法映射到该类中的方法,如下所示: 你明白了。 这对我来说很好,但是现在我需要一个从键到函数的运行时可访问的映射。并非每个函数 实际上都 返回一个String(有些返回void),并且我需要动态地访问每个具有键的类中每个函数的返回类型(使用反射)。我已经有一位经理,
我遇到过一些不同寻常且有趣的技术,以及使用Spring云函数拆分业务和技术实现的方法,该函数支持java的实现。util。函数类充当endpoint 简而言之,有一个简单的静态列表 下面的Bean根据方法名称及其返回类型启用指定的endpoint: 问题: > 可以使用java中的一个或多个类来实现完全兼容REST的解决方案。util。功能组合?我只能写上面的那些。我对以下模式特别感兴趣: 如何避
映射函数是一组可以连续应用于一个或多个元素列表的函数。 将这些函数应用于列表的结果将放在新列表中,并返回新列表。 例如, mapcar函数处理一个或多个列表的连续元素。 mapcar函数的第一个参数应该是一个函数,其余参数是应用函数的列表。 参数函数应用于导致新构造的列表的连续元素。 如果参数列表的长度不相等,则映射过程在到达最短列表的末尾时停止。 结果列表将具有与最短输入列表相同数量的元素。 例
我已经用MapStruct 1.1工作了几天,但还没有达到我所需要的。 我想做的是:我想将JPA实体映射到DTO,以便在Primefaces项目中实现更好的属性视图绑定。 所以我有我的实体如下: 病人JAVA 人JAVA 我想把这些实体画成这样: 耐心等待。JAVA 潘松多。JAVA 我编写了Mapper类和一个实用程序,就像GitHub上的官方示例中描述的那样(https://github.co