问题：

用约束将Apache Spark（Scala）数据帧中的布尔列转换为数值列？

仉俊能

2023-03-14

 val inputfile = sqlContext.read
        .format("com.databricks.spark.csv")
        .option("header", "true") 
        .option("inferSchema", "true") 
        .option("delimiter", "\t")
        .load("data")
 inputfile: org.apache.spark.sql.DataFrame = [a: string, b: bigint, c: boolean]
 val outputfile = inputfile.groupBy($"a",$"b").max($"c")

上面的代码失败，因为C是布尔变量，聚合不能应用于布尔变量。Spark中是否有一个函数将Spark数据帧的整列的true值转换为1，并将false转换为0。

我尝试了以下方法（源代码：如何在Spark SQL的DataFrame中更改列类型？）

 val inputfile = sqlContext.read
        .format("com.databricks.spark.csv")
        .option("header", "true") 
        .option("inferSchema", "true") 
        .option("delimiter", "\t")
        .load("data")
 val tempfile =inputfile.select("a","b","c").withColumn("c",toInt(inputfile("c")))   
 val outputfile = tempfile.groupBy($"a",$"b").max($"c")

共有1个答案

孙子民

2023-03-14

您不需要使用udf来执行此操作。如果要将布尔值转换为int，可以将列类型化为int

val df2 = df1
  .withColumn("boolAsInt",$"bool".cast("Int")

类似资料：

将具有列表值的熊猫系列转换为布尔数据帧

我有一系列不同元素的值。值计数显示如下。我想为每个类别创建列，并为每一行标记True/False。 e. g. 我设法从所有项目中获取了这些类别的唯一列表。我还可以通过在此处的解决方案中给出的方法将其制作成单独的列。但在我的情况下，数据是不完整的/变化的，因此给我一个DF，如下所示有没有办法使用熊猫或其他python工具将其转换为所需的输出。我现在正在使用pandas.pivot_table
将java.lang.Boolean转换为Scala布尔

问题内容：我目前正在开发一个Scala应用程序，该应用程序利用Spring-Boot和Swagger发送和接收REST调用。 Swagger和Spring-Boot是纯Java项目，与Scala的兼容性有限，但是我似乎找到了解决该问题的方法。由于Spring- Boot和Swagger将请求作为Java对象处理（需要使用setter和getter才能工作），因此我必须将请求视为Java对象，然
在Spark/Scala中将RDD转换为数据帧

RDD是以数组[数组[字符串]的格式创建的，具有以下值：我想用模式创建一个数据帧：接下来的步骤：给出以下错误：
将布尔值转换为整数值php

PHP是否有任何内置函数可以接受布尔值并返回其整数等效值？0代表FALSE，1代表TRUE？当然，您可以轻松创建一个函数来做到这一点，我只是询问PHP内部是否有内置函数。我已经尝试了并将其转换为但它们不起作用，它们在TRUE和FALSE两种情况下都返回0。编辑：问题是它不是真正的布尔值，而是一个字符串“false”、“true”，php没有检测到传递布尔值的jquery帖子。问题解决了，谢谢！
数据帧列中的布尔运算

我试图找出我的DataFrame列中是否存在特定的列，但我有一些问题。我所做的：使用布尔运算“notin”（我尝试了any（）、all（）、“in”）来查找特定的列标题，但它似乎工作不正常！假设我的DataFrame列标题是：我想看看是否所有的‘M1’、‘M2’、…'M20'和TM1'在那里。如果一个或多个代码丢失，则该代码将不起作用。所以我说：现在，假设df具有所有询问列标题，if语句
scala中连接数据帧和替换列值

我正在尝试连接两个apache spark sql DataFrame，并将第一个数据帧的列值替换为另一个。如：我需要执行左连接并将 DF1.col1 的值替换为 DF2.col3，其中 DF1.col1 = DF2.col1。我不知道该怎么做。此外，如上例所示，DF1 除了“col1”和“col2”之外还有更多列，我无法对所有列都应用 select。我正在尝试类似的东西，但这似乎行不通。另外

用约束将Apache Spark（Scala）数据帧中的布尔列转换为数值列？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档