当前位置：首页 > 面试题库 >

如何使用Java中的spark在数据框中使用特定值替换空值？

方宜

2023-03-14

问题内容：

我正在尝试提高使用Java在Spark中实现的Logistic回归算法的准确性。为此，我试图用该列的最频繁值替换该列中存在的Null或无效值。例如：-

Name|Place
a   |a1
a   |a2
a   |a2
    |d1
b   |a2
c   |a2
c   |
    |
d   |c1

在这种情况下，我将用“ a”替换“名称”列中的所有NULL值，用“
a2”替换“位置”列中的所有NULL值。到现在为止，我只能提取特定列中最频繁的列。您能否在第二步中帮助我，该步骤涉及如何用该列的最常用值替换空值或无效值。

问题答案：

您可以使用.na.fillfunction（它是org.apache.spark.sql.DataFrameNaFunctions中的函数）。

基本上，您需要的功能是： def fill(value: String, cols: Seq[String]): DataFrame

您可以选择列，然后选择要替换null或NaN的值。

在您的情况下，它将类似于：

val df2 = df.na.fill("a", Seq("Name"))
            .na.fill("a2", Seq("Place"))

类似资料：

在Spark数据帧中用null替换空值

我有一个包含n列的数据帧，我想用空值替换所有这些列中的空字符串。我试过用和他们两个都没有工作。如有任何线索，我们将不胜感激。谢谢
如何替换Spark DataFrame中特定列的多重值？

我试图替换或更新dataframe中的某些特定列值，因为我们知道dataframe是不可变的，我试图转换到新的dataframe而不是更新或替换。错误：重载方法值数组非常感谢您的帮助！！
用另一个数据帧的特定列中的值替换数据帧特定列中的Nan值

用其他dataframe的列值替换dataframe的一列中的nan值时出现问题。下面是一个测试示例：我想用其他dataframe中的特定值替换列名中的Nan值（如果其中有一些Nan值，则不是其他列），例如此dataframe中的Name2值：我想得到的是：这是此示例的测试代码：然后我尝试了这三种方法，但都不起作用——我的数据帧始终保持Nan值。你能告诉我哪里出错了吗？
如何使用foreach[duplicate]在Spark数据框中拆分Json格式的列值

我想拆分JSON格式列结果在火花数据帧： Hive中的allrules_internal表：代码：这里我想拆分列值。从上面的例子中，我想保留“document_id，comments”部分。换句话说，条件列有一个键/值对，但我只想要值部分。如果表中有多行，如何拆分值。
如何使用另一个数据框中的值使用新列更新数据框？

如何使用Pandas更新/组合/合并数据帧（df1）和来自另一个数据帧（df2）的值，其中df1有一个新列（col3）和来自df2的值。可乐2？换句话说，df1是当前月份的值，我希望df1也有一个来自df2的列，它是上个月的值。任何关于这方面的见解都是值得赞赏的；非常感谢你。 DF1： DF2：所需df：
如何使用java替换文件中特定行后的字符串

我有一个类似的情况，如果找不到类似的字符串，我需要更改批处理文件中的一行。假设我有一个如下代码(我知道这不是正确的代码，因为它只是一个虚拟的) 现在我想让java读取上面的文件，找到ENV作为DEV并更改值，如myDBDEV、myExecelDEV、MyAPIURLDEV等。我可以使用下面的代码找到行号我已经尝试了下面的代码，但这不是返回行号，所以我使用上面的方法使用java在文本文件中查

相关阅读

如果在MySQL中为空，如何使用特定值更新字段？如何用文本替换空值？用另一个数据框的值替换一个数据框的列值使用Python替换列表中的值 Pyspark替换Spark数据框列中的字符串

相关文章

Java在远程方法中使用反射机制 Java使用Redis JavaScript中私有作用域的使用 Netty实践-使用POJO代替ByteBuf 为什么要使用数据库

相关问答

如何使用java替换文件中特定行后的字符串 Spark dataframe将行中特定列的值替换为Null 我如何在Java中用\n替换空格？如何在Pandas数据帧的列中用零替换NaN值？如何在spark dataframe[重复]中用替换空字符串

相关工具

spark-java 数据库处理框架 SQLite的基本使用 Tcl Web应用框架加速度传感器的使用

相关文档

Sphinx 中文使用手册 StackExchange.Redis 中文使用文档如何使用 Gitbook 来做笔记 Linux C 函数使用手册 Neo4j 中文使用手册以及例子