当前位置：首页 > 专题 >

《scala》专题

滤波器中的Spark Scala位运算
我有一个由col1和col2列聚合的源数据集。Col2值通过按位或运算进行聚合。我需要对Col2值应用过滤器，以选择位为8,4,2的记录初始源原始数据将Col1值折叠为每Col1值一行后，基于“上面的SourceRawData”聚合源数据，这是其他团队和Col2值通过按位或运算聚合的结果。注意我这里提供的是输出，而不是实际的聚合逻辑现在，我需要对上面的聚合数据集应用过滤器，以根据原始源原始数
使用scala基于Spark DataFrame中现有列的聚合添加新列
我有一个如下的数据框。我需要在现有列的基础上创建一个新列。输出数据帧看起来像这样我用来寻找col3的逻辑是如果col1计数我熟悉如何在sql中实现这一点。但很难找到数据帧DSL的解决方案。任何帮助都将不胜感激。谢谢
在spark scala中为数据帧中的每个组采样不同数量的随机行
目标是为每个组在数据帧中采样（不替换）不同数量的行。特定组要采样的行数在另一个数据帧中。示例：idDF是要从中采样的数据帧。这些组由ID列表示。数据框planDF指定每个组要采样的行数，其中“datesToUse”表示行数，“ID”表示组。“totalDates”是该组的总行数，可能有用，也可能无用。最终结果应包括从第一组（ID 1）中取样的3行、从第二组（ID 2）中取样的2行和从第三组（I
如何用嵌套的案例类模式模拟Spark Scala DataFrame？
我如何创建/模拟Spark Scala数据帧与一个案例类嵌套在顶层？我目前正在单元测试一个在上述模式中输出数据帧的函数。为了检查相等性，我使用了toDF（），不幸的是，它给出了一个在模拟数据帧中的“_id”为nullable=true的模式，从而使测试失败（注意，函数的“实际”输出对所有内容都为nullable=true）。我还尝试以不同的方式创建模拟数据帧，这导致了错误：https://pa
在Scala火花数据帧DSL API中使用Scal-sql UDF
如何在火花scala数据帧（非文本）api中访问geomesas UDF？即如何转换如何使sql UDF在scala数据帧DSL中的文本spark sql API中可用？即如何启用而不是此表达式类似于如何注册Geomesa UDF，使其不仅适用于sql文本模式<代码>SQLTypes。init（spark.sqlContext）fromhttps://github.com/locationt
Scala Spark仅读取特定列下的最后一行
我如何修改下面的代码来只获取表中的最后一行，特别是列下的值？原因是，这是一个巨大的表，我需要最后一行，特别是键值，才能知道它加载了多少。我不在乎还有什么其他内容。第1行：第2行：第3行：
如何在Scala Spark中对RDD进行排序？
阅读Spark method sortByKey：是否可能只返回“N”个数量的结果。因此，与其返回所有结果，不如返回前10名。我可以将已排序的集合转换为数组，并使用方法，但既然这是一个O（N）操作，有没有更有效的方法？
Spark/scala-我们可以从数据帧中的现有列值创建新列吗
我正在尝试查看我们是否可以使用 spark/scala 从 dataFrame 中某个列中的值创建新列。我有一个数据帧，其中包含以下数据在上面的数据中，col1/col2/col3是列名，后跟它的值。列名和值由< code >，分隔。每组由< code>|分隔。现在，我想做到这一点感谢任何帮助。
在scala数据帧中合并映射
我有一个列为col1、col2、col3的数据帧。col3是下面定义的映射[String，String] 我按col1、col2进行分组，并使用collect_list进行聚合，以获得映射数组并存储在col4中。然而，我希望将col4作为一个单独的映射，并将所有映射合并。目前我有：预期输出使用udf是否理想？感谢您的帮助。谢谢
如何分区通过火花中的列并在将数据帧保存在火花scala之前删除相同的列
假设我们有一个列为col1、col2、col3、col4的数据帧。现在，在保存df时，我想使用col2进行分区，并且我将保存的最终df不应该有col2。所以最终的df应该是col1、col3、col4。关于如何实现这一点，有什么建议吗？
执行连接时更新Spark - Scala中的数据帧列名
在Apache Spark 2.1.0中，我有两个数据帧aaa_01和aaa_ 02。我对这两个数据帧执行内部联接，从两个数据帧中选择几个列以显示在输出中。 Join 工作正常，但输出数据帧具有与输入数据帧中存在的列名称相同的列名。我被困在这里。我需要使用新的列名称，而不是在输出数据帧中获取相同的列名称。下面给出了示例代码供参考我获取的输出数据帧的列名称为“col1，col2，col3”。我
在Scala中，从另一个没有数组列的数据帧中创建带有数组类型列的Spark数据帧的有效方法是什么？
假设，我有以下数据帧：与 col1 不同的值（p1、p2、p3）单独具有 id，将用作最终数据帧的列。在这里，id y 对于相同的 col1 值 p2 有两个 col2 值（b2 和 b3），因此，p2 将被视为数组类型列。因此，最终的数据帧将是如何从第一个数据帧高效地实现第二个数据帧？
spark scala -将json字符串转换为json结构
我有一个具有如下架构的数据帧我已经有了上面的结果。我想使用火花scala转换如下架构请帮忙
如何使用Scala在DataFrame中添加新的可空字符串列
可能至少有10个问题与此非常相似，但我仍然没有找到明确的答案。如何使用scala将可空字符串列添加到数据帧？我可以添加一个具有空值的列，但数据类型显示为空然而，该模式显示我希望新列是string |-new column:string(nullable = true) 请不要将其标记为重复，除非它实际上是同一个问题并且在scala中。
在Spark Scala中将ArrayType列传递给UDF
我在Scala的Spark数据框架中有一列，它是使用我想将此列传递给UDF，以便进一步处理，以处理此聚合列中的一个索引。当我将参数传递给我的UDF时： UDF-类型为Seq[Row]：val removeUnstableActivations:UserDefinedFunction=UDF（（xyz:java.util.Date，def:Seq[Row]）我收到错误：我应该如何传递这些列，

首页

69

70

71

72

73

74

75

76

77

尾页

最新发布

某一面虾皮 NLP 一面美的寒假实习llm面经蚂蚁大模型算法面经，say something I don't know 百度 llm算法一面凉经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

前端 - vu3+vite 使用vue-pdf-embed预览pdf，组件渲染空白，页面无报错，是什么原因？java - @Async("asyncTaskExecutor") 没有并发处理问题？python - 如何查看：pypi中想要看是否哪些包最受欢迎的库？前端 - 可以安装在内网使用的安卓模拟器？前端调用API之后更新状态逻辑：是触发store的方法进行拉取更新是吗，还是说直接修改store进行更新？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

objection Fqutils Gitee dcm4che pg_pathman AndroidJUnit4 reek WebJars

文档资料

小米数据处理和分析服务（EMR）使用指南 iOS 核心动画高级技巧蘋果 Swift 官方教學 v2.0 Effective C++ 中文版跟我学 Spring MVC