问题：

用Python创建自定义Spark RDD

赖俊

2023-03-14

如有任何建议或帮助，将不胜感激。

曼迪

共有1个答案

商高谊

2023-03-14

在分布式环境中计算精确的中位数需要一些努力，所以假设您想要将RDD中的所有值平方。让我们将此方法称为squares，并假设它的工作方式如下：

assert rdd.squares().collect() == rdd.map(lambda x: x * x).collect()

from pyspark import RDD

def squares(self):
    return self.map(lambda x: x * x)

RDD.squares = squares
rdd = sc.parallelize([1, 2, 3])
assert rdd.squares().collect() == [1, 4, 9]

注意：如果修改类定义，每个实例都可以访问方块。

class RDDWithSquares(RDD):
    def squares(self):
        return self.map(lambda x: x * x)

rdd = sc.parallelize([1, 2, 3])
rdd.__class__ = RDDWithSquares # WARNING: see a comment below

分配类是一个肮脏的黑客，所以在实践中，您应该以正确的方式创建一个RDD（例如，请参见context.parallelize实现）。

import types

rdd = sc.parallelize([1, 2, 3])
# Reusing squares function defined above
rdd.squares = types.MethodType(squares, rdd)

from toolz import pipe
pipe(
    sc.parallelize([1, 2, 3]),
    squares,
    lambda rdd: rdd.collect())

类似资料：

用javafx创建自定义树

基本上，我想知道我是否可以创建一个树并在JavaFX上自定义它...我试着去做，但到目前为止还不能用这个代码做任何事情... 我在质疑自己，这是否是正确的“技术”，可以解决我想做的事情... 我从https://docs.oracle.com/javafx/2/ui_controls/tree-view.htm#babjgggf看到了这个教程，但我对这个教程真的很困惑...我不太了解细胞工厂的机制
创建自定义注释

问题内容：注释如何与Java一起使用？以及如何创建这样的自定义注释：基本上，我需要保留的POJO在持久化时像这样进行序列化：这样，实际的生成/持久对象是这样的：任何想法如何实现这一点？问题答案：如果创建自定义注释，则必须使用此处的 API 示例进行处理。您可以参考如何声明注释。这是Java中的示例注释声明的样子。并被称为。表示您想在运行时保留注释，并且可以在运行时访问它。表示您
Django创建自定义UserCreationForm

问题内容：我在Django中启用了用户身份验证模块，但是当我使用它时，它仅询问用户名和两个密码/密码确认字段。我还希望将电子邮件和全名字段全部设置为必填字段。我已经做到了：现在，该表单显示了新字段，但是没有将它们保存到数据库中。我怎样才能解决这个问题？问题答案：用户模型中没有调用此字段。如果要使用原始模型存储名称，则必须将其分别存储为名字和姓氏。编辑：如果您只希望表单中的一个字段
创建自定义舵图

我正在使用helm charts创建部署微服务，通过执行helm create创建包含部署、服务和入口的基本图表，但我没有其他配置，如水平pod自动缩放器、pod中断预算。
创建自定义事件

我们不仅可以分配事件处理程序，还可以从 JavaScript 生成事件。自定义事件可用于创建“图形组件”。例如，我们自己的基于 JavaScript 的菜单的根元素可能会触发 open（打开菜单），select（有一项被选中）等事件来告诉菜单发生了什么。另一个代码可能会监听事件，并观察菜单发生了什么。我们不仅可以生成出于自身目的而创建的全新事件，还可以生成例如 click 和 mousedow
创建自定义指标

默认情况下，Navicat Monitor 从受监控的实例收集一组预设的服务器指标。你可能想要添加自己的查询，以收集特定实例的一些自定义性能指标，并在指标值超过某些阈值和持续时间时接收有关自定义数据的警报。若要配置自定义指标，请前往“配置”->“自定义指标”。创建自定义指标和警报在自定义指标页面中，点击“+ 新建自定义指标”。【步骤一】输入自定义指标的定义：指标名输入自定义指标的名。描

用Python创建自定义Spark RDD

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档