Pyleus

分布式处理框架
授权协议 Apache
开发语言 Python
所属分类 服务器软件、 分布式应用/网格
软件类型 开源软件
地区 不详
投 递 者 司允晨
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Pyleus 是一个来自 Yelp 的开源框架,使得 Yelp 的另外一个开源项目 mrjob 可以运行在 Apache Storm 框架上,就像 Hadoop 一样。开发者可以使用纯 Python 实现大数据的处理,并进行快速迭代。

安装:pip install pyleus

示例代码:word_count

 相关资料
  • 我在Cloudera CDH5.3集群上运行Spark,使用YARN作为资源管理器。我正在用Python(PySpark)开发Spark应用程序。 我正在运行一个提交命令,如下所示: 如何确保作业在集群中并行运行?

  • 我想分散加工大批量。这个想法是使用Spring Batch在云中激发一堆AMQP消费者,然后加载廉价的任务(如项目ID)并将它们提交给AMQP交换。结果的书写将由消费者自己完成。 null

  • ShardingSphere-Proxy 支持使用 SPI 方式接入分布式治理,实现配置和元数据统一管理以及实例熔断和从库禁用等功能。 Zookeeper ShardingSphere-Proxy 默认提供了 Zookeeper 解决方案,实现了注册中心功能。 配置规则同 ShardingSphere-JDBC YAML 保持一致。 其他第三方组件 详情请参考支持的第三方组件。 使用 SPI 方式

  • 使用治理功能需要指定配置中心和注册中心。 配置将全部存入配置中心,可以在每次启动时使用本地配置覆盖配置中心配置,也可以只通过配置中心读取配置。

  • 背景 随着数据规模的不断膨胀,使用多节点集群的分布式方式逐渐成为趋势。在这种情况下,如何高效、自动化管理集群节点,实现不同节点的协同工作,配置一致性,状态一致性,高可用性,可观测性等,就成为一个重要的挑战。 本部分包括三个模块:治理、可观测性、集群管理(计划中)。 挑战 分布式治理的挑战,主要在于集群管理的复杂性,以及如何以统一和标准的方式对接各种第三方集成组件。 集成管理的复杂性体现在,一方面我

  • 一、MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,value> 键值