当前位置: 首页 > 软件库 > 大数据 > 数据处理 >

Tuplex

基于 Python 的并行大数据处理框架
授权协议 Apache-2.0
开发语言 C/C++
所属分类 大数据、 数据处理
软件类型 开源软件
地区 不详
投 递 者 相弘和
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Tuplex 是一个并行的大数据处理框架,它以编译代码的速度运行用 Python 编写的数据科学管道。Tuplex 具有与Apache SparkDask类似的 Python API ,但与调用 Python 解释器不同,Tuplex 为给定的管道和输入数据集生成优化的 LLVM 字节码。在底层,Tuplex 基于数据驱动编译和双模式处理,这两项关键技术使 Tuplex 能够提供与手工优化的 C++ 编写的流水线相媲美的速度。

安装

要安装 Tuplex,您可以使用适用于 Linux 的 PyPi 包,或适用于 MacOS 的 Docker 容器,这将启动预装 Tuplex 的 jupyter notebook。

Docker

docker run -p 8888:8888 tuplex/tuplex

PyPI

pip install tuplex

构建

Tuplex 适用于 MacOS 和 Linux。当前版本已在 MacOS 10.13-10.15 和 Ubuntu 18.04 和 20.04 LTS 下测试。要安装 Tuplex,只需先安装依赖项,然后构建包。

MacOS 从源代码构建

要构建 Tuplex,您首先需要其他几个可以通过 brew 轻松安装的软件包。

brew install llvm@9 boost boost-python3 aws-sdk-cpp pcre2 antlr4-cpp-runtime googletest gflags yaml-cpp celero
python3 -m pip cloudpickle numpy
python3 setup.py install

从源代码构建 Ubuntu

为了便于安装 Ubuntu 的依赖项,我们提供了两个脚本(scripts/ubuntu1804/install_reqs.sh适用于 Ubuntu 18.04 或scripts/ubuntu2004/install_reqs.shUbuntu 20.04)。要创建 Tuplex 的最新版本,只需运行

./scripts/ubuntu1804/install_reqs.sh
python3 -m pip cloudpickle numpy
python3 setup.py install
 相关资料
  • 本文向大家介绍基于python爬虫数据处理(详解),包括了基于python爬虫数据处理(详解)的使用技巧和注意事项,需要的朋友参考一下 一、首先理解下面几个函数 设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1、设置变量 set @变量名=值 1.2 、length()函数 char_length()函数区别 1.3、 replace(

  • 问题内容: 什么是在python 2.7中进行并行处理的简单代码?我在网上找到的所有示例都是令人费解的,其中包括不必要的代码。 我如何做一个简单的蛮力整数分解程序,在其中我可以在每个核(4)上分解一个整数?我的真实程序可能只需要2个内核,并且需要共享信息。 我知道并存python和其他库,但是我想将使用的库数保持最少,因此我想使用和/或库,因为它们是python附带的 问题答案: 从python中

  • 问题内容: 我目前正在尝试将以下大的制表符分隔的文件导入Python中类似数据框的结构中-自然,我正在使用数据框,尽管我愿意接受其他选择。 该文件大小为几GB,不是标准文件,它已损坏,即行的列数不同。一排可能有25列,另一排可能有21列。 这是数据示例: 如您所见,其中某些列的顺序不正确… 现在,我认为将文件导入数据框的正确方法是对数据进行预处理,以便可以输出带有值的数据框,例如 更复杂的是,这是

  • 译者:bat67 最新版会在译者仓库首先同步。 在这个教程里,我们将学习如何使用数据并行(DataParallel)来使用多GPU。 PyTorch非常容易的就可以使用GPU,可以用如下方式把一个模型放到GPU上: device = torch.device("cuda:0") model.to(device) 然后可以复制所有的张量到GPU上: mytensor = my_tensor.to(

  • 问题内容: 如果对某些人来说这太简单了,我感到抱歉,但是我仍然不了解python的多处理技巧。我已经阅读了 http://docs.python.org/dev/library/multiprocessing http://pymotw.com/2/multiprocessing/basics.html 以及Google给我的许多其他教程和示例…其中许多从这里也是。 好吧,我的情况是我必须计算许多

  • 问题内容: 假设我有一个处理100万个句子的任务。 对于每个句子,我都需要对其进行处理,而这与处理它们的顺序无关。 在我的Java程序中,我从我的主要工作分区中划分出一组期货,并带有一个可调用对象,该可调用对象定义了要在大量句子上完成的工作单元,并且我正在寻找一种优化线程数量的方法分配大量的句子来工作,然后重新组合每个线程的所有结果。 在我看到收益递减之前,我可以使用的最大线程数将使我在速度方面达

  • 是一个通用数据库处理框架(可以包含MSSQL POSTGRESQL,SQLITE EXCEL MYSQL DB2 ORACLE...只要你愿意实现接口就可以).很便捷地进行常用数据库操作(增删改查).其性能是几近纯ADO.NET.对于实体的查询采用emit实 现,如果您还不满意可用此框架的代码生成器直接生成纯ADO.NET SQL形式.其主要特色就是性能和便捷的操作.  

  • 我有一个进程,它要求处理dataframe的每一行,然后向每一行追加一个新值。这是一个很大的数据帧,一次处理一个数据帧需要几个小时。 如果我有一个将每一行发送到一个函数的迭代罗循环,我可以并行处理以加快速度吗?行的结果不相关 基本上我的代码是这样的 有没有一种简单的方法可以这样做来加快处理速度?