当前位置：首页 > 软件库 > 大数据 > 数据处理 >

Tuplex

基于 Python 的并行大数据处理框架

授权协议 Apache-2.0

开发语言 C/C++

所属分类大数据、数据处理

软件类型开源软件

地区不详

投递者相弘和

操作系统跨平台

开源组织无

适用人群未知

软件概览

Tuplex 是一个并行的大数据处理框架，它以编译代码的速度运行用 Python 编写的数据科学管道。Tuplex 具有与Apache Spark或Dask类似的 Python API ，但与调用 Python 解释器不同，Tuplex 为给定的管道和输入数据集生成优化的 LLVM 字节码。在底层，Tuplex 基于数据驱动编译和双模式处理，这两项关键技术使 Tuplex 能够提供与手工优化的 C++ 编写的流水线相媲美的速度。

安装

要安装 Tuplex，您可以使用适用于 Linux 的 PyPi 包，或适用于 MacOS 的 Docker 容器，这将启动预装 Tuplex 的 jupyter notebook。

Docker

docker run -p 8888:8888 tuplex/tuplex

PyPI

pip install tuplex

构建

Tuplex 适用于 MacOS 和 Linux。当前版本已在 MacOS 10.13-10.15 和 Ubuntu 18.04 和 20.04 LTS 下测试。要安装 Tuplex，只需先安装依赖项，然后构建包。

MacOS 从源代码构建

要构建 Tuplex，您首先需要其他几个可以通过 brew 轻松安装的软件包。

brew install llvm@9 boost boost-python3 aws-sdk-cpp pcre2 antlr4-cpp-runtime googletest gflags yaml-cpp celero
python3 -m pip cloudpickle numpy
python3 setup.py install

从源代码构建 Ubuntu

为了便于安装 Ubuntu 的依赖项，我们提供了两个脚本（scripts/ubuntu1804/install_reqs.sh适用于 Ubuntu 18.04 或scripts/ubuntu2004/install_reqs.shUbuntu 20.04）。要创建 Tuplex 的最新版本，只需运行

./scripts/ubuntu1804/install_reqs.sh
python3 -m pip cloudpickle numpy
python3 setup.py install

相关资料

基于python爬虫数据处理(详解)

本文向大家介绍基于python爬虫数据处理(详解)，包括了基于python爬虫数据处理(详解)的使用技巧和注意事项，需要的朋友参考一下一、首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1、设置变量 set @变量名=值 1.2 、length()函数 char_length()函数区别 1.3、 replace(
python中的并行处理

问题内容：什么是在python 2.7中进行并行处理的简单代码？我在网上找到的所有示例都是令人费解的，其中包括不必要的代码。我如何做一个简单的蛮力整数分解程序，在其中我可以在每个核（4）上分解一个整数？我的真实程序可能只需要2个内核，并且需要共享信息。我知道并存python和其他库，但是我想将使用的库数保持最少，因此我想使用和/或库，因为它们是python附带的问题答案：从python中
如何预处理“大数据” tsv文件并将其加载到python数据框中？

问题内容：我目前正在尝试将以下大的制表符分隔的文件导入Python中类似数据框的结构中-自然，我正在使用数据框，尽管我愿意接受其他选择。该文件大小为几GB，不是标准文件，它已损坏，即行的列数不同。一排可能有25列，另一排可能有21列。这是数据示例：如您所见，其中某些列的顺序不正确… 现在，我认为将文件导入数据框的正确方法是对数据进行预处理，以便可以输出带有值的数据框，例如更复杂的是，这是
可选：数据并行处理

译者：bat67 最新版会在译者仓库首先同步。在这个教程里，我们将学习如何使用数据并行（DataParallel）来使用多GPU。 PyTorch非常容易的就可以使用GPU，可以用如下方式把一个模型放到GPU上： device = torch.device("cuda：0") model.to(device) 然后可以复制所有的张量到GPU上： mytensor = my_tensor.to(
适用于并行进程的Python多处理

问题内容：如果对某些人来说这太简单了，我感到抱歉，但是我仍然不了解python的多处理技巧。我已经阅读了 http://docs.python.org/dev/library/multiprocessing http://pymotw.com/2/multiprocessing/basics.html 以及Google给我的许多其他教程和示例…其中许多从这里也是。好吧，我的情况是我必须计算许多
选择用于并行处理数据的最佳线程数

问题内容：假设我有一个处理100万个句子的任务。对于每个句子，我都需要对其进行处理，而这与处理它们的顺序无关。在我的Java程序中，我从我的主要工作分区中划分出一组期货，并带有一个可调用对象，该可调用对象定义了要在大量句子上完成的工作单元，并且我正在寻找一种优化线程数量的方法分配大量的句子来工作，然后重新组合每个线程的所有结果。在我看到收益递减之前，我可以使用的最大线程数将使我在速度方面达
数据库处理框架

是一个通用数据库处理框架(可以包含MSSQL POSTGRESQL,SQLITE EXCEL MYSQL DB2 ORACLE...只要你愿意实现接口就可以).很便捷地进行常用数据库操作(增删改查).其性能是几近纯ADO.NET.对于实体的查询采用emit实现,如果您还不满意可用此框架的代码生成器直接生成纯ADO.NET SQL形式.其主要特色就是性能和便捷的操作.
并行处理数据帧[副本]

我有一个进程，它要求处理dataframe的每一行，然后向每一行追加一个新值。这是一个很大的数据帧，一次处理一个数据帧需要几个小时。如果我有一个将每一行发送到一个函数的迭代罗循环，我可以并行处理以加快速度吗？行的结果不相关基本上我的代码是这样的有没有一种简单的方法可以这样做来加快处理速度？

同类工具

TipDM fq DataX Web HUAWEI Analytics Kit Cascalog Annoy OpenMetadata PackOne

相关阅读

在Python中并行处理大型.csv文件如何实现基于行的文件内容的并行处理大数据多处理如何基于熊猫python中的特定列合并两个数据框？如何基于mybatis框架查询数据库表数据并打印

相关文章

大数据生态圈的理解大数据技术十大核心原理 Linux基于xinetd服务的管理华为机试：数据分类处理西安隆基公司面试-大数据类

相关问答

基于arrivalnode的批处理代理 Spring批处理并行处理基于列值删除Python中的数据帧行[duplicate]基于数据库上另一个pyspark数据框的某些列，在大型pyspark数据框的列上执行用户定义的函数基于列的最大值删除熊猫数据帧行

相关文档

Python 文本处理深度学习入门：基于 Python 的理论与实现 Keras 基于 Python 的深度学习库 Python 自然语言处理基于 Node.js 的 HTTPS MITM 中间人代理的原理和实现