当前位置：首页 > 软件库 > 大数据 > 其他 >

Polars

快速多线程 DataFrame 库

授权协议 MIT

开发语言 Python Rust

所属分类大数据、其他

软件类型开源软件

地区不详

投递者劳研

操作系统跨平台

开源组织无

适用人群未知

软件概览

Polars 是一个 Rust 和 Python 中的快速多线程 DataFrame 库/内存查询引擎。它使用 Apache Arrow(2) 作为内存模型在 Rust 中实现。并行执行、高效的缓存算法和富有表现力的 API 使其成为高效数据处理、数据管道、快速 API 等的完美选择。

Lazy | eager 执行
多线程
SIMD
查询优化
强大的表达式 API
Rust | Python | ...

更多信息可读用户指南。

>>> df = pl.DataFrame(
    {
        "A": [1, 2, 3, 4, 5],
        "fruits": ["banana", "banana", "apple", "apple", "banana"],
        "B": [5, 4, 3, 2, 1],
        "cars": ["beetle", "audi", "beetle", "beetle", "beetle"],
    }
)

# embarrassingly parallel execution
# very expressive query language
>>> (df
    .sort("fruits")
    .select([
    "fruits",
    "cars",
    lit("fruits").alias("literal_string_fruits"),
    col("B").filter(col("cars") == "beetle").sum(),
    col("A").filter(col("B") > 2).sum().over("cars").alias("sum_A_by_cars"),       # groups by "cars"
    col("A").sum().over("fruits").alias("sum_A_by_fruits"),                        # groups by "fruits"
    col("A").reverse().over("fruits").flatten().alias("rev_A_by_fruits"),          # groups by "fruits
    col("A").sort_by("B").over("fruits").flatten().alias("sort_A_by_B_by_fruits")  # groups by "fruits"
]))
shape: (5, 8)
┌──────────┬──────────┬──────────────┬─────┬─────────────┬─────────────┬─────────────┬─────────────┐
│ fruits   ┆ cars     ┆ literal_stri ┆ B   ┆ sum_A_by_ca ┆ sum_A_by_fr ┆ rev_A_by_fr ┆ sort_A_by_B │
│ ---      ┆ ---      ┆ ng_fruits    ┆ --- ┆ rs          ┆ uits        ┆ uits        ┆ _by_fruits  │
│ str      ┆ str      ┆ ---          ┆ i64 ┆ ---         ┆ ---         ┆ ---         ┆ ---         │
│          ┆          ┆ str          ┆     ┆ i64         ┆ i64         ┆ i64         ┆ i64         │
╞══════════╪══════════╪══════════════╪═════╪═════════════╪═════════════╪═════════════╪═════════════╡
│ "apple"  ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 7           ┆ 4           ┆ 4           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "apple"  ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 7           ┆ 3           ┆ 3           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 8           ┆ 5           ┆ 5           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "audi"   ┆ "fruits"     ┆ 11  ┆ 2           ┆ 8           ┆ 2           ┆ 2           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 8           ┆ 1           ┆ 1           │
└──────────┴──────────┴──────────────┴─────┴─────────────┴─────────────┴─────────────┴─────────────┘

使用案例

比pandas速度更快的数据分析工具-polars，已支持python语言

Polars 是使用 Apache Arrow 列格式作为内存模型，使用rust语言实现，目前已经支持python、rust、nodejs编程语言。 polars非标准库实现了多线程、查询优化以及强大的表达式接口，在同样场景的数据分析中效率提高了很多。开始之前，我们还是一如既往的来安装一下相关的python非标准库。除了这次需要安装的polars，我们安装pandas库来做运行效率上的对比。下
Rust polars库 DataFrame

polars 库文档查看【点击】数据结构与特征： DataFrame struct Series struct Series trait ChunkedArray struct 数据读写 CSV/ JSON 点击查看更多示例在使用相应的模块时，需要开启此特性，否则该方法无法使用。则会出现报错：use of undeclared type 'JsonReader' [dependencies
python : pandas库的后继者polars库

polars库是python的又一dataframe库，显然，在pandas库的光芒下，要上位是不容易的，必须有过硬的功夫。一、用法基本一致从长相上看，两者有孪生相，用法和接口基本无二。至少大部分非常非常相似。估计很多只需要在import 这行改一行，估计就能用上了。安装： pip install polars 也可以通过镜像，这样快一些。二、速度polars优势明显 import t
【Rust 日报】2022-04-15 polars 闪电般快速的数据框架库

导引：Python 得益于丰富的生态库，是科学计算以及大数据处理首选的编程语言，但是受限于 GIL 导致的多线程执行问题使得并发处理大量数据时性能相对迟缓。但 Rust FFI 的互操作性使得改良数据处理库的性能很方便。今天日报就给大家带来两款基于 Rust 后端并提供 Python API 的数据处理库： polars 闪电般快速的数据框架库类似 pandas 的数据框架库，提供强大的表达式、
Polars: 超过2.5万名用户参与了beta测试

专注于为预测市场开发的去中心化平台Polars以极地代币概念的推出，开始在以太坊 "rinkeby "测试网进行智能协议的beta版本测试。 Polars的beta测试过程相当有趣，而且非常实用。开发者将测试分解成几个连续的阶段，鼓励用户一步一步地完成。因此，在测试过程中，Polars生态系统的所有的智能合约都会进行测试，用户将会完全熟悉平台的所有基本功能。目前，超过25000名用户正在参加测试。

Polars

同类工具

相关阅读

相关文章

相关问答

相关文档