导引:Python 得益于丰富的生态库,是科学计算以及大数据处理首选的编程语言,但是受限于 GIL 导致的多线程执行问题使得并发处理大量数据时性能相对迟缓。但 Rust FFI 的互操作性使得改良数据处理库的性能很方便。今天日报就给大家带来两款基于 Rust 后端并提供 Python API 的数据处理库:
类似 pandas 的数据框架库,提供强大的表达式、IO功能以及惰性框架(LazyFrame)。惰性框架可以构建查询后通过后端执行计划优化再进行查询,配合流式IO可以极大地提高数据处理的效率。
官网:https://www.pola.rs/
手册:https://pola-rs.github.io/polars-book/user-guide/
仓库:https://github.com/pola-rs/polars/
DataPrep.EDA 使用 Python编写的、最快与最简单的探索式数据分析工具,让你能够仅使用几行代码即可快速处理理解 Pandas/Dask DataFrame。提供大量工具函数(DataPrep.Clean) 以及强大的数据库连接器(DataPrep.Connector)
官网:https://dataprep.ai/
仓库:https://github.com/sfu-db/dataprep
From 日报小组 huangjj27
社区学习交流平台订阅:
Rust.cc 论坛: 支持 rss
微信公众号:Rust 语言中文社区