DataFusion

基于 Rust 的查询执行框架
授权协议 Apache-2.0
开发语言 Rust
所属分类 数据库相关、 数据库管理工具
软件类型 开源软件
地区 不详
投 递 者 百里嘉泽
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

DataFusion 是一个可扩展的查询执行框架,用 Rust 编写,使用 Apache Arrow 作为其内存格式。

DataFusion 支持用于构建逻辑查询计划的 SQL 和 DataFrame API,以及能够使用线程对分区数据源(CSV 和 Parquet)并行执行的查询优化器和执行引擎。DataFusion 还通过 Ballista crate 支持分布式查询执行 。

特性:

  • 高性能:利用 Rust 和 Arrow 的内存模型,DataFusion 实现了非常高的性能
  • 易于连接:作为 Apache Arrow 生态系统(Arrow、Parquet 和 Flight)的一部分,DataFusion 与大数据生态系统的其余部分配合良好
  • 易于嵌入:几乎可以在其设计的任何一点进行扩展,DataFusion 可以针对特定用例进行定制
  • 高质量:DataFusion 本身以及与 Arrow 生态系统的其余部分都经过广泛测试,可用作生产系统的基础。

示例用法

对存储在 CSV 中的数据运行 SQL 查询:

use datafusion::prelude::*;
use datafusion::arrow::util::pretty::print_batches;
use datafusion::arrow::record_batch::RecordBatch;

#[tokio::main]
async fn main() -> datafusion::error::Result<()> {
  // register the table
  let mut ctx = ExecutionContext::new();
  ctx.register_csv("example", "tests/example.csv", CsvReadOptions::new())?;

  // create a plan to run a SQL query
  let df = ctx.sql("SELECT a, MIN(b) FROM example GROUP BY a LIMIT 100")?;

  // execute and print results
  df.show().await?;
  Ok(())
}
  • 数据融合(data fusion)原理与方法      数据融合(data fusion)最早被应用于军事领域。      现在数据融合的主要应用领域有:多源影像复合、机器人和智能仪器系统、战场和无人驾驶飞机、图像分析与理解、目标检测与跟踪、自动目标识别等等。在遥感中,数据融合属于一种属性融合,它是将同一地区的多源遥感影像数据加以智能化合成,产生比单一信息源更精确、更完全、更可靠的估计和判断。 一

  • 定义及原理 数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。(百度百科) Data fusion is the process of integrating multiple data sources to produce more consistent, accurate, and useful informa

  • 1. 前言 一直觉得“数据融合”这个翻译有点怪,不过也想不到更好的代替 这方面的资料也是多如牛毛,最常见的三种模型是NNDF,PDAF和JPDAF。当然MHT也属于这个范畴,不过MHT同时解决了跟踪的问题(初始化,终止等判断) 2. 资料 现有的一些资料(包括两份代码)好像关键公式都有细微但致命的区别,所以想找最原始的资料。 Adaptive nonlinear filtering for tra

  • 文献来源:Lahat D, Adali T, Jutten C. Multimodal data fusion: an overview of methods, challenges, and prospects[J]. Proceedings of the IEEE, 2015, 103(9): 1449-1477. 行文架构 引文 什么是多模态?为什么需要多模态? 多模态作为多样性的一种形式

  • 比赛信息:链接 The Contest: Goals and Organisation  The 2019 Data Fusion Contest, organized by the Image Analysis and Data Fusion Technical Committee (IADF TC) of the IEEE Geoscience and Remote Sensing Socie

  • 5.基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning 摘要:随着科技的迅猛发展,具有计算和存储能力的边缘设备数量不断增加,产生的数据流量更是呈指数式增长,这使得以云计算为核心的集中式处理模式难以高效处理边缘设备产生的数据.另外,由于边缘网络设备的多样性以及数据表示手段的不断丰富,

  • SnakeOS v0.1.0发布 我刚刚发布了 https://github.com/trusch/snakeos 的 v0.1.0!这是继在 Rust 博客系列中编写操作系统之后适用于 x86 CPU 的可启动贪吃蛇游戏。它支持 async/await 和动态内存管理,当然,玩蛇 :) 我在发布中附上了一个可启动的映像,所以你们所有想要短暂休息的人,现在你可以在裸机上玩贪吃蛇了! 文章链接,ht

  • 数据融合(data fusion)原理与方法 一. 数据融合基本涵义 数据融合(data fusion)最早被应用于军事领域。 现在数据融合的主要应用领域有:多源影像复合、机器人和智能仪器系统、战场和无人驾驶飞机、图像分析与理解、目标检测与跟踪、自动目标识别等等。在遥感中,数据融合属于一种属性融合,它是将同一地区的多源遥感影像数据加以智能化合成,产生比单一信息源更精确、更完全、更可靠的估计和判断。

  • https://blog.csdn.net/huixinhan/article/details/104570430

 相关资料
  • 我对弹性搜索完全陌生。我在试着从弹性搜索中取记录。 我查了文件,但找不到任何解决办法。如果你在这里给我一些提示或一些网站,我可以解决我的问题,我将非常感谢。

  • 问题内容: 我需要检查(从同一张表)基于日期时间的两个事件之间是否存在关联。 一组数据将包含某些事件的结束日期时间,另一组数据将包含其他事件的开始日期时间。 如果第一个事件在第二个事件之前完成,那么我想将它们链接起来。 到目前为止,我有: 然后我加入他们: 然后,可以基于我的validation_check字段运行带有SELECT嵌套的UPDATE查询吗? 问题答案: 您实际上可以通过以下两种方式

  • 一旦你建立好数据模型之后,django会自动生成一套数据库抽象的API,可以让你执行增删改查的操作。这篇文档阐述了如何使用这些API。关于所有模型检索选项的详细内容,请见数据模型参考。 在整个文档(以及参考)中,我们会大量使用下面的模型,它构成了一个博客应用。 from django.db import models class Blog(models.Model): name = mo

  • 在我的DynamoDB表中,有HashKey=ID和GSI=Type。我需要获取特定类型(GSI)的所有hashKeys(ID)。 在这种情况下,获取给定类型的所有ID的有效方法是什么?我的DynamoDB表不会很大。

  • 执行查询 可以使用 execute() 和 query() 方法进行查询。execute() 方法会返回查询条数,query() 方法会返回结果。结果参照 PDOStatement <?php use Phinx\Migration\AbstractMigration; class MyNewMigration extends AbstractMigration { /**

  • Query 也可以直接执行一个SQL查询,即Select命令。在Postgres中支持原始SQL语句中使用 ` 和 ? 符号。 sql := "select * from userinfo" results, err := engine.Query(sql) 当调用 Query 时,第一个返回值 results 为 []map[string][]byte 的形式。 Query 的参数也允许传