BlazingSQL

GPU 加速 SQL 引擎
授权协议 Apache
开发语言 C/C++ Python
所属分类 数据库相关、 数据库驱动程序
软件类型 开源软件
地区 不详
投 递 者 哈泰
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

BlazingSQL 是 RAPIDS 生态系统的 GPU 加速 SQL 引擎。

RAPIDS 包含一组软件库(BlazingSQLcuDFcuMLcuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。 RAPIDS基于Apache Arrow柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据。

BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

主要特性:

  • 查询外部存储数据 - 单行代码可以注册远程存储解决方案,例如Amazon S3。
  • 简单的SQL  - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。
  • 互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

示例代码:

CVS 读取:

from blazingsql import BlazingContext
bc = BlazingContext()

# Create Table from CSV
bc.create_table('taxi', '/blazingdb/data/taxi.csv', delimiter= ',', names = column_names)

# Query
result = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()
result_gdf = result.columns

#Print GDF 
print(result_gdf)

JSON 处理:

from blazingsql import BlazingContext
import cudf

bc = BlazingContext()

# Load JSON into GPU DataFrame (GDF)
taxi_gdf = cudf.io.json.read_json('taxi.json')

# Create Table from GDF
bc.create_table('taxi', taxi_gdf)

# Query
result = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()
result_gdf = result.columns

#Print GDF 
print(result_gdf)

 

 相关资料
  • 问题内容: 从CSV加载数据似乎比从Pandas的SQL(Postgre SQL)加载数据要快。(我有一个固态硬盘) 这是我的测试代码: foo.csv和数据库是相同的(两个列中的数据和列数相同,4列,100000行充满随机int)。 CSV需要0.05秒 SQL花费0.5秒 您认为CSV比SQL快10倍是正常的吗?我想知道我是否在这里错过了什么… 问题答案: 这是正常现象,读取csv文件始终是简

  • 问题内容: 我有一个SQL Server 2005数据库,我尝试将索引放在适当的字段上,以加快具有数百万行(只有3列)的表中记录的速度,但是现在执行时间 更长 !(例如1小时对13分钟) 我与表之间有关系,我过滤依据的列在另一个表中。例如 顺便说一句,我也尝试过: 尽管它看起来比第一个要快一些,但是使用索引仍然要比不使用索引慢得多。 我在这些字段上创建了索引: 我的.ldf文件在期间增长了很多。

  • 感谢您的购买和支持。微 PE 优盘是专业IT维护工具,是装机小白晋升IT装机大神的快速通道。我们尽可能的会把教程写的详细,严谨一些。这样您可以学到真正的装机知识。 本产品系列教程分为:微PE优盘使用指南、PE安装Windows系统教程、PE系统维护系列教程。其中,微PE优盘使用说明部分将介绍使用微PE优盘前的注意事项、启动微PE优盘的方式和进入PE之后的必要操作。请务必仔细阅读。 注意 本教程只适

  • 问题内容: 我有一个脚本,该脚本必须查看超过250万条记录,以查找是否有未读电子邮件的成员。我想知道可以采取什么措施来提高其速度。目前,运行脚本最多可能需要8秒钟的时间: 如何使用索引使其更快? 问题答案: 该索引可能会有所帮助,但是请记住,这里没有免费的午餐(必须维护索引,因此这会影响您的插入/更新/删除工作量): 现在,您的查询可以说: 如果您根据查询更改其中一些标志的值,则可以尝试将这些列添

  • 你可以通过执行npm run preview -- --report来分析webpack打包之后的结果,观察各个静态资源的大小。你可以发现占用空间最多的是第三方依赖。如vue、element-ui、 ECharts等。 你可以使用 CDN 外链的方式引入这些第三方库,这样能大大增加构建的速度(通过 CDN 引入的资源不会经 webpack 打包)。如果你的项目没有自己的CDN服务的话,使用一些第三

  • 加速计 jd.startAccelerometer(Object object) 开始监听加速度数据。 参数 Object object 属性 类型 默认值 必填 说明 interval string normal 否 监听加速度数据回调函数的执行频率 success function 否 接口调用成功的回调函数 fail function 否 接口调用失败的回调函数 complete funct

  • 问题内容: 在我的Rails应用程序中,我具有允许查找与当前登录用户最接近的用户的功能。我为此使用了Geocoder gem。在用户模型中,我具有如下范围: 这非常有效,但是对于大量用户而言却很慢。当我调用此作用域时,它将生成以下sql查询: 我正在尝试为此创建索引,但它们不起作用。我正在尝试以下组合: 我应该如何添加索引以加快此查询的速度? 编辑:我忘记添加我的纬度和经度列是小数。 此查询的AN

  • SQL 语句 语法 AND / OR SELECT column_name(s) FROM table_name WHERE condition AND|OR condition ALTER TABLE ALTER TABLE table_name ADD column_name datatype or ALTER TABLE table_name DROP COLUMN column_name