当前位置: 首页 > 软件库 > 大数据 > 数据处理 >

Data Accelerator

简化流数据处理的数据管道
授权协议 MIT
开发语言 C#
所属分类 大数据、 数据处理
软件类型 开源软件
地区 不详
投 递 者 惠凯歌
操作系统 跨平台
开源组织 微软
适用人群 未知
 软件概览

Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道:

  • 即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持将数据下载到 Azure blob、CosmosDB、Eventhub 等。
  • 无代码体验:无需编写任何代码即可设置警报和数据处理。通过规则设计器体验,您可以指定简单和聚合的数据处理,标记和警报。
  • SQL 查询:在 SQL 中编写复杂的处理——无需在 Scala 中工作。内置的可扩展性模型还支持用户定义的函数并利用 Azure 功能,例如,用于 ML 中流。
  • 实时查询:通过针对传入数据样本运行,在几秒钟内验证您的查询,从而节省设置和测试管道处理的工作时间。

Data Accelerator 不仅仅是 EventHub 和数据库之间的管道。它允许用户在继续流式传输的同时重塑传入的事件,然后将同一事件的不同部分路由到不同的数据存储,同时提供健康监控和整个管道状态的警报。

Data Accelerator 还提供配置 UI 和规则/查询设计器体验,使用户无需编写任何代码即可启动和运行。

 相关资料
  • 下面是我的流处理的伪代码。 上面的代码流程正在创建多个文件,我猜每个文件都有不同窗口的记录。例如,每个文件中的记录都有时间戳,范围在30-40秒之间,而窗口时间只有10秒。我预期的输出模式是将每个窗口数据写入单独的文件。对此的任何引用或输入都会有很大帮助。

  • 如 范式化数据 章节所提及的,我们经常使用 Normaizr 库将嵌套式数据转化为适合集成到 store 中的范式化数据。但这并不解决针对范式化的数据进一步更新后在应用的其他地方使用的问题。根据喜好有很多种方法可供使用。下面展示一个像文章添加评论的示例。 标准方法 简单合并 一种方法是将 action 的内容合并到现有的 state。在这种情况下,我们需要一个对数据的深拷贝(非浅拷贝)。Lodas

  • 在我的公司,我们广泛使用Kafka,但出于容错的原因,我们一直使用关系数据库来存储几个中间转换和聚合的结果。现在我们正在探索Kafka流作为一种更自然的方法来做到这一点。通常,我们的需求很简单--其中一个例子是 监听的输入队列 对每个记录执行一些高延迟操作(调用远程服务) 如果在处理时,都已生成,那么我应该处理V3,因为V2已经过时了 为了实现这一点,我将主题作为阅读。代码如下所示 这是预期的,但

  • 我有一个特定的要求,其中,我需要检查空的数据文件。如果为空,则填充默认值。这是我尝试过但没有得到我想要的东西。 这个想法是,如果df不是空的,就得到它。如果为空,则填写默认值为零。这似乎不起作用。以下是我得到的。 请帮忙。

  • 问题 你想以数据管道(类似Unix管道)的方式迭代处理数据。 比如,你有个大量的数据需要处理,但是不能将它们一次性放入内存中。 解决方案 生成器函数是一个实现管道机制的好办法。 为了演示,假定你要处理一个非常大的日志文件目录: foo/ access-log-012007.gz access-log-022007.gz access-log-032007.gz ..

  • 在本章节,提供了关于诸葛io数据管理的相关文档: 数据模型 数据接入技术 identify记录用户身份 UTM参数标识流量 DeepShare跨应用商店的来源分析 事件分组&重要事件(星标事件) 数据的别名/隐藏/停用 字符串/数值/日期的设置 用户信息脱敏与数据安全 成员角色权限表

  • 这一章介绍如何在 Docker 内部以及容器之间管理数据,在容器中管理数据主要有两种方式: 数据卷(Volumes) 挂载主机目录 (Bind mounts)

  • 频道流水报表管理 获取频道报表 获取频道资金流水 获取频道打赏流水 获取频道发红包/抢红包记录 获取频道付费流水 获取观众观看流水_V2 获取观众观看流水_V1 获取频道报名问卷数据 获取频道问卷列表数据 获取频道观众列表V2 获取频道观众列表