数据管道(Data Pipeline)

优质
小牛编辑
128浏览
2023-12-01

AWS Data Pipeline是一种Web服务,旨在使用户能够更轻松地集成跨多个AWS服务的数据,并从单个位置对其进行分析。

使用AWS Data Pipeline,可以从源访问数据,进行处理,然后将结果有效地传输到相应的AWS服务。

如何设置数据管道?

以下是设置数据管道的步骤 -

Step 1 - 使用以下步骤创建管道。

  • 登录AWS账户。

  • 使用此链接打开AWS Data Pipeline控制台 - https://console.aws.amazon.com/datapipeline/

  • 在导航栏中选择区域。

  • 单击“创建新管道”按钮。

  • 在相应字段中填写所需的详细信息。

    • 在“源”字段中,选择“使用模板构建”,然后选择此模板 - 使用ShellCommandActivity入门。

创建管道
    • 仅当选择模板时,“参数”部分才会打开。 保留S3输入文件夹和Shell命令以使用其默认值运行。 单击S3输出文件夹旁边的文件夹图标,然后选择存储桶。

    • 在Schedule中,将值保留为默认值。

    • 在管道配置中,将日志记录保留为已启用。 单击S3 location下的文件夹图标以获取日志,然后选择存储桶。

    • 在Security/Access中,将IAM角色值保留为默认值。

    • 单击“激活”按钮。

如何删除管道?

删除管道也将删除所有关联的对象。

Step 1 - 从管道列表中选择管道。

Step 2 - 单击“操作”按钮,然后选择“删除”。

创建新的管道

Step 3 - 打开确认提示窗口。 单击删除。

AWS Data Pipeline的功能

Simple and cost-efficient - 其拖放功能使您可以轻松地在控制台上创建管道。 它的可视化管道创建者提供了一个管道模板库。 这些模板可以更轻松地为处理日志文件,将数据存档到Amazon S3等任务创建管道。

Reliable - 其基础架构专为容错执行活动而设计。 如果活动逻辑或数据源发生故障,则AWS Data Pipeline会自动重试该活动。 如果故障仍然存在,那么它将发送故障通知。 我们甚至可以为成功运行,失败,活动延迟等情况配置这些通知警报。

Flexible - AWS Data Pipeline提供各种功能,如调度,跟踪,错误处理等。它可以配置为执行诸如运行Amazon EMR作业,直接对数据库执行SQL查询,执行在Amazon EC2上运行的自定义应用程序等操作。