数据管道(Data Pipeline)
AWS Data Pipeline是一种Web服务,旨在使用户能够更轻松地集成跨多个AWS服务的数据,并从单个位置对其进行分析。
使用AWS Data Pipeline,可以从源访问数据,进行处理,然后将结果有效地传输到相应的AWS服务。
如何设置数据管道?
以下是设置数据管道的步骤 -
Step 1 - 使用以下步骤创建管道。
登录AWS账户。
使用此链接打开AWS Data Pipeline控制台 - https://console.aws.amazon.com/datapipeline/
在导航栏中选择区域。
单击“创建新管道”按钮。
在相应字段中填写所需的详细信息。
在“源”字段中,选择“使用模板构建”,然后选择此模板 - 使用ShellCommandActivity入门。
仅当选择模板时,“参数”部分才会打开。 保留S3输入文件夹和Shell命令以使用其默认值运行。 单击S3输出文件夹旁边的文件夹图标,然后选择存储桶。
在Schedule中,将值保留为默认值。
在管道配置中,将日志记录保留为已启用。 单击S3 location下的文件夹图标以获取日志,然后选择存储桶。
在Security/Access中,将IAM角色值保留为默认值。
单击“激活”按钮。
如何删除管道?
删除管道也将删除所有关联的对象。
Step 1 - 从管道列表中选择管道。
Step 2 - 单击“操作”按钮,然后选择“删除”。
Step 3 - 打开确认提示窗口。 单击删除。
AWS Data Pipeline的功能
Simple and cost-efficient - 其拖放功能使您可以轻松地在控制台上创建管道。 它的可视化管道创建者提供了一个管道模板库。 这些模板可以更轻松地为处理日志文件,将数据存档到Amazon S3等任务创建管道。
Reliable - 其基础架构专为容错执行活动而设计。 如果活动逻辑或数据源发生故障,则AWS Data Pipeline会自动重试该活动。 如果故障仍然存在,那么它将发送故障通知。 我们甚至可以为成功运行,失败,活动延迟等情况配置这些通知警报。
Flexible - AWS Data Pipeline提供各种功能,如调度,跟踪,错误处理等。它可以配置为执行诸如运行Amazon EMR作业,直接对数据库执行SQL查询,执行在Amazon EC2上运行的自定义应用程序等操作。