我在DynamoDB有一个表,它有数百万条记录。我已经根据标准创建了一个二级索引(GSI),并基于此筛选产品。现在,我想使用AWS数据管线从表中查询产品并将其导出到S3。
a)我们可以在管道中指定GSI名称吗?因为使用数据管道对大型表进行查询会因为超时问题而被取消。[管道配置有6小时的最大等待时间,它正在达到并被取消]?b)有没有更好的方法来使用GSI索引从表中快速创建导出转储?
请分享你的观点。
问候,纪梭
不能在管道中指定GSI。这里给出了可以为dynamodb节点指定的可用选项列表。数据管道服务实际上为使用并行表扫描的导出作业创建了一个EMR集群。您可以尝试为节点使用更大的实例大小,以加快进程。
由于表有数百万条记录,请确保已预配足够的读取吞吐量。即使预配的吞吐量很高,导出速度也取决于为导出作业分配的预配吞吐量的百分比。这在AWS管道留档中描述。
我正在尝试使用数据管道将数据从dynamoDb导出到S3。我的表是按需配置的,包含10gb的数据。它将消耗多少rcu?有没有一种方法可以减少rcu的扩展,并最终增加传输时间?
我的DynamoDB表有大约1亿(30GB)个项目,我为它配置了10k RCU。我正在使用数据管道作业导出数据。 将DataPipeline读取吞吐量比设置为0.9。 如何计算完成导出的时间(管道完成导出需要4个多小时) 我如何优化它,使导出在更短的时间内完成。 读取吞吐量比率如何与DynamoDB导出相关?
我有一个百万记录的DynamoDB表。我正在使用数据管道将DynamoDb表导出到S3。但是数据管道以DynamoDB JSON格式将表导出为一组原始json文件。数据管道运行一小时后,由于超时异常,EMR失败。 有没有办法将DynamoDB表导出为CSV并增加数据管道中的EMR超时配置?
我曾经使用名为的Data Pipeline模板将DynamoDB表导出到文件。我最近更新了我所有的DynamoDB表,以按需提供和模板不再工作。我很确定这是因为旧模板指定了要消耗的DynamoDB吞吐量的百分比,这与按需表无关。 我尝试将旧模板导出到JSON,删除对吞吐量百分比消耗的引用,并创建一个新的管道。然而,这是不成功的。 有人能建议如何将具有吞吐量规定的旧式管道脚本转换为新的按需表脚本吗?
AWS Data Pipeline是一种Web服务,旨在使用户能够更轻松地集成跨多个AWS服务的数据,并从单个位置对其进行分析。 使用AWS Data Pipeline,可以从源访问数据,进行处理,然后将结果有效地传输到相应的AWS服务。 如何设置数据管道? 以下是设置数据管道的步骤 - Step 1 - 使用以下步骤创建管道。 登录AWS账户。 使用此链接打开AWS Data Pipeline控
我有一个DynamoDB表是14.05GB,有140,000,000项。我试图使用数据管道克隆它(到同一区域),但当管道完成时,目标表只有大约160,000个项目,我等了6个小时才能查看项目计数。 我将每个表的吞吐量设置为256,管道需要大约20分钟才能完成。有没有可能导致管道只复制表的一部分?尺寸和物品数量是否有无形的限制?我已经尝试了3次,每次都有类似的结果,“完成”的目标表只包含90150k