我的DynamoDB表有大约1亿(30GB)个项目,我为它配置了10k RCU。我正在使用数据管道作业导出数据。
将DataPipeline读取吞吐量比设置为0.9。
如何计算完成导出的时间(管道完成导出需要4个多小时)
我如何优化它,使导出在更短的时间内完成。
读取吞吐量比率如何与DynamoDB导出相关?
此问题的答案解决了大多数有关估计数据管道作业完成时间的问题。
现在有一个更好的解决方案可以将数据从DynamoDB导出到S3,该解决方案于2020年11月发布。现在有一种方法可以直接从DynamoDB实现这一点,而无需提供EMR集群和大量RCU。
查看以下文档:将DynamoDB表数据导出到amazons3
我正在尝试使用数据管道将数据从dynamoDb导出到S3。我的表是按需配置的,包含10gb的数据。它将消耗多少rcu?有没有一种方法可以减少rcu的扩展,并最终增加传输时间?
我在DynamoDB有一个表,它有数百万条记录。我已经根据标准创建了一个二级索引(GSI),并基于此筛选产品。现在,我想使用AWS数据管线从表中查询产品并将其导出到S3。 a)我们可以在管道中指定GSI名称吗?因为使用数据管道对大型表进行查询会因为超时问题而被取消。[管道配置有6小时的最大等待时间,它正在达到并被取消]?b)有没有更好的方法来使用GSI索引从表中快速创建导出转储? 请分享你的观点。
我试图在ProductFeature表中插入product对象。但我做不到。如何在下面的impex标题中插入值?
我有一个DynamoDB表是14.05GB,有140,000,000项。我试图使用数据管道克隆它(到同一区域),但当管道完成时,目标表只有大约160,000个项目,我等了6个小时才能查看项目计数。 我将每个表的吞吐量设置为256,管道需要大约20分钟才能完成。有没有可能导致管道只复制表的一部分?尺寸和物品数量是否有无形的限制?我已经尝试了3次,每次都有类似的结果,“完成”的目标表只包含90150k
我曾经使用名为的Data Pipeline模板将DynamoDB表导出到文件。我最近更新了我所有的DynamoDB表,以按需提供和模板不再工作。我很确定这是因为旧模板指定了要消耗的DynamoDB吞吐量的百分比,这与按需表无关。 我尝试将旧模板导出到JSON,删除对吞吐量百分比消耗的引用,并创建一个新的管道。然而,这是不成功的。 有人能建议如何将具有吞吐量规定的旧式管道脚本转换为新的按需表脚本吗?
我有一个百万记录的DynamoDB表。我正在使用数据管道将DynamoDb表导出到S3。但是数据管道以DynamoDB JSON格式将表导出为一组原始json文件。数据管道运行一小时后,由于超时异常,EMR失败。 有没有办法将DynamoDB表导出为CSV并增加数据管道中的EMR超时配置?