当前位置: 首页 > 知识库问答 >
问题:

将数据从Kinesis(或s3)传输到RDS postgres chron作业

翟淮晨
2023-03-14

我对AWS很陌生,我正试图找到一种方法,将数据从动觉流可靠地传输到AWS RDS postgres数据库表。记录在输入的过程中需要进行一些小的转换,比如filter(不是所有的记录都会被插入,这取决于一个键),然后解析以插入postgres。目前,来自动觉流的数据正被消防水带作为拼花地板倾倒到S3桶中。

我有点迷失在做这件事的许多可能的方式中,比如:

  • 运动流-

在一个非无服务器的世界里,我会每隔一个小时运行一个chron作业,比如说,一个小时,它会获取最近的S3存储桶分区(年/月/日/小时)中的html" target="_blank">文件,也就是最近的一小时,并过滤掉RDS中不需要的记录,并将其余的批量插入RDS。我不想让一个95%时间都处于空闲状态的EC2实例来执行此操作。有什么建议吗?

共有1个答案

郑茂材
2023-03-14

谢谢你的澄清。用传统的ETL方式处理服务器有一些缺点。要么你需要让机器大部分时间处于空闲状态,要么你需要每次都等待机器按需创建——就像你说的那样。

对于Firehose,IMO,当你有很多实时数据要摄取时,这很有趣。关于AWS Glue,对我来说,它更像是一个“托管”的Apache Spark,因此如果你有一些数据处理逻辑要在大量批处理数据中实现,那可能会很有趣。但根据你的描述,情况并非如此,对吗?

总之,如果您认为每次插入的数据量仍然是几mb,那么对我来说,最简单的解决方案是最好的,即动觉-

 类似资料:
  • 我正在尝试将数据从aws S3加载到谷歌云存储:-我正在使用gsutil-我已经将S3上的文件公之于众 在windows计算机上的gsutil命令行上,我输入了: 谢了。

  • 问题内容: 我目前正在使用名为s3-upload-stream的node.js插件将非常大的文件流式传输到Amazon S3。它使用了多部分的API,并且在大多数情况下效果很好。 但是,该模块显示了它的年龄,我已经不得不对其进行修改(作者也已弃用了它)。今天,我遇到了另一个与亚马逊有关的问题,我真的很想接受作者的建议,并开始使用官方的aws- sdk完成上传。 但。 官方的SDK似乎不支持管道到。

  • -bash-4.1$ 任何帮助都将不胜感激。

  • Kinesis Firehose流接收消息<有一个选项可以持久化到S3,但我的用例是插入到dynamodb表中<消防软管具有启用Lambda功能的选项。我应该使用Lambda将插入逻辑写入dynamodb表吗?这是正确的方法吗<如果是这样,那么如何使用Java编写的Lambda将记录插入DynamoDB。

  • based on:serverless-kinesis-streams, but auto create Kinesis streams 在尝试了使用 Kinesis Stream 处理数据之后,我发现它并不能做什么。接着,便开始找寻其它方式,其中一个就是:Amazon Kinesis Firehose Amazon Kinesis Firehose 是将流数据加载到 AWS 的最简单方式。它可以

  • 我正在制作一个小应用程序,将数据从BigQuery导出到google云存储,然后将其复制到aws s3中,但在python中很难找到如何实现。 我已经在kotlin中编写了代码(因为这对我来说是最简单的,原因超出了我的问题范围,我们希望它在python中运行),在kotlin中,允许我从对象获取,然后我可以将其注入AmazonS3SDK的