问题：

Kafka Storm HDFS/S3数据流

梁渊

2023-03-14

现在还不清楚你是否能像在《水槽》中那样在Kafka中做一个扇出（复制）。

我想让Kafka将数据保存到HDFS或S3，并将该数据的副本发送到Storm进行实时处理。Storm集合/分析的输出将存储在Cassandra中。我看到一些实现将所有数据从Kafka流到Storm，然后从Storm输出两个。但是，我想消除Storm对原始数据存储的依赖。

这可能吗？您知道任何类似的文档/示例/实现吗？

还有，Kafka对S3存储有没有很好的支持？

我看到了Camus用于存储到HDFS--您只是通过cron运行这个作业来不断地将数据从Kafka加载到HDFS吗？如果作业的第二个实例在前一个实例完成之前启动，会发生什么情况？最后，加缪会和S3合作吗？

谢谢--我很感激！

共有1个答案

卢伟志

2023-03-14

关于加缪，是的，一个启动作业的调度器应该可以工作。他们在LinkedIn上使用的是阿兹卡班，你也可以看看。

如果一个在另一个完成之前启动，那么一定数量的数据将被读取两次。因为第二个作业将从第一个作业使用的相同偏移量开始读取。

关于加缪与S3，目前我不认为这是到位的。

类似资料：

使用S3出站网关向S3对象添加元数据数据

已经为spring集成aws应用程序编写了代码，该应用程序当前使用S3出站网关将文件从源文件夹上载到目标S3存储桶。在S3 bucket中上传文件时，希望添加以下关于文件的用户定义元数据及其值。 x-amz-meta-sourcePath:/test x-amz-meta-targetPath:/targetbucket/ x-amz-meta-timestamp:（#timestamp值）想知
从PySpark连接到S3数据

问题内容：我正在尝试从Amazon s3读取JSON文件以创建spark上下文并使用它来处理数据。 Spark基本上位于docker容器中。因此，将文件放在docker路径中也是PITA。因此将其推送到S3。以下代码说明了其余内容。我收到以下错误- 我已经清楚地提供了aswSecretAccessKey和awsAccessId。怎么了问题答案：我已经解决了添加到spark-submit命
从PySpark连接到S3数据

我正在尝试从Amazon s3读取一个JSON文件，以创建一个火花上下文并使用它来处理数据。 Spark基本上在docker容器中。所以将文件放入docker路径也是PITA。因此将其推送到S3。下面的代码解释了其余的内容。我得到以下错误- 我已经清楚地提供了aswSecret AccessKey和awsAccessId。出了什么问题？
使用python将数据块数据帧写入S3

我有一个名为df的数据库数据帧。我想将它作为csv文件写入S3存储桶。我有S3存储桶名称和其他凭据。我检查了这里给出的在线留档https://docs.databricks.com/spark/latest/data-sources/aws/amazon-s3.html#mount-aws-s3它说使用以下命令但我有的是数据帧，而不是文件。怎么才能实现？
Serverless 数据分析，Kinesis Firehose 持久化数据到 S3

based on:serverless-kinesis-streams, but auto create Kinesis streams 在尝试了使用 Kinesis Stream 处理数据之后，我发现它并不能做什么。接着，便开始找寻其它方式，其中一个就是：Amazon Kinesis Firehose Amazon Kinesis Firehose 是将流数据加载到 AWS 的最简单方式。它可以
将S3数据加载到AWS SageMaker Notebook

问题内容：我刚刚开始尝试使用AWS SageMaker，并希望将数据从S3存储桶加载到SageMaker python jupyter笔记本中的pandas数据框中进行分析。我可以使用boto来获取S3中的数据，但我想知道SageMaker框架中是否存在更优雅的方法来在python代码中执行此操作？在此先感谢您的任何建议。问题答案：如果您在这里看看，似乎可以在 InputDataConf

Kafka Storm HDFS/S3数据流

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档