当前位置: 首页 > 知识库问答 >
问题:

使用AWS datapipeline处理s3访问日志

梁丘缪文
2023-03-14

我的输入s3 bucket有很多日志文件,因此第一个活动失败,由于内存不足错误,在staging。然而,我不想登台所有的日志,登台前一天的日志对我来说就足够了。我在网上到处找,但没有找到任何解决办法。我如何做到这一点?我的解是最优解吗?还有比这更好的解决方案吗?任何建议都会有帮助

提前致谢

共有1个答案

晏和风
2023-03-14

您可以使用时间戳定义S3数据节点。例如,您可以说目录路径是

S3://yourbucket/#{format(@scheduedstarttime,'yyyy-mm-dd-hh-mm-ss')}

因为日志文件的名称中应该有一个时间戳(或者它们可以由带时间戳的目录组织)。

 类似资料:
  • 我想知道PySpark是否支持使用IAM角色进行S3访问。具体来说,我有一个业务限制,我必须承担AWS角色才能访问给定的存储桶。使用boto时可以这样做(因为它是API的一部分),但我无法找到关于PySpark是否支持开箱即用的明确答案。 理想情况下,我希望能够在本地以独立模式运行时扮演一个角色,并将我的SparkContext指向该s3路径。我发现非IAM呼叫通常会随之而来: 是否存在提供IAM

  • 有人知道这是什么问题吗? 编辑:bucket和访问它的VM都在法兰克福。它看起来与https://docs.hortonworks.com/hdpdocuments/hdcloudaws/hdcloudaws-1.8.0/bk_hdcloud-aws/content/s3-trouble/index.html类似,但添加了endpoint之后,它仍然不起作用。

  • 场景:我在同一个帐户下有一个EC2实例和一个S3 bucket,我在该EC2上的web应用程序希望访问该bucket中的资源。 在官方文档之后,我使用创建了一个IAM角色,并将其分配给EC2实例。根据我的理解,现在我的web应用程序应该可以访问桶。但是,经过试验,我似乎必须添加桶策略,如下所示: 否则我就被禁止进入。 但是,既然我已经向EC2实例授予了IAM角色,为什么还要使用这个桶策略呢?

  • 问题内容: 有人可以为我指出如何在python中打开.mdb文件的正确方向吗?我通常喜欢包含一些代码以开始讨论,但是我不知道从哪里开始。我与mysql一起使用python。我想知道是否有一种以类似方式使用.mdb文件的方法? 问题答案: 以下是我为另一个SO问题编写的一些代码。 它需要第三方的pyodbc模块。 这个非常简单的示例将连接到表并将结果导出到文件。 如果您有任何其他更具体的需求,请随时

  • 我想使用weblogic控制台访问服务器的诊断日志文件。 最初,日志位于这里:/u01/projects/domains/prd_soa_domain/servers/prd_soa_ms1/logs 我应该把它放在哪里,这样我就可以通过我的浏览器访问/下载它们了。 http:ip地址:端口/控制台/日志/

  • 4.2 处理访问违例 当程序尝试访问它们没有权限访问的页面的时候或者以一种不合法的方式访问内存的 时候,就会产生访问违例。导致违例错误的范围很广,从内存溢出到不恰当的处理空指针都 有可能。从安全角度考虑,每一个访问违例都应该仔细的审查,因为它们有可能被利用。 当调试器处理访问违例的时候,需要搜集所有和违例相关的信息,栈框架,寄存器,以及引起违例的指令。接着我们就能够用这些信息写一个利用程序或者创建