当前位置: 首页 > 知识库问答 >
问题:

AWS Glue Crawler将所有数据发送到Glue Catalog和Athena,而无需胶水作业

欧阳鸿哲
2023-03-14

我刚接触AWS胶水。我正在使用AWS Glue Crawler从两个S3存储桶中抓取数据。我每个桶里有一个文件。AWS Glue Crawler在AWS Glue数据目录中创建了两个表,我还可以在AWS Athena中查询数据。

我的理解是,为了在雅典娜中获取数据,我需要创建粘合作业,这将在雅典娜中提取数据,但我错了。如果说Glue crawler将数据放置在Athena中而不需要Glue job,那么如果我们需要将数据推送到SQL、Oracle等DB中,那么我们需要Glue job,这是正确的吗?

如何配置Glue Crawler,它只从源存储桶中获取增量数据,而不是所有数据?

感谢您的帮助?

共有1个答案

时同
2023-03-14

Glue爬虫仅用于标识数据所在的架构。您的数据位于某个位置(例如S3),爬虫通过遍历文件的百分比来识别模式。

然后,您可以使用Athena(托管、无服务器Apache Presto)等查询引擎来查询数据,因为它已经有一个模式。

如果要处理/清理/聚合数据,可以使用粘合作业,这基本上是由无服务器Spark管理的。

 类似资料:
  • 问题内容: 我最近开始弄乱Java套接字和telnet … 我希望用户能够连接到服务器,只需键入一个字母并将其发送到服务器,而无需按Enter即可发送。我确定服务器没有办法设置它,但是telnet可能有一个参数或可以允许的参数吗? 也许如果我让用户输入文字或在运行telnet之前,这行得通吗?(仅知道UNIX!) 如果我可以通过telnet来执行此操作,那么就不必为此专门编写一个特殊的客户端… 问

  • 我开始构建一些非常简单的应用程序,我想我已经掌握了如何在android Studio中创建基础知识。我一辈子都搞不清楚的是为什么我不能把数据发送到我的firebase实时数据库。 这是一个非常简单的应用程序,我试图让它目前的工作(因为我不能在更丰富的一个)--只需要一个按钮,应该发送“你好,世界!”

  • 我的项目有一个要求。我必须使用水槽收集日志数据,并且必须将数据输入到hive表中。 在这里,我需要将放置在文件夹中的文件收集到hdfs中,我正在使用Spooldir进行。在此之后,我需要处理这些文件并将输出放在hive文件夹中,以便立即查询数据。 我是否可以使用 sink 处理源文件,使放置在 hdfs 中的数据已经处理为所需的格式。? 谢了,萨希

  • 问题内容: 在每个单独的击键输入到stdin之后,我想直接将用户的击键发送到通道。 我尝试了下面的代码,但是由于在输入换行符之前该方法一直阻塞,因此无法获得预期的结果。 感谢您对我如何使每个用户输入字符无需换行符即可立即进入频道的任何建议。 问题答案: 默认情况下,Stdin是行缓冲的。这意味着在遇到换行符之前,它不会为您提供任何输入。这不是Go特定的事情。 使它以非缓冲的方式运行是高度特定于平台

  • 问题内容: 我需要使用apache HttpClient包将发布数据发送到https url, 发送帖子数据后,我需要检索html数据。 我要发送的帖子数据是XML字符串,而我正在接收的帖子数据是XML字符串。 任何有关此问题的信息将不胜感激。 我用谷歌搜索,并在互联网上找到了使用DefaultHttpClient的示例,现在版本4已弃用。所以我想知道如何正确使用客户端的新版本。 谢谢。 到目前为

  • 我每天都有csv文件被传递到S3,这些文件在当月是增量的。所以file1包含第1天的数据,file2包含第1天和第2天的数据,等等。每天我都想对该数据运行一个ETL并将其写入不同的S3位置,这样我就可以使用Athena查询它,而不会出现重复的行。本质上,我只想查询聚合数据的最新状态(这只是最近交付给S3的文件的内容)。 我认为书签不会起作用,因为增量交付包含以前文件中的数据,因此会产生重复。我知道