当前位置: 首页 > 面试题库 >

AWS Glue Crawler将json文件分类为UNKNOWN

段阳夏
2023-03-14
问题内容

我正在进行ETL作业,该作业将JSON文件提取到RDS登台表中。我配置的搜寻器对JSON文件进行分类,只要它们的大小小于1MB。如果我缩小文件(而不是漂亮的打印件),并且结果小于1MB,它将对文件进行分类而不会出现问题。

我在想办法时遇到了麻烦。我尝试将JSON转换为BSON或GZIPing JSON文件,但仍被归类为UNKNOWN。

还有其他人遇到这个问题吗?有一个更好的方法吗?


问题答案:

我有两个json文件,分别为42mb和16mb,在S3上作为路径分区:

  • s3://bucket/stg/year/month/_0.json

  • s3://bucket/stg/year/month/_1.json

我遇到了与您相同的问题,爬虫分类为UNKNOWN。

我能够解决它:

  • 您必须使用JSONPath作为“ $ [*]”创建自定义分类器,然后使用分类器创建新的搜寻器。
  • 使用S3上的数据运行新的搜寻器,将创建正确的架构。
  • 请勿使用分类器更新当前的搜寻器,因为它不会应用更改,我不知道为什么,也许是因为他们的文档中提到了分类器版本化AWS。创建新的搜寻器,使它们正常工作


 类似资料:
  • 问题内容: 我有从mongodb导出的json文件,如下所示: 大约有30000行,我想将每一行拆分成自己的文件。 (我正在尝试将我的数据转移到榻榻米群集上) 我尝试这样做: 但是我发现它似乎减少了行的负载,而当我期望30000个奇数时,运行此命令的输出仅给了我50个奇数文件! 有没有一种逻辑方法可以使此操作不使用任何适合的方法删除任何数据? 问题答案: 假设您不在乎确切的文件名,如果要将输入拆分

  • 问题内容: 我有一个很大的JSON文件,它是对象的对象,我想在对象键之后将其拆分成单独的文件名。是否可以使用jq或任何其他现成的工具来实现此目的? 原始JSON格式如下 鉴于此输入,我想生成文件item1.json,item2.json等。 问题答案: 这应该给您一个开始: 或者当您坚持使用一些较卑鄙的语法时,似乎有些人更喜欢:

  • 我有如下XML文件: 如何快速将其转换为C#类以通过LINQ使用access数据?我必须为任何XML文件情况手动编写类吗?那么JSON格式呢?

  • 经过一场麻烦的战斗,我几乎想出了如何将平面json文件转换为层次化的json文件。我不是自己写的函数。我从下面的帖子上抄下来的。 一个星期以来,我一直在发疯,但我自己也想不出来。有人请修改功能,以获得数据的层次格式,因为我已经更新。 提前感谢!!

  • 有没有办法将文件对象转换为多部分文件?以便我可以将该对象发送到接受接口对象的方法?

  • 问题内容: 经过一番麻烦的战斗之后,我几乎想出了如何将平面json文件转换为Hierarchical文件。我不是自己写函数的。 但是现在的问题是,在帖子中编写的函数只有两个层次结构。但是我正在寻找4个层次的层次结构。我尝试覆盖失败的功能,但是。 用我正在尝试的代码。 当前代码的输出 ``` ``` 所需的输出格式: ``` ``` 我一个星期都在crack头,但我一个人也搞不清。有人请修改此功能,