当前位置: 首页 > 知识库问答 >
问题:

粘附爬行器以读取Json数组

赵高韵
2023-03-14

我有一个Json数组文件的格式:-[[{key1:value1},{key2:value2},{key3:value3}],[{key1:value4},{key2:value5},{key3:value6}]]

我需要使用AWS glue爬取上述文件,并读取json模式,其中每个键都作为模式中的一列。我尝试使用标准的json分类器,但它似乎不起作用,并且模式加载为数组。我需要从S3读取json文件并将其加载到RDS数据库中。任何关于如何通过胶水作业或分类器进行转换的建议都将是有帮助的。

共有2个答案

郑宜民
2023-03-14

我遇到了同样的问题。对我来说,一个解决方案是使用jq格式化json文件,然后将该文件重新上载到S3。在这里使用任何其他类型的json格式化工具也会有所帮助。

任何其他的方法还不知道我,希望这有助于!

孙玺
2023-03-14

创建自定义JSON分类器,并将JSON路径指定为$[*]

有关更多详细信息,这里是AWS文档的链接-https://docs.AWS.amazon.com/glue/latest/dg/custom-classifier.html#custom-classifier-json

 类似资料:
  • 我想用蜘蛛爬虫代码来获取一些房地产数据。但它一直给我这个错误: 回溯(最近一次呼叫最后一次): 文件“//anaconda/lib/python2.7/site packages/twisted/internet/defer.py”,第1301行,in_inlineCallbacks result=g.send(result) 文件“//anaconda/lib/python2.7/site pa

  • 问题内容: 我正在尝试读取JSON数组。这是我的代码。 我的示例JSON文件语法如下所示, 前面有一个大括号。当我尝试执行此代码块时,出现错误提示 JSONArray文本必须在....的字符1处以’[‘开头。 有没有人遇到过这样的问题?任何帮助将不胜感激。如果可以的话,请告诉我一个示例代码块。提前致谢。 问题答案: JSON对象以a开头,以a 结尾,而JSON数组以a开头,以a 结尾。 根据您的情

  • 标准的ApacheNIFI读写器似乎只能解析基于Avro模式的JSON输入。 Avro模式对JSON有限制,例如它不允许以数字开头的有效JSON属性。 JoltTransformJSON处理器在这里可以有所帮助(它没有对输入JSON可能的样子施加Avro限制),但似乎这个处理器不支持批处理流文件。它也不是基于读者和作者(也许正因为如此)。 是否有方法读取任意有效的批处理JSON输入,例如多行格式

  • 嗨,我正在运行这个开源Ex-Crawler的罐子 但我总是收到这样的错误:og4j:WARN找不到记录器的追加器(eu.medsea.mimeutil.TextMimeDetector)。log4j:警告请正确初始化log4j系统。log4j:请参阅http://logging.apache.org/log4j/1.2/faq.html#noconfig更多信息

  • 我遇到了一个挑战,我必须读取CSV文件并将其读取,直到定义的可变大小限制(BATCH_SIZE)。读取 CSV 中的行数后,将其发送到不同的 AWS API。由于我的CSV文件大小可以是1Gb到2Gb的任何地方,因此我避免使用JSR223 CSV文件读取。我想知道如何使用JMeter和CSV数据集配置来实现它。