问题：

直接解析json文件并将其存储到hadoop，然后直接向hadoop查询以获取所需的数据

黄信厚

2023-03-14

在我的项目中，大量数据来自json格式的服务器。为了获取这些数据，计划每小时运行一个cron任务，它会返回我们保存到文件中的那一个小时的数据。这组数据将用于分析目的，并将有很多测量点，基于这些测量点将呈现分析报告和图表。现在由于数据会很重，决定使用HADOOP进行数据存储。我看了很多文章，发现有一个用于输入处理的映射器文件和用于输出的还原器文件，但没有找到动态数据的好例子。

但我想知道如何直接解析json文件并将其存储到hadoop，并直接向hadoop进行查询，以获得所需的数据，并从Php/Javascript访问这些数据。

请向我建议继续进行的方法和/或示例。

共有1个答案

姚培

2023-03-14

我之前也有过类似的情况，使用json2csv将json文件转换为csv，然后将结果加载到Hive中进行进一步分析。

当然，这种方法只有在您的json模式是固定的（即，您提前知道要映射的字段）时才有效。

查看文档，有一个关于如何使用该工具的非常清晰的示例。

类似资料：

祖先查询直接后代-Google数据存储

问题内容：我正在使用Go和Google Datastore在Google App Engine中构建目录应用程序。我正在使用datatore 的功能来管理不同的产品类别。这是一些数据的示例：乐器是根实体。当我单击它时，我希望看到和，但是相反，我看到了所有到最后一个实体的后代。这不是我想要的。目前，我只对乐器的直接后代感兴趣。像这样的一些帖子建议在数据存储区中创建一个字段来跟踪直接父母。但是，
如何将图像文件从S3存储桶直接读取到内存中？

问题内容：我有以下代码而且有效。但是首先将文件下载到当前目录的问题。是否可以直接在RAM中读取文件并将其解码为图像？问题答案：我建议使用io模块直接将文件读取到内存中，而根本不必使用临时文件。例如：如果您的数据是二进制的，也可以使用。
直接从浏览器将文件上传到Azure Blob存储？

是否可以创建一个html表单，允许Web用户直接将文件上传到azure blob store，而不使用其他服务器作为中介？S3和GAW blob store都允许这样做，但我找不到对azure blob存储的任何支持。
使用进度条直接将文件直接上传到S3

问题内容：关于此问题，有什么方法可以将[文件从ASP.NET应用程序直接上传到Amazon S3并具有进度条？ -—编辑---- 两天后，仍然没有直接的运气。发现了一件看起来很有前途但又不是免费的东西：http : //www.flajaxian.com/ 使用Flash通过进度条直接上传到S3。问题答案：我也在寻找解决方案。也许这会有所帮助，来自AWS Dev Commnity，但在许
使用Selenium和python在网页上查找文本，然后直接在其下方获取文本

我很抱歉，如果这是一个糟糕的解释，但我不知道如何更好地表达它。从图像中，你可以看到有一个叫做UPC的文本，在它的正下方有一个数字。我想把号码直接放在刚果爱国者联盟下面。我想通过在网站上搜索文本“UPC”来找到它，如果可能的话，直接在它下面找到它。
检查并等待直到有文件可以读取

问题内容：我需要等待，直到创建了一个文件，然后将其读入。我有以下代码，但请确保它不起作用：有什么想法吗？问题答案：一个简单的实现可以是：每次检查后，您都需要等待一段时间，然后在路径存在时读取文件。如果从未创建该文件，则可以停止该脚本，但有例外。您还应该检查该路径是否位于该文件之后，以避免某些不必要的异常。

直接解析json文件并将其存储到hadoop，然后直接向hadoop查询以获取所需的数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档