当前位置: 首页 > 面试题库 >

从磁盘加载大型json文件时出现内存不足异常

侯池暝
2023-03-14
问题内容

我有一个1.2 GB的json文件,当反序列化时,应该给我一个包含15百万个对象的列表。

我要反序列化的计算机是具有16核心和32 GB Ram的Windows 2012服务器(64位)。

该应用程序已针对x64构建

尽管有这种情况,当我尝试读取json文档并将其转换为我遇到内存不足异常的对象列表时。当我查看任务管理器时,我发现仅使用了5GB内存。

我尝试的代码如下。

一个。

 string plays_json = File.ReadAllText("D:\\Hun\\enplays.json");

                plays = JsonConvert.DeserializeObject<List<playdata>>(plays_json);

b。

 string plays_json = "";
        using (var reader = new StreamReader("D:\\Hun\\enplays.json"))
        {
            plays_json = reader.ReadToEnd();
            plays = JsonConvert.DeserializeObject<List<playdata>>(plays_json);
        }

C。

 using (StreamReader sr = File.OpenText("D:\\Hun\\enplays.json"))
        {
            StringBuilder sb = new StringBuilder();
            sb.Append(sr.ReadToEnd());
            plays_json = sb.ToString();
            plays = JsonConvert.DeserializeObject<List<playdata>>(plays_json);
        }

衷心感谢所有帮助


问题答案:

问题在于您正在将整个大文件读入内存,然后尝试一次将其全部反序列化为一个大列表。您应该使用StreamReader来逐步处理文件。即使您在其中使用StreamReader,问题中的示例(b)也不会删除它,因为您仍在通过读取整个文件ReadToEnd()。您应该改为执行以下操作:

using (StreamReader sr = new StreamReader("D:\\Hun\\enplays.json"))
using (JsonTextReader reader = new JsonTextReader(sr))
{
    var serializer = new JsonSerializer();

    while (reader.Read())
    {
        if (reader.TokenType == JsonToken.StartObject)
        {
            // Deserialize each object from the stream individually and process it
            var playdata = serializer.Deserialize<playdata>(reader);

            ProcessPlayData(playdata);
        }
    }
}

ProcessPlayData方法应该处理单个playdata对象,然后理想地将结果写入文件或数据库,而不是内存中列表(否则,您可能会再次回到相同的情况)。如果必须将处理每个项目的结果存储到内存列表中,则可能需要考虑使用链接列表或类似的结构,该结构不会尝试在一个连续的块中分配内存,并且不需要重新分配和复制需要扩展时。



 类似资料:
  • 为了加载几个大的(~200MB) JSON文件,执行了以下代码: 以下是 Pycharm 的自定义 VM 选项的外观(最大 30GB 堆大小,RAM 为 32GB): 已应用“使缓存失效/重新启动”的流行建议。 加载2个文件(总计约400MB)后,在第三次加载期间,引发异常“MemoryError”。 我不明白为什么如果我有高达30GB的堆大小,内存错误抛出后只有400MB?

  • 在我的Android应用程序中,我使用Volley在自定义列表视图中加载图像。 当我多次刷新(删除所有项目并加载tiems)listview时,我的应用程序就会被这条消息杀死 我该怎么修好它?

  • 我用SXSSF写了100万条记录(最坏的情况)。 以下是我编码的方式。我必须将记录写入已经存在的excel模板。此模板在类路径中可用。我将此模板复制到公共位置。使用 XSSFWorkBook 加载此文件。SXSSFWorkbook 使用 XSSFWorkBook 和 window size(-1) 作为参数进行初始化。 当记录计数达到100的倍数时,我将冲洗工作表。 但是在执行这个过程中,堆内存逐

  • (所以我不会“finish();”一个应用程序。我会在用户交互之后用“startactivity(..);”开始下一个活动。) 所以在这三个活动中有一个循环。在每次活动中,我都会显示3-9张图片,这些图片位于SD卡上,我用以下功能加载SD卡: 这都管用。但有时(在循环几次我的活动之后),我的应用程序崩溃了…

  • 我正在从命令行运行jmx

  • 基于@ari答案的解决方案我已经更新了代码。现在它被优化到只使用1MB(我不知道这是否是将进程分成块的最佳方式,但现在它似乎得到了改进,并且不提供OOM)。我将尝试通过检测可以使用多少堆内存来进一步优化它,但我不确定是否可以实现这一点。直到比这似乎是最好的选择。再次感谢@Ari。