在Java中读取大文件时如何避免OutOfMemory异常

顾梓

2023-03-14

问题内容：

我正在研究从文件读取大量数据的应用程序。基本上，我有一个巨大的文件（大约1.5-2个演出），其中包含不同的对象（每个文件约5至1000万个对象）。我需要阅读所有内容，并将其放置在应用程序中的不同地图上。问题是该应用程序在某些时候读取对象时内存不足。仅当我将其设置为使用-
Xmx4096m时，它才能处理该文件。但是，如果文件更大，它将无法再执行此操作。

这是代码片段：

String sampleFileName = "sample.file";
FileInputStream fileInputStream = null;
ObjectInputStream objectInputStream = null;
try{
    fileInputStream = new FileInputStream(new File(sampleFileName));
    int bufferSize = 16 * 1024;
    objectInputStream = new ObjectInputStream(new BufferedInputStream(fileInputStream, bufferSize));
        while (true){
            try{
                Object objectToRead = objectInputStream.readUnshared();
                if (objectToRead == null){
                    break;
                }
                // doing something with the object
            }catch (EOFException eofe){
                eofe.printStackTrace();
                break;
            } catch (Exception e) {
                e.printStackTrace();
                continue;
            }
        }
} catch (Exception e){
        e.printStackTrace();
}finally{
    if (objectInputStream != null){
        try{
            objectInputStream.close();
        }catch (Exception e2){
            e2.printStackTrace();
        }
    }
    if (fileInputStream != null){
        try{
            fileInputStream.close();
        }catch (Exception e2){
            e2.printStackTrace();
        }
    }
}

首先，我使用的是 objectInputStream.readObject（） 而不是
objectInputStream.readUnshared（）
，因此它部分解决了该问题。当我将内存从2048增加到4096时，它开始解析文件。BufferedInputStream已在使用中。在网络上，我仅找到了如何读取行或字节的示例，但是从性能角度来看，没有任何关于对象的示例。

如何在不增加JVM内存和避免OutOfMemory异常的情况下读取文件？有什么方法可以从文件中读取对象，而不在内存中保留任何其他内容？

问题答案：

在读取大文件，解析对象并将其保留在内存中时，有几种解决方案需要权衡取舍：

您可以将所有已解析的对象放入部署在一台服务器上的该应用程序的内存中。它要么要求以非常压缩的方式存储所有对象，例如使用字节或整数存储2个数字，要么使用其他数据结构中的某种形式的移位。换句话说，将所有对象放入可能的最小空间中。或增加该服务器的内存（垂直扩展）

a）但是，读取文件可能会占用太多内存，因此您必须分块读取它们。例如，这就是我在处理json文件的方法：

    JsonReader reader = new JsonReader(new InputStreamReader(in, "UTF-8"));
    if (reader.hasNext()) {
        reader.beginObject();
        String name = reader.nextName();

        if ("content".equals(name)) {
            reader.beginArray();

            parseContentJsonArray(reader, name2ContentMap);

            reader.endArray();
        }
        name = reader.nextName();
        if ("ad".equals(name)) {
            reader.beginArray();

            parsePrerollJsonArray(reader, prerollMap);

            reader.endArray();
        }
    }

这个想法是要有一种方法来识别某些对象的开始和结束时间，并仅读取该部分。

b）如果可以的话，您也可以在源头将文件拆分为较小的文件，这样将更易于阅读。

您无法在一台服务器上容纳该应用程序的所有解析对象。在这种情况下，您必须基于某些对象属性进行分片。例如，将基于美国州的数据拆分为多个服务器。

希望它对您的解决方案有所帮助。

在Java中读取大文件时如何避免OutOfMemory异常

相关阅读

相关文章

相关问答

相关工具

相关文档