巨大的XML文件到文本文件

申屠宗清

2023-03-14

问题内容：

我有一个巨大的XML文件（15 GB）。我想将XML文件中的“文本”标签转换为单个页面。

样本XML文件：

<root>
    <page>
        <id> 1 </id>
        <text>
        .... 1000 to 50000 lines of text
        </text>
    </page>
    ... Like wise 2 Million `page` tags
</root>

我最初使用DOM解析器，但它使JAVA OUT OF
MEMORY（Valid）不足。现在，我已经使用STAX编写了JAVA代码。它运作良好，但是性能确实很慢。

这是我编写的代码：

 XMLEventReader xMLEventReader = XMLInputFactory.newInstance().createXMLEventReader(new FileInputStream(filePath));
    while(xMLEventReader.hasNext()){
      xmlEvent = xMLEventReader.nextEvent();

    switch(xmlEvent.getEventType()){
    case XMLStreamConstants.START_ELEMENT:
    if( element == "text")
      isText    = true;
    break;
    case XMLStreamConstants.CHARACTERS:
      chars = (Characters) xmlEvent;
      if(! (chars.isWhiteSpace() || chars.isIgnorableWhiteSpace()))
               if(isText)
              pageContent += chars.getData() + '\n';
      break;
    case XMLStreamConstants.END_ELEMENT:
      String elementEnd = (((EndElement) xmlEvent).getName()).getLocalPart();
      if( elementEnd == "text" )
      {
          createFile(id, pageContent);
          pageContent = "";
          isText = false;
      }
      break;
    }
}

这段代码运行良好。（忽略任何小错误）。根据我的理解，XMLStreamConstants.CHARACTERS会针对文本标签的每一行进行迭代。如果TEXT标记中包含10000行，则XMLStreamConstants.CHARACTERS迭代下一个10000行。有什么更好的方法可以提高性能。

问题答案：

什么pageContent啊
它似乎是一个String。立即进行的一个简单优化就是使用StringBuilder；它可以追加字符串，而不必像Strings
+=一样完全创建字符串的新副本（您也可以使用初始保留的容量来构造它，以减少内存的重新分配和复制，如果您对长度有所了解的话）。

连接Strings是一个很慢的操作，因为字符串在Java中是不可变的。每次调用a += b它时，必须分配一个新字符串，将a其复制b到该字符串中，然后复制到该字符串的末尾；使每个
串联为O（n）wrt。两个字符串的总长度。追加单个字符也是如此。StringBuilder另一方面，具有与ArrayList追加时相同的性能特征。所以你有：

pageContent += chars.getData() + '\n';

改为更改pageContent为a StringBuilder并执行以下操作：

pageContent.append(chars.getData()).append('\n');

同样，如果您对这些字符串之一的长度的上限有猜想，可以将其传递给StringBuilder构造函数以分配初始容量，并减少必须进行内存重新分配和完整复制的机会。

顺便说一句，另一种选择是StringBuilder完全跳过并将数据直接写入输出文件（假定您首先不以某种方式处理数据）。如果执行此操作，并且性能受到I /
O的限制，则在其他物理磁盘上选择输出文件会有所帮助。

巨大的XML文件到文本文件

相关阅读

相关文章

相关问答

相关工具

相关文档