我有一个巨大的XML文件(15 GB)。我想将XML文件中的“文本”标签转换为单个页面。
样本XML文件:
<root>
<page>
<id> 1 </id>
<text>
.... 1000 to 50000 lines of text
</text>
</page>
... Like wise 2 Million `page` tags
</root>
我最初使用DOM解析器,但它使JAVA OUT OF
MEMORY(Valid)不足。现在,我已经使用STAX编写了JAVA代码。它运作良好,但是性能确实很慢。
这是我编写的代码:
XMLEventReader xMLEventReader = XMLInputFactory.newInstance().createXMLEventReader(new FileInputStream(filePath));
while(xMLEventReader.hasNext()){
xmlEvent = xMLEventReader.nextEvent();
switch(xmlEvent.getEventType()){
case XMLStreamConstants.START_ELEMENT:
if( element == "text")
isText = true;
break;
case XMLStreamConstants.CHARACTERS:
chars = (Characters) xmlEvent;
if(! (chars.isWhiteSpace() || chars.isIgnorableWhiteSpace()))
if(isText)
pageContent += chars.getData() + '\n';
break;
case XMLStreamConstants.END_ELEMENT:
String elementEnd = (((EndElement) xmlEvent).getName()).getLocalPart();
if( elementEnd == "text" )
{
createFile(id, pageContent);
pageContent = "";
isText = false;
}
break;
}
}
这段代码运行良好。(忽略任何小错误)。根据我的理解,XMLStreamConstants.CHARACTERS会针对文本标签的每一行进行迭代。如果TEXT标记中包含10000行,则XMLStreamConstants.CHARACTERS迭代下一个10000行。有什么更好的方法可以提高性能。
什么pageContent
啊
它似乎是一个String
。立即进行的一个简单优化就是使用StringBuilder
;它可以追加字符串,而不必像String
s
+=
一样完全创建字符串的新副本(您也可以使用初始保留的容量来构造它,以减少内存的重新分配和复制,如果您对长度有所了解的话)。
连接String
s是一个很慢的操作,因为字符串在Java中是不可变的。每次调用a += b
它时,必须分配一个新字符串,将a
其复制b
到该字符串中,然后复制到该字符串的末尾;使 每个
串联为O(n)wrt。两个字符串的总长度。追加单个字符也是如此。StringBuilder
另一方面,具有与ArrayList
追加时相同的性能特征。所以你有:
pageContent += chars.getData() + '\n';
改为更改pageContent
为a StringBuilder
并执行以下操作:
pageContent.append(chars.getData()).append('\n');
同样,如果您对这些字符串之一的长度的上限有猜想,可以将其传递给StringBuilder
构造函数以分配初始容量,并减少必须进行内存重新分配和完整复制的机会。
顺便说一句,另一种选择是StringBuilder
完全跳过并将数据直接写入输出文件(假定您首先不以某种方式处理数据)。如果执行此操作,并且性能受到I /
O的限制,则在其他物理磁盘上选择输出文件会有所帮助。
问题内容: 我正在尝试将DMOZ内容/结构XML文件解析为MySQL,但是所有现有的脚本都已经很老了并且不能很好地工作。如何在PHP中打开大型(+ 1GB)XML文件进行解析? 问题答案: 只有两个php API真正适合处理大文件。第一个是旧的expatapi,第二个是较新的XMLreader函数。这些api读取连续流,而不是将整个树加载到内存中(这是simplexml和DOM所做的)。 例如,您
为了在巨大的xml文件中执行XPATH查询,我阅读了许多喜欢VTD-xml的文章,因此我复制了这些文章中的代码: 但当我运行它时没有结果,所以这意味着XML文件没有映射到内存中。。。我的问题是如何在VTD-xml中强制映射xml文件?
问题内容: 以下代码是否有替代方法: 如果我正在处理一个巨大的文本文件,其行数未知但长度不同,并且需要跳转到特定行我事先知道哪个号码?当我知道我至少可以忽略文件的前半部分时,我很难一一处理它们。寻找更优雅的解决方案(如果有)。 问题答案: 行缓存: 该模块允许人们从Python源文件中获取任何行,同时尝试使用缓存在内部进行优化,这是从单个文件读取许多行的常见情况。模块使用它来检索源行以包含在格式化
问题内容: 我在具有1GB RAM的Mac Mini上使用Python 2.6。我想阅读一个巨大的文本文件 因此,文件中的每一行都由两个逗号分隔的整数值组成的元组。我想阅读整个文件,并根据第二列对其进行排序。我知道,我可以进行排序而无需将整个文件读入内存。但我认为对于500MB的文件,由于我有1GB的可用空间,因此仍应该可以在内存中进行处理。 但是,当我尝试读取文件时,Python似乎分配了比磁盘
问题内容: 我目前正在尝试从Python 2.7中的.csv文件中读取数据,该文件最多包含100万行和200列(文件范围从100mb到1.6gb)。对于少于300,000行的文件,我可以(非常缓慢地)执行此操作,但是一旦超过该行,就会出现内存错误。我的代码如下所示: 在getstuff函数中使用else子句的原因是,所有符合条件的元素都将一起列在csv文件中,因此当我经过它们时,为了节省时间,我离
问题内容: 输入文件包含数千个XML格式的事务,大小约为10GB。要求是根据用户输入选择每个事务XML,并将其发送到处理系统。 文件的样本内容 希望(技术)用户提供输入标签名称,例如。 我们希望提供更通用的解决方案。文件内容可能会有所不同,用户可以使用XPath表达式(例如“ ”)来选择单个事务。 这里我们需要考虑的技术问题很少 该文件可以位于共享位置或FTP 由于文件很大,因此我们无法在JVM中