当前位置: 首页 > 面试题库 >

在多个XML文件中拆分XML

孔俊爽
2023-03-14
问题内容

我有以下xml文件作为输入....

<?xml version="1.0" encoding="ISO-8859-1"?>
<T0020
    xsi:schemaLocation="http://www.safersys.org/namespaces/T0020V1 T0020V1.xsd"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://www.safersys.org/namespaces/T0020V1">
    <INTERFACE>
        <NAME>SAFER</NAME>
        <VERSION>04.02</VERSION>
    </INTERFACE>
    <TRANSACTION>
        <VERSION>01.00</VERSION>
        <OPERATION>REPLACE</OPERATION>
        <DATE_TIME>2009-09-01T00:00:00</DATE_TIME>
        <TZ>CT</TZ>
    </TRANSACTION>
    <IRP_ACCOUNT>
        <IRP_CARRIER_ID_NUMBER>274845</IRP_CARRIER_ID_NUMBER>
        <IRP_BASE_COUNTRY>US</IRP_BASE_COUNTRY>
        <IRP_BASE_STATE>AR</IRP_BASE_STATE>
        <IRP_ACCOUNT_NUMBER>55002</IRP_ACCOUNT_NUMBER>
        <IRP_ACCOUNT_TYPE>I</IRP_ACCOUNT_TYPE>
        <IRP_STATUS_CODE>100</IRP_STATUS_CODE>
        <IRP_STATUS_DATE>2007-11-06</IRP_STATUS_DATE>
        <IRP_UPDATE_DATE>2009-08-03</IRP_UPDATE_DATE>
        <IRP_NAME>
            <NAME_TYPE>LG</NAME_TYPE>
            <NAME>A P SUPPLY CO</NAME>
            <IRP_ADDRESS>
                <ADDRESS_TYPE>PH</ADDRESS_TYPE>
                <STREET_LINE_1>1400 N OATS</STREET_LINE_1>
                <STREET_LINE_2/>
                <CITY>TEXARKANA</CITY>
                <STATE>AR</STATE>
                <ZIP_CODE>71854</ZIP_CODE>
                <COUNTY>MILLER</COUNTY>
                <COLONIA/>
                <COUNTRY>US</COUNTRY>
            </IRP_ADDRESS>
            <IRP_ADDRESS>
                <ADDRESS_TYPE>MA</ADDRESS_TYPE>
                <STREET_LINE_1>P O BOX 1927</STREET_LINE_1>
                <STREET_LINE_2/>
                <CITY>TEXARKANA</CITY>
                <STATE>AR</STATE>
                <ZIP_CODE>75504</ZIP_CODE>
                <COUNTY/>
                <COLONIA/>
                <COUNTRY>US</COUNTRY>
            </IRP_ADDRESS>
        </IRP_NAME>  
</IRP_ACCOUNT>
<IRP_ACCOUNT> ..... </IRP_ACCOUNT>
<IRP_ACCOUNT> ..... </IRP_ACCOUNT>
<IRP_ACCOUNT> ..... </IRP_ACCOUNT>
 </T0020>

我想将这个xml文件并通过像这样的java代码将其拆分为多个文件…

File1.xml

<T0020>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
</T0020>

File2.xml

<T0020>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
</T0020>

File3.xml

<T0020>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
 <IRP_ACCOUNT> ..... </IRP_ACCOUNT>
</T0020>

以及更多的xml文件。每个xml文件最多包含10个或15个IRP_ACCOUNT。

有人能帮帮我吗 ?


问题答案:

快速而肮脏:

public class XmlSplit {

    public static void main(String [] args) throws Exception {
        File input = new File("input.xml");
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        Document doc = dbf.newDocumentBuilder().parse(input);
        XPath xpath = XPathFactory.newInstance().newXPath();

        NodeList nodes = (NodeList) xpath.evaluate("//T0020/IRP_ACCOUNT", doc, XPathConstants.NODESET);

        int itemsPerFile = 5;
        int fileNumber = 0;
        Document currentDoc = dbf.newDocumentBuilder().newDocument();
        Node rootNode = currentDoc.createElement("T0020");
        File currentFile = new File(fileNumber+".xml");
        for (int i=1; i <= nodes.getLength(); i++) {
            Node imported = currentDoc.importNode(nodes.item(i-1), true);
            rootNode.appendChild(imported);

            if (i % itemsPerFile == 0) {
                writeToFile(rootNode, currentFile);

                rootNode = currentDoc.createElement("T0020");
                currentFile = new File((++fileNumber)+".xml");
            }
        }

        writeToFile(rootNode, currentFile);
    }

    private static void writeToFile(Node node, File file) throws Exception {
        Transformer transformer = TransformerFactory.newInstance().newTransformer();
        transformer.transform(new DOMSource(node), new StreamResult(new FileWriter(file)));
    }
}


 类似资料:
  • 问题内容: 我正在尝试将一个大型xml文件拆分为多个文件,并在AWK脚本中使用了以下代码。 上面的代码生成一个名称为“ fileItem_1”,“ fileItem_2”,“ fileItem3”等的xml文件列表。 但是,我希望文件名类似于“ item_XXXXX”,其中XXXXX是XML内的一个节点-如下图所示 因此,基本上我希望“ id”节点为文件名。谁能帮我这个忙吗? 问题答案: 我不会用

  • 问题内容: 我只需要此XML的HEADLINE,仅在标记之间。还必须连续不断地打印消息。我怎样才能做到这一点。 问题答案: 我将为此使用javax.xml.xpathJava SE 5中包含的API。

  • 问题内容: 我在python中有一个约5000行的csv文件,我想将其拆分为五个文件。 我为此写了一个代码,但是没有用 上面的代码创建了许多内容为空的文件。 如何将一个文件分成五个csv文件? 问题答案: 我建议你不要发明轮子。有现有的解决方案。来源在这里 像这样使用它:

  • 问题内容: 我有从mongodb导出的json文件,如下所示: 大约有30000行,我想将每一行拆分成自己的文件。 (我正在尝试将我的数据转移到榻榻米群集上) 我尝试这样做: 但是我发现它似乎减少了行的负载,而当我期望30000个奇数时,运行此命令的输出仅给了我50个奇数文件! 有没有一种逻辑方法可以使此操作不使用任何适合的方法删除任何数据? 问题答案: 假设您不在乎确切的文件名,如果要将输入拆分

  • 问题内容: 将Spring的配置拆分为多个xml文件的正确方法是什么? 此刻我有 /WEB-INF/foo-servlet.xml /WEB-INF/foo-service.xml /WEB-INF/foo-persistence.xml 我有以下内容: 实际问题: 这种方法正确/最佳吗? 我真的需要同时指定中的配置位置 和该板块? 我需要记住什么才能能够引用中定义的?这与 指定有关吗? 更新1:

  • 问题内容: 我的体积太大了,很难找到正确的视图。 如何将其拆分为多个文件,然后导入?是否涉及速度损失? 我可以这样吗? 问题答案: 在Django中,所有内容都是Python模块(* .py)。你可以创建一个具有内部视图的文件夹,并且仍然可以导入视图,因为这也实现了Python模块。但是一个例子会更好。 你的原始图片可能如下所示: 使用以下文件夹/文件结构,它将起到相同的作用: viewsa.py