当前位置: 首页 > 知识库问答 >
问题:

使用HADOOP mapreduce pgm计算XML中的每个文本值

郑松
2023-03-14
<configuration>
<property>
 <name>adv</name>
 <value>a</value>
 <dup>school</dup>
</property>
<property>
 <name>aghy</name>
 <value>a</value>
 <dup>bk</dup>
</property>
</configuration>

我需要一个像这样的输出adv 1 a 2 aghy 1学校1 bk 1

如何编辑代码https://github.com/studhadoop/xmlparsing-hadoop/blob/master/xmlparser11.java。请帮帮我。

共有1个答案

蒋骏
2023-03-14

您需要一些东西:

  • 一种用于处理XML文件的输入格式,建议您查看Mahout的XMLINPutFormat
  • 传递给映射器(SAX或DOM)的XML字符串的解析器,可能定义一些要绑定到的JAXB对象

和一些有用的链接:

    null
 类似资料:
  • 我正在处理一个文档(熊猫数据框),其中包含数千行文本消息(dtype=str)及其分类(垃圾邮件或非垃圾邮件): 我想计算每条消息(即每行)的字符数,将它们分成一个单独的列(“长度”),将它们的总数相加,然后除以len(文档),得到文档的平均长度(字符数)。在存在非字符空间的情况下,获取此属性的最有效方法是什么?我是否只对整个数据帧中的每一行条目应用len()? 非常感谢。

  • 本文向大家介绍使用Java计算文本文件中的行数,包括了使用Java计算文本文件中的行数的使用技巧和注意事项,需要的朋友参考一下 我们可以使用Java的BufferedReader类读取文件中的行。请参阅下面的示例- 示例 在类路径中请看以下文本文件。 test.txt 测试器 这将产生以下结果- 输出结果

  • 问题内容: 我可以列出所有目录 我试图使用以下命令列出每个目录的内容并计算每个目录中的文件数 但这是求和的总和 有没有一种方法可以计算每个目录中的文件数? 问题答案: 假设您已找到GNU,请让其查找目录,然后让bash进行其余操作:

  • 本文向大家介绍使用Java计算文本文件中的字符数,包括了使用Java计算文本文件中的字符数的使用技巧和注意事项,需要的朋友参考一下 我们可以使用Java的BufferedReader类读取文件中的字符。请参阅下面的示例- 示例 在类路径中请看以下文本文件。 test.txt 测试器 这将产生以下结果- 输出结果

  • 本文向大家介绍使用Java计算文本文件中的段落数,包括了使用Java计算文本文件中的段落数的使用技巧和注意事项,需要的朋友参考一下 我们可以通过读取字符串中的段落来读取文件中的段落,然后根据“ \ r \ n”模式进行分割。请参阅下面的示例- 示例 在类路径中请看以下文本文件。 test.txt 测试器 这将产生以下结果- 输出结果

  • Usng maven和Springboot。我希望每个环境(dev、cert)使用不同的文件配置(log4j2.xml、application.properties)。我在pom上创建了两个配置文件。xml文件,我还有两个文件夹,分别放在src/main/resources中,每个文件夹都有文件配置(dev和cert)。我想根据我使用的配置文件包括这些文件。我在目录中有其他文件,所以我不想使用这种