当前位置: 首页 > 知识库问答 >
问题:

hadoop,段落中的字数

谷弘致
2023-03-14

通常,Hadoop示例定义了如何对一个文件或多个文件进行字数计算,字数计算的结果将来自整个集合!

我希望对每个段落进行wordcount,并将其存储在单独的文件中,如paragh(i)_wordcnt.txt。

para1
...
para2
...
para3
...

我能看到para2写para1的wordcount结果吗?或者,如果以其他方式在单独的文件中写入每一段,该如何做,像这样的顺序

   loop: 
   file(i)(parai)->Mapper->Reducer->multipleOutput(output-file(i))->writetofile(i);
   i++;
   goto loop;

共有1个答案

胡夕
2023-03-14

你需要让记录者一次读一段。参见以下问题:重写RecordReader以立即读取段落而不是行

 类似资料:
  • 关于字符和段落样式 字符样式是许多字符格式属性的集合,可应用于所选的文本范围。段落样式包括字符和段落格式属性,并可应用于所选段落,也可应用于段落范围。使用字符和段落样式可节省时间,还可确保格式的一致性。 可以使用“字符样式”和“段落样式”面板来创建、应用和管理字符和段落样式。要应用样式,只需选择文本并在其中的一个面板中单击样式名称即可。如果未选择任何文本,则会将样式应用于所创建的新文本。“段落样式

  • 原则 一个段落只能有一个主题,或一个中心句子。 段落的中心句子放在段首,对全段内容进行概述。后面陈述的句子为核心句服务。 一个段落的长度不能超过七行,最佳段落长度小于等于四行。 段落的句子语气要使用陈述和肯定语气,避免使用感叹语气。 段落之间使用一个空行隔开。 段落开头不要留出空白字符。 引用 引用第三方内容时,应注明出处。 One man’s constant is another man’s

  • 段落是被空行分割的文字片段,左侧必须对齐(没有空格,或者有相同多的空格)。 缩进的段落被视为引文。这里是段落 缩进的段落被视为引文。这里也是段落 缩进的段落被视为引文。这里还是段落 缩进的段落被视为引文。 源码 | 这里是段落 缩进的段落被视为引文。 | 这里也是段落 缩进的段落被视为引文。 | 这里还是段落 缩进的段落被视为引文。 注解 段落,可以前空2格,或使用 |,做

  • 问题内容: 我需要在段落中突出显示关键字,就像google在其搜索结果中一样。假设我有一个带有博客文章的MySQL数据库。当用户搜索某个关键字时,我希望返回包含这些关键字的帖子,但只显示帖子的一部分(包含搜索关键字的段落)并突出显示那些关键字。 我的计划是这样的: 找到内容中包含搜索关键字的帖子ID; 再次阅读该帖子的内容,并将每个单词放入固定的缓冲区数组(50个单词)中,直到找到关键字。 您能为

  • 关于字符和段落样式 字符样式是许多字符格式属性的集合,可应用于所选的文本范围。段落样式包括字符和段落格式属性,并可应用于所选段落,也可应用于段落范围。使用字符和段落样式可节省时间,还可确保格式的一致性。可以使用 “字符样式 ”和 “段落样式 ”面板来创建、应用和管理字符和段落样式。要应用样式,只需选择文本并在其中的一个面板中单击样式名称即可。如果未选择任何文本,则会将样式应用于所创建的新文本。 C

  • 主要内容:HTML 段落,实例,不要忘记结束标签,实例,HTML 折行,实例,HTML 输出- 使用提醒,本站实例,更多实例,HTML 标签参考手册HTML 可以将文档分割为若干段落。 HTML 段落 段落是通过 <p> 标签定义的。 实例 <p>这是一个段落 </p> <p>这是另一个段落</p> 注意:浏览器会自动地在段落的前后添加空行。(</p> 是块级元素) 不要忘记结束标签 即使忘了使用结束标签,大多数浏览器也会正确地将 HTML 显示出来: 实例 <p>这是一个段落 <p>这是另一个