Java 8的字数统计

蓟辰沛

2023-03-14

问题内容：

我正在尝试在Java 8中实现单词计数程序，但无法使其工作。该方法必须将字符串作为参数并返回Map<String,Integer>。

当我以旧的Java方式进行操作时，一切正常。但是，当我尝试在Java 8中执行此操作时，它将返回一个映射，其中键为空且具有正确的出现次数。

这是我的Java 8风格的代码：

public Map<String, Integer> countJava8(String input){
       return Pattern.compile("(\\w+)").splitAsStream(input).collect(Collectors.groupingBy(e -> e.toLowerCase(), Collectors.reducing(0, e -> 1, Integer::sum)));
    }

这是我在正常情况下会使用的代码：

public Map<String, Integer> count(String input){
        Map<String, Integer> wordcount = new HashMap<>();
        Pattern compile = Pattern.compile("(\\w+)");
        Matcher matcher = compile.matcher(input);

        while(matcher.find()){
            String word = matcher.group().toLowerCase();
            if(wordcount.containsKey(word)){
                Integer count = wordcount.get(word);
                wordcount.put(word, ++count);
            } else {
                wordcount.put(word.toLowerCase(), 1);
            }
        }
        return wordcount;
 }

主程序：

public static void main(String[] args) {
       WordCount wordCount = new WordCount();
       Map<String, Integer> phrase = wordCount.countJava8("one fish two fish red fish blue fish");
       Map<String, Integer> count = wordCount.count("one fish two fish red fish blue fish");

        System.out.println(phrase);
        System.out.println();
        System.out.println(count);
    }

当我运行该程序时，输出如下：

{ =7, =1}
{red=1, blue=1, one=1, fish=4, two=1}

我认为该方法splitAsStream会将正则表达式中的匹配元素流式传输为Stream。我该如何纠正？

问题答案：

问题似乎在于您实际上是按单词 拆分的 ，也就是说，您正在流过不是单词或单词 之间的所有内容
。不幸的是，似乎没有等效的方法来传输实际的比赛结果（难以置信，但我没有找到任何方法；如果您知道，请随时发表评论）。

取而代之的是，您可以使用\W而不是非单词进行拆分\w。此外，如在评论中指出，你可以把它有点
更通过可读String::toLowerCase，而不是一个拉姆达和Collectors.summingInt。

public static Map<String, Integer> countJava8(String input) {
    return Pattern.compile("\\W+")
                  .splitAsStream(input)
                  .collect(Collectors.groupingBy(String::toLowerCase,
                                                 Collectors.summingInt(s -> 1)));
}

但是恕我直言，这仍然很难理解，这不仅是因为“反向”查找，而且很难将其推广到其他更复杂的模式。就我个人而言，我只是采用“老派”解决方案，也许可以使用新解决方案使它更紧凑getOrDefault。

public static Map<String, Integer> countOldschool(String input) {
    Map<String, Integer> wordcount = new HashMap<>();
    Matcher matcher = Pattern.compile("\\w+").matcher(input);
    while (matcher.find()) {
        String word = matcher.group().toLowerCase();
        wordcount.put(word, wordcount.getOrDefault(word, 0) + 1);
    }
    return wordcount;
}

在两种情况下结果似乎都是相同的。

Java 8的字数统计

相关阅读

相关文章

相关问答

相关工具

相关文档