当前位置: 首页 > 面试题库 >

确定Java中文件的单词总数的最佳方法是什么?

凤明朗
2023-03-14
问题内容

在Java中查找文本文件中单词总数的最佳方法是什么?我认为Perl是找到这种东西的最佳选择。如果是这样,那么从Java内调用Perl函数将是最佳选择?在这种情况下您会怎么做?还有更好的主意吗?


问题答案:

恭喜,您偶然发现了最大的语言问题之一!什么字 有人说,单词是唯一真正代表其含义的单词。语言学的整个领域都涉及词/意义单元-形态学。

我认为您的问题与计算英语单词有关。但是,由于语言上的差异,几乎不可能创建与语言无关的单词计数器/解析器。例如,人们可能认为仅处理由空格分隔的字符组就足够了。但是,如果您使用日语查看以下示例,则会发现该方法不起作用:

语日本语の例文です。

本示例包含3个不同的词,并且没有一个用空格分隔。通常,日语单词边界是使用基于字典的方法来解析的,为此可以使用许多商业库。我们很幸运能有英文空格!我相信印度语,中文和韩文也有类似的问题。

如果将以任何可能的多语言输入方式实际部署此解决方案,那么根据所解析的语言,能够插入不同的字数统计方法就很重要。

我认为第一个答案是一个很好的答案,因为它使用Java的Unicode空格值知识作为分隔符。它通过使用以下正则表达式进行匹配来标记化:\p{javaWhitespace}+



 类似资料:
  • 问题内容: 我有一个应用程序,它读取带有大量数据行的CSV文件。我根据数据类型为用户提供了行数的摘要,但我想确保不会读取太多的数据行并导致OutOfMemoryErrors。每行转换为一个对象。有没有一种简便的方法以编程方式找出该对象的大小?是否有一个引用定义了一个原始类型和对象引用有多大VM? 现在,我的代码可以读取多达32,000行,但我还想让代码显示尽可能多地读取行,直到使用32 MB内存为

  • 问题内容: 我一直在使用此功能,但我想知道什么是最有效,最准确的方法。 问题答案: 第0天是上个月的最后一天。因为month构造函数是基于0的,所以效果很好。有点hack,但这基本上就是您减去32的结果。

  • 问题内容: 尝试编写一个简短的方法,以便我可以解析一个字符串并提取第一个单词。我一直在寻找做到这一点的最佳方法。 我假设我会使用,但是我想只从字符串中获取第一个单词,并将其保存在一个变量中,并将其余标记放在另一个变量中。 有一个简洁的方法吗? 问题答案: 方法的第二个参数是可选的,如果指定该参数,则只会将目标字符串分割几次。 例如: 或者,您可以使用String方法。

  • 问题内容: 我有一个不完整的csv文件,需要准确更新,因此有这样的csv文件: 自然地,文件要复杂得多,但是以这种格式,这是我要在7到8(或任何范围)之间插入或n个单词的内容。我怎样才能做到这一点? 伪代码,代码或示例都很好,我不知道如何开始。 更新: 也许我应该将其转换为数组或某种数据结构。然后,在特定位置插入新项目,将其余内容右移,并在每次插入时执行该操作。 我不知道是否正确的方法或如何开始对

  • 问题内容: 当前,我们的Java应用程序使用制表符分隔的* .cfg文件中包含的值。我们需要更改此应用程序,以使其现在使用XML文件。 为了从此文件中读取值,使用的最佳/最简单的库是什么? 问题答案: 当然,根据您的需要有很多好的解决方案。如果只是配置,则应查看Jakarta commons- configuration 和commons- digester 。 您总是可以使用获取文档的标准JDK

  • 问题内容: 我正在生成一些需要符合给我的xsd文件的xml文件。验证其符合性的最佳方法是什么? 问题答案: Java运行时库支持验证。上次我检查的是幕后的Apache Xerces解析器。你可能应该使用。 模式工厂常量是http://www.w3.org/2001/XMLSchema定义XSD 的字符串。上面的代码针对URL验证了WAR部署描述符,http://java.sun.com/xml/n