当前位置: 首页 > 面试题库 >

我如何知道纯文本文件是用哪种语言编写的?

平羽
2023-03-14
问题内容

假设我们有一个文本文件,内容为:“ Je suis un beau homme …”

另一个带有:“我是一个勇敢的人”

第三个带有德语文本:“ Guten morgen。Wie geht的?”

我们如何编写一个函数来告诉我们:以这种可能性,第一个文件中的文本是英语,第二个文件中有法语等?

欢迎链接到书籍/开箱即用的解决方案。我用Java编写,但是如果需要,我可以学习Python。

我的评论

  1. 我需要添加一条小评论。文本可能包含不同语言的词组,作为整体的一部分或由于错误而导致。在经典文学中,我们有很多例子,因为贵族成员会说多种语言。因此,该概率可以更好地描述情况,因为文本的大多数部分都使用一种语言,而其他部分则可能使用另一种语言编写。
  2. Google API-Internet连接。我宁愿不使用远程功能/服务,因为我需要自己做或使用可下载的库。我想对该主题进行研究。

问题答案:

有一个名为JLangDetect的软件包,它似乎完全可以满足您的要求:

langof("un texte en français") = fr : OK
langof("a text in english") = en : OK
langof("un texto en español") = es : OK
langof("un texte un peu plus long en français") = fr : OK
langof("a text a little longer in english") = en : OK
langof("a little longer text in english") = en : OK
langof("un texto un poco mas largo en español") = es : OK
langof("J'aime les bisounours !") = fr : OK
langof("Bienvenue à Montmartre !") = fr : OK
langof("Welcome to London !") = en : OK
// ...

编辑:正如Kevin所指出的那样,在Nutch项目中,由org.apache.nutch.analysis.lang包提供了类似的功能。



 类似资料:
  • 主要内容:写纯文本文件,读纯文本文件Go语言提供了很多文件操作的支持,在不同场景下,有对应的处理方式,本节我们来介绍一下文本文件的读写操作。 写纯文本文件 由于Go语言的 fmt 包中打印函数强大而灵活,写纯文本数据非常简单直接,示例代码如下所示: 运行上面代码会在当前目录下生成一个 output.txt 文件,文件内容如下: https://www.xnip.cn/golang/ https://www.xnip.cn/golan

  • 问题内容: 如何确定脚本本身内部的Bash脚本文件的名称? 就像我的脚本在文件中一样,那么我如何在不进行硬编码的情况下显示“您正在运行runme.sh”消息呢? 问题答案: 要通读通常不是您想要的符号链接1(您通常不希望这样使用户感到困惑),请尝试: 海事组织,这将产生令人困惑的输出。“我运行了foo.sh,但这是说我正在运行bar.sh !?一定是bug!” 此外,具有不同名称的符号链接的目的之

  • 问题内容: 我有一个 可编辑的 JComboBox,无论何时通过键入或选择更改文本,我都想在其中进行一些操作。在这种情况下,文本是一个模式,我想验证该模式是否有效,并显示导致某些测试数据匹配的内容。 完成显而易见的操作后,附加一个ActionHandler,我发现,对于键入而言,该事件充其量似乎是不可靠的(选择很好)。而当它 做 火打字的结果,文字检索(使用getEditor()。getItem(

  • 问题内容: 有谁知道如何在Python中获取文件的编码。我知道您可以使用编解码器模块打开具有特定编码的文件,但是您必须事先了解它。 有没有一种方法可以自动检测文件使用哪种编码? 提前致谢 编辑:谢谢大家非常有趣的答案。您可能还会对基于chardet的http://whatismyencoding.com/感兴趣(该站点的更多内容由bottle python框架提供支持) 问题答案: 不幸的是,没有

  • 文件概述 文件是指存储在外部存储器上的数据集合。更准确的来说,文件就是一组相关元素或数据的有序集合,而且每个集合都有一个符号化的指代,称这个符号化的指代为文件名。 文件类型 根据文件在外部存储器上的组织形式,文件可以分为ASCII文件和二进制文件。 ASCII文件(文本文件):以字符的方式进行存储,一个字符对应一个ASCII码,而一个ASCII码占用1字节。例如:整数12在内存中占用4个字节;如果

  • 我正在写一个程序,通过硒网络驱动程序从一个网站获取数据。我正在努力为我们的项目创造足球装置。到目前为止,我完成了从网站上获取日期和时间、团队名称和分数。还在尝试在txt文件上写,但是在txt文件上写的时候有点乱 如何在excel文件上完成书写和阅读?我想这样写 这是我的部分代码: 写作部分: