我正在寻找一种简单的方法来检测文本的简短摘录,一些句子是否为英语。在我看来,这个问题比尝试检测一种任意语言要容易得多。有没有可以做到这一点的软件?我正在用python编写,并且希望使用python库,但也可以使用其他方法。我尝试过使用google,但后来意识到TOS不允许自动查询。
我读了一种通过Trigrams检测英语的方法
您可以遍历文本,并尝试检测单词中最常用的三字组。如果最常用的词与英语单词中最常用的词匹配,则文本可以用英语书写
尝试看一下这个ruby项目:
https://github.com/feedbackmine/language_detector
我正在编写一个C库,用于在不同格式/编解码器之间对音频进行解码和编码。在加载所需的编解码器库之前,我有一个快速检测格式的例程。 对于WAV文件,可以在文件开头简单查找ASCII值“RIFF”和“WAVE”。这同样适用于FLAC,我们可以简单地读取前4个字节,即“FLAC”。 但是如何快速检测文件是否是MP3?我不能依赖文件扩展名。我也无法尝试解码第一个MP3帧,因为文件开头可能有其他数据(例如:I
问题内容: 我想检查Python程序中英语词典中是否有单词。 我相信可能会采用nltk wordnet接口,但是我不知道如何将其用于如此简单的任务。 将来,我可能想检查单词的单数形式是否在字典中(例如,属性->属性->英语单词)。我将如何实现? 问题答案: 要获得更大的功能和灵活性,请使用专用的拼写检查库,例如。有一个教程,或者您可以直接学习: 带有一些词典(en_GB,en_US,de_DE,f
问题内容: 我知道那里有大量的堆栈溢出页面来解释如何执行此操作,但是每次我从此处获取代码并将其放入时,我都会遇到相同的错误,并且该错误是“字符串”的值?没有成员“文本”的任何可靠方法都可以用于检查文本字段是否快速为空? 问题答案: 这个帖子给出了一个很好的答案(很遗憾,它没有“接受”的标记)。使用。 假设您的声明为: 您可以使用以下方法检查其空度: 要在您编辑的帖子中使用变量: 要么:
问题内容: 我想知道是否有可能检测浏览器是否在iOS上运行,这与使用Modernizr进行功能检测的方式类似(尽管这显然是设备检测而非功能检测)。 通常,我宁愿使用功能检测,但我需要根据该问题确定设备是否为iOS,因为它们处理视频的方式YouTube API无法在iPad / iPhone/非Flash设备上使用 问题答案: 我不喜欢User Agent嗅探,但是这是你的处理方式: 另一种方法是依
问题内容: 我正在运行一个线程,每次运行它时,都应该检查是否有新行要读取,但是它陷入等待行的存在的状态,从而暂停了整个代码。 有没有一种方法可以更好地检查a中是否有待阅读的文本? 问题答案: 不,没有简单的方法可以做到这一点。 有一个电话,但仅适用于该电话,不适用于该电话。如果您确实希望确保不会阻止它,则必须自己使用并维护缓冲区来实现它。
问题内容: 如何判断Python中文件是否是二进制文件(非文本)? 我正在Python中搜索大量文件,并始终在二进制文件中获取匹配项。这使输出看起来异常混乱。 我知道我可以使用,但是我对数据所做的事情超出了grep所允许的范围。 过去,我只会搜索大于的字符,但是类似的字符在现代系统上是不可能做到的。理想情况下,解决方案应该很快。 问题答案: 您还可以使用mimetypes模块: 编译二进制mime
我正在创建一个网站(快速网络)在2种语言-英语和希伯来语。我有一个输入字段(段塞/用户名),必须是英文(字母数字拉丁字符)。当我从手机进入网站时,我可以用希伯来语写文本。在这个输入字段中,是否可以强制键盘为英文?我注意到电子邮件地址(电子邮件输入)的键盘已经是英文的了。 更新:在服务器端,我们会验证输入。我不想在客户端验证输入(使用JavaScript)或阻止用户键入希伯来字符(这可能会在以后完成