当前位置: 首页 > 知识库问答 >
问题:

俄语句子检测

谢嘉
2023-03-14

我正在使用ApacheOpenNLP库。我正在做一个项目,需要用不同的语言执行几个NLP任务,其中俄语是一个非常重要的任务。然而,我不懂俄语,也找不到任何适用于俄语的OpenNLP模型

因此,我可以可靠地执行句子检测的唯一方法是在俄语文本上训练句子检测器并生成一个我稍后将使用的模型。我必须分析的文本非常具体,并且不够笼统,无法创建有效的模型。

因此,我想问是否有人能为我提供一份俄语参考文本,分为足够笼统的句子(包含常见的习语、缩写等)。我不知道需要多长时间,因为文档没有指定培训文本的建议大小。然而,我认为也许几百句话就足够了。

共有2个答案

宋明亮
2023-03-14

最后,我接受了第一条评论中建议的文档,加上维基百科上的一些文章,达到了98%的准确率,所以没关系:3

缑桐
2023-03-14

为什么不把一些给定的文本拆分在“.”上,然后自己检查一下,纠正你看到的任何错误?——对于只有几百个句子,制作自己的语料库可能需要和在互联网上找到一个语料库一样长的时间。

 类似资料:
  • OpenNLP API中句子检测类背后使用的逻辑是什么?是: 基于“”进行检测或 最长的空白修剪字符序列或 还有别的 有人能解释一下吗? 另外:解析API中的解析是如何完成的,即使用的逻辑是什么?

  • 问题内容: 我将如何在没有硬编码值的情况下编写此sql语句? 宁愿有这样的事情: 提前致谢.. 问题答案: 用您当前的方式构造SQL查询是一个糟糕的主意,因为它为各种SQL注入攻击打开了大门 。为了正确执行此操作,您必须改为使用“ 预备语句”。这也将解决您目前显然遇到的各种逃避问题。 请注意,这是一个昂贵的调用(除非您的应用程序服务器使用语句缓存和其他类似的功能)。从理论上讲,最好先准备一次语句,

  • 问题内容: 我注意到以下代码在Python中是合法的。我的问题是为什么?是否有特定原因? 问题答案: else仅当你的while条件为假时才执行该子句。如果你break超出循环范围,或者引发了异常,则不会执行该异常。 考虑它的一种方法是关于条件的构造: 一个示例可能类似于:

  • SELECT 语句,FROM 子句示例 下列示例假设在员工表中存在一个假设的工资字段。请注意,此字段 实际上在 Northwind 数据库员工表之中并不存在。 此示例创建一个 dynaset 型 Recordset,基于 SQL 语句选择在员工表中的所有纪录的姓和名字段。它调用 EnumFields 过程,且该过程打印 Recordset 对象的内容到“调试”窗口。 Sub SelectX1()

  • 有可能做如下事情吗: 或者: 我知道用很多if-else语句也可以实现同样的目标,但如果它像上面那样工作,看起来会更干净。

  • 问题内容: 在WHERE子句中有使用SELECT语句描述的名称吗?这是好/不好的做法吗? 这会是更好的选择吗? 它远没有那么优雅,但是运行起来比以前的版本要快。我不喜欢它,因为它在GUI中没有非常清晰地显示(并且SQL初学者需要理解它)。我可以将其分为两个独立的查询,但是随后事情变得混乱了…… 注意:我不仅需要日期和分数(例如姓名) 问题答案: 称为相关子查询。它有它的用途。