当前位置: 首页 > 面试题库 >

从句子中产生N-gram

许振海
2023-03-14
问题内容

如何生成字符串的n元语法,例如:

String Input="This is my car."

我想用此输入生成n-gram:

Input Ngram size = 3

输出应为:

This
is
my
car

This is
is my
my car

This is my
is my car

用Java给出一些想法,如何实现它,或者是否有可用的库。

我正在尝试使用此NGramTokenizer,但它给出了n-
gram的字符序列,而我想要n-gram的单词序列。


问题答案:

您正在寻找ShingleFilter。

更新:链接指向版本3.0.2。在更高版本的Lucene中,此类可能位于不同的包中。



 类似资料:
  • 问题内容: 我在某处看到此查询- 什么是 “N” 是什么意思?我不确定这是否仅对SQL Server有效。 问题答案: N代表“国家字符”,它表示字符串的内容为Unicode。 只要碰到专有名称或其他可能包含默认ASCII字符集以外的字符的实体,就应该使用Unicode(/ )。如果不使用前缀将此类字符串括起来,则会丢失数据。例如: 结果: 您还应确保在您或其他子句中对列使用前缀。不使用前缀时,由

  • 问题内容: 我有以下观点: 但我最终可能会得到其中TitleSP或TitleEN为空的记录。在这种情况下,我只想包含不为null的任何列,并且不包含“ /”。 有没有办法做到这一点?也就是说,遵循以下逻辑: 问题答案:

  • 问题内容: 我试图在Postgres 9.1.3中使用此查询: 我收到此错误: 我真的很困惑 根据Postgres文档,WITH子句显示正确。如果我在WITH子句中单独运行查询,则会得到正确的结果。 问题答案: 从精美的手册中: 有两种方法可以使用数据库中其他表中包含的信息来修改表:使用子选择,或在子句中指定其他表。 因此,您只需要一个FROM子句: 错误消息甚至说了很多: 错误:缺少表“ sto

  • 问题内容: 在SQL Server中, 您可以这样编写嵌套的SQL: 这样,我可以获得一个可以嵌套到其他查询中的临时表T。 但是我不能在oracle SQL中做同样的事情 它给我 选择*有效,但这不是我想要的。有人知道该怎么做吗? 问题答案: 无论我显式指定别名还是指定,您发布的查询都对我有效。收到异常后,您可以发布正在运行的确切查询吗? 我的猜测是您要选择不带双引号的内容。如果在Oracle中使

  • 问题内容: 我有一个程序尝试为每个特工在表格中插入样本,每个特工的样本数量因某些计算而异 我到这里的错误是 消息4115,级别15,状态1,第4 行在TOP子句的参数中不允许引用列“ samplesize”。此处仅允许引用外部作用域的列或独立的表达式和子查询。 有没有解决方法? 任何帮助表示赞赏。 提前致谢。 问题答案: 您可以用来做基本上相同的事情: 您也许可以简化一下,但是我不知道它是否来自d

  • 我想在一个方法上使用注释创建一个CDI工厂,以便在外部服务中查找一个命名的东西,并返回(生成)一个外部服务中这个东西的代理,以便注入到其他bean中。从用例的角度来看,通常需要所有这些依赖关系;然而,有时请求的内容在远程服务中不存在,应用程序可以对这一事实做出反应。 基本上结构是这样的: 这适用于需要使用Something的一侧的注入的情况:成功的查找注入已查找的实例,而不成功的查找破坏bean引