当前位置: 首页 > 知识库问答 >
问题:

如何将实体识别与Apache solr和LingPipe或类似工具结合使用

巫经义
2023-03-14

我想在使用ApacheSolr索引数据时使用NLP。

>

标识命名实体,并在索引时对其进行标记。

当有人查询Solr索引时,我应该能够从查询中提取命名实体和意图并形成查询字符串,这样它就可以有效地搜索索引文件。

是否有任何工具/插件可以满足我的要求?我相信这是大多数基于内容的网站的常见用例。人们如何处理它?

共有2个答案

漆雕皓轩
2023-03-14

看看ApacheUima

具体来说,如果需要Solr进行命名实体识别,可以使用SolrUIMA将其与UIMA集成

看看这个演讲,它展示了UIMA Solr。

钱哲茂
2023-03-14

这里有一个关于使用SOLR和Stanford NER的教程。

 类似资料:
  • 设置ARN所需的细节,得到一个设置给帧查看器的视频流。然后尝试将Kinesis视频流与Rekognition集成。

  • 问题内容: 我有一个带有MySQL的远程数据库,并且将我的应用程序用户的照片存储在数据库中,作为LONGTEXT类型的数据库的一行。 我使用Base64将照片转换为字符串。 我使用JSON和PHP连接到远程数据库,因此,我必须使用Base64,因为据我所知,JSON和PHP需要在参数上发送字符串,而使用Base64可以将照片转换为字符串。 可以,但是非常慢。当我加载100 KB的照片时,会花费很多

  • 我正在根据条件创建一个组件: 现在我想给它添加一些动画,这意味着我想融入容器中,而不是让它突然出现。我在想以下几点: 然后在我的SCSS文件中,我添加了以下内容: 现在,这个动画根本不起作用。我在单击图标时切换变量,并且我已经验证了该变量实际上正在切换!我有一种感觉,这可能与指令有关。有人能帮我吗?

  • 问题内容: 我正在使用Go语言,回声框架进行开发。 我正在设计一个记录器,我想将线程ID的等价物记录到日志中,但是我不知道一个好的方法。 例如,如果同时进行多次访问的登录处理,则它在一侧成功,而在一侧失败。通过查看失败的日志无法确定。 经过检查,Go语言中的goroutine的id存在,但我不应该得到它,最初据说goroutine在同一线程中是不同的。 如何识别线程?还是有包装将它们放入日志中?

  • 我想知道是否有一种简单的方法来连接Kafka和Netflix导体(而不是SQS)?目前,它似乎只适用于Amazon SQS。此外,似乎只能按任务执行一个操作。有没有办法按任务执行多个操作? 提前感谢,

  • 问题内容: 我针对正常运行的Web应用程序进行了一系列功能测试,但是每个功能测试都需要通过和注释提供的类级别的设置和拆卸,因此需要JUnit 4.0或更高版本。 现在,我想使用少量的这些功能测试来执行负载测试,这些功能测试可以模拟大量请求Web应用程序相关页面的用户。为了让每个用户在JWebUnit中都有自己的“模拟浏览器”,我需要在JUnitPerf中使用TestFactory来实例化测试中的类