当前位置: 首页 > 软件库 > 程序开发 > 搜索引擎 >

Mustru

桌面搜索引擎
授权协议 未知
开发语言 Java
所属分类 程序开发、 搜索引擎
软件类型 开源软件
地区 不详
投 递 者 柴衡
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Mustru是一个桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等开源项目开发。能够对本地文件系统的多个目录进行索引,然后使用一个Web界面查询该索引。Mustru提供的功能包括:

  • 从HTML、PDF和DOC等40多种常见的文件类型文件中抽取文本。
  • 检查重复的内容。
  • 使用GATE找出文本中的一些实体(人,地名和组织/机构)。
  • 支持多线程索引、归类和实体抽取。
  • 能够修复和恢复索引文件。
  • 找出相似的文档。
  • 支持接受用自然语言提问,然后返回相应答案列表。
  • 使用一个预先定义好的分类法将文本内容归类成体育、商业、健康等领域。

 相关资料
  • 问题内容: 在哪里可以找到有关WDS的文档,特别是使用C#中的SQL查询来查询WDS?是否有任何资源列出可以从SystemIndex查询的列?另外,我希望查询返回“上下文”,即就像WDS客户端从找到搜索词的文档中的几行开始一样。尽管我相信3+的API是相同的,但我正在使用WDS 4.0。我检查了MSDN和其他站点,但是没有运气。 问题答案: 在MSDN论坛上发布并得到答案:可以搜索的列或属性:ht

  • 搜索引擎分为两部分: 时间筛选 和 搜索引擎 (详情) 1.时间筛选 便捷按钮有今日、昨日、前日、上周 X、近七天,并且能自定义选择时间段来得出想要的结果报表 2.搜索引擎 (时间段详情) 选择日期,查看来自对应时间段内,各个搜索引擎的访问量比例

  • 我有大量相同类型的实体,每个实体都有大量属性,并且我只有以下两种选择来存储它们: 将每个项存储在索引中并执行多索引搜索 将所有enties存储在单个索引中,并且只搜索1个索引。 一般而言,我想要一个时间复杂度之间的比较搜索“N”实体与“M”特征在上述每一种情况!

  • lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 restful api / Java api 接口(另外还有其他语言的 api 接口)。 分布式的文档存储

  • 搜索引擎 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索引擎 source/engine/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%) ip

  • 更改历史 * 2018-05-07 胡小根 初始化文档 1 历史、现状和发展 1.1 历史 1.2 现状 1.3 发展 难点:预测发展方向。 2 安装和使用 2.1 安装 2.2 使用 创建index和type 上传单条数据 批量上传数据 查询 2.3 示例 2.4 最佳实践 难点:最佳实践,超出于示例,应该归纳总结出积累的技巧。 3 同类技术对比 难点:归纳比对项 参考资料 El