当前位置：首页 > 软件库 > 程序开发 > 搜索引擎 >

Lemur

搜索工具

授权协议 BSD

开发语言 C/C++

所属分类程序开发、搜索引擎

软件类型开源软件

地区不详

投递者长孙宜

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

基于语言模型和检索模型的搜索工具，国外用来学习检索模型和倒排表索引的好东西。

使用案例

Lemur的检索过程

Lemur的检索过程如下图所示，主要包括语句的解析，索引的查找，打分和排序三个部分，具体过程如图四所示。查询执行是按以下步骤执行的： 1. 根据查询语句中要查询的单词term去frequentString或infrequentString中找出倒排索引在invertedFile中的起始位置和长度。 2. 根据1中得到的invertedFile中的起始位置和长度
开启新篇章Lemur-Boot微服务时代的基础平台

spring cloud 也算关注很久了,但是一直没有实施过,观望很久还是决定入坑了, 打算做一个基础企业微信和钉钉的基础平台,满足大家再企业应用的需求才开始入手基础慢慢累积吧
Nginx Unit 与 LEMUR 新架构

从 LAMP、LEMP 到 LEMUR 从 20 世纪 90 年×××始，LAMP 架构成为了部署 Web 应用程序最有名和最值得信赖的方法。LAMP 是 Linux，Apache，MySQL和 PHP 的首字母缩写。直至今日，Apache 经过不断迭代，依旧作为一个成熟、稳定、强大的 Web 架构被广为使用。然而随着用于开发和交付现代 Web 应用程序的架构不断地追求轻便和简化。NGINX 横
Lemur编写索引器

http://blog.sciencenet.cn/blog-273829-312138.html http://sourceforge.net/p/lemur/wiki/Home/ http://qiangrw.github.io/2012/03/intro-to-lemur-tool/ http://www.aiuxian.com/article/p-1143952.html
lemur学习

database 是我在MySql数据中建的表(map, sets, category) error_set.cvs,media_categories.csv, training_set.csv这三个文件是原始文件 error_set.csv这个应该是错误文件，我没有理它 training_set.csv文件存的url， category，score,分别是数据的url，分类，和得分，其中分类对应
VS2008 lemur-4.12

6月4号，我从http://sourceforge.net/projects/lemur/files/lemur/lemur-toolkit-4.12/下载了两个lemur project 4.12的包，一个是开源代码lemur-4.12.tar.gz，另一个是安装程序lemur-4.12-install.exe。下面我来比较用这两种方式来在VS2008上配置。先解压lemur-4.12.tar.
lemur run PLSA

1.建索引 trec文档的最后一个</DOC>标记后一定要有换行。建索引可以选用buildindex.exe，或者indribuildindex.exe。然后要说明的是，索引参数文件里有索引类型一项。<indexType> key(或indri)</indexType>。当用buildindex.exe时，建成的两种类型的索引文件是不一样的，甚至以后的概率表结果也有影响（但我不确定）；而用ind
lemur 使用

我主要想研究下 indri ，所以就只研究这快下载源代码后，直接configure ;make 就可以了建立索引：配置文件 <parameters> <index>/home/admin/indri/buildindex/test/index </index> <corpus> <path
Lemur（狐猴）一个用于自然语言模型和信息检索研究的系统

介绍： Lemur（狐猴）系统是CMU和UMass联合推出的一个用于自然语言模型和信息检索研究的系统。在这个系统上可以实现基于自然语言模型和传统的向量空间模型以及Okapi的ad hoc或者分布式检索，可以使用结构化查询，跨语言检索，过滤，聚类等等。目前最新的版本是3.0，CMU和UMass在9月将推出新的版本 Indri(大狐猴)，将加入支持terabyte（1000G就是1T）的数据库和结构
lemur代码分析之 #line

今天一直在纠结parsing中的函数不能调试的问题，搞了一两天才明白原来是#line的问题。这个宏本来是为来方便在程序出错时能更准确的定位出错信息，但它却影响到了调试。把这些代码都注释掉就可以调试了。下面就记录一下#line相关的知识：此命令主要是为强制编译器按指定的行号，开始对源程序的代码重新编号，在调试的时候，可以按此规定输出错误代码的准确位置。形式1 语法格式如下: # line c
初识lemur--试验indribuildindex命令

2012年4月17号，我从lemur（狐猴）http://www.lemurproject.org/官网下载了Indri-5.2-install.exe。我开始安装这个软件，过程中选择了一个“full”，安装在D:\lemur\目录下，安装完成后其中有多个文件夹，还有一个license文件和一个uninst卸载程序，就这些东西。经过查看，bin文件夹中是一些C++程序debug后或release后
Lemur的参数文件

Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学（CMU）开发，在2001年公布了第一个公开的版本，目前最新版本是4.6。其特点是在检索中引入了语言模型，更重要的是，它不仅是一个完整的检索系统，而且是以工具包的形式提供的。各功能模块都有良好的封装，并提供清晰的源代码和丰富的文档说明，研究者使用它搭建自己的实验系统易如反掌。 Lemur Toolkit的设计目标是促进和帮助在文本
Lemur生成索引

2.2生成索引 Lemur Toolkit建立对XML文档建立索引的过程，和其它检索系统很相似，主要分为文档的解析，去除stopword和取词根，统计tf，存入硬盘。过程如图一所示。 2.2.1 TextTokenizer 这部分是把XML文档拆分成对应的单词和元素结点的集合，生成的结构体为TokenizedDocument。其中单词是存在向量terms中，对应的位置是通过在XML文档
Lemur的查询执行

语言模型语言模型假设每个XML文档都会产生一个不同的模型，这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列，每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候，XML文档的概率分布被认为是多维的，例如，多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):

Lemur

同类工具

相关阅读

相关文章

相关问答

相关文档