当前位置: 首页 > 软件库 > 程序开发 > 搜索引擎 >

Lemur

搜索工具
授权协议 BSD
开发语言 C/C++
所属分类 程序开发、 搜索引擎
软件类型 开源软件
地区 不详
投 递 者 长孙宜
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

基于语言模型和检索模型的搜索工具,国外用来学习检索模型和倒排表索引的好东西。

  • Lemur的检索过程如下图所示,主要包括语句的解析,索引的查找,打分和排序三个部分,具体过程如图四所示。     查询执行是按以下步骤执行的: 1.        根据查询语句中要查询的单词term去frequentString或infrequentString中找出倒排索引在invertedFile中的起始位置和长度。 2.        根据1中得到的invertedFile中的起始位置和长度

  • spring cloud 也算关注很久了,但是一直没有实施过,观望很久还是决定入坑了, 打算做一个基础企业微信和钉钉的基础平台,满足大家再企业应用的需求 才开始入手基础慢慢累积吧

  • 从 LAMP、LEMP 到 LEMUR 从 20 世纪 90 年×××始,LAMP 架构成为了部署 Web 应用程序最有名和最值得信赖的方法。LAMP 是 Linux,Apache,MySQL和 PHP 的首字母缩写。直至今日,Apache 经过不断迭代,依旧作为一个成熟、稳定、强大的 Web 架构被广为使用。 然而随着用于开发和交付现代 Web 应用程序的架构不断地追求轻便和简化。NGINX 横

  • http://blog.sciencenet.cn/blog-273829-312138.html   http://sourceforge.net/p/lemur/wiki/Home/   http://qiangrw.github.io/2012/03/intro-to-lemur-tool/   http://www.aiuxian.com/article/p-1143952.html  

  • database 是我在MySql数据中建的表(map, sets, category) error_set.cvs,media_categories.csv, training_set.csv这三个文件是原始文件 error_set.csv这个应该是错误文件,我没有理它 training_set.csv文件存的url, category,score,分别是数据的url,分类,和得分,其中分类对应

  • 6月4号,我从http://sourceforge.net/projects/lemur/files/lemur/lemur-toolkit-4.12/下载了两个lemur project 4.12的包,一个是开源代码lemur-4.12.tar.gz,另一个是安装程序lemur-4.12-install.exe。下面我来比较用这两种方式来在VS2008上配置。先解压lemur-4.12.tar.

  • 1.建索引 trec文档的最后一个</DOC>标记后一定要有换行。 建索引可以选用buildindex.exe,或者indribuildindex.exe。然后要说明的是,索引参数文件里有索引类型一项。<indexType> key(或indri)</indexType>。当用buildindex.exe时,建成的两种类型的索引文件是不一样的,甚至以后的概率表结果也有影响(但我不确定);而用ind

  •        我主要想研究下 indri ,所以 就只研究这快          下载源代码后,直接configure ;make 就可以了           建立索引:           配置文件 <parameters> <index>/home/admin/indri/buildindex/test/index </index> <corpus> <path

  • 介绍: Lemur(狐猴)系统是CMU和UMass联合推出的一个用于自然语言模型和信息检索研究的系统。在这个系统上可以实现基于自然语言模型和传统的向量空 间模型以及Okapi的ad hoc或者分布式检索,可以使用结构化查询,跨语言检索,过滤,聚类等等。目前最新的版本是3.0,CMU和UMass在9月将推出新的版本 Indri(大狐猴),将加入支持terabyte(1000G就是1T)的数据库和结构

  • 今天一直在纠结parsing中的函数不能调试的问题,搞了一两天才明白原来是#line的问题。 这个宏本来是为来方便在程序出错时能更准确的定位出错信息,但它却影响到了调试。把这些代码都注释掉就可以调试了。 下面就记录一下#line相关的知识: 此命令主要是为强制编译器按指定的行号,开始对源程序的代码重新编号,在调试的时候,可以按此规定输出错误代码的准确位置。 形式1 语法格式如下: # line c

  • 2012年4月17号,我从lemur(狐猴)http://www.lemurproject.org/官网下载了Indri-5.2-install.exe。我开始安装这个软件,过程中选择了一个“full”,安装在D:\lemur\目录下,安装完成后其中有多个文件夹,还有一个license文件和一个uninst卸载程序,就这些东西。经过查看,bin文件夹中是一些C++程序debug后或release后

  • Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本,目前最新版本是4.6。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。 Lemur Toolkit的设计目标是促进和帮助在文本

  • 2.2生成索引   Lemur Toolkit建立对XML文档建立索引的过程,和其它检索系统很相似,主要分为文档的解析,去除stopword和取词根,统计tf,存入硬盘。过程如图一所示。   2.2.1 TextTokenizer   这部分是把XML文档拆分成对应的单词和元素结点的集合,生成的结构体为TokenizedDocument。其中单词是存在向量terms中,对应的位置是通过在XML文档

  • 语言模型   语言模型假设每个XML文档都会产生一个不同的模型,这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列,每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候,XML文档的概率分布被认为是多维的,例如,多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):    

 相关资料
  • lemur-generation:新一代代码生成器,秒数开发。 Gen 是我构思了挺久的一个代码生成项目,之前零零散散也写了不少代码生成,但是很多都不太理想不能够满足通用性和特殊定制性的需求,每次生成出来还要改一部分的代码,很难做到0修改。 而这个就是为了做到让大家 0 修改上线的一个小系统,帮减少大家的开发时间,专注于业务开发。而不是写这些单纯的 CURD,功能强大的代码生成器,点一下就可以完成

  • 无论仓库里的代码量有多少,你经常需要查找一个函数是在哪里调用或者定义的,或者一个方法的变更历史。 Git 提供了两个有用的工具来快速地从它的数据库中浏览代码和提交。 我们来简单的看一下。 Git Grep Git 提供了一个 grep 命令,你可以很方便地从提交历史或者工作目录中查找一个字符串或者正则表达式。 我们用 Git 本身源代码的查找作为例子。 默认情况下 Git 会查找你工作目录的文件。

  • 主要内容:解决问题的代理,搜索算法术语,搜索算法的属性,搜索算法的类型搜索算法是人工智能最重要的领域之一。本主题将解释有关AI中搜索算法的所有信息。 解决问题的代理 在人工智能中,搜索技术是普遍的问题解决方法。AI中的合理代理或问题解决代理主要使用这些搜索策略或算法来解决特定问题并提供最佳结果。解决问题的代理是基于目标的代理并使用原子表示。在本主题中,我们将学习各种解决问题的搜索算法。 搜索算法术语 搜索:搜索是一个一步一步的过程,用于解决给定搜索空间中的搜索问题。

  • 为什么我的搜索函数永远不会执行“else”(如果没有找到结果,else应该回显文本)?我在尝试显示所有结果时也遇到了一些问题(没有选择搜索标准,只需按搜索按钮)。我将上传页面的全部代码,因为我不知道您是否也需要HTML部分来解决问题。我知道这是一个很大的代码块,但如果可以的话,请帮忙。谢谢 以下是我的代码链接:http://pastebin.com/BXe1C0dr

  • 我有大量相同类型的实体,每个实体都有大量属性,并且我只有以下两种选择来存储它们: 将每个项存储在索引中并执行多索引搜索 将所有enties存储在单个索引中,并且只搜索1个索引。 一般而言,我想要一个时间复杂度之间的比较搜索“N”实体与“M”特征在上述每一种情况!

  • 我们有一个自定义的职位类型hr priority,它有多个与之相关的自定义分类。这些分类法包含多个术语,每个帖子可以从这些分类法中分配1到多个术语。我们正在尝试设置一个过滤器,允许访问者在多个分类中通过这些术语的组合来搜索/过滤结果。 例如:文章"样本文章"在分类学"年份"中有术语"2018","组织"分类学中有术语"理事会成员","国家"分类学中有术语"加拿大"。文章“其他样本”中有“年份”一词