当前位置: 首页 > 软件库 > 程序开发 > 搜索引擎 >

Tantivy

全文搜索引擎库
授权协议 MIT
开发语言 Rust
所属分类 程序开发、 搜索引擎
软件类型 开源软件
地区 不详
投 递 者 阎坚成
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Tantivy 是一个用 Rust 编写的搜索引擎库,其灵感来自于 Lucene。

得益于 Rust 语言加持,Tantivy 性能比 Lucene 要好得多

主要特性:

  • 全文搜索
  • 可配置的分词器,支持 17 种语言词干,包括中文、日文和韩文
  • 速度非常快(check out the ��  benchmark  ��)
  • 启动时间极短  (<10ms), perfect for command-line tools
  • BM25 评分 (与 Lucene 相同)
  • 自然查询语言 (e.g. (michael AND jackson) OR "king of pop")
  • 短语查询搜索 (e.g. "michael jackson")
  • 增量索引
  • 多线程索引
  • Mmap 目录
  • SIMD 整数压缩,支持 SSE2 指令集
  • 快速的单值和多值 u64, i64, f64 字段 (等同于 lucene 中的 doc values)
  • &[u8] fast fields
  • Text, i64, u64, f64, dates, and hierarchical facet fields
  • LZ4 压缩文档存储
  • 范围搜索
  • Faceted 搜索
  • 可配置的索引
  • JSON 字段
  • 聚合收集器,包括 range buckets, average, and stats metrics
  • LogMergePolicy with deletes
  • Searcher Warmer API
  • Cheesy logo with a horse
  • 硬件概述:cpu:24,内存:20g,磁盘:10*2.7T。 写入性能:(不对ip进行添加geo信息)。 写入性能对比 速度 Commit耗时(秒) 500*1000条 Bulk耗时(秒) 1000条dns Bulk耗时(秒) 1000条tcpflow Bulk耗时(秒) 1000条weblog Cpu占用 磁盘使用 数据量tcpflow 线程配置 tantivy 155272 6-19 0.01

 相关资料
  • 搜索引擎分为两部分: 时间筛选 和 搜索引擎 (详情) 1.时间筛选 便捷按钮有今日、昨日、前日、上周 X、近七天,并且能自定义选择时间段来得出想要的结果报表 2.搜索引擎 (时间段详情) 选择日期,查看来自对应时间段内,各个搜索引擎的访问量比例

  • lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 restful api / Java api 接口(另外还有其他语言的 api 接口)。 分布式的文档存储

  • 搜索引擎 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索引擎 source/engine/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%) ip

  • 更改历史 * 2018-05-07 胡小根 初始化文档 1 历史、现状和发展 1.1 历史 1.2 现状 1.3 发展 难点:预测发展方向。 2 安装和使用 2.1 安装 2.2 使用 创建index和type 上传单条数据 批量上传数据 查询 2.3 示例 2.4 最佳实践 难点:最佳实践,超出于示例,应该归纳总结出积累的技巧。 3 同类技术对比 难点:归纳比对项 参考资料 El

  • 元搜索引擎 原搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索和谷歌搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻跟踪,比如知识库的收集,比如人机问答系

  • 问题内容: 我正在建立Django网站,并且正在寻找搜索引擎。 一些候选人: Lucene / Lucene与指南针/ Solr 狮身人面像 PostgreSQL内置全文本搜索 MySQl内置全文本搜索 选择标准: 结果相关性和排名 搜索和索引速度 易于使用,易于与Django集成 资源需求-网站将托管在VPS上,因此理想情况下,搜索引擎不需要大量的RAM和CPU 可扩展性 其他功能,例如“您的意

  • 本文向大家介绍python 全文检索引擎详解,包括了python 全文检索引擎详解的使用技巧和注意事项,需要的朋友参考一下 python 全文检索引擎详解 最近一直在探索着如何用Python实现像百度那样的关键词检索功能。说起关键词检索,我们会不由自主地联想到正则表达式。正则表达式是所有检索的基础,python中有个re类,是专门用于正则匹配。然而,光光是正则表达式是不能很好实现检索功能的。 py

  • 主要内容:搜索引擎组件,搜索引擎是如何工作的?搜索引擎是指一个庞大的互联网资源数据库,如网页,新闻组,程序,图像等。它有助于在万维网上定位信息。 用户可以通过以关键字或短语的形式将查询传递到搜索引擎中来搜索信息。 搜索引擎然后搜索其数据库并向用户返回相关链接。 比如下面常用到两个搜索引擎 - 百度 谷歌 搜索引擎组件 一般来说,搜索引擎有三个基本组件,如下所列 - Web爬虫 - Web爬虫也称为蜘蛛或机器人。 它是一个收集网络信息的软件组件