1.2.Sphinx/Coreseek 的特性

优质
小牛编辑
130浏览
2023-12-01
  • 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  • 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  • 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
  • 提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  • 支持分布式搜索;
  • 提供文档片段(摘要以及高亮)生成功能;
  • 可作为MySQL的存储引擎提供搜索服务;
  • 支持布尔、短语、词语相似度等多种检索模式;
  • 文档支持多个全文检索字段(缺省配置下,最大不超过32个);
  • 文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  • 停止词查询;
  • 支持单一字节编码和UTF-8编码,以及对GBK和BIG5的完善支持;
  • 支持英语、俄语词词干化和Soundex,以便进行词形学处理;
  • 原生的MySQL支持(同时支持MyISAM 和InnoDB );
  • 原生的PostgreSQL 支持;
  • 支持直接模拟为MySQL服务端运行;
  • 支持MMSeg分词引擎,用户可自定义词典;
  • Python数据源支持,得以获取任何已知世界和未知世界的数据.