当前位置：首页 > 软件库 > 程序开发 > 搜索引擎 >

DataparkSearch

搜索引擎

授权协议 GPL-2.0

开发语言 C/C++

所属分类程序开发、搜索引擎

软件类型开源软件

地区不详

投递者东郭源

操作系统 Linux

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于Web的搜索引擎，

主要特征

支持http、https、ftp、nntp 和news URL 方案。
用于索引 SQL 数据库的htdb虚拟 URL 方案。
索引text/html、text/xml、text/plain、audio/mpeg (mp3) 和image/gif mime 类型。
外部解析器支持其他文档类型，包括 Microsoft Word、Excel、RTF、PowerPoint、Adobe Acrobat PDF 和 Flash。
可以使用内容协商索引多语言站点。
可以使用ispell词缀和词典搜索所有单词形式。
基于可编辑词典的同义词、首字母缩写词查询扩展，由语言和字符集指定。
停用词、同义词和首字母缩略词列表。
查询所有单词、所有彼此靠近的单词、任何单词或布尔查询的选项。支持 VQL（Verity 查询语言）的一个子集。
基于神经网络模型的人气排名。
结果可以按相关性（使用向量计算）、流行度排序为“Goo”（为传入链接添加权重）和“Neo”（神经网络模型）、最后修改时间和“重要性”（相关性的组合）和人气排名）。
通过自动字符集和语言检测支持广泛的字符集支持。
提供不区分重音的搜索选项。
提供中文、日文、韩文和泰文的词组切分（分词）。
包括一个索引器和一个 Web CGI 前端，以及一个用于 Apache Web 服务器的搜索模块 ( mod_dpsearch )。
处理国际化域名 (IDN)。
Summary Extraction Algorithm 自动将每个文档总结成几个句子。
使用 If-Modified-Since 来高效传输仅更改的文件。
可以使用会话 ID 和其他奇怪的格式调整 URL，包括一些 JavaScript 链接解码。
可以执行并行和多线程索引以加快更新速度。
灵活的更新计划，包括更频繁地检查网站某些部分的选项。
处理基本身份验证（用户名和密码）和 cookie。
存储文档的压缩文本版本以供提取和查看。
可以为服务器或子目录指定默认字符集和语言，或可能的语言列表。
Noindex标签：、<NOINDEX>、、谷歌特别评论、和  视为要包含/排除的标签。
可以指定一个内容正文标签。
使用aspell对查询词进行拼写检查。
用于自定义搜索结果页面的灵活选项和命令。
有效的缓存可以显着减少搜索时间。
查询日志存储查询、查询参数和找到的结果数。

DataparkSearch

主要特征

同类工具

相关阅读

相关文章

相关问答

相关文档