当前位置: 首页 > 软件库 > 程序开发 > 搜索引擎 >

DataparkSearch

搜索引擎
授权协议 GPL-2.0
开发语言 C/C++
所属分类 程序开发、 搜索引擎
软件类型 开源软件
地区 不详
投 递 者 东郭源
操作系统 Linux
开源组织
适用人群 未知
 软件概览

DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于Web的搜索引擎,

主要特征

  • 支持http、https、ftp、nntp 和news URL 方案。
  • 用于索引 SQL 数据库的htdb虚拟 URL 方案。
  • 索引text/htmltext/xmltext/plainaudio/mpeg (mp3) 和image/gif mime 类型。
  • 外部解析器支持其他文档类型,包括 Microsoft Word、Excel、RTF、PowerPoint、Adobe Acrobat PDF 和 Flash。
  • 可以使用内容协商索引多语言站点。
  • 可以使用ispell词缀和词典搜索所有单词形式。
  • 基于可编辑词典的同义词、首字母缩写词查询扩展,由语言和字符集指定。
  • 停用词、同义词和首字母缩略词列表。
  • 查询所有单词、所有彼此靠近的单词、任何单词或布尔查询的选项。支持 VQL(Verity 查询语言)的一个子集。
  • 基于神经网络模型的人气排名。
  • 结果可以按相关性(使用向量计算)、流行度排序为“Goo”(为传入链接添加权重)和“Neo”(神经网络模型)、最后修改时间和“重要性”(相关性的组合)和人气排名)。
  • 通过自动字符集和语言检测支持广泛的字符集支持。
  • 提供不区分重音的搜索选项。
  • 提供中文、日文、韩文和泰文的词组切分(分词)。
  • 包括一个索引器和一个 Web CGI 前端,以及一个用于 Apache Web 服务器的搜索模块 ( mod_dpsearch )。
  • 处理国际化域名 (IDN)。
  • Summary Extraction Algorithm 自动将每个文档总结成几个句子。
  • 使用 If-Modified-Since 来高效传输仅更改的文件。
  • 可以使用会话 ID 和其他奇怪的格式调整 URL,包括一些 JavaScript 链接解码。
  • 可以执行并行和多线程索引以加快更新速度。
  • 灵活的更新计划,包括更频繁地检查网站某些部分的选项。
  • 处理基本身份验证(用户名和密码)和 cookie。
  • 存储文档的压缩文本版本以供提取和查看。
  • 可以为服务器或子目录指定默认字符集和语言,或可能的语言列表。
  • Noindex标签:<!--UdmComment-->、<NOINDEX>、<!--noindex-->、谷歌特别评论<!-- google_ad_section_start -->、<!-- google_ad_section_start(weight=ignore) -->和 <!-- google_ad_section_end --> 视为要包含/排除的标签。
  • 可以指定一个内容正文标签。
  • 使用aspell对查询词进行拼写检查。
  • 用于自定义搜索结果页面的灵活选项和命令。
  • 有效的缓存可以显着减少搜索时间。
  • 查询日志存储查询、查询参数和找到的结果数。
 相关资料
  • 搜索引擎分为两部分: 时间筛选 和 搜索引擎 (详情) 1.时间筛选 便捷按钮有今日、昨日、前日、上周 X、近七天,并且能自定义选择时间段来得出想要的结果报表 2.搜索引擎 (时间段详情) 选择日期,查看来自对应时间段内,各个搜索引擎的访问量比例

  • 我有大量相同类型的实体,每个实体都有大量属性,并且我只有以下两种选择来存储它们: 将每个项存储在索引中并执行多索引搜索 将所有enties存储在单个索引中,并且只搜索1个索引。 一般而言,我想要一个时间复杂度之间的比较搜索“N”实体与“M”特征在上述每一种情况!

  • lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 restful api / Java api 接口(另外还有其他语言的 api 接口)。 分布式的文档存储

  • 搜索引擎 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索引擎 source/engine/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%) ip

  • 更改历史 * 2018-05-07 胡小根 初始化文档 1 历史、现状和发展 1.1 历史 1.2 现状 1.3 发展 难点:预测发展方向。 2 安装和使用 2.1 安装 2.2 使用 创建index和type 上传单条数据 批量上传数据 查询 2.3 示例 2.4 最佳实践 难点:最佳实践,超出于示例,应该归纳总结出积累的技巧。 3 同类技术对比 难点:归纳比对项 参考资料 El

  • 元搜索引擎 原搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索和谷歌搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻跟踪,比如知识库的收集,比如人机问答系