当前位置: 首页 > 软件库 > 程序开发 > 搜索引擎 >

DDH

垂直搜索引擎
授权协议 LGPL
开发语言 Java
所属分类 程序开发、 搜索引擎
软件类型 开源软件
地区 国产
投 递 者 姜淇
操作系统 未知
开源组织
适用人群 未知
 软件概览

DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(企业级搜索应用服务器)。无论从可扩展性,系统的性能方面还是稳定性方面,DDH垂直搜索引擎系统,都可以算的上顶级垂直搜索引擎系统之一。

DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要运行在Linux平台下。

DDH对Nutch做的调整
1: 加入了爬虫控制。可以根据用户的需要控制爬虫的抓取地址和路径。
2: 加入了信息分类功能。Nutch只对网页进行抓取,DDH在此基础上进行了信息分类调整,这样才能适用于不同的垂直搜索引擎系统。只需要输入类别编码,就能对爬虫进行控制。URL自动识别,大幅度提高了爬取效率。
3: 加入了索引数据分类功能。Nutch只是对网页进行了文字提取处理,而垂直搜索系统需要在网页信息抽取的基础上,指定索引路径进行提交。而且不符合要求的网页不会提交给索引,大幅度提高了索引效率。


DDH加入了UCI网页信息抽取系统
UCI可以对网页信息进行精确抽取,而且不受目标网页代码的限制,特别适合垂直搜索引擎使用。
UCI网页信息抽取技术,是一种适用于亿级数量的智能网页信息抽取技术,主要适用于互联网信息整合和搜索引擎中网页信息的提取。

DDH对Solr的调整
对Solr的schema.xml的用户定义字段类型及字段的配置文件进行了重新配置,使得适合垂直搜索引擎的使用。并加入了中文分词功能。

  • The Discrete Logarithm Problem(DLP) 让G 为一个阿贝尔群(交换群).首先我们把G中的二元操作写成乘法*.对任何g∈G 和任何整数a>1令ga表示g∗g∗g...∗g,其中g出现了a 次.离散对数问题就是(DLP); 给定G,g 和h=ga,寻找a . 这里a 就叫做h的以g 为低的离散对数. 一个离散对数问题是难的吗?有时候是,有时候不是.作为反例,令G 为加法

  • 密码学常见困难问题 大整数因数分解问题 1)给定两个素数p,q,计算乘积p·q=n很容易; 2)给定大整数n,求n的素因素p,q使得n=p·q非常困难. DLP:The Discrete Logarithm Problem 离散对数问题 让G为一个阿贝尔群(交换群).我们把G中的二元操作写成乘法*. 1)给定G,g和h=ga,计算a是困难的. 2)这里a就叫做h的以g为底的离散对数. CDH:Th

  • 本人根据论文《Simple Functional Encryption Schemes for Inner Products》实现了其中的内积加密算法(DDH-IP-scheme),源码链接: https://github.com/Eathoublu/DDH-IP-scheme 希望对大家有帮助,如果有错误,也欢迎大家指正。 参考文献: Abdalla, Michel & Florian, Bou

  • BDH CDH Decisional Diffie-Hellman assumption(DDH) 考虑阶数为 q q q的有限循环群 G G G和群中一固定的生成元 g g g,已知 g a 、 g b ( a , b ∈ Z q ) g^a、g^b (a,b \in Z_q) ga、gb(a,b∈Zq​),若DDH Assumption成立,那么 g a b g^{ab} gab应与 G G

  • DDH is a stronger assumption than CDH. 1998 The Decision Diffie-Hellman Problem

  • 最近要做一个WEB项目,项目属于中型的,但是对我来说,却又是一个新的挑战了 以前都是用asp来完成WEB程序开发的,自从去年开始接触.net以来,还没有真正的在.net平台上开发过这么大型的项目,因为前段时间我已经用纯.net的方法来实现了自己的新闻系统,还没有运行到公司的项目中去,所以这次我准备趁这个项目,把新闻系统也完善了,以后公司也就正式上.net项目了 这次计划用三层架构来完成这个项目,三

  • 髋臼三联截骨术是否适用于年轻的成年先天性髋关节发育不良(DDH)患者,一直是广泛争议的话题。2013年2月,来自荷兰Sint Maartenskliniek诊所的Van Stralen等在CORR上发表了他们的长期随访(平均随访时间为25年)研究结果,髋臼三联截骨术虽然能在一定时期内缓解髋关节疼痛及功能受限症状,但随着时间的推移,仍有较高比例的患者因继发髋关节骨性关节炎而接受全髋置换手术治疗。而在

  • 1. 引言 Bootle等人2015年论文《Short Accountable Ring Signatures Based on DDH》,提供了对ring signature和group signature的实现,主要包含的基础协议有: commitment to multiple sequences of bits, exactly one 1 in each sequence 证明。 a l

 相关资料
  • 搜索引擎分为两部分: 时间筛选 和 搜索引擎 (详情) 1.时间筛选 便捷按钮有今日、昨日、前日、上周 X、近七天,并且能自定义选择时间段来得出想要的结果报表 2.搜索引擎 (时间段详情) 选择日期,查看来自对应时间段内,各个搜索引擎的访问量比例

  • 我有大量相同类型的实体,每个实体都有大量属性,并且我只有以下两种选择来存储它们: 将每个项存储在索引中并执行多索引搜索 将所有enties存储在单个索引中,并且只搜索1个索引。 一般而言,我想要一个时间复杂度之间的比较搜索“N”实体与“M”特征在上述每一种情况!

  • 我对Vert.x非常陌生,就像几天前一样。我来自一个JAX式的,安逸的世界。我可能大错特错,请指正。 我的问题是:如何使顶点公开自己的REST接口(子路由器),以及如何将其子路由器注册到应用程序的主路由器中? 我尝试过类似的东西,但是当我请求/产品/所有:( } }

  • lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 restful api / Java api 接口(另外还有其他语言的 api 接口)。 分布式的文档存储

  • 搜索引擎 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索引擎 source/engine/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%) ip

  • 更改历史 * 2018-05-07 胡小根 初始化文档 1 历史、现状和发展 1.1 历史 1.2 现状 1.3 发展 难点:预测发展方向。 2 安装和使用 2.1 安装 2.2 使用 创建index和type 上传单条数据 批量上传数据 查询 2.3 示例 2.4 最佳实践 难点:最佳实践,超出于示例,应该归纳总结出积累的技巧。 3 同类技术对比 难点:归纳比对项 参考资料 El