Duke

重复数据删除
授权协议 Apache
开发语言 Java
所属分类 程序开发、 其他开发相关
软件类型 开源软件
地区 不详
投 递 者 马业
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene 开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

特征

  • 高性能。
  • 高度可配置。
  • 支持CSV,JDBC,SPARQL,NTriples和JSON
  • 许多内置比较器
  • 插入自己的数据源,比较器和清理器
  • 遗传算法可自动调整配置。
  • 命令行客户端入门。
  • 用于嵌入任何类型的应用程序的API
  • 支持批处理和连续处理。
  • 可以维护通过JNDI / JDBC找到的链接数据库。
  • 可以在多个线程中运行。

下图是 Duke 的架构:

  •     Sun Microsystems公司(NASDAQ: JAVA)今天宣布第七届年度“Duke选择大奖”(Duke’s Choice Awards)获奖者名单。“Duke选择大奖”计划旨在表彰过去一年里全球个人或公司开发的、最具影响力的Java技术应用。这些获奖者是由Sun公司 副总裁兼Sun研究院院士James Gosling和一个由Sun公司Java技术专家组成的小组评选确定的。如需有关

  • 在释放内存那个函数出了点问题,不知道问题具体出在哪儿,不改了。 #include<CStdio> #include<CString> #include<memory> #include <queue> #include<iostream> using namespace std; struct Node { bool isvalued; int v; Node *left, * right;

  • 建立,打包,部署及运行Duke 银行应用程序  作者:Jimsons 目录 1. 准备工作... 2.    启动服务器... 2.1创建银行数据库... 2.2捕获数据库模式... 2.3创建JDBC数据源... 2.4 将用户和组添加到file域... 3. 编译Duke银行应用程序代码... 4. 打包并部署Duke银行应用程序... 4.1 打包企业Beans. 4.2 打包应用程序客户端

  • 谷歌(Google Inc.)旗下的视频分享网站YouTube专门为高质量内容开辟出一块新区域,用于提供数百部完整版的电影数千集完整版的电视剧。不过,此举只是其与明显对手Hulu的争夺战中的一波最新攻势。YouTube和Hulu分别占据着网络视频业务的两个领域,不过它们正越来越多地瞄准对方的地盘,包括争夺可以带来最大广告收入的视频编程方法。YouTube发言人说,它无意成为像Hulu一样提供高质量

  • 学生录取情况: 学生姓名:C同学 录取大学:杜克大学 录取专业:计算机工程硕士 入学年份:2015年 毕业大学:国内普通211大学 毕业专业:智能科学与技术 平均成绩:3.8 英文成绩:TOEFL:94 标考分数:GRE:316 其他录取:布朗大学、圣路易斯华盛顿大学 申请经验分享: 像很多有实力的同学一样,C同学对自已的条件与目标院校经过前期的咨询了解巳经有了清晰的思路。自身在择校方面有些自己的

  • Sun宣布开源Java 吉祥物Duke[@more@] 11月13日,就像之前宣布的Java ME和SE的开源一样,Sun宣布开源了Java的吉祥物-Duke。 何谓“开源Duke”?这意味着所有的Duke粉丝可以为Java吉祥物贡献自己的奇思妙想。 来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7839366/viewspace-919805/,如需转载,请注

 相关资料
  • 问题内容: 我正在尝试使用Duke快速重复数据删除引擎在我工作的公司的数据库中搜索一些重复的记录。 我从命令行这样运行它: 但我得到一个错误: 我的配置文件如下所示: 它并没有真正告诉我不支持的功能…我只是在尝试,对配置没有什么要求。 问题答案: 正如mbonaci所说,问题是未实现JDBC驱动程序的isClosed()方法。即使实现它,也比简单地编写“ return close”更为困难。 我为

  • 问题内容: 我正在尝试使用Duke快速重复数据删除引擎在我工作的公司的数据库中搜索一些重复的记录。 我从命令行这样运行它: 但我得到一个错误: 我的配置文件如下所示: 它并没有真正告诉我不支持的功能…我只是在尝试,对配置没有什么要求。 问题答案: 正如mbonaci所说,问题是未实现JDBC驱动程序的isClosed()方法。即使实现它,也比简单地编写“ return close”更为困难。 我为

  • 本文向大家介绍Oracle删除重复的数据,Oracle数据去重复,包括了Oracle删除重复的数据,Oracle数据去重复的使用技巧和注意事项,需要的朋友参考一下 Oracle  数据库中查询重复数据: select * from employee group by emp_name having count (*)>1;  Oracle  查询可以删除的重复数据 select t1.* from

  • 本文向大家介绍Mysql删除重复的数据 Mysql数据去重复,包括了Mysql删除重复的数据 Mysql数据去重复的使用技巧和注意事项,需要的朋友参考一下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 select t1.* from employee

  • 我有2个数据帧,和,有一个列(和其他非重要的)。 我想在中删除包含已在中的电子邮件的行。 我该怎么做?

  • 然而,当我运行foreach循环时,它运行了几分钟就崩溃了 最初的数据库mydb有0.173GB,现在是0.368GB 你知道出什么问题了吗? 所以这次看起来很管用,但为什么'mydb'变大了呢?