当前位置: 首页 > 软件库 > 程序开发 > 常用工具包 >

simhash-java

simhash 算法的 java 实现
授权协议 MIT
开发语言 Java
所属分类 程序开发、 常用工具包
软件类型 开源软件
地区 国产
投 递 者 谈旺
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

simhash-java

Java实现simhash算法的简单实现。

特征:

  1. 计算字符串的simhash
  2. 通过构建智能索引来计算所有链之间的相似度,因此我们可以处理大数据。

如何使用:

  • 使用inputfile和outputfile运行Main。

  • 输入文件的格式(请参阅src / test_in):每行doc带有utf8字符集。

  • 输出文件的格式(请参见src / test_out):

  • 开始//开始标志

  • 第一行// doc

  • sencode lien // // doc1 \ tdist dist是doc和doc1之间的汉明距离

  • 结束//结束标志

未来:

  1. 将项目构建到可运行的jar中。
  2. 在大数据下提高性能。

注意:

  1. 在运行Main.java之前,您应该选择一个更好的分析器而不是BinaryWordSeg!
  • simHashList = new ArrayList(); simHashList.add(simHashBuffer.substring(0,this.bitLength/4)); simHashList.add(simHashBuffer.substring(this.bitLength/4,this.bitLength/4*2)); simHashList.add(simHashBuffe

  • 一、simHash算法 package com.xxxx.checkandbigdataquery.utils; import it.unimi.dsi.fastutil.longs.LongOpenHashSet; import it.unimi.dsi.fastutil.longs.LongSet; import java.io.File; import java.io.FileInputS

  • 网页查重-simhash算法的java实现 在上一篇文章中,我们简单介绍了simhash算法,而在实际将它应用到网页查重中,我们首先需要分词算法将网页传来的数据流按照权重分开,但是由于对于中文和英文混杂的分词并不熟悉,我就十分偷懒的仅对英文进行分词,中文基本没管,简单的将所有的中文隔开,直接把所有含中文的字符串隔开,下面是java实现: package test; import java.math

  • Java—SimHash原理与实现 SimHash 原理 原理链接 SimHash 实现 package GetSimilar; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.math.BigInteger; import j

 相关资料
  • 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依赖 g++

  • 方法介绍 背景 如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路: 一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。 另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(finger pr

  • 我试图在Java中实现Prim的算法,用于我的图形HashMap LinkedList和一个包含连接顶点和权重的类Edge: 我的想法是,从一个给定的顶点开始:1)将所有顶点保存到一个LinkedList中,这样每次访问它们时我都可以删除它们2)将路径保存到另一个LinkedList中,这样我就可以得到我的最终MST 3)使用PriorityQueue找到最小权重 最后我需要MST,边数和总重量。

  • 本文向大家介绍java 二分法算法的实例,包括了java 二分法算法的实例的使用技巧和注意事项,需要的朋友参考一下 java 二分法算法的实例 1、前提:二分查找的前提是需要查找的数组必须是已排序的,我们这里的实现默认为升序 2、原理:将数组分为三部分,依次是中值(所谓的中值就是数组中间位置的那个值)前,中值,中值后;将要查找的值和数组的中值进行比较,若小于中值则在中值前面找,若大于中值则在中值后

  • 本文向大家介绍Java实现SHA-1算法实例,包括了Java实现SHA-1算法实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Java实现SHA-1算法的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的java程序设计有所帮助。

  • 问题内容: 我想知道什么是Java哈希算法的最佳和最快实现,尤其是MD5和SHA-2 512(SHA512)或256。我想要一个函数来获取字符串作为参数并返回哈希作为结果。谢谢你 编辑:这是用于将每个URL映射到唯一的哈希。由于MD5在这方面的可靠性不高,因此我对寻找SHA-2算法的最佳和最快实现更感兴趣。请注意,我知道即使SHA-2可能也会为某些URL产生相同的哈希,但是我可以接受。 问题答案: