当前位置: 首页 > 软件库 > 开发工具 > >

stringmetric

Scala 的字符串相似性度量算法库
授权协议 MIT
开发语言 Scala
所属分类 开发工具
软件类型 开源软件
地区 国产
投 递 者 齐承泽
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

stringmetric是Scala的字符串相似性度量算法的库。(如:Dice/Sorensen, Hamming, Jaccard, Jaro, Jaro-Winkler, Levenshtein, Metaphone, N-Gram, NYSIIS, Overlap, Ratcliff/Obershelp, Refined NYSIIS, Refined Soundex, Soundex, Weighted Levenshtein)

这个库提供了一些工具来进行字符串相似度匹配,用来测量字符串的相似性与距离,通过单词的发音和声音的相似性比较来索引,除核心库之外,每个度量和算法都有一个命令行界面。

依赖

SBT:

libraryDependencies += "com.rockymadden.stringmetric" %% "stringmetric-core" % "0.27.4"

Gradle:

compile 'com.rockymadden.stringmetric:stringmetric-core_2.10:0.27.4'

Maven:

<dependency>
    <groupId>com.rockymadden.stringmetric</groupId>
    <artifactId>stringmetric-core_2.10</artifactId>
    <version>0.27.4</version>
</dependency>

创建CLIs

$ git clone https://github.com/rockymadden/stringmetric.git
$ cd stringmetric
$ sbt clean package
$ ./project/build.sh
$ ./target/cli/jarometric abc xyz

使用 CLIs

获取帮助

$ metaphonemetric --help
Compares two strings to determine if they are phonetically similarly, per the Metaphone algorithm.

Syntax:
  metaphonemetric [Options] string1 string2...

Options:
  -h, --help
    Outputs description, syntax, and options.

获取度量的比较值

$ jarowinklermetric dog dawg
0.75

获取差异算法的代表值

$ metaphonealgorithm dog
tk
  • 字符串度量(string metric, a.k.a a string similarity metric or string distance function)是度量两个文本字符串之间的距离的度量,用于近似字符串匹配或比较以及模糊字符串搜索。 字符串度量的一个要求是满足三角形不等式。 以下介绍一些常用的字符串度量: Levenshtein distance:也称编辑距离(edit distan

  •  今天在跑monocle2,出图时报了个错 Fibroref5k <- setOrderingFilter(Fibroref5k, disp.genes) p1 <- plot_ordering_genes(Fibroref5k) p1 Error in grid.Call(C_stringMetric, as.graphicsAnnot(x$label)) :    X11 font -adob

 相关资料
  • 本文向大家介绍详解Python 字符串相似性的几种度量方法,包括了详解Python 字符串相似性的几种度量方法的使用技巧和注意事项,需要的朋友参考一下 字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。 评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方

  • 如何获得一个字符串与Python中的另一个字符串相似的概率? 我想得到一个十进制值,如0.9(意味着90%)等。最好使用标准Python和库。 e、 g。

  • 本文向大家介绍C#计算2个字符串的相似度,包括了C#计算2个字符串的相似度的使用技巧和注意事项,需要的朋友参考一下 计算字符串相似度,直接来C#代码 返回结果就是相似度了,验证码识别上用的到 爱给模板网提供 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。

  • 问题内容: 如何获得字符串与Python中的另一个字符串相似的概率? 我想要一个像0.9(表示90%)之类的十进制值。最好使用标准Python和库。 例如 问题答案: 有一个内置的。 使用它:

  • 问题内容: 在哪里可以找到比levenshtein()和php same_text()方法更准确地估计错位字符的拼写的算法? 例: /乔纳斯 问题答案: 这是我提出的解决方案。它基于蒂姆的建议,即比较后续角色的顺序。一些结果: jonas / jonax : 0.8 jonas / sjona : 0.68 jonas / sjonas : 0.66 jonas / asjon : 0.52 jo

  • 我使用Levenshtein算法来查找两个字符串之间的相似性。这是我正在制作的程序的一个非常重要的部分,所以它需要有效。问题是算法没有发现以下示例相似: CONAIR AIRCON 编辑:我还研究了“Damerau-Levenshtein”算法,它增加了换位。问题是这种转换只针对相邻的字符(而不是多个字符)。

  • 问题内容: 是否有用于计算一对句子的语义相似性评分的库? 我知道WordNet的语义数据库,以及如何生成2个单词的分数,但是我正在寻找可以对整个句子和输出执行所有预处理任务(例如端口阻止,停止单词删除等)的库两个句子之间的相关程度得分。 我发现使用.NET框架编写的工作正在进行中,该框架使用一系列预处理步骤来计算分数。有没有在python中执行此操作的项目? 我不是在寻找可以帮助我找到分数的操作序

  • 本文向大家介绍php比较相似字符串的方法,包括了php比较相似字符串的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php比较相似字符串的方法。分享给大家供大家参考。具体分析如下: 这里通过php的similar_text函数比较两个字符串的相似性。 希望本文所述对大家的php程序设计有所帮助。