stringmetric是Scala的字符串相似性度量算法的库。(如:Dice/Sorensen, Hamming, Jaccard, Jaro, Jaro-Winkler, Levenshtein, Metaphone, N-Gram, NYSIIS, Overlap, Ratcliff/Obershelp, Refined NYSIIS, Refined Soundex, Soundex, Weighted Levenshtein)
这个库提供了一些工具来进行字符串相似度匹配,用来测量字符串的相似性与距离,通过单词的发音和声音的相似性比较来索引,除核心库之外,每个度量和算法都有一个命令行界面。
要求:Scala 2.10+
文档:Scaladoc
问题:Enhancements, Questions, Bugs
SBT:
libraryDependencies += "com.rockymadden.stringmetric" %% "stringmetric-core" % "0.27.4"
Gradle:
compile 'com.rockymadden.stringmetric:stringmetric-core_2.10:0.27.4'
Maven:
<dependency> <groupId>com.rockymadden.stringmetric</groupId> <artifactId>stringmetric-core_2.10</artifactId> <version>0.27.4</version> </dependency>
$ git clone https://github.com/rockymadden/stringmetric.git $ cd stringmetric $ sbt clean package $ ./project/build.sh $ ./target/cli/jarometric abc xyz
获取帮助
$ metaphonemetric --help Compares two strings to determine if they are phonetically similarly, per the Metaphone algorithm. Syntax: metaphonemetric [Options] string1 string2... Options: -h, --help Outputs description, syntax, and options.
获取度量的比较值
$ jarowinklermetric dog dawg 0.75
获取差异算法的代表值
$ metaphonealgorithm dog tk
字符串度量(string metric, a.k.a a string similarity metric or string distance function)是度量两个文本字符串之间的距离的度量,用于近似字符串匹配或比较以及模糊字符串搜索。 字符串度量的一个要求是满足三角形不等式。 以下介绍一些常用的字符串度量: Levenshtein distance:也称编辑距离(edit distan
今天在跑monocle2,出图时报了个错 Fibroref5k <- setOrderingFilter(Fibroref5k, disp.genes) p1 <- plot_ordering_genes(Fibroref5k) p1 Error in grid.Call(C_stringMetric, as.graphicsAnnot(x$label)) : X11 font -adob
本文向大家介绍详解Python 字符串相似性的几种度量方法,包括了详解Python 字符串相似性的几种度量方法的使用技巧和注意事项,需要的朋友参考一下 字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。 评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方
如何获得一个字符串与Python中的另一个字符串相似的概率? 我想得到一个十进制值,如0.9(意味着90%)等。最好使用标准Python和库。 e、 g。
本文向大家介绍C#计算2个字符串的相似度,包括了C#计算2个字符串的相似度的使用技巧和注意事项,需要的朋友参考一下 计算字符串相似度,直接来C#代码 返回结果就是相似度了,验证码识别上用的到 爱给模板网提供 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。
问题内容: 如何获得字符串与Python中的另一个字符串相似的概率? 我想要一个像0.9(表示90%)之类的十进制值。最好使用标准Python和库。 例如 问题答案: 有一个内置的。 使用它:
问题内容: 在哪里可以找到比levenshtein()和php same_text()方法更准确地估计错位字符的拼写的算法? 例: /乔纳斯 问题答案: 这是我提出的解决方案。它基于蒂姆的建议,即比较后续角色的顺序。一些结果: jonas / jonax : 0.8 jonas / sjona : 0.68 jonas / sjonas : 0.66 jonas / asjon : 0.52 jo
我使用Levenshtein算法来查找两个字符串之间的相似性。这是我正在制作的程序的一个非常重要的部分,所以它需要有效。问题是算法没有发现以下示例相似: CONAIR AIRCON 编辑:我还研究了“Damerau-Levenshtein”算法,它增加了换位。问题是这种转换只针对相邻的字符(而不是多个字符)。
问题内容: 是否有用于计算一对句子的语义相似性评分的库? 我知道WordNet的语义数据库,以及如何生成2个单词的分数,但是我正在寻找可以对整个句子和输出执行所有预处理任务(例如端口阻止,停止单词删除等)的库两个句子之间的相关程度得分。 我发现使用.NET框架编写的工作正在进行中,该框架使用一系列预处理步骤来计算分数。有没有在python中执行此操作的项目? 我不是在寻找可以帮助我找到分数的操作序
本文向大家介绍php比较相似字符串的方法,包括了php比较相似字符串的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php比较相似字符串的方法。分享给大家供大家参考。具体分析如下: 这里通过php的similar_text函数比较两个字符串的相似性。 希望本文所述对大家的php程序设计有所帮助。