当前位置: 首页 > 知识库问答 >
问题:

字符串相似度->Levenshtein距离

黄朗
2023-03-14

我使用Levenshtein算法来查找两个字符串之间的相似性。这是我正在制作的程序的一个非常重要的部分,所以它需要有效。问题是算法没有发现以下示例相似:

CONAIR
AIRCON

编辑:我还研究了“Damerau-Levenshtein”算法,它增加了换位。问题是这种转换只针对相邻的字符(而不是多个字符)。

共有1个答案

益何平
2023-03-14

我会把这个词分成整数,大整数和三角整数,然后计算余弦相似度。

 类似资料:
  • 问题内容: 在Python + Sqlite中是否有可用的字符串相似性度量,例如与模块有关? 用例示例: 此查询应匹配ID为1的行,但不匹配ID为2的行: 如何在Sqlite + Python中做到这一点? 关于我到目前为止发现的注释: 该Levenshtein距离,即单字符编辑(插入,删除或替换)的最小数量需要改变一个字到另一个,可能是有用的,但我不知道是否SQLite中存在的正式实施(我看到一

  • 问题内容: 我用Java实现了Levenshtein算法,现在可以通过算法进行更正,也就是成本。这确实有一点帮助,但并没有太大帮助,因为我希望将结果表示为百分比。 所以我想知道如何计算那些相似点。 我也想知道你们的人民是如何做的以及为什么。 问题答案: 两个字符串之间的Levenshtein距离定义为将一个字符串转换为另一个字符串所需的最小编辑次数,允许的编辑操作为单个字符的插入,删除或替换。(维

  • 问题内容: 在哪里可以找到比levenshtein()和php same_text()方法更准确地估计错位字符的拼写的算法? 例: /乔纳斯 问题答案: 这是我提出的解决方案。它基于蒂姆的建议,即比较后续角色的顺序。一些结果: jonas / jonax : 0.8 jonas / sjona : 0.68 jonas / sjonas : 0.66 jonas / asjon : 0.52 jo

  • 问题内容: 我想比较两个字符串并得到一些分数,它们看起来有多相似。例如 “句子几乎相似” 和 “句子相似” 。 我不熟悉Java中的现有方法,但是对于PHP我知道levenshtein函数。 Java中有更好的方法吗? 问题答案: Levensthein距离 是 衡量相似弦 长 的量度。或者,更确切地说,必须进行几次更改才能使它们相同。 该算法在Wikipedia上可用伪代码提供。将其转换为Jav

  • 我正在使用AWS Athena,我正在尝试合并具有特定列且levenshtein_distance值小于5的所有行,并将归一化百分比相加。 该表的结构如下: