当前位置：首页 > 面试题库 >

Python-给定2个句子字符串，计算余弦相似度

子车心思

2023-03-14

问题内容：

从Python：tf-idf-cosine：查找文档相似度，可以使用tf-idf余弦计算文档相似度。如果不导入外部库，是否有任何方法可以计算2个字符串之间的余弦相似度？

s1 = "This is a foo bar sentence ."
s2 = "This sentence is similar to a foo bar sentence ."
s3 = "What is this string ? Totally not related to the other two lines ."

cosine_sim(s1, s2) # Should give high cosine similarity
cosine_sim(s1, s3) # Shouldn't give high cosine similarity value
cosine_sim(s2, s3) # Shouldn't give high cosine similarity value

问题答案：

一个简单的纯Python实现是：

import re, math
from collections import Counter

WORD = re.compile(r'\w+')

def get_cosine(vec1, vec2):
     intersection = set(vec1.keys()) & set(vec2.keys())
     numerator = sum([vec1[x] * vec2[x] for x in intersection])

     sum1 = sum([vec1[x]**2 for x in vec1.keys()])
     sum2 = sum([vec2[x]**2 for x in vec2.keys()])
     denominator = math.sqrt(sum1) * math.sqrt(sum2)

     if not denominator:
        return 0.0
     else:
        return float(numerator) / denominator

def text_to_vector(text):
     words = WORD.findall(text)
     return Counter(words)

text1 = 'This is a foo bar sentence .'
text2 = 'This sentence is similar to a foo bar sentence .'

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print 'Cosine:', cosine

印刷品：

Cosine: 0.861640436855

这里所用的余弦公式描述这里。

这不包括通过tf-idf对单词进行加权，但是为了使用tf-idf，你需要具有一个相当大的语料库才能从中估计tfidf的权重。

你还可以通过使用更复杂的方法从一段文本中提取单词，对其进行词干或词义化等来进一步开发它。

类似资料：

余弦相似度的SQL计算

问题内容：假设您在数据库中按以下方式构造了一个表：为了清楚起见，应输出：请注意，由于向量存储在数据库中，因此我们仅需要存储非零条目。在此示例中，我们只有两个向量$ v_ {99} =（4,3,4,0）$和$ v_ {1234} =（0,5,2,3）$都在$ \ mathbb {R}中^ 4 $。这些向量的余弦相似度应为$ \ displaystyle \ frac {23} {\ sqrt
C#计算2个字符串的相似度

本文向大家介绍C#计算2个字符串的相似度，包括了C#计算2个字符串的相似度的使用技巧和注意事项，需要的朋友参考一下计算字符串相似度，直接来C#代码返回结果就是相似度了，验证码识别上用的到爱给模板网提供以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持呐喊教程。
余弦相似度

问题内容：我计算了两个文档的tf / idf值。以下是tf / idf值：这些文件就像：如何使用这些值来计算余弦相似度？我知道我应该计算点积，然后找到距离并除以点积。如何使用我的值来计算？还有一个问题：两个文档的字数相同是否重要？问题答案： a * b是点积一些细节：是。在某种程度上，a和b必须具有相同的长度。但是a和b通常具有稀疏表示，您只需要存储非零条目，就可以更快地计算范数
如何计算两个向量的余弦相似度？

问题内容：如何找到向量之间的余弦相似度？我需要找到相似性来衡量两行文本之间的相关性。例如，我有两个句子：用户界面系统用户界面机 …及其在tF-idf之后的向量，然后使用LSI进行标准化，例如和。如何测量这些向量之间的相似性？问题答案：我最近在大学的信息检索部门做了一些tf-idf的工作。我使用了这种余弦相似度方法，该方法使用Jama：Java Matrix Package 。有
Neo4j-如何基于给定节点的多个属性计算余弦相似性

我有一个包含n-用户的Neo4j数据库。每个用户都连接到他们各自的性别节点（M和F）、年龄组节点、种族节点等。我想根据他们的性别、年龄、种族等找到两个用户之间的相似性。此密码查询仅基于一个属性进行计算我想根据性别、年龄组、种族等多个属性进行计算
Python 余弦相似度与皮尔逊相关系数计算实例

本文向大家介绍Python 余弦相似度与皮尔逊相关系数计算实例，包括了Python 余弦相似度与皮尔逊相关系数计算实例的使用技巧和注意事项，需要的朋友参考一下夹角余弦(Cosine) 也可以叫余弦相似度。几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。 (1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式： (2) 两个n维

相关阅读

Python 余弦相似度与皮尔逊相关系数计算实例计算Keras中两个张量之间的余弦相似度如何计算两个张量之间的余弦相似度？余弦相似性计算及python代码实现过程解析 Python-计算字符串中给定子字符串的出现次数

相关文章

Python截取字符串 Java提取子字符串 Python index()检测字符串中是否包含某子串 Python find()检测字符串中是否包含某子串 Java定义字符串

相关问答

给定一个字符串和一个非空子字符串，递归计算以该子字符串开始和结束的最大子字符串，并返回其长度在两个字符串之间计数并输出相似字符 MySQL简单查询提取给定2个分隔符的子字符串查找给定两个字符串的所有公共子字符串字符串相似度->Levenshtein距离

相关工具

计算机进化简易计算器功能齐全的计算器 Axiom计算机代数系统 Tiny分布式计算框架

相关文档

Python 科学计算格式化字符串漏洞利用 OpenCL 2.0 异构计算像计算机科学家一样思考 Python 第二版 Python 设计模式