相关性描述的是⼀个⽂档和查询语句匹配的程度。ES 会对每个匹配查询条件的结果进⾏算分_score。_score 的评分越高,相关度越高
对于信息检索工具,衡量其性能有3大指标:
前两者更多与分词匹配相关,而后者则与相关性的判断与算分相关。
检索词在文档中出现的频度是多少?出现频率越高,相关性也越高。
例如:搜索“hello”
在文档A中出现10次
在文档B中出现1次
则文档A的相关性更高
每个检索词在索引中出现的频率,频率越高,相关性越低。
例如:搜索“hello world",standar分词会得到"hello"和"world"两个词。
在10分文档中,如果“hello",总共出现了9次,而”world"则出现了1次。
那么”world“的相关度就比"hello"的权重高
字段的长度是多少?字段越短,字段的权重越高。
例如:搜索“hello",文档A和文档B中都出现了
但是文档A,总共10个字符,文档B,总共100个字符。
那么 hello 在文档A中的权重 > 文档B中的权重
以上三个因素——词频(term frequency)、逆向文档频率(inverse document frequency)和字段长度归一值(field-length norm)——是在索引时计算并存储的。最后将它们结合在一起计算单个词在特定文档中的权重