当前位置: 首页 > 面试题库 >

Transact SQL中Jaro Winkler距离算法的实现

盛承
2023-03-14
问题内容

我一直想知道如何在Transact
SQL中实现此算法,https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

怎么做到呢?


问题答案:

今天,我终于偶然发现了leebickmtu的这个Stack
Overflow-answer,它显示了最初从Java移植的C#实现。我自由地将其移植到Transact SQL函数,请尽情享受!

IF OBJECT_ID (N'dbo.InlineMax', N'FN') IS NOT NULL
    DROP FUNCTION dbo.InlineMax;
GO

CREATE FUNCTION dbo.InlineMax(@valueOne int, @valueTwo int)
    RETURNS FLOAT
AS
BEGIN
    IF @valueOne > @valueTwo
    BEGIN
        RETURN @valueOne
    END

    RETURN ISNULL(@valueTwo, @valueOne)
END;
GO

IF OBJECT_ID (N'dbo.InlineMin', N'FN') IS NOT NULL
    DROP FUNCTION dbo.InlineMin;
GO

CREATE FUNCTION dbo.InlineMin(@valueOne int, @valueTwo int)
    RETURNS FLOAT
AS
BEGIN
    IF @valueOne < @valueTwo
        RETURN @valueOne

    RETURN @valueTwo
END;
GO

IF OBJECT_ID (N'dbo.JaroWinklerDistance', N'FN') IS NOT NULL
    DROP FUNCTION dbo.JaroWinklerDistance;
GO

CREATE FUNCTION dbo.JaroWinklerDistance(@stringOne varchar(MAX), @stringTwo varchar(MAX))
RETURNS FLOAT
WITH EXECUTE AS CALLER
AS
BEGIN
    DECLARE @mWeightThreshold FLOAT; SET @mWeightThreshold = 0.7;
    DECLARE @mNuMChars INT; SET @mNumChars = 4;
    DECLARE @lLen1 int; SET @lLen1 = LEN(@stringOne)
    DECLARE @lLen2 int; SET @lLen2 = LEN(@stringTwo)

    IF @lLen1 = 0
        RETURN CASE WHEN @lLen2 = 0 THEN 1 ELSE 0 END

    DECLARE @lSearchRange int; SET @lSearchRange = dbo.InlineMax(0,dbo.InlineMax(@lLen1, @lLen2)/2 - 1);

    DECLARE @lMatched1 TABLE (position int not null, [status] bit not null)
    DECLARE @lMatched2 TABLE (position int not null, [status] bit not null)

    DECLARE @lNumCommon int; SET @lNumCommon = 0
    DECLARE @i int; SET @i = 1; WHILE(@i <= @lLen1)
    BEGIN
        DECLARE @lStart int; SET @lStart = dbo.InlineMax(1, @i - @lSearchRange)
        DECLARE @lEnd int; SET @lEnd = dbo.InlineMin(@i + @lSearchRange + 1, @lLen2)

        DECLARE @j int; SET @j = @lStart; WHILE(@j <= @lEnd)
        BEGIN
            IF((SELECT [status] FROM @lMatched2 WHERE position = @j) = 1)
            BEGIN
                SET @j = @j + 1
                CONTINUE
            END

            IF (SELECT SUBSTRING(@stringOne, @i, 1)) <> (SELECT SUBSTRING(@stringTwo, @j, 1))
            BEGIN
                SET @j = @j + 1
                CONTINUE
            END

            INSERT INTO @lMatched1 (position, [status]) VALUES(@i, 1)
            INSERT INTO @lMatched2 (position, [status]) VALUES(@j, 1)

            SET @lNumCommon = @lNumCommon + 1
            BREAK
        END

        SET @i = @i + 1
    END

    IF @lNumCommon = 0
    BEGIN
        RETURN 0.0;
    END

    DECLARE @lNumHalfTransposed int; SET @lNumHalfTransposed = 0
    DECLARE @k INT; SET @k = 1;
    DECLARE @stopLoop bit; SET @stopLoop = 0;
    SET @i = 1; WHILE(@i <= @lLen1)
    BEGIN
        IF ((SELECT [status] FROM @lMatched1 WHERE position = @i) = 1)
        BEGIN
            SET @i = @i + 1
            CONTINUE;
        END

        WHILE(@stopLoop = 0)
        BEGIN
            IF((SELECT [status] FROM @lMatched2 WHERE position = @k) = 0)
                SET @k = @k + 1
            ELSE
                BREAK

            IF((SELECT SUBSTRING(@stringOne, @i, 1)) <> (SELECT SUBSTRING(@stringTwo, @k, 1)))
                SET @lNumHalfTransposed = @lNumHalfTransposed + 1

            SET @k = @k + 1
        END

        SET @i = @i + 1
    END

    DECLARE @lNumTransposed INT; SET @lNumTransposed = @lNumHalfTransposed/2;

    DECLARE @lNumCommonD FLOAT; SET @lNumCommonD = @lNumCommon
    DECLARE @lWeight FLOAT; SET @lWeight = (@lNumCommonD / @lLen1 + @lNumCommonD / @lLen2 + (@lNumCommon - @lNumTransposed) / @lNumCommonD) / 3.0;

    IF(@lWeight <= @mWeightThreshold)
        RETURN @lWeight
    DECLARE @lMax INT; SET @lMax = dbo.InlineMin(@mNumChars, dbo.InlineMin(@lLen1, @lLen2))
    DECLARE @lPos INT; SET @lPos = 0
    WHILE(@lPos < @lMax AND (SELECT SUBSTRING(@stringOne, @lPos, 1)) = (SELECT SUBSTRING(@stringTwo, @lPos, 1)))
    BEGIN
        SET @lPos = @lPos + 1
    END

    IF @lPos = 0
        RETURN @lWeight

    RETURN @lWeight + 0.1 * @lPos * (1.0 - @lWeight)
END;
GO


 类似资料:
  • 如何在C#中实现Jaro-Winkler距离字符串比较算法?

  • 我需要计算汽车行驶的距离!不是距离,不是距离到否。如果我们通过谷歌提供的API计算,距离可以完全不同。谷歌可以提供从一个点到另一个点的1公里距离,但汽车可以按照骑手想要的方式行驶800米。使用加速计没有帮助。它适用于步行,但绝不适用于更快的速度。 我尝试过使用Google的位置API:距离到或距离之间根本不是一个选项。它可以给出与IN REAL截然不同的结果。在真实的汽车中,可以通过非常短的地方并

  • 本文向大家介绍Java实现的计算最大下标距离算法示例,包括了Java实现的计算最大下标距离算法示例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Java实现的计算最大下标距离算法。分享给大家供大家参考,具体如下: 题目描述 给定一个整形数组,找出最大下标距离j−i, 当且A[i] < A[j] 和 i < j 解法 复杂度:三次扫描,每次的复杂度O(N) 算法:{5,3,4,0,1,4,

  • 本文向大家介绍Ruby实现的最短编辑距离计算方法,包括了Ruby实现的最短编辑距离计算方法的使用技巧和注意事项,需要的朋友参考一下 利用动态规划算法,实现最短编辑距离的计算。

  • 本文向大家介绍机器学习中的距离计算方法?相关面试题,主要包含被问及机器学习中的距离计算方法?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 设空间中两个点为 欧式距离: cos=   切比雪夫距离:max

  • 问题内容: 我必须查询成千上万个条目的数据库,并按距指定点的距离对其进行排序。 问题是每个条目都有一个纬度和经度,我需要检索每个条目以计算其距离。对于大型数据库,我不想检索每一行,这可能需要一些时间。 有什么办法可以将其构建到mysql查询中,以便我只需要检索最近的15个条目。 例如 问题答案: 选项1:通过切换到支持GeoIP的数据库对数据库进行计算。 选项2:使用如下存储过程对数据库进行计算: