当前位置: 首页 > 知识库问答 >
问题:

Apache Flink,关键字段字符串值相似但不相同的两个数据流

夏侯元忠
2023-03-14

我有一个算法,在一些不同的字符串之间给我一个分数。我的想法是:如果两个字符串之间的分数高于0'80,那么这两个字符串将被认为是相同的,当我应用keyby(“name”)时,那些相似的字符串将被键入,因为它们具有完全相同的名称。

直观示例:

DataStream1-----约翰·洛克,米奇·米克,威尔·威廉姆斯

希望你能理解,谢谢!

共有1个答案

柴兴贤
2023-03-14

我认为你的要求很难有效地实施。原因有以下几种情况:

  • SIM(A,B)=0.9
  • sim(A,D)=sim(B,D)=0.7
  • sim(A,C)=0.9
  • SIM(C,D)=0.9

如果元素的顺序是A、B、D、C,则在事件C到达时必须重新划分。一般来说,组可以随到达的每个元素而改变。

 类似资料:
  • 我一直在试图解决这个面试问题,它要求洗牌字符串,以便没有两个相邻的字母是相同的,例如, ABCC->ACBC 我想到的方法是 1)遍历输入字符串并将(字母、频率)对存储在某个集合中 2)现在通过拉取频率最高(即>0)的字母来构建一个结果字符串 3)每当我们拉一封信时,更新(减少)频率 4)如果所有字母的频率为零,则返回结果字符串 5)如果只剩下一个频率大于1的字母,则返回错误 我假设是Unicod

  • 问题内容: 通过搜索发现了类似的问题,但我是一位新的(糟糕的)程序员,无法理解答案。 我有一个.txt文件,其中包含多个字符串,以’-‘分隔。我使用拆分将一些字符串分成变量,其中两个相等,但是在if语句中它们不相等。 这将产生以下结果: 瑞典 瑞典 没有 在两个“ Sweden”字符串之前和之后都有一个空格,并且它们都用大写字母“ S”编写,但不相等吗?我在哪里搞砸了? 问题答案: 最后一个元素包

  • 问题内容: 我有两个字符串,它们看起来都一样: 但是,检查相等性表明它们不是。 我还尝试从命令提示符中复制两个字符串,并将它们作为新变量粘贴回去,但是它们仍然不相等。我有80%的把握是因为它们的编码方式很怪异,插入了一些我看不见的奇数字符,但是使用type()都只是显示为字符串。 有什么办法可以看到“真实”字符串?任何帮助表示赞赏。 问题答案: 他们是不一样的; using显示了这两个值之间的差异

  • 我想比较两个用户定义的字符串,并输出两个字符串之间共享的字符数,而不用使用数组。然后我需要输出这些字符中的每一个。我用扫描仪理解用户输入的部分,但后来我就不知所措了。 例如,string1中的"hamper"和string2中的"was"将返回: 共享字符数=5 共享字符 以下是我到目前为止的情况。不过,它会在单独的一行上打印每个字符。有没有一种不用数组的方法可以像上面那样将它们全部列在一行中

  • 问题内容: 为什么以下语句返回? 我也尝试过在字符串周围使用单引号。我唯一可以评估的方法是使用运算符,而不是 我的猜测是PHP将它视为某种方程式,但似乎有些奇怪。 有人可以详细说明吗? 问题答案: 是float数字格式,因此它们在比较时将转换为数字。 并且都将是因为它们太小。 对于在php中, 如果将数字与字符串进行比较,或者比较涉及 数字字符串 ,则每个字符串将转换为 数字 ,然后以数字方式进行

  • "给定两个字符串s和t,编写一个函数来检查s是否包含t的所有字符(顺序与字符串t相同)。返回true或false。递归不一定。这是我用java写的代码片段。问题是输入: string1="st3h5irteuyarh!"和string2="shrey"它应该返回TRUE,但它返回FALSE。那是为什么?"