当前位置: 首页 > 知识库问答 >
问题:

使用另一个数据帧或RDD搜索数据帧

景承教
2023-03-14

我有2个数据帧在apache火花。

df 1有显示编号和说明。。。数据看起来像

不显示描述a这是米奇b唐纳德来了c玛丽和乔治回家d玛丽和乔治进城

第二个数据帧有字符

人物
乔治
唐纳德
玛丽
米妮

我需要搜索节目描述,找出哪个节目的特征是哪个角色...

最终输出应该如下所示

乔治|c,d
唐纳德|b
玛丽|c. d
米妮|不显示

这些数据集经过精心设计,非常简单,但它表达了我试图实现的搜索功能。我基本上需要使用来自另一个数据帧的值搜索1个数据帧的文本。

这在sql server内部的udf中很容易做到,我基本上每次都会循环查看show descrip,并使用“contains”搜索说明返回show no。

我的问题是,我认为没有办法使用数据帧来做到这一点。

共有1个答案

庄弘业
2023-03-14

1) 我认为您应该进一步细分第一个数据集,以便show_no映射到描述中的每个单词。例如,第一排可以分解为

show_no | descrip
a | this
a | is 
a | mikey

2) 如果需要,您可以从中筛选出停止词。

3) 在此之后,您可以将其与“字符”连接起来,以获得最终所需的输出。

希望这有帮助。阿米特

 类似资料:
  • 我得到了一个具有多个列和行的数据帧df1。简单的例子: 我想创建一个空的数据框df2,然后再添加新的列和计算结果。 此时,我的代码如下所示: …添加两个新列: 有没有更好/更安全/更快的方法?是否可以创建一个空数据帧df2,并且只从df1复制索引?

  • 我有两个数据框,都包含英文和中文单词字符串,我想知道其中一个是另一个的子集:

  • 我有两个数据帧。我需要用第二列中的平均值更新第一列中的一列,并按索引分组。这里是示例df1(col1是索引) df2(col1是索引) 我需要df2的col2(a=2,d=3)的平均值,并且只更新col3=X的行的df1 我试过这个 只有在我不使用loc的情况下,它才有效。 我试图得到的结果是df1(col1是索引)

  • 我有两个数据帧,它们的列名相同,但行数不同。第一个数据帧(a)看起来与此类似: 注:站点5、6、8和12故意丢失。 第二个数据帧(b)看起来像这样: 我想要实现的是: 在那里我注入(我肯定有一个更好的术语)数据帧b到数据帧a的数据,但是我想用零替换b中的任何NAs,并保持a中的NAs不变。 我发现并尝试了这个代码: 但它会带来NAs。我考虑先将NAs替换为零,但即使如此,它也会抹去我目前在数据帧a

  • 我有两个数据帧df1和df2 df1如下 df2就像 我想根据df2中与df1中的列名匹配的单元格值将值从df1复制到df2,所以我的df3应该看起来像 df3 基本上,我想根据df2的单元格值(df1中的列名)从df1复制df2中的列 如果它仍然令人困惑,请告诉我

  • 我有两个Dataframes一个与日期集(df1)和另一个与emp_ids集(df2)。我试图创建一个新的Dataframe,这样df2中的每个emp_id都被标记为df1中的每个日期。 下面给出了我的数据帧的外观 df1 df2 预期产出: 我将日期列转换为字符串,并尝试执行以下操作,但返回的数据框为空 我尝试做