当前位置: 首页 > 知识库问答 >
问题:

如何在分类列之间执行关联

曾元忠
2023-03-14

我在数据帧df1中有一组列(col1,col2,col3)我在数据帧df2中有另一组列(col4,col5,col6)假设这两个数据帧具有相同的行数。

如何生成在df1和df2之间进行成对关联的关联表?

桌子会像

    col1 col2 col3
col4 ..   ..   ..
col5 ..   ..   ..
col6 ..   ..   ..

我使用df1。corrwith(df2),它似乎没有根据需要生成表。

我在这里问了一个类似的问题:如何在具有不同列名的两个数据帧之间执行关联,但现在我处理的是分类列。

如果不能直接比较,是否有标准的方法使其具有可比性(如使用get_假人)?这是自动处理所有字段(假设所有字段都是分类字段)并计算其相关性的更快方法吗?

共有1个答案

施权
2023-03-14

你是正确的pd.get_dummies将需要得到相关性。下面,我将创建一些带有两个分类列的假数据,然后使用corrwith

df = pd.DataFrame({'col1':np.random.choice(list('abcde'),100),
                  'col2':np.random.choice(list('xyz'),100)}, dtype='category')
df1 = pd.DataFrame({'col1':np.random.choice(list('abcde'),100),
                   'col2':np.random.choice(list('xyz'),100)}, dtype='category')

dfa = pd.get_dummies(df)
dfb = pd.get_dummies(df1)
dfa.corrwith(dfb)

col1_a   -0.057735
col1_b    0.002513
col1_c    0.137956
col1_d   -0.095050
col1_e   -0.114022
col2_x    0.022568
col2_y   -0.081699
col2_z   -0.128350
 类似资料:
  • 我在数据帧df1中有一组列(col1,col2,col3)我在数据帧df2中有另一组列(col4,col5,col6)假设这两个数据帧具有相同的行数。 如何生成在df1和df2之间进行成对相关的相关表? 这张桌子看起来像 我使用,它似乎没有按要求生成表。 我已经看到了如何检查两个数据集的匹配列之间的相关性的答案?,但主要的区别在于col名称不匹配。

  • 我有变体分类法,每个变体分类法都有多个元标记。我创建了变体分类法和元标记分类法。但问题是我无法确定这两种分类法之间的关系。 这些分类是在自定义帖子类型上创建的。 我怎样才能做到呢?有什么想法或解决办法吗?

  • 问题内容: 这个问题已经在这里有了答案 : 2列组合上的sql唯一约束 (3个答案) 6年前关闭。 我不确定我是否正确表达了这个问题,所以我将尝试更长的解释。我有这种桌子: 我想将(a,b)对与(b,a)相同,并禁止插入重复项。如果PostgreSQL有数据类型,我可以这样声明表: 但是事实并非如此,那么最好的方法是什么? 问题答案:

  • 我有一个活动,在应用程序第一次运行时弹出指令(在对话框片段中)。 我想在用户不关闭对话框的情况下停止代码的执行。 有可能做到吗??? 编辑:我尝试使用CountDownLatch,但它冻结了我的UI,并且没有显示对话框。 活动: } 对话框(我只列出了所需的方法): 公共类教程对话框扩展了DialogFragment{private final String TAG=getClass().getS

  • 我刚开始使用ReactJS,遇到了一个小问题。 我的应用程序本质上是一个带有过滤器的列表和一个更改布局的按钮。目前我使用三个组件:

  • 问题内容: 我已经寻找了很长时间,并且我对此也找不到任何问题,我想这可能是不可能的,尽管由于该功能很有用,这似乎很奇怪。 我想在这样的情况下,假设有3行,而不是在行号1的末尾添加另一行,那有可能吗? 请不要提及基于某些ID的行排列,因为这是我在这种情况下要做的最后一件事。 问题答案: 使用<-请参阅文档更多构造函数 然后,您可以使用以下方法之一 -在模型中的每一行插入一行。除非指定rowData,