当前位置: 首页 > 知识库问答 >
问题:

多标记数据的共生矩阵

徐英锐
2023-03-14

我有一个用户数据集,每个用户可以属于多个类:

user1, A
user1, B
user1, C
user2, A
user2, C
user3, B
user3, C

例如,在本例中,user1 属于类 A、B 和 C。我想知道每对类中有多少唯一用户(表中的每个条目对应于共享的唯一用户数):

  | A | B | C
A | 2 | 1 | 1
B | 1 | 2 | 2
C | 1 | 2 | 2

我想知道如何在PySpark中使用数据帧和RDD?我想也许我需要重塑数据/数据透视,但我提出的解决方案似乎有点复杂。。。

谢谢你!

共有1个答案

邵锐
2023-03-14

按类和< code >交叉表自连接

(df.withColumnRenamed("class", "class_a")
    .join(df.withColumnRenamed("class", "class_b"), ["user"])
    .crosstab("class_a", "class_b")
    .orderBy("class_a_class_b")
    .show())

# +---------------+---+---+---+ 
# |class_a_class_b|  A|  B|  C|
# +---------------+---+---+---+ 
# |              A|  2|  1|  2|
# |              B|  1|  2|  2|
# |              C|  2|  2|  3|
# +---------------+---+---+---+

如果您只想要唯一的(user, class)对,请在之前应用不同。

 类似资料:
  • 我正在y_test并y_pred混淆矩阵。我的数据用于多标签分类,因此行值是一种热编码。 我的数据有30个标签,但在输入混淆矩阵后,输出只有11行和列,这让我很困惑。我想我应该有一辆30X30的。 它们的格式是numpy数组。(y\u test和y\u pred是我使用dataframe.values将其转换为numpy数组的数据帧) y\U测试。形状 y_test y\u预测。形状 y\u预测

  • 我正在对实际数据和来自分类器的预测数据进行多标签分类。实际数据包括三类(c1、c2和c3),同样,预测数据也包括三类(c1、c2和c3)。数据如下 在多标签分类中,文档可能属于多个类别。在上述数据中,1表示文档属于特定类,0表示文档不属于特定类。 第一行Actual\u数据表示文档属于c1类和c2类,不属于c3类。类似地,第一行predicted\u数据表示文档属于类别c1、c2和c3。 最初我使

  • 我试图弄清楚如何使用神经网络为多标签分类任务生成混淆矩阵。我之前设法使用函数“交集”计算准确性,因为对此我不关心任何排序。 然而,为了计算混淆矩阵,我确实关心预测/标签的索引顺序。由于标签的值始终相同(

  • 我正在使用分类器的多类多标签输出。类的总数为14,实例可以关联多个类。例如: 我现在制作混淆矩阵的方式: 输出如下: 现在,我不确定sklearn的混淆矩阵是否能够处理多标签多类数据。谁能帮我一下吗?

  • 我在这里有一个网站:https://www.idee-creative.co.uk在那里我添加了自定义字段,使我能够为搜索引擎优化目的添加自定义页面标题和描述。 然而,问题是,WordPress似乎也显示了它自己的标题标签,包含了网站的标题和标语从一般设置... Wordpress标题必须来自我的header.php页面内的标记(我想无论如何)。 那么,有没有办法删除wordpress页面标题,只

  • 在某些语言(例如越南语)中,一些词汇由多个单词组成。因此,一些包含多个单词的标记可以被标记,而不仅仅是使用空格。 我有以下意见: 预期产出: 训练数据我_连接需要在一个令牌中粘在一起的单词: 这是我用来训练的命令行 带参数 但是,输出不能在一个标记中连接多个单词,但它被空格拆分。 我运行以获取输出的命令 我应该如何处理我们的配置参数中的训练数据,以训练每个标记都有多个单词的标记器?