问题：

多标记数据的共生矩阵

徐英锐

2023-03-14

我有一个用户数据集，每个用户可以属于多个类：

user1, A
user1, B
user1, C
user2, A
user2, C
user3, B
user3, C

例如，在本例中，user1 属于类 A、B 和 C。我想知道每对类中有多少唯一用户（表中的每个条目对应于共享的唯一用户数）：

  | A | B | C
A | 2 | 1 | 1
B | 1 | 2 | 2
C | 1 | 2 | 2

我想知道如何在PySpark中使用数据帧和RDD？我想也许我需要重塑数据/数据透视，但我提出的解决方案似乎有点复杂。。。

谢谢你！

共有1个答案

邵锐

2023-03-14

按类和< code >交叉表自连接

(df.withColumnRenamed("class", "class_a")
    .join(df.withColumnRenamed("class", "class_b"), ["user"])
    .crosstab("class_a", "class_b")
    .orderBy("class_a_class_b")
    .show())

# +---------------+---+---+---+ 
# |class_a_class_b|  A|  B|  C|
# +---------------+---+---+---+ 
# |              A|  2|  1|  2|
# |              B|  1|  2|  2|
# |              C|  2|  2|  3|
# +---------------+---+---+---+

如果您只想要唯一的（user， class）对，请在之前应用不同。

类似资料：

多标签分类混淆矩阵的标签数错误

我正在y_test并y_pred混淆矩阵。我的数据用于多标签分类，因此行值是一种热编码。我的数据有30个标签，但在输入混淆矩阵后，输出只有11行和列，这让我很困惑。我想我应该有一辆30X30的。它们的格式是numpy数组。（y\u test和y\u pred是我使用dataframe.values将其转换为numpy数组的数据帧） y\U测试。形状 y_test y\u预测。形状 y\u预测
多标签混淆矩阵

我正在对实际数据和来自分类器的预测数据进行多标签分类。实际数据包括三类（c1、c2和c3），同样，预测数据也包括三类（c1、c2和c3）。数据如下在多标签分类中，文档可能属于多个类别。在上述数据中，1表示文档属于特定类，0表示文档不属于特定类。第一行Actual\u数据表示文档属于c1类和c2类，不属于c3类。类似地，第一行predicted\u数据表示文档属于类别c1、c2和c3。最初我使
Tensorflow，多标签混淆矩阵

我试图弄清楚如何使用神经网络为多标签分类任务生成混淆矩阵。我之前设法使用函数“交集”计算准确性，因为对此我不关心任何排序。然而，为了计算混淆矩阵，我确实关心预测/标签的索引顺序。由于标签的值始终相同（
基于SkLearning的多类多标签混淆矩阵

我正在使用分类器的多类多标签输出。类的总数为14，实例可以关联多个类。例如：我现在制作混淆矩阵的方式：输出如下：现在，我不确定sklearn的混淆矩阵是否能够处理多标签多类数据。谁能帮我一下吗？
标记太多

我在这里有一个网站：https://www.idee-creative.co.uk在那里我添加了自定义字段，使我能够为搜索引擎优化目的添加自定义页面标题和描述。然而，问题是，WordPress似乎也显示了它自己的标题标签，包含了网站的标题和标语从一般设置... Wordpress标题必须来自我的header.php页面内的标记（我想无论如何）。那么，有没有办法删除wordpress页面标题，只
如何为OpenNLP准备训练数据来标记包含多个单词的标记？

在某些语言（例如越南语）中，一些词汇由多个单词组成。因此，一些包含多个单词的标记可以被标记，而不仅仅是使用空格。我有以下意见：预期产出：训练数据我_连接需要在一个令牌中粘在一起的单词：这是我用来训练的命令行带参数但是，输出不能在一个标记中连接多个单词，但它被空格拆分。我运行以获取输出的命令我应该如何处理我们的配置参数中的训练数据，以训练每个标记都有多个单词的标记器？

多标记数据的共生矩阵

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档