当前位置: 首页 > 面试题库 >

数据不平衡怎么办?

柳英资
2023-03-14
本文向大家介绍数据不平衡怎么办?相关面试题,主要包含被问及数据不平衡怎么办?时的应答技巧和注意事项,需要的朋友参考一下

参考回答:

使用正确的评估标准,当数据不平衡时可以采用精度,调用度,F1得分,MCC,AUC等评估指标。

重新采样数据集,如欠采样和过采样。欠采样通过减少冗余类的大小来平衡数据集。当数据量不足时采用过采样,尝试通过增加稀有样本的数量来平衡数据集,通过使用重复,自举,SMOTE等方法生成新的样本。

以正确的方式使用K-fold交叉验证,组合不同的重采样数据集,对多数类进行聚类。

 类似资料:
  • 问题内容: 我正在尝试训练数据不平衡的网络。我有A(198个样本),B(436个样本),C(710个样本),D(272个样本),并且我已经阅读了有关“weighted_cross_entropy_with_logits”的信息,但是我发现的所有示例都是针对二进制分类的,因此我不太了解对如何设置这些权重充满信心。 样本总数:1616 A_weight:198/1616 = 0.12? 如果我理解的话

  • 本文向大家介绍如何解决数据不平衡问题?相关面试题,主要包含被问及如何解决数据不平衡问题?时的应答技巧和注意事项,需要的朋友参考一下 这主要是由于数据分布不平衡造成的。解决方法如下: 采样,对小样本进行加噪声采样,对大样本进行下采样 进行特殊的加权,如在Adaboost中或者SVM 采用对不平衡数据集不敏感的算法 改变评价标准:用AUC|ROC来进行评价 考虑数据的先验分布 https://blog

  • 问题内容: 好的,因此我得到了一个非常罕见的负载均衡PHP网站的独特场景。令人讨厌的是-它曾经不是负载均衡的。现在我们开始遇到问题了… 当前唯一的问题是PHP会话。自然,起初没有人想到此问题,因此PHP会话配置保留为默认设置。因此,两个服务器都有自己的少量会话文件存储,而麻烦的是将下一个请求引发到另一个服务器的用户,因为该用户没有在第一个服务器上创建的会话。 现在,我一直在阅读有关如何解决这种情况

  • 现在系统里面积累了大约五六年的缴费数据。 希望分离出一个冷数据库,用来保存2年以前的数据。 而主库只保存2年以内的热数据。 这个过程中,怎么保证服务不停机,实现平滑迁移呢? 怎么实现迁移完成后的数据,对于用户查询热数据、冷数据是透明无感的?

  • 集群由4个节点中的每个节点上的16个引线进行平衡 ISR在4个箱子中也保持平衡,每个箱子有32个ISR[复制系数为2] 所有4个盒子上的网络输入和输出几乎相等 请求任何帮助或可以查看的领域/指标来调试此异常。 对于将来正在搜索此信息的人https://mail-archives.apache.org/mod_mbox/kafka-users/201710.mbox/