Imbalanced-learn:不平衡数据集的交叉验证策略.docx
文本预览下载声明
PAGE1
PAGE1
Imbalanced-learn:不平衡数据集的交叉验证策略
1Imbalanced-learn:不平衡数据集的交叉验证策略
1.1简介
1.1.1不平衡数据集的概念
在机器学习中,不平衡数据集指的是数据集中不同类别的样本数量存在显著差异的情况。例如,在欺诈检测、疾病诊断等场景中,正常样本的数量远多于异常样本,这种数据分布的不均衡性会直接影响模型的训练效果和预测性能。在不平衡数据集上训练模型时,模型往往倾向于预测多数类,因为这样可以得到较高的准确率,但这会导致少数类的预测性能极差,从而影响模型的实用性。
1.1.2Imbalanced-learn
显示全部