Imbalanced-learn:不平衡学习基础理论.docx
文本预览下载声明
PAGE1
PAGE1
Imbalanced-learn:不平衡学习基础理论
1不平衡学习概览
1.1不平衡数据集的定义
在机器学习中,不平衡数据集指的是数据集中不同类别的样本数量存在显著差异的情况。例如,在欺诈检测、疾病诊断等场景中,正常样本的数量远多于异常样本,这种数据分布的不均衡性对模型的训练和评估带来了挑战。
1.1.1举例说明
假设我们正在构建一个信用卡欺诈检测系统,数据集中99%的交易是正常的,而只有1%的交易是欺诈性的。这种情况下,数据集就是不平衡的。
1.2不平衡学习的挑战
不平衡数据集对机器学习模型的训练和评估提出了以下挑战:
模型偏向性:模型倾向于预
显示全部