Imbalanced-learn:特征选择对不平衡数据的影响.docx
文本预览下载声明
PAGE1
PAGE1
Imbalanced-learn:特征选择对不平衡数据的影响
1Imbalanced-learn:特征选择对不平衡数据的影响
1.1简介
1.1.1不平衡数据集的概念
不平衡数据集(ImbalancedDataset)是指在分类任务中,不同类别的样本数量存在显著差异的数据集。在现实世界的应用中,这种不平衡现象非常常见,例如在欺诈检测、疾病诊断、稀有事件预测等场景中,正例(感兴趣事件)的数量远少于负例(非感兴趣事件)。这种不平衡性给机器学习模型的训练带来了挑战,因为大多数机器学习算法设计时假设数据是平衡的,不平衡的数据可能导致模型偏向于多数类,从而
显示全部