2分类的概念.pptx
文本预览下载声明
分类的概念
分类的概念
数据格式
分类的定义
分类问题的数学描述
分类算法的评价
数据格式
样本(Sample):一行称为一个样本。
属性(Attribute):一列称为一个属性。
类标签(Class Label):标识样本类别的属性。
分类的定义
根据训练数据集和类标签属性,学习分类器,并用来分类新数据,即预测测试样本的分类标签。
训练数据集
学习方法
(分类算法)
分类器
训练过程
分类器
测试数据
类标签
预测过程
典型应用
信用卡/贷款审批
医疗诊断:肿瘤是癌或良性?
欺诈检测:交易欺诈?
人脸、指纹识别
分类问题的数学描述
分类问题:
根据给定的训练集,T ={(x1, y1), …, (xN, yN)}
(xi Rn, yi {1, 2, …, m}, i = 1, 2, …, N),寻找定义在Rn上的决策函数f(x): Rn {1, 2, …, m} 。以便能用决策函数f(x)“较好地”预测任一样本x的类别标签y。
从数学角度看分类问题
已知:
(1)函数的值域为有限个离散点;
(2)函数在某些点上的函数值。
求解:
寻找一个函数能较好地预测其他点上的函数值。
从数据的分布看分类问题
分类算法的评价
分类算法的评价
评价准则二:
算法复杂度:时间复杂度、空间复杂度。
分类算法的评价
评价准则三:分类器复杂度(可解释性)
课后讨论问题
谢谢
显示全部