《人工智能技术基础》课件——第四章 机器学习.pptx
;第四章机器学习;机器学习概述;机器学习概述;机器学习概述;数据预处理;数据预处理;一个结构完成的数据集是机器学习的基础,没有高质量的数据,就没有高质量的机器学习结果(高质量的预测必须依赖于高质量的数据)。然而现实世界获取的数据集合常常伴有大量的噪声,‘脏数据’以及存在着错误、或异常(偏离期望值)的数据。例如:一个数据集中通常会存在以下问题:
●数据缺失(Incomplete)是属性值为空的情况。
●数据噪声(Noisy)是数据值不合常理的情况。
●数据不一致(Inconsistent)是数据前后存在矛盾的情况。
●数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况。
●数据集不均衡(Imbalance)是各个类别的数据量相差悬殊的情况。
●离群点/异常值(Outliers)是远离数据集中其余部分的数据。
●数据重复(Duplicate)是在数据集中出现多次的数据。;1、数据清洗
数据清洗是整个数据预处理过程中非常重要的一个环节,其结果质量直接关系到机器学习建模效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间,数据清洗的主要内容包括:
(1)缺失值清洗
●确定缺失值范围。
●去除不需要的字段。
●填充缺失内容。
(2)格式内容清洗
●时间、日期、数值、全半角等显示格式不一致
●内容中有不该存在的字符
●内容与该字段应有内容不符
;2.数据转换
数据标准化是将样本数据的属性缩放到某个指定的范围。数据标准化的原因:某些算法要求样本具有零均值和单位方差;需要消除样本不同属性具有不同量级时的影响:①数量级的差异将导致量级较大的属性占据主导地位;②数量级的差异将导致迭代收敛速度减慢;③依赖于样本距离的算法对于数据的数量级非常敏感。
;3.数据描述
数据的一般性描述有Mean,Median,Mode,Variance。其中Mean是均值;Median是中位数,取数据排序后在中间位置的值,避免因为极端离群点影响客观评价;Mode是出现频率最高的元素,其使用的比较少;Variance是方差衡量数据集与其均值的偏离。
数据之间的相关性可以使用Pearsoncorrelationcoefficient(皮尔森相关系数)和Pearsonchis-quare(皮???森卡方检验)进行度量。前者适用与有Metricdata的情况,后者适用于分类统计的情况。
Pearson相关系数(PearsonCorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
皮尔森卡方检验是一个样本中已发生事件的次数分配会遵守某个特定的理论分配。;4.特征选择
在我们做特定分析的时候,可能属性非常多,但有些属性是不相关的,有些属性是重复的,所以我们需要用特征选择挑选出来最相关的属性降低问题难度。我们可以通过熵增益(Entropyinformationain)、分支定界(Branchandbound)等方式进行特征选择。特征选择还有Sequentialforward(序列前向选择),Sequentialbackward(序列反向选择),Simulatedannealing(模拟退火),Tabusearch(竞技搜索),Geneticalgorithms(遗传算法)等方式去优化。为了提高复杂关系的拟合能力,在特征工程中经常会把一些离散特征两两组合,构成高阶特征,提高机器学习算法的拟合能力。;01机器学习基础;模型训练
在机器学习流程中,在对于数据集进行预处理以后,需要利用训练集建立预测模型,然后将这种训练好的模型应用于测试集(即作为新的、未见过的数据)上进行预测。根据模型在测试集上的表现来选择最佳模型,为了获得最佳模型,还需要进行参数优化。在进行模型训练时可以使用例如梯度下降方法,加速机器学习算法的训练速度和寻找最优参数的速度。
;梯度下降(Gradientdescent)在机器学习中应用十分的广泛,不论是在回归分析还是分类分析中都有广泛的应用,它的主要目的是通过迭代计算找到目标函数的最小值,或者收敛到最小值。梯度下降法的基本思想可以看成是一个下山的过程。假设场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径无法通过肉眼确定,必须利用自己周围的信息一步一步地找到下山的路。这个时候,便可利用梯度下降算法来帮助自己找到下山的路。具体方法:首先以当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着下降方向走一步,然后又继续以当前位置为基准,再找最陡峭的地方,再走直到最后到达最低处;同理上山也是如此,只是这时候就变成梯度上升算