大数据管理与应用 课件 第三章 大数据管理与应用的机器学习基础.pptx
第三章大数据管理与应用的机器学习基础;随着大数据时代的到来,各个行业对数据分析的需求持续增加,通过机器学习从大量数据中提取有效的信息,已经成为当前人工智能技术发展的主要推动力,并且已经广泛用于解决商务领域中的决策与管理问题。在本章中您将了解机器学习的概念,掌握机器学习的四要素,明确机器学习中的模型评估与选择方法,了解机器学习的理论基础。
机器学习概述
机器学习的分类
模型评估与选择
计算学习理论;01;?;在现实问题中,我们经常面临很大的假设空间,而数据集中的样本通常是有限的。因此,有可能存在多种模型都能拟合数据集的情况,即存在一个与数据集一致的假设空间,称为“版本空间”。机器学习在学习过程中对某种模型的偏好,称为“归纳偏好”。
然而,机器学习中没有一个普适的模型能够解决所有的学习问题,这也被称为“没有免费的午餐”定理。
“奥卡姆剃刀”是一种常用的从版本空间中选取模型的方法,即在同样的条件下,应该优先选择较为简单模型。;?;在无监督学习中,数据集中只有输入数据而没有标签,无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律。因此无监督学习是没有经验知识的学习,有时也被称为“知识发现”。
聚类分析是无监督学习的代表,它能够根据数据的特点将数据划分成多个没有交集的子集,每个子集被称为簇,簇可能对应一些潜在的概念,但需要人为总结和定义。例如对用户进行精准营销前需要对用户进行细分,就可以通过聚类分析实现。
在许多现实问题中,对样本打标签的成本有时很高,因而只能获得少量带有标签的样本。在这种情况下,半监督学习可以让模型不依赖人工干预、自动地利用未标记样本来提升学习性能,从而充分利用有标签和无标签的样本。例如在生物学领域,对某种蛋白的结构或功能标记需要花费生物学家多年的功夫,而大量的未标记样本却很容易得到,半监督学习就提供了一条利用这些未标记样本的途径。
;?;?;性能度量就是对模型的泛化能力进行评估,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的??判结果。
分类问题的性能度量
错误率与精度
精确率、召回率与F1分数
ROC曲线与AUC
回归问题的性能度量??
均方误差
均方根误差
平均绝对误差
平均绝对百分比误差;?;过拟合(Overfitting)与欠拟合(Underfitting)是机器学习中的一组现象。如图3-4所示,过拟合一般是由于模型过于复杂或参数过多而导致模型对训练数据过度拟合的现象,而欠拟合则是由于模型过于简单或参数过少而导致模型难以训练数据的现象,这两种现象均能导致模型的预测值与真实值之间出现较大的差距。
;?;?;?;谢谢!