《机器学习》全套教学课件.pptx
第1章机器学习技术简介全套可编辑PPT课件本课件是可编辑的正常PPT课件
课程学习内容1.1机器学习简介1.2机器学习的实现工具1.3Python平台搭建1.4Spark平台搭建1.5基于Python创建项目1.6基于Spark创建项目本课件是可编辑的正常PPT课件
1.1机器学习简介1.1.1机器学习的概念 机器学习是计算机从数据中学习到规律和模式,以应用在新的数据上完成分析或预测任务的一种技术。 机器学习的研究方向主要分为两类:第一类是传统机器学习,主要研究学习机制,注重探索模拟人的学习机制,其研究成果在Python的scikit-learn(简称sklearn)上有非常成熟的落地。第二类是大数据环境下机器学习的研究,主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。Hadoop大数据生态圈中的Spark是其典型代表。本课件是可编辑的正常PPT课件
1.1机器学习简介1.1.2机器学习的算法模型 机器学习的分类方法有多种,根据算法的学习方式可以分为监督学习、无监督学习、半监督学习和强化学习等1.监督学习 监督学习是将一些“标记好”的数据作为训练数据进行训练,并基于该数据预测输出。标记的数据意味着一些输入数据已经用正确的输出标记,在监督学习中充当监督者,训练机器正确预测输出。这些标记好的数据充当导师。 分类模型、回归模型、神经网络以及数据降维中的线性判别分析算法都属于监督学习。本课件是可编辑的正常PPT课件
1.1机器学习简介2.无监督学习 无监督学习不使用训练数据集进行监督,模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作。这里没有标记好的数据引导,也不存在导师。计算机自主地基于某种算法对数据进行处理和学习,根据训练数据集的内在特征对数据进行分类或产生相互关联。 聚类模型、关联模型以及数据降维中的主成分分析算法和奇异值分解算法都属于无监督学习。本课件是可编辑的正常PPT课件
1.1机器学习简介3.半监督学习 半监督学习在训练模型时同时使用了有标签数据和无标签数据,其中小部分是有标签数据,大部分是无标签数据。它结合了监督学习和无监督学习的特点,旨在利用少量标记样本和大量未标记样本提升学习效果。 通常在标记样本数量不足时使用,通过引入无标记样本,捕捉数据的整体潜在分布,从而改善学习效果。本课件是可编辑的正常PPT课件
1.1机器学习简介4.强化学习 计算机使用强化学习时,通过尝试不同的行为,从反馈中学习该行为是否能够得到更好的结果,然后记住能得到更好结果的行为。强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(或负向反馈)获得学习信息并更新模型参数。在多次迭代中自主地重新修正算法,直到做出正确的判断为止。 强化学习主要应用于信息论、博弈论、自动控制等领域。本课件是可编辑的正常PPT课件
1.1机器学习简介1.1.3机器学习程序开发步骤1.数据获取 数据获取,就是从生产环境中或互联网上得到数据。本课件是可编辑的正常PPT课件
1.1机器学习简介1.1.3机器学习程序开发步骤2.数据预处理 数据预处理就是对数据进行清洗和转换,使其符合后续的模型训练和模型测试的要求。 数据清洗就是对数据中缺失、不完整或有缺陷的数据进行处理,输出正确完整的数据集。 数据转换就是把清洗好的数据转换成能够被算法模型识别的格式类型。本课件是可编辑的正常PPT课件
1.1机器学习简介3.模型训练 根据问题需要,选择算法模型。将预处理之后的数据输入算法模型中进行训练。对于监督学习,把数据划分为训练集和测试集,训练集用来训练模型;对于无监督学习,把所有的数据作为一个整体进行训练,设置一个结束条件,达到结束条件后,训练结束,训练的效果提交到模型测试阶段进行评估。4.模型测试 为了评估模型,必须测试算法工作的效果。对于监督学习,把数据划分为训练集和测试集,训练集用来训练模型,测试集用来评估模型的分类效果;对于无监督学习,用其他评测手段来检验算法的效果。本课件是可编辑的正常PPT课件
1.1机器学习简介5.模型应用 将机器学习算法模型转化为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常运行。运行效果不满意或有新问题、新数据出现,可以返回第一步重新获取数据。本课件是可编辑的正常PPT课件
1.2机器学习的实现工具 用于机器学习的工具非常多,就其面向的用户而言,可以划分为两大类。 第一类是面向非计算机专业人员的图形化、零代码工具,如SPSS、SAS等。 第二类是面向计算机专业人员的编程实现工具,如Python的sklearn、Spark的ML和MLlib等。 Python做机器学习任务,数据集不能太大,如果数据集超