《项目九 第2课时-了解机器学习中的数据采集与预处理》精品教案.pptx
项目九了解手写数字识别 —体验人工智能第二课时了解机器学习中的数据采集与预处理沪教版必修一
一、新课导入二、机器学习三、机器学习的一般过程目录
一、新课导入
二、机器学习
机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。
制造业◆预见性维护或状态监测◆保证金预估◆客户购买倾向◆需求预测◆流程优化◆远程信息处理保健与生命科学◆根据病人实时数据作出预警及诊断◆疾病鉴定和风险分级◆病人分流优化◆主动健康管理◆医疗保健提供者情绪分析零售业◆预测库存计划◆商品推荐◆上行销售和跨渠道营销◆市场细分与市场定位◆客户投资回报率和终身◆价值近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
能源、原料和公共事业◆电力使用情况分析◆地震数据处理◆碳排放与碳交易◆客户特定价格◆智能电网管理◆能源需求与供给优化金融服务◆风险分析与管控◆客户分类◆交叉销售和上行销售◆市场营销活动管理◆信用评价旅行与接待◆飞机调度 ◆动态定价◆媒体一消费者反馈与互动分析◆客户投诉解决◆交通模式与拥塞管理近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
分类问题分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别是什么,这是一种定性输出,也叫离散变量预测。指纹识别、人脸识别、图像分类等都属于分类问题。回归问题回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值是多少,这是种定量输出,也叫连续变量预测。天气预报、市场测、金融分析等都属于回归问题。
监督学习针对已被标注的数据,采用监督学习。监督学习已在工业界取得了很多成功应用。无监督学习针对未被标注的数据,采用无监督学习。无监督学习是众多科研工作者一直在努力的研究方向。12
三、机器学习的一般过程
用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用。机器学习的一般过程
在手写字体识别中,最简单的当属手写数字识别,但这对计算机来说却仍然颇具挑战性。针对手写数字识别,人们开发了可用于机器学习的MNIST数据集。作为机器学习的入门学习者,我们将直接使用现成的MNIST数据集。1.数据的采集
采集的样本使用分配MNIST数据集
(70000张)训练样本Train集合
(55000张)用于训练以建立模型Validation集合
(5000张)用于测试训练效果以验证模型测试样本Test集合
(10000张)用于评估最终模型
采集到的700000张样本图片,每一张都代表了从0到9中一个数字,所有的数字都出现在图片的正中间。2.数据预处理
这些图片并非二值图像,而是灰度图像。每一张图片都由28×28个像素点组成,每个像素点用一个灰度值表示。但是这样的灰度图像并不能直接用于机器学习,必须先要对它进行向量化。
二值图像是指像素点的值只能为0或1的图像。灰度图像灰度图像是用0来表示白色,用1表示黑色,中间名级别的灰色用(0,1)中的相应小数来表示的图像。
把各种灰度的像素点转换成具体的数值,就可以得到一个矩阵。把矩阵中除第一行外的每一行依次接在前一行之后,可以得到一个长度为784(28×28)的一维数组,该数组中的每一个元素与图片像素矩阵中的每一个数字是一一对应的。这样就完成了图片的向量化。对所有的训练样本和测试样本进行同样的向量化处理,就得到了手写数字识别算法所需要的输入样本。
MNIST数据集可直接在MNIST数据集官方网站下载。在Python语言中,有一些第三方工具,可用来方便地读入MNIST数据集,并直接完成向量化。通过以下这行代码,可以读取MNIST数据集。注意先要将下载的数据集存放在指定路径中。MNIST=input_data.read_data_sets(MNIST_data,one_hot=True)
input_data.read_data_sets函数会自动将MNIST数据集划分为Train、Validation和Test三个数据集。设置one_hot=True,可以将标注信息转化为本项目中所使用的手写数字识别算法的标准格式。
1.为什么要将矩阵转化为一维数据?2.如果是二值图像,该如何完成向量化?
四、课后作业
Python语言中,运行配套资源中的相关代码,将读入的MNIST数据集中的二进制文件数据转换成图像格式文件,观察两者之间的对应关系,体会图像是如何被向量化的。