文档详情

大数据概论及应用实践 课件 第五章数据分析与挖掘.pptx

发布:2025-05-22约1.21万字共48页下载文档
文本预览下载声明

第五章数据分析与挖掘大数据概论及应用实践IntroductiontoBigDataandApplicationPractice

第5章数据分析与挖掘基于数字经济的大数据时代,数据扮演者越来越重要的角色,但是数据通常不能直接使用,创造价值。如何从大量看似无章的数据中发现内在规律、发掘出有用的知识,指导人们进行科学的推断与决策,并对这些数据进行分析。数据分析将是数据转化为价值的最关键的一步。在数据处理与分析环节,可以利用统计学、机器学校和数据挖掘方法,结合数据处理与分析技术,对数据进行处理与分析,得到有价值的结果。统计学、机器学习和数据挖掘方法并非大数据时代的新生事物,但是在大数据时代得到了新的发展,充分利用计算机集群的并行处理能力。

目录CONTENTS概述5.1机器学习和数据挖掘算法5.2大数据分析技术5.3拓展实训5.4本章小结5.5习题5.6

数据分析分为广义的数据分析和狭义的数据分析。广义的数据分析是指采用恰当的分析方法(比如统计学、机器学习、数据挖掘等),对采集到的数据进行分析,提取有用的信息并形成结论的过程。概述PART01

5.1概述数据分析分为广义的数据分析和狭义的数据分析。广义的数据分析是指采用恰当的分析方法(比如统计学、机器学习、数据挖掘等),对采集到的数据进行分析,提取有用的信息并形成结论的过程。在广义的数据分析过程中,可以使用复杂的算法,也可以使用简单的统计分析方法。狭义的数据分析是根据分析目的,选用使用的统计方法和工具,对采集到的数据进行处理与分析,提取到有价值的信息,从而发挥数据的作用。本节介绍数据分析的基础知识和关联技术。

5.1.1数据分析的基础知识随着数据类型越来越多样化,对数据分析技术的要求也越来越高。当下,数据分析技术主要包括数据采集与传输、数据存储与管理、计算出来、查询与分析以及可视化展现。如图5-1,数据分析可分为分析技术、数据存储和基础架构三大类,融合了诸多技术的优点。图5-1数据分析

5.1.1数据分析的基础知识目前,数据分析技术发生了以下巨大的变化:(1)更快。根据相关研究追踪表明,Spark已成为大数据生态的计算框架,内存计算带来计算性能的大幅提高,此外,还提供了底层计算引擎来支持批量、SQL分析、机器学习、实时图像处理等多种能力。(2)决策与分析。数据分析的价值取决于公司或国家所面临的的独特决策,反之,决策的类型、频率、速度和复杂性也推动了数据分析的部署方式。同时也必须采用先进的分析方法,如自然语言出来、模拟建模、神经网络等。(3)深度学习的支持。深度学习是在人工智能的演化下,利用神经网络进行机器学习的一种有效方法。目前被广泛应用于图像识别、语音处理、文本情感分析等领域。以Python为基础的平台开始基金探索如何支持深度学习。

5.1.2数据分析关联技术1.数据挖掘我们可以从如下四个方面了解数据挖掘:(1)定义层面上。数据挖掘是指从大量的数据中,通过统计学、机器学习、人工智能等方法,挖掘出未知的、且有价值的信息和知识的过程。(2)作用层面上。数据挖掘主要解决四类问题:分类、聚类、关联和预测。重点在于寻找未知的模式与规律;比如经典的超市购物案例--啤酒鱼尿布,就是事先未知,但又是非常有价值的信息。(3)方法层面上。数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。(4)结果层面上。数据挖掘主要是输出模型或规则,并且可相应的得到模型得分或标签。模型得分如流失概率值、总和得分、预测值等,标签如信用优良中、流失与非流失等。

5.1.2数据分析关联技术2.数据处理数据分析过程一般都会伴随着数据处理的发生,数据分析和数据处理是一对关系紧密的概念,通常,二者是融合在一起的。换个角度来说,当用户进行数据分析的时候,计算机系统会根据分析任务的要求,使用恰当的程序进行大量的数据处理。例如,当用户需要进行决策树分析时,需要先根据决策树算法编写分析程序,当分析开始以后,决策树分析程序对读取到的数据进行大量计算出来,最终给出结果。

5.1.2数据分析关联技术3.大数据处理与分析数据分析包含两个要素,理论和技术。在理论层面上,需要统计学、数据挖掘等知识。在技术层面上,包括单机分析工具以及大数据处理与分析技术等。在大数据时代,数据量爆炸式的增长,面对的都是规模巨大的海量数据进行分析,传统的的单机分析工具已经“无能为力”了,分布式的分析程序就顺势而生,这些分布式分析程序,借助于集群的多台机器进行并行数据出分析,这个过程称之为“大数据处理与分析”。

PART02机器学习和数据挖掘算法本节主要介绍及常用的机器学习算法和数据挖掘算法。

5.2.1概述机器学习是一门多领域交

显示全部
相似文档