人工智能应用教学课件项目3.pptx
人工智能应用;项目3人工智能与大数据;通过对本章的学习,了解大数据的概念,理解数据采集,数据清洗,数据存储、数据计算、数据分析与可视化、数据治理以及大数据安全,理解人工智能与大数据的关系。
了解大数据的概念
理解数据采集,数据清洗,数据存储、数据计算以及数据分析与可视化
人工智能与大数据的关系
;当前,大数据产业正快速发展成为新一代信息技术和服务业态,即对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,并从中发现新知识、创造新价值、提升新能力。
;;大数据与智能制造;数据采集作为大数据生命周期的第一个环节,是指通过传感器、摄像头、RFID射频数据以及互联网等方式获取的各种结构化、半结构化与非结构化的数据。;在大数据时代,数据清洗通常是指把“脏数据”彻底洗掉,所谓“脏数据”是指不完整、不规范、不准确的数据,只有通过数据清洗才能从根本上提高数据质量。;数据清洗的原理;在数据清洗中,原始数据源是数据清洗的基础,数据分析是数据清洗的前提,而定义数据清洗转换规则是关键。在数据清洗中具体的数据清洗规则主要包括有:非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核等。
;异常值检测;数据存储;目前常见的大数据存储方式主要有分布式存储、NoSQL数据库和云数据库三种。
(1)分布式存储
分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并发场景下的Web访问问题。;(2)NoSQL数据库
NoSQL数据库又叫做非关系数据库,和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。;(3)云数据库
云数据库是指被优化或部署到一个虚拟计算环境中的数据库,是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。因此,云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,可以实现按需付费和???需扩展。;数据计算;(2)实时交互计算
当今的实时计算一般都需要针对海量数据进行,除了要满足非实时计算的一些需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。实时和交互式计算技术中,Google的Dremel系统表现最为突出。;Spark是由加州大学伯克利分校AMP实验室开发的实时数据分析系统,采用一种与Hadoop相似的开源集群计算环境,但是Spark在任务调度、工作负载优化方面设计和表现更加优越。;(3)流计算。传统的流式计算系统,一般是基于事件机制,所处理的数据量也不大。新型的流处理技术,如Yahoo的S4主要解决的是高数据率和大数据量的流式处理。S4是一个通用的、分布式的、可扩展的、部分容错的,可插拔的平台,开发者可以很容易的在其上开发面向无界不间断流数据处理的应用。
;数据分析与可视化;数据可视化在大数据技术中也至关重要,因为数据最终需要为人们所使用,为生产、运营、规划提供决策支持。选择恰当的、生动直观的展示方式能够帮助人们更好地理解数据及其内涵和关联关系,也能够更有效地解释和运用数据,发挥其价值。在展现方式上,除了传统的报表、图形之外,人们还可以结合现代化的可视化工具及人机交互手段,甚至增强现实技术等来实现数据与现实的无缝接口。
;数据治理;图3-11显示了国家标准GB/T34960的数据治理框架。该数据治理框架比较符合我国企业和政府的组织现状,更加全面地和精炼地描述了数据治理的工作内容,包含顶层设计、数据治理环境、数据治理域和数据治理过程。
;大数据安全;大数据时代的数据安全问题主要包括数据被滥用、误用和被窃取这几种情况。
(1)数据被滥用
数据滥用指的是对数据的使用超出了其预先约定的场景或目的。例如员工在没有工作场景支持的情况下访问了客户的个人敏感信息,这是大量内鬼倒卖个人信息而组织却不知道的主要原因之一。需要强调的是,在今天的大数据业务环境下,无法做到针对每一条个人信息、每一个员工在每一个工作场景的请求下,进行单独的数据访问许可授权。
(3)数据被误用
数据误用指的是在正常范围内在对数据处理的过程中泄露个人敏感信息。这是在大数据时代变得更加突出的典型问题。大数据时代,是通过对数据的各种分析,带来各种业务创新、保持业务价值的。但是,这个分析过程,是否泄露某个特定人的隐私,就属于是否误用的问题。企业如果知道用户的喜好和需求,就可以给用户发送更加精准的广告、提供更加适合的服务,但是在这个过程中,用户是不希望自己的一举一动都被企业了如指掌地看到,自己成了没有隐私的透明人。如今,大家都在采集和分析数据,但是很多企业还缺乏技术能