文档详情

大数据技术导论课件:大数据采集与预处理.pptx

发布:2025-03-02约9.71千字共52页下载文档
文本预览下载声明

大数据技术导论

大数据采集与预处理3.1数据3.2数据采集3.3数据清洗3.4数据变换3.5网络爬虫

大数据采集与预处理主要指网络爬虫和ETL技术。ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。

3.1数据数据不仅仅是数字,它描绘了现实的世界,与照片捕捉了瞬间的情景一样,数据是现实世界的一个快照。数据是对我们所研究现象的属性和特征的具体描述。3.1.1数据是什么大数据采集与预处理

3.1数据数据、信息、知识之间存在一定的区别和联系,见图3.1。3.1.1数据是什么大数据采集与预处理

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理3.1.2数据分类

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理(1)从数据的结构化程度看,可分为:结构化数据、半结构化数据和非结构化数据类型含义本质举例技术结构化数据直接可以用传统关系数据库存储和管理的数据先有结构,后有管理数字、符号、表格SQL非结构化数据无法用传统关系数据库存储和管理的数据难以发现同一的结构语音、图像、文本NOsql,NewSql,云技术半结构化数据经过转换用传统关系数据库存储和管理的数据先有数据,后有结构HTML、XMLRDF、OWL

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理(2)从数据的加工程度看,可分为:裸数据、专家数据、信息和价值

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理(3)从价值角度,把数据分为:线上数据(热数据,流动数据)和线下数据(冷数据、静态数据),线上数据比线下数据更有价值。

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理3.1.3度量和维度订单ID用户ID地区年龄订单金额订单商品订单时间199北京19126T恤衫2014/10/821008北京1480牛仔裤2014/9/1327上海24309衬衫2014/3/14467北京22286衬衫2013/5/255983北京21222毛衣2013/12/146266上海31560西服2014/1/8754上海25313衬衫2012/6/68498广州22275衬衫2012/11/991209北京24299牛仔裤2013/4/110709北京18120T恤衫2014/8/10这些数据项有什么差异呢?总体而言,分两种,一种叫维度,一种叫度量(或者叫指标)。在表3.2里,“订单金额”是度量,其余数据项都是维度。

2.1认识hadoop大数据生态系统3.1数据大数据采集与预处理度量是计算用的量化数值,而维度是描述事物的各种属性信息。虽然度量都是数值,但是数值不一定是度量,比如订单ID是数值,但它不是度量而是维度,像时间、文本类的数据都是维度。注意:(1)维度和度量是可以转换的。比如要看“年龄”的平均数,这里的“年龄”就是度量,要看19岁用户的订单情况,这里的“年龄”就是维度。对于一个数据项而言,到底它是维度还是度量,是根据用户的需求而定的。(2)维度可以衍生出新的维度和度量,比如用“地区”维度衍生出一个大区维度,“北京”、“天津”都对应“华北大区”,或者用“年龄”维度衍生出一个年龄范围维度,20到29岁=“青年人”,30到39岁=“中年人”,40到49岁=“资深中年人”。再比如上述的平均年龄,就是用“年龄”维度衍生出一个度量。(3)度量也可以衍生出新的维度和度量,比如用“订单金额”度量衍生出一个金额范围维度,100元以下对应“小额订单”,500元以上对应“大额订单”等等。再比如用“收入”度量和“成本”度量相减,可以得到一个“利润”度量。

大数据采集与预处理3.2数据采集3.1数据3.3数据清洗3.4数据变换3.5网络爬虫

3.2.1数据采集分类3.2数据采集大数据采集与预处理一卡通抄表数据股票交易互联网日志GPS历史数据人事档案就业信息借阅信息高频数据低频数据静态数据(1)按采集频率分:静态数据采集、低频数据采集、高频数据采集。

3.2.1数据采集分类3.2数据采集大数据采集与预处理关系型数据库非关系型数据库…结构化数据非结构化数据半结构化数据文本图片X

显示全部
相似文档