Spark大数据分析 课件 1.1 大数据简介与相关技术.pptx
大数据简介与相关技术
大数据相关技术
大数据简介
大数据(bigdata),或称巨量资料,指的是所涉及的资料量
规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的
资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据
指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、
Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大数据简介
BigData
Value
Velocity
Veracity
Variety
Volume
大数据简介
Volume(大量):数据量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。
Variety(多样):种类和来源多样化。这种类型的多样性也让数据被分为结构化数据和非结构化数据。
Value(低价值密度):价值密度的高低与数据总量的大小成反比。
Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。这是大数据区分于传统数据挖掘的最显著特征。
Veracity:信数据的准确性和可信赖度,即数据的质量。
大数据相关技术
应
0
2
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数
据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
大数据相关技术
包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是
零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
大数据相关技术
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计
算,Map(映射)和Reduce(归约),是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式
Hadoop作为一个开源的框架,专为离线和大规模数据分析而
设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
数据存储
数据清洗
大数据相关技术
系统中。
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供
HQL(HiveSQL)查询功能。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQLonHadoop,用来
进行大数据实时查询分析。
Spark拥有HadoopMapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取
HDFS。
Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全
文搜索和Web爬虫。
Solr用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的企业级搜索
应用的全文搜索服务器。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分
析海量的数据。
大数据相关技术
数据查询分析
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
主流的BI平台比如,国外的敏捷BITableau、Qlikview、PowrerBI
等,国内的SmallBI和新兴的有数BI等。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户