文档详情

HADOOP与大数据.ppt

发布:2016-11-30约3.94千字共41页下载文档
文本预览下载声明
* * * * * * HIVE语法举例 create table test_table (id int,name string,no int) row format delimited fields terminated by , stored as textfile ; Drop Table tablename; SELECT * FROM (SELECT SUM(A) ASUM FROM ATABLE GROUP BY A) SUBQ1 WHERE ASUM 另外:不支持in,exist 不支持having语法,须增加子查询 不支持update和delete操作,只支持覆盖的insert操作 HADOOP简介 1 HADOOP安装 2 目录 MapReduce编程 3 4 HADOOP相关技术简介 5 NOSQL,MPP数据库 6 大数据核心算法 不怎么支持sql;开源; 键值存储;并行计算;速度较快 GBase8a (南大通用) ?Greenplum(EMC) ?Vertica(hp) ?AsterData(teradata) ?Sybase IQ(sap) ?F1/Spanner(google) Stado (开源) ?Hbase(大表实时操作) ?Bigtable (大数据,快速读) ?Cassandra (高性能,类sql) ?Dynamo (快速读写) ?Dremel (类sql,快速读) ? Neo4j (适用图形数据) Redis(快速读写) Nosql、MPP 支持sql;不开源; 列存储;并行计算;速度较慢 特点比较 HADOOP简介 1 HADOOP安装 2 目录 MapReduce编程 3 4 HADOOP相关技术简介 5 NOSQL,MPP数据库 6 大数据核心算法 关于大数据的思考 在解决了大数据的存储与计算之后,如何从海量数据中挖掘出有价值的信息?如何实现数据货币化? 一些大数据的传说: 大数据是未来世界的石油 数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源 大数据开启了一次重大的时代转型 人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来 大数据,是下一轮创新、竞争和生产力的前沿 对于企业来说,海量数据的运用将成为未来竞争和增长的基础 谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年全球经济发展的制高点 探索大数据价值实现 看看人家是如何利用大数据的 Target竟然比父亲更早地知道女儿怀孕了 沃尔玛将啤酒和尿布捆绑销售 FlightCaster,预测飞机晚点 FICO,信用评分系统,用15个变量预测单个借贷者是否会偿还债务。 德勤给aviva的预测模型,可以根据生活方式预测疾病,保险公司可以节省125美元每人,而成本只5美元。 Kaggle公司提供数据挖掘竞赛,二手车质量模型,橙色的车质量问题是其他车的一半。 孟菲斯市2006年启动“大数据”系统锁定了更容易发生犯罪的地点和更容易抓捕罪犯的时间,使重大犯罪发生率下降26%。 发现了新的知识 从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。 也有的说法是,知识发现是数据挖掘的别名。 知识发现、数据挖掘、机器学习 数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 机器学习(Machine Learning, ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心。已逐渐成为智能数据分析技术的创新源。 support vector(支持向量机) Naive Bayes (朴素贝叶斯) K-nearest neighbours(最邻近) Decision tree(决策树) 常用机器学习算法 理解这些算法的基础:微积分、概率论、数理统计 或许我们对数学也不是很感兴趣,读书时学到的数学知识也忘得差不多了,但这并不影响我们利用这些算法来分析数据 决策树应用案例 任务:通过天气信息,预测当天是否有演出 步骤一、收集以往的天气信息、演出信息:气温、是否刮风、气候(阴晴)、湿度、是否演出 步骤二、通过决策树算法,将收集的信息进行训练 步骤三、生成预测模型,根据任意的天气信息输入,预测是否有演出 模型准确率是判断一个模型是否有实际意义的唯一标准,本次建模的准确率:100% SMO应用案例 任务:自动识别金庸与古龙的文学作品
显示全部
相似文档