文档详情

李松林-基于云计算的大数据平台-大数据文档资料.pptx

发布:2025-02-22约1.63千字共23页下载文档
文本预览下载声明

基于云计算的大数据应用

李松林

2012年10月

主要内容

电子商务的业务领域

亚历山大

面临的问题

业务需求

存储和计算

大数据

存储

r报表

长征之路

依赖成熟的技术

快速服务业务

报表/OLAP

Hadoop

RDBMS

即席查询、数据挖掘

元数据管理、以及其他服务

HBase…

数据同步

实时流式计算

数据流

做法

技术应用:Hadoop以及相关(1)

•基于ClouderaCDH3版本

–增加了补丁和修正

•从最早的几十台,扩展到今天的数百台

•与Hive一起使用

–基于Hive0.8

–函数开发/性能优化

技术应用:Hadoop以及相关(2)

•用途

–日志处理

–预算、汇总

–Ad-hoc查询–挖掘

技术应用:Hadoop以及相关(3)

•Hive应用

–只列出必须使用的列

–分区裁剪

–JoinMapJoin

–数据倾斜

•常见的优化参数

–mapred.map.tasks

–mapred.reduce.tasks

–hive.merge.mapfiles

–press.output

–hive.groupby.skewindata

–hive.optimize.skewjoin

技术应用:Hadoop以及相关(3)

•补丁修复

–SPOF

•加强了运营和监控

–Ganglia+Nagios

–进程监控

•数据质量验证–入口

•流程规范

•人员培训

技术应用:HBase(1)

•应用版本

–基于0.90

–已经升级到0.92

–计划升级到0.94

•用途

–京东数据开放平台

技术应用:HBase(2)

•特性

–高度可扩展

–大数据存储

–高速读写

–Schema按需而变

–数据高度安全

–多重分析计算手段

–1:10的压缩率

技术应用:HBase(3)

•技术应用

–Coprocessor

•Observer

•EndPoint

–聚合函数

–多重索引

–Solr

技术应用:挖掘(1)

预测

技术应用:挖掘(2)

•R

–一个自由的、有效的、用于统计计算和绘图的语言和环境

–线性和非线性模型、统计检验、时间序列、分类、聚类等方法

技术应用:挖掘(3)

/2011/08/poll-languages-for-data-mining-analytics.html

技术应用:挖掘(4)

•Rhadoop

•Rmr

•Rhdfs

•Rhbase

技术应用:流式计算(1)

•MapReduce的批量计算模式不能满足实时的业务需求

•越来越多的业务提供实时的数据支持,支持实时的运营支撑,更大的发挥数据的价值

技术应用:流式计算(2)

•特点:

–流中的数据在线到达,需要实时处理

–无法控制流中数据的顺序,同时流中数据的大小也是不定的

–流中数据处理之后需要归档

–流计算分为有状态和无状态两种

•本质——DAG

–算法(节点)

–数据流(边)

技术应用:流式计算(3)

•Storm

–信息流处理{Streamprocessing}

–连续计算{Continuouscomputation}

–分布式远程程序调用{DistributedRPC}

•让使用更加简单

•常见函数的封装

•业务元组的封装•EPL

•监控

技术应用:流式计算(4)

前段展现

事件收集器

Storm

应用

Websocket

Thrift

谢谢

显示全部
相似文档