李松林-基于云计算的大数据平台-大数据文档资料.pptx
基于云计算的大数据应用
李松林
2012年10月
主要内容
电子商务的业务领域
亚历山大
面临的问题
业务需求
存储和计算
大数据
存储
r报表
长征之路
依赖成熟的技术
快速服务业务
报表/OLAP
Hadoop
RDBMS
即席查询、数据挖掘
元数据管理、以及其他服务
HBase…
数据同步
实时流式计算
数据流
做法
技术应用:Hadoop以及相关(1)
•基于ClouderaCDH3版本
–增加了补丁和修正
•从最早的几十台,扩展到今天的数百台
•与Hive一起使用
–基于Hive0.8
–函数开发/性能优化
技术应用:Hadoop以及相关(2)
•用途
–日志处理
–预算、汇总
–Ad-hoc查询–挖掘
–
…
技术应用:Hadoop以及相关(3)
•Hive应用
–只列出必须使用的列
–分区裁剪
–JoinMapJoin
–数据倾斜
•常见的优化参数
–mapred.map.tasks
–mapred.reduce.tasks
–hive.merge.mapfiles
–press.output
–hive.groupby.skewindata
–hive.optimize.skewjoin
–
…
技术应用:Hadoop以及相关(3)
•补丁修复
–SPOF
–
…
•加强了运营和监控
–Ganglia+Nagios
–进程监控
•数据质量验证–入口
•流程规范
•人员培训
技术应用:HBase(1)
•应用版本
–基于0.90
–已经升级到0.92
–计划升级到0.94
•用途
–京东数据开放平台
技术应用:HBase(2)
•特性
–高度可扩展
–大数据存储
–高速读写
–Schema按需而变
–数据高度安全
–多重分析计算手段
–1:10的压缩率
技术应用:HBase(3)
•技术应用
–Coprocessor
•Observer
•EndPoint
–聚合函数
–多重索引
–Solr
技术应用:挖掘(1)
预测
技术应用:挖掘(2)
•R
–一个自由的、有效的、用于统计计算和绘图的语言和环境
–线性和非线性模型、统计检验、时间序列、分类、聚类等方法
技术应用:挖掘(3)
/2011/08/poll-languages-for-data-mining-analytics.html
技术应用:挖掘(4)
•Rhadoop
•Rmr
•Rhdfs
•Rhbase
技术应用:流式计算(1)
•MapReduce的批量计算模式不能满足实时的业务需求
•越来越多的业务提供实时的数据支持,支持实时的运营支撑,更大的发挥数据的价值
技术应用:流式计算(2)
•特点:
–流中的数据在线到达,需要实时处理
–无法控制流中数据的顺序,同时流中数据的大小也是不定的
–流中数据处理之后需要归档
–流计算分为有状态和无状态两种
•本质——DAG
–算法(节点)
–数据流(边)
技术应用:流式计算(3)
•Storm
–信息流处理{Streamprocessing}
–连续计算{Continuouscomputation}
–分布式远程程序调用{DistributedRPC}
•让使用更加简单
•常见函数的封装
•业务元组的封装•EPL
•监控
技术应用:流式计算(4)
前段展现
事件收集器
Storm
应用
Websocket
Thrift
谢谢