亿级大数据实时分析平台(最新修正版).ppt
文本预览下载声明
happy happy happy happy 亿级大数据实时分析平台 * 大数据的故事:价值为美 大量,快速,多样,变化等 采样的数据价值明显降低 实时数据的价值为最大 大数据外表光鲜亮丽,内则无 可奈何 大数据的变现之殇 《大数据的8个小观点》 * 小米的大数据技术框架 数据采集 数据存储 数据管理 数据分析 算法 可视化 Scribe ETL HDFS HBASE Kafka Hue Kerberos MapReduce Spark Strom Hive Impala 机器学习 自然语言 数据挖掘 统计分析 JavaScript E-Charts H5/App Zookeeper Druid ES KUDU * 小米大数据应用 广告营销 点击预估 人群画像 营销DMP 精准营销 搜索和推荐 互联网金融 精细化运营 防黄牛 图片分析和处理 * 小米大数据实时分析场景案例 * 数据分析的几个步骤 数据收集 JS SDK Server2 Server 数据处理 清洗去噪 反虚假数据 数据建模 模型管理 模型优化 数据分析 数据报告 数据预警 数据洞察 数据可视化 热力图 切片聚合 战略分析 诊断型分析 响应型分析 商业报表 竞品分析,趋势分析 智能引擎,预测模型 预测型分析 行动建议 * 大数据分析工具 MOLAP DRUID Elastic Search kylin Pinot ROLAP Impala Hive Spark SQL MySQL 开源方案 商业方案 * 如何选择数据分析工具 * 小米数据统计分析平台-架构 LVS/NGIX Analytics Server Scribe Log HDFS Kafka Storm MapReduce Spark HBase MySQL ES Query Server Redis DRUID FE-WEB 运营 洞察 * 一些分析工具的技术和应用 Pinot * 为什么青睐HBase? 天?为了?数据 改变Schema的时候平滑 扩容?便 成本考虑 Facebook等公司做出了很好的? 范 ?些重要的Feature CheckAndPut Increment原?性 RowKey TTL 单RegionServer内的强?致 ?I/O 我们有三位HBase Committer! * Hbase 在小米的改进 * HBase 在小米的改进 * HBase 在小米 * 如何从MySQL 平滑迁移到HBASE? 1. 双写HBase和mysql 2. 迁移历史数据(使?用? 老的 时间戳) 3. 双读HBase和mysql,验 证 数据?一致性 4. 灰度返回HBase结果 APP MySQL HBase * 几种开源MOLAP分析工具的比较 DRUID Pinot kylin 使用场景 实时处理分析 实时处理分析 OLAP分析引擎 开发语言 JAVA JAVA JAVA 接口协议 JSON JSON OLAP/JDBC 发布时间 2011 2015 2015 Sponsor MetaMarkets /Yahoo LinkedIn eBay 技术 实时聚合 实时聚合 预处理,Cache * DRUID 特点 来自METAMarkets,应用在Yahoo,OneAPM, 小米,阿里,Baidu 为分析而设计 为OLAP而生,它支持各种filter、aggregator和查询类型 交互式查询 低延迟数据,内部查询为毫秒级, 高可用性 集群设计,去中性化规模的扩大和缩小不会造成数据丢失。 可伸缩 现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级 别。 * DRUID Architecture :http://druid.io *Pinot , PowerDrill , Dremel * DRUID使用场景:广告实时统计分析架构图 (非计费部分) Front Door 点击/展现 Kafka HDFS Scribe DRUID Data Replay Data Viewer * 什么是Pinot 分布式的实时OLAP数据分析平台 用于LinkedIn内部,50个场景,250*3 节点 “谁看了我的Profile” “广告创建,跟踪” “内部数据分析BI等” 功能 SQL -Like查询,不支持JOIN 支持多种数据源Kafka, Hadoop 自动数据过期等 不支持UDF(开发中) * Pinot Components Architecture * happy happy happy happy happy happy happy happy happy happy happy happy happy happy ha
显示全部