大数据的系统架构支持.pdf
文本预览下载声明
大数据的系统架构支持
@林仕鼎
2013/6/6
互联网服务的典型技术特点
超大规模
快速迭代
大数据规模
数据总量 • 100~1000PB
数据处理量 • 10~100PB/天
网页 • 千亿~万亿
索引 • 百亿~千亿
更新量 • 十亿~百亿/天
请求 • 十亿~百亿/天
日志 • 100TB~1PB/天
百度的数据规模
快速迭代是互联网产品的
主要创新手段
算法A
算法B
算法B
通过反馈来验证算法优劣
离线 在线
离线分析与在线实验相结合
搜索引擎的迭代
Online Learning
机器学习 A/B test 5% 5%
平台
Feature Training 策略
数据
网页
网页库
倒排表
Data Mining
互联网产品的迭代
A/B测试,持续优化
数据智能
快速开发 测试 部署运维
想法 原型 系统 产品
开发框架 应用引擎 应用引擎
验证 云测试
数据分析
互联网服务
enable
数据智能
架构
数据
技术
IT产业生产力的变化
迭代的本质是让人参与系统进化 ,
显示全部