《Big data and deep learning- Baidu》.pdf
文本预览下载声明
⼤数据和深度学习介绍
张潼
2013 11 3
年 月 ⽇
⼤数据在互联⺴
数据是互联⺴公司的最⼤战略资源
创造⽤户体验
创造商业价值
核⼼技术
infrastructure
⼤数据管理 :
⼤数据分析: machine learning
system integration
应⽤ :
机器学习
• ⺫标:让计算机系统更智能
• ⼤数据+计算能⼒+复杂模型+⾼效算法è智能
⽅法 :
常⽤机器学习模型
观察量 è 决策的数学模型
主要讨论监督模型
搜索⼲告
机器学习问题
• 点击率(CTR)预估
•
问题规模 :
数据存储和管理 :上万台机器
数据量 :百亿到千亿级
特征数 :百亿到千亿级 (稀疏离散值特征)
• ⼤型线性Logistic Regression模型
• 计算技术 :分布式同步CPU并⾏计算
语⾳识别
è è è 你好
机器学习问题
• 把声学信号变成⽂字 :多分类问题
• 问题规模
万⼩时级语料
百亿级训练数据
上万类别 ;⼏百维特征 (稠密连续值特征)
• 深度神经⺴络模型
• 计算技术 :分布式异步GPU计算
机器学习流程
processing
input data
data
trained
training
model
learning algorithm
information
显示全部