基于AWS的机器学习平台架构.pptx
文本预览下载声明
基于AWS的机器学习平台架构
技术创新 变革未来
关于 OpenBayes
OpenBayes 采用机器学习技术,助力企业业务发展到自动化新阶段
卫星遥感
医疗影像
港口自动化
数据产业大规模采用 AI 正在成为新常态
成熟的工具,丰富的
学习资料
无需训练,开箱即用的 机器学习API服务
接近甚至超越
人类的模型水准
3.57%
3 : 0
2015 年微软残差网路在
imagenet 数据集中优于人类
5.1% 的错误率
2017 年 谷歌 AlphaGo 战 胜人类最强围棋选手
2018 年 OpenAI Five 在
5v5 对战游戏中战胜人类
准职业玩家
2 : 1
计算认知市场中的「错位问题」
通用服务不能覆盖市场需求
No Free Lunch 同一个模型在不同的数据和不同的场景存 在性能差异
机器学习系统比想象中复杂
通用服务不能覆盖市场需求
人脸识别
文本翻译
通用目标检测
港口集装箱调度
法律文书摘要
国土资源分类
No Free Lunch
模型的泛化能力有限,模型质量随数据变化而变化
同样的数据,由于使用场景的变化,模型需要重新训练
同样的问题,不同的性能要求需要完全不同的模型
机器学习系统比想象中复杂
训练数据
机器学习算法
推断结果
模型
训练数据
训练
部署
机器学习系统比想象中复杂
机器学 习算法
推断结果
模型
训练数据管理
训练平台搭建
监控
实验管理
特征抽取流水线
模型分析与评估
日志收集与检索
计算资源管理
训练
部署
我们的系统架构
我们的系统架构
Node
Node
Node
Node
模型服务
系统日志
数据集 模型库
本地数据缓存
计算资源
核心业务数据
负载均衡
我们的系统架构
EC2
EC2
EC2
EC2
系统日志
数据集 模型库
计算资源
核心业务数据
负载均衡
AWS ELB
AWS RDS
AWS S3
AWS EBS
EC2
AWS
Elasticsearch Service
AWS EBS 保障训练任务的延续性
Node
Node
Node
EBS
训练 任务
pod
pod
pod
pod
训练 任务
S3 管理数据集与训练模型
EBS
S3
EBS
Node
训练 任务
训练 任务
Node
训练 任务
EC2 不同的付费模式组合使用,显著降低成本
按需付费
Spot 付费模式
预留模式
EC2 不同的付费模式组合使用,显著降低成本
EC2 EC2 EC2 EC2
系统日志
数据集 模型库
计算资源
负载均衡
AWS ELB
AWS S3
AWS EBS
EC2
核心业务数据
AWS RDS
AWS
Elastic Search Service
Spot 实例 节省成本约 40%
预留实例
节省成本 50%
遥感卫星数据处理
对遥感影像分类,并对各个类型的土 地按照面积进行汇总,获取包含森林 资源,城市规模,耕地面积等重要国 土资源信息
图像分割问题
图像周期性更新,更新周期较长但每
次更新数据规模巨大(数十TB)
采用 P2 GPU 节点加速每次图像处 理速度,平均每张图片是原有处理速 度的 20 倍
港口自动化调度
大型港口一天内调拨的集装箱量成千 上万,每次调拨都是不小的成本,调 拨效率的高低是港口盈利与否的重要 因素,目前的港口调度系统仍然是基 于自然人以经验远程指挥调控
采用增强学习算法,需要构建独立的 模拟环境模拟港口调拨过程以训练港 口的自动化调度模型,其单个模拟环 境训练速度较慢
采用 AWS 所提供的 CloudFormation 在训练模型时临时扩增集群规模,多 个模拟环境并行训练,提升训练速度
谢 谢!
显示全部