云存储现状及其关键技术.ppt
文本预览下载声明
云服务接口技术 Folder Apps Storage Cloud EBS EC2 Storage S3 虚拟文件管理系统Corsair 实现文件数据的存储和共享,提供本地资源和网络资源的统一文件管理视图 为全部用户提供 共享存储服务 为社区用户提供 共享存储服务 为个人用户提供 共享存储服务 Corsair系统架构 Corsair的特性 快速共享 简单的申请操作和审批就可以拥有100 GB的社区空间 移动U盘 简单的申请操作就可以拥有2GB的个人空间 “硬盘扩容” 每个用户都可以拥有40TB的网络共享资源 用户响应速度和数据传输速度快(清华校内5MBps) 简单易用 开源 Corsair的传输性能 Corsair客户端下载情况 Corsair社区使用情况 Corsair客户端下载情况 Corsair在清华校内的实际部署及使用情况 部署情况:70TBytes的总存储空间,三个数据中心 使用情况:2008年12月1日正式发布至2009年10月8日止 下载次数 41,468 注册用户 9,369 注册社区 236 数据总量 52TB 日流量 1.3TB 频率(人次/日) 3,012 云存储示范应用 Mobile平台:Android+Gphone2 四个应用: 即拍即传(图片文件) 流媒体点播(视频文件) 超级电话本(vcard文件) 手机版Corsair 虚拟计算环境服务Corona 虚拟计算环境服务Corona 数据中心 数据中心 数据中心 数据中心 分布式文件存储服务 Carrier 分布式计算服务 Horde 虚拟计算环境服务 Corona GUI API Shell Web 资源层 中间件层 应用层 网络定制 主机定制 集群定制 软件定制 Corona架构 浏览器前端 用户层 访问层 核心后台服务 控制层 资源层 虚拟机调度服务 虚拟机调度服务 虚拟机调度服务 物理机调度服务 物理机调度服务 物理机调度服务 虚拟机调度服务 虚拟机调度服务 软件中心 Corona模块功能 浏览器前端: 对于管理员,提供对系统进行管理、监控的页面; 对于普通用户,提供虚拟集群的管理操作。 核心后台服务: 负责将用户/管理员的命令提交给对应的物理机,由物理机管理器执行; 负责虚拟机镜像、集群软件的管理。 物理机调度服务: 监视物理机器的使用状态,可以创建、修改、删除虚拟机实例,能对虚拟机进行控制。 虚拟机调度器: 监视虚拟机器的使用状态,并且提供自动部署集群软件的功能。 数据中心: 提供虚拟机镜像文件和应用软件。 Thanks!QA DFS – 文件访问语义 Stateless Service-无状态服务 每一个发起的请求都是自包含的,避免服务器记录状态信息。 请求消息包大,请求处理时间长。 在并发访问时,无法支持锁操作。 Stateful Service-有状态服务 服务器记录请求的会话信息以提高性能,包括元信息、TCP连接、历史请求等等 E.g., 预读取数据、文件Handle、文件锁 需要更多的服务器开销 DFS-副本 副本 - 将同一文件在不同的机器上放置多份实现数据冗余 保证可靠性 保证可用性 实现负载均衡 副本位置对用户透明 同样面临一致性问题,系统可以选择性使用: 强一致性 弱一致性 DFS- Seek Problem 内存文件系统随机访问 分布式文件系统HDFS随机访问 机械硬盘的物理构造决定了seek problem无法解决 The Google File SystemSOSP 2003 GFS的需求分析 组件失效是常态 文件规模一般都在几个G以上 Write once read many负载模型 文件写入后,基本不需要重写操作 文件被大量地连续读操作,随机读很少发生 允许大量客户端并行追加写同一个文件,追加写操作必须是原子操作 对海量数据处理来说,带宽是稀缺资源 接口(API) 提供文件系统接口 非标准的POSIX API 仅仅提供几种最基本的操作–create, delete, open, close, read, write 利用写时拷贝( copy-on-write)技术实现快照功能 GFS体系结构 文件被切割成固定大小的块(Chunk) 一个主Master,多个Shadow Master 多个chunkserver 多client Master设计特点 主master 将所有元数据保存在内存中,实现快速访问 同时提供chunk令牌管理、孤立块垃圾回收、块迁移、副本管理功能 定期与chunkserver发送心跳消息,收集chunkserver状态 任何对元数据的写操作都会保存到日志中 元数据在一段时间内会缓存在clients中 Shadow masters Master的状态(check
显示全部