文档详情

大数据体系结构问题与挑战.PDF

发布:2017-04-25约字共4页下载文档
文本预览下载声明
大数据体系结构问题与挑战 -大数据体系结构研讨会 1 2 1 1 杨晨 ,郭崎,王春凯,孟小峰 1 (中国人民大学信息学院) 2 (中国科学院计算技术研究所) 2015 年12 月2 日由中科院计算所和中国人民大学联合主办的大数据体系结构研讨会在 中国人民大学逸夫会议中心召开。中科院计算所徐志伟研究员和中国人民大学孟小峰教授担 任大会主席。研讨会共邀请到俄亥俄州立大学张晓东教授、上海交通大学戚正伟教授、国防 科学技术大学窦勇教授、中科院计算所陈云霁研究员、加州大学圣芭芭拉分校谢源教授、清 华大学舒继武教授、华中科技大学冯丹教授、北京工业大学丁志明教授、南洋理工大学何丙 胜教授、卡内基•梅隆大学郭崎博士后等10 位专家参加,并就大数据计算系统架构、大数据 微体系结构、大数据存储系统和大数据系统软件等4 个议题展开讨论。 关键词:大数据体系结构、大数据管理、存储、计算 1 引言 互联网的广泛应用、业务流的日趋复杂和数据获取方式的增多催生了大数据时代的到来, 随之以“MapReduce”为核心思想的各类大数据系统蓬勃发展。然而,大数据计算存在的单节 点存储容量小、计算实时性高、通信频繁等问题,往往会阻碍计算性能的充分发挥,导致当 前大数据系统的效率下降。 如图1 所示,目前大数据体系结构的相关研究以存储和计算两方面展开。存储问题主要 表现为,数据密集型应用中,系统节点内部因传统体系结构限制,数据访问和移动代价问题 更为突出。计算问题主要表现为,需求的复杂和多样性,使以CPU 为核心的通用计算模型 难以完全应对,致使计算性能低、能耗高。针对大数据特点的新型计算机体系结构也由此被 广泛关注,且逐渐成为研究热点,但其上的软件系统研发、专门人才培养和系统生态构建等 问题也不容忽视。因此,上述问题的最新研究动态和未来的研究方向,成为了本次“大数据 体系结构研讨会” 的重点讨论话题。 大数据体系结构 存储问题 计算问题 硬件角度 软件角度 专用处理单元通用处理单元 图1 大数据体系结构问题及相关研究方向 2.大数据存储问题及相关研究 传统体系结构下,以CPU 为计算中心,数据最终被移入CPU 并接受处理,存储以分层 方式缓解存储墙问题,但数据访问的平均时间依然是计算的200 倍。大数据背景下,数据密 - 38 - 集型应用陡增,数据更为频繁的换进换出,其访问代价问题更加突出。因此,传统体系结构 已不能适应大数据的计算特点,针对该问题主要有以下两方面的研究工作。 (1)从硬件角度出发,使用新硬件或新技术加快数据访问。 针对主存瓶颈,NVM 较传统硬件访问延迟更低,3D 堆叠技术可有效提高内存带宽。 NVM 延迟接近于DRAM,且具有非易失性和高容量。NVM 代替(或部分代替)DRAM 作 为主存使用时,由于非易失性,数据可直接从主存读取,使内存计算成为可能,元数据及热 数据直接存储在NVM 上或利用其字节寻址特点,构建主存文件系统,均是加快数据访问的 研究热点。3D 堆叠技术使单个封装体内堆叠多个芯片,从而芯片可直接互连,互连线长度 显著缩短,因此内存体积更小、容量更大且速度更快。利用eDRAM 或3D 堆叠内存特性可 将更多的内存移至 CPU/GPU 片内,或移动更多计算操作进入内存,如 processing-in-memory(PIM)和near-data-computing(NDC)思想都是加快数据访问很好的尝试。 针对外存瓶颈,SSD 作为可量产的新型外部存储,较HDD 延迟更低;HDFS 等分布式 文件系统较传统文件系统可靠性更高、容量更大。针对 SSD 的低延迟和读写不一致性,专 门优化过的日志型文件系统能进一步挖掘SSD 潜力,从而提高数据访问效率;针对其特有 的随机读写特
显示全部
相似文档