文档详情

列存储内存数据库的压缩算法的应用研究-计算机科学与技术;计算机软件与理论专业论文.docx

发布:2019-05-15约5.09万字共68页下载文档
文本预览下载声明
南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 匿匿 2010年5月 27日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 口限制(≤2年) 口秘密(≤10年) 口机密(≤20年) 保密期限 20 年 月 日至20 年 月 日 审批表编号 批准日期 20 年 月 日 限制★2年(最长2年,可少于2年) 秘密★lO年(最长5年,可少于5年) 机密★20年(最长10年,可少于lO年) 中文摘要中文摘要 中文摘要 中文摘要 近年来随着各个行业数据量的大幅度增长,如金融,电信行业等,使得存 储费用和管理费用也随之增长。面对信息量不断膨胀的问题,数据库系统采用 压缩数据的方法保存数据,同时为了提高压缩比和便于OLTA(在线事务分析) 统计分析的需求,也采用了列存储数据的方法。 在列存储压缩数据库的使用中,面临着如何提取源数据的问题,经过压缩 后的数据需要解压缩后才能提取数据,为了避免全体解压缩后再提取数据的弊 端,需对压缩算法进行选型,要求压缩算法能够在压缩态直接提取源数据,而 不必全体解压。但是这种在压缩态直接提取源数据的方法,有其自己的弊端, 就是在压缩态直接提取数据的时候,需要从头遍历压缩态数据,这样会浪费大 量的时间,尽管在C STORE中提出了分块压缩的思想,但是在本质上没有减 少磁盘的IO,本文以此为切入点,对于能够在压缩态提取数据的压缩算法加以 共性的优化。首先优化了现有的分块压缩的思想。原有的分块压缩技术之所以 没有成功的减少磁盘IO,是因为压缩后的数据块头部之间在磁盘上的间隔距离 过小,在数据库块间定位的时候,无法避免磁盘的连续读取,为了解决此问题, 本文给出了一个典型的解决办法,加大块的压缩粒度,从而增大了数据块的头 部之间在磁盘上的间隔距离,在块间寻址的时候,可以跳跃大量不必要的磁盘 块,从而减少了磁盘IO。其次,为了进一步提高压缩态数据的提取速度,本文 给出了“千存零取机制,目的是提高块内提取数据的速度。以1000个数据为 基准,每整千个数据的块内偏移记录在块的头部字段内,当提取数据的时候, 可以在头部立刻定位到附近的一个整千位的数据,然后再以此为始遍历数据, 这样大量的减少了块内提取数据的速度。 经过测试验证,优化后的压缩方法,能够大幅度提高数据提取的时间,理 论上能够节省(1-R/m)*100%的时间,其中4=R--m,R为压缩比,m为压 缩粒度,为了达到提取数据效率的最大化,应取使得R/m为最小值的m的值。 关键字:数据库列存储压缩压缩态访问 compression compression algorithm selection require compression algorithm cRn be directly extracted in the compressed state of the source data,without having to extract a11. But this state in the direct extraction of source data compression method has its own disadvantages,that is,to extract data directly in the compressed state when the data need to traverse the compressed state,this will waste a lot of time,although C——STORE proposed a sub-block compression idea,but essentially no reduction in disk 10,this article as a starting point for the squeezed state can extract common data compression algorithms to be optimized.First of all,optimization
显示全部
相似文档