文档详情

哈夫曼压缩解压-数据结构设计报告.doc

发布:2017-09-17约1.48万字共21页下载文档
文本预览下载声明
《数据结构》 课程设计报告 设计题目:哈夫曼编码压缩解压缩 学生姓名: 专 业:计算机科学与技术 班 级: 学 号: 指导老师: 完成日期: 合肥工业大学计算机与信息学院 问题分析和任务定义 1.1设计任务 采用哈夫曼编码思想实现文件的压缩和恢复功能,并提供压缩前后的占用空间之比。 (1)描述压缩基本符号的选择方法。 (2)运行时的压缩原文件的规模应不小于5K。 (3)提供恢复文件与原文件的相同性对比功能。 本课题是利用哈夫曼编码思想,设计对一个文本文件(.txt)中的字符进行哈夫曼编码,生成编码压缩文件,并且还可将一个压缩后的文件进行解码还原为原始文本文件(.txt)。 在了解哈夫曼压缩解压缩原理之前,首先让我们来认识哈夫曼树。哈夫曼树又称最优二叉树,是带权路径长度最小的二叉树。 在文本文件中多采用二进制编码。为了使文件尽可能的缩短,可以对文件中每个字符出现的次数进行统计。设法让出现次数多的字符二进制码短些,而让那些很少出现的字符二进制码长一些。若对字符集进行不等长编码,则要求字符集中任一字符的编码都不是其它字符编码的前缀。为了确保哈夫曼编码的唯一性,我们可以对它的左右子树的大小给予比较限定,如:左子树的权值小于右子树的权值。哈夫曼树中的左右分支各代表‘0’和‘1’,则从根节点到叶子节点所经历的路径分支的‘0’和‘1’组成的字符串,为该节点对应字符的哈夫曼编码。 统计字符中每个字符在文件中出现的平均概率(概率越大,要求编码越短)。利用哈夫曼树的特点:权越大的叶子离根越近,将每个字符的概率值作为权值,构造哈夫曼树。则概率越大的节点,路径越短。哈夫曼译码是从二进制序列的头部开始,顺序匹配成共的部分替换成相应的字符,直至二进制转换为字符序列。 哈夫曼用于文件解压缩的基础是在压缩二进制代码的同时还必须存储相应的编码,这样就可以根据存储的哈夫曼编码对压缩代码进行压缩。总之,该课题的任务应该是首先要打开要压缩的文本文件并读出其字符出现的频率,以其为权值构建哈夫曼树。其次要找到构建压缩功能的方法,在构建哈夫曼树的基础上进行编码,改变字符原先的存储结构,以达到压缩文件的目的,以外还有存储相应的哈夫曼编码,为解压缩做准备。 1.3测试用数据 本实验的数据是通过读入一个名为huffman.txt的文本文档,文档中内容为字符型数据。 概要设计和数据结构的选择 以下是在任务分析对题意的理解做出的概要设计和对数据结构的选择: 数据结构定义 //huffman树的结点结构体 typedef struct HTnode { long weight; //记录结点的权值 int parent; //记录结点的双亲结点位置 int lchild; /结点的左孩子 int rchild; //结点的右孩子 int *code; //记录该结点的huffman编码 int codelen; //记录该结点huffman编码的长度 //初始化结点,令其权值为无穷大,无双亲及左右孩子 HTnode() { weight = MAX; parent = -1; lchild = -1; rchild = -1; codelen = 0; } }HTnode; 定义huffman数类及其函数 class huffmanTree { public: huffmanTree(); virtual ~huffmanTree(); bool count(char *input); //压缩时统计各字符出现的次数,将其写入对应结点的权值 void create(); //压缩时根据各结点的权值构造huffman树 void code(); //压缩时利用huffman树计算每个字符的huffman编码 void printcode(); //列出每个字符的huffman编码 void addbit(int bit); //压缩时对一个未满8个bit的byte中加入一个bit void resetbyte(); //将byte清空 bool compress(char *input, char *output);//压缩函数,成功返回 true 失败 false bool decompress(char *input, char *output); //恢复函数,成功返回 true 失败false void compare(char *input, char *output); //将原文件与压缩后的文件比较 void compare2(char *input, char *output); //将原文件与恢复后的文件比较 private: int
显示全部
相似文档