文本与文本处理.ppt
GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。小结:几种汉字编码的对比标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同UTF-8采用单字节可变长编码UTF-16采用双字节可变长编码兼容性编码不兼容!编码保持向下兼容例:IE浏览网页时文字编码的选择5.1.2.文本准备
——文稿如何输入计算机文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人工输入(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符信息的输入人工输入优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入扫描仪OCR数字文本纸介质文本文本的映象(image)识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”01优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多)0203040506汉字的键盘输入汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光微软拼音输入简单易学,适合于非专业人员重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码五笔字形表形码郑码重码少、输入速度较快,适合于专业录入员、打字员使用缺乏统一的规范,编码规则不易掌握音形编码(或形音编码)采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音、形两种取码方法或规则,对普通用户比较困难5.1.4文本的编辑与排版创建新文档或打开老文档01文稿输入02编辑03排版04文档存盘、打印或发送05输入中西文字、符号和图表06进行增、删、改操作,保证文本的正确性07满足清晰、美观、便于使用等要求08复习:使用Word的操作流程01目的:确保文本内容正确无误02操作:对字、词、句和段落进行添加、删除、修改等操作03MSWord的功能:04在文本的任何位置都可以插入新的文字05从文本的任何位置都可以删除不需要的文字06将一段文字从一处移动到另一处07将一段文字从一处复制到另一处08在文本中自动