信息技术(高职版)课件 4_字符的编码.pptx
知识点4:字符的编码项目一信息技术基础任务三信息的表示与存储
1.编码和解码
计算机中储存的信息都是用二进制数表示的,而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如a用什么表示,称为编码;反之,将存储在计算机中的二进制数解析显示出来,称为解码。在解码过程中,如果使用了错误的解码规则,会导致“a”解析成“b”或者乱码。
2.字符集(Charset)字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
3.ASCIIASCII(AmericanStandardCodeforInformationInterchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。字符集有共有128种常用字符,有数字0-9、大小写英文字母、通用符号和控制符号。ASCII字符用七位编码,允许加一位奇偶校验位(最高位)构成一个字节。请大家自行网上搜索ASCII表。大小规则:(1)数字0~9比字母要小。如5G;(2)数字0比数字9要小,并按0到9顺序递增。如49(3)字母A比字母Z要小,并按A到Z顺序递增。如AZ(4)同个字母的大写字母比小写字母要小。如Aa
4.GB2312-80《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布、1981年5月1日开始实施的一套国家标准,标准号是GB2312-80,简称“GB2312-80”,又称“国际码”。有了GB2312-80,不同系统之间的汉字信息就可以互相交换了。GB2312-80通行于中国大陆,新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312-80。GB2312-80中共收录6763个汉字(其中一级汉字3755个,二级汉字3008个)和非汉字图形符号682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年,我国又颁布了一个汉字编码标准《汉字编码扩展规范》(GBK)。
5.编码之间的关系说明:(1)汉字输入码是为将汉字输入计算机而编制的代码,也叫外码。(2)国标码GB2312-80:用于汉字信息处理系统之间或者通信系统之间直接进行信息交换的汉字代码,也称“交换码”。(3)汉字内码:在计算机内部对汉字进行存储、处理和传输的汉字代码。汉字内码=汉字的国标码+8080H,即将国际码的每个字节的最高位置变成1。(4)汉字字形码(点阵形)如采用24×24点阵,每个汉字的存储空间是24×24/8=72字节。