文档详情

字符编码(ucs2,+unicode,+utf8,+gb2312)汇.doc

发布:2017-04-21约7.73千字共页下载文档
文本预览下载声明
PAGE  PAGE 9 字符编码 版本修订日期修订内容修订人V0.12008-12-1初始化V1.02008-12-11第一版V1.12008-12-13First reportedV1.22008-12-14添加ASCII码表V1.32008-12-18添加code pageV1.42008-12-23添加BOM ASCII American Standard Code for Information Interchange,美国标准信息交换码。因为计算机只能表示和存储二进制的数据,所以需要对常用的52个字母,阿拉伯数字等字符进行编码,为了便于信息交换,需要一个统一的标准,于是American National Standard Institute(ANSI)制定了这个ASCII码,并于1967年成为美国国家标准,后被ISO(International Standardization Organization)国际标准化组织定为国际标准ISO646。 ASCII属于单字节编码,即使用一个字节(8 bytes)进行编码,因此最多只能表示256个字符。基础的ASCII使用7bits编码,最高位位为0,或者用于奇偶校验。ASCII编码适用于所有的拉丁字母。 0x00 – 0x1F:为控制字符 ASCII编码可以满足美国的拉丁字母需求,但是不能满足其他语种的需求,例如中日韩的象形文字,所以导致下面编码的出现。 具体定义如下: 十六进制字符意义十六进制字符意义0x00NULL空字符0x100x01SOHStart of head0x110x02STXStart of text0x120x03ETXEnd of text0x130x04EOTEnd of Transmission0x140x05ENQEnquiry0x150x06ACKAcknowledge0x160x07BELL铃声0x170x08BSBackspace0x180x09TABHorizontal tab0x190x0ALFLine Feed0x1A0x0BVTVertical tab0x1B0x0C0x1C0x0DCRCarriage return0x1D0x0ESOShift out0x1E0x0FSIShift in0x1F UCS 国际标准ISO 10646定义了通用字符集 (Universal Character Set, UCS)。 UCS是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的,就是说,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。 UCS 包含了用于表达所有已知语言的字符,不仅包括拉丁语,希腊语,斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述,还包括中文,日文和韩文这样的象形文字,以及平假名,片假名,孟加拉语,旁遮普语,果鲁穆奇字符(Gurmukhi),泰米尔语,印.埃纳德语(Kannada),Malayalam,泰国语,老挝语,汉语拼音(Bopomofo),Hangul,Devangari,Gujarati,Oriya, Telugu 以及其他数也数不清的语。对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入。这些语言包括Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符。 ISO 10646定义了一个 31 位的字符集。然而, 在这巨大的编码空间中, 迄今为止,只分配了前 65534 个码位 (0x0000 到 0xFFFD)。这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)。将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们。按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10F
显示全部
相似文档