文档详情

字符编码(ucs2,+unicode,+utf8,+gb2312)汇.doc

发布：2017-04-21约7.73千字共页下载文档

文本预览下载声明

PAGE PAGE 9 字符编码版本修订日期修订内容修订人V0.12008-12-1初始化V1.02008-12-11第一版V1.12008-12-13First reportedV1.22008-12-14添加ASCII码表V1.32008-12-18添加code pageV1.42008-12-23添加BOM ASCII American Standard Code for Information Interchange，美国标准信息交换码。因为计算机只能表示和存储二进制的数据，所以需要对常用的52个字母，阿拉伯数字等字符进行编码，为了便于信息交换，需要一个统一的标准，于是American National Standard Institute(ANSI)制定了这个ASCII码，并于1967年成为美国国家标准，后被ISO(International Standardization Organization)国际标准化组织定为国际标准ISO646。 ASCII属于单字节编码，即使用一个字节(8 bytes)进行编码，因此最多只能表示256个字符。基础的ASCII使用7bits编码，最高位位为0，或者用于奇偶校验。ASCII编码适用于所有的拉丁字母。 0x00 – 0x1F：为控制字符 ASCII编码可以满足美国的拉丁字母需求，但是不能满足其他语种的需求，例如中日韩的象形文字，所以导致下面编码的出现。具体定义如下：十六进制字符意义十六进制字符意义0x00NULL空字符0x100x01SOHStart of head0x110x02STXStart of text0x120x03ETXEnd of text0x130x04EOTEnd of Transmission0x140x05ENQEnquiry0x150x06ACKAcknowledge0x160x07BELL铃声0x170x08BSBackspace0x180x09TABHorizontal tab0x190x0ALFLine Feed0x1A0x0BVTVertical tab0x1B0x0C0x1C0x0DCRCarriage return0x1D0x0ESOShift out0x1E0x0FSIShift in0x1F UCS 国际标准ISO 10646定义了通用字符集 (Universal Character Set, UCS)。 UCS是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的，就是说，如果你将任何文本字符串翻译到UCS格式，然后再翻译回原编码，你不会丢失任何信息。 UCS 包含了用于表达所有已知语言的字符，不仅包括拉丁语，希腊语，斯拉夫语，希伯来语，阿拉伯语，亚美尼亚语和乔治亚语的描述，还包括中文，日文和韩文这样的象形文字，以及平假名，片假名，孟加拉语，旁遮普语，果鲁穆奇字符(Gurmukhi)，泰米尔语，印.埃纳德语(Kannada)，Malayalam，泰国语，老挝语，汉语拼音(Bopomofo)，Hangul，Devangari，Gujarati，Oriya, Telugu 以及其他数也数不清的语。对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入。这些语言包括Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS，MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符。 ISO 10646定义了一个 31 位的字符集。然而, 在这巨大的编码空间中, 迄今为止，只分配了前 65534 个码位 (0x0000 到 0xFFFD)。这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)。将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们。按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10F

显示全部

相似文档