几种常见字符编码详解.docx-资源下载

几种常见字符编码详解.docx

1、几种常见字符编码详解编程综合blog.minidx./2021/10/22/1570.htmlblog.minidx./2021/11/06/1607.htmlblog.minidx./2021/12/06/1689.htmlblog.minidx./2021/12/09/1700.html摘录1：GBK范围：1st byte | 2nd byte0810xfe | 04007e and 0800xfeBIG5范围：1st byte | 2nd byte0810xfe | 04007e and 0xa10xfe下面是来自libiconv的关于GBKcp936和BIG5cp950的两段代码，相

2、信还是相当有用的。摘录2：一预备知识1，字符：字符是抽象的最小文本单位。它没有固定的形状可能是一个字形，而且没有值。“A是一个字符，“德国、法国和许多其他欧洲国家通用货币的标志也是一个字符。“中“国这是两个汉字字符。字符仅仅代表一个符号，没有任何实际值的意义。2，字符集：字符集是字符的集合。例如，汉字字符是中国人最先创造的字符，在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系，字符组成字符集iso8859-1，GB2312/GBK，unicode。3，代码点：字符集中的每个字符都被分配到一个“代码点。每个代码点都有一个特定的唯一数值，称为标值。该标量值通常用十六进制表

3、示。4，代码单元：在每种编码形式中，代码点被映射到一个或多个代码单元。“代码单元是各个编码方式中的单个单元。代码单元的大小等效于特定编码方式的位数：UTF-8 ：UTF-8 中的代码单元由 8 位组成；在 UTF-8 中，因为代码单元较小的缘故，每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元；UTF-16 ：UTF-16 中的代码单元由 16 位组成；UTF-16 的代码单元大小是 8 位代码单元的两倍。所以，标量值小于 U+10000 的代码点被编码到单个代码单元中；UTF-32：UTF-32 中的代码单元由 32 位组成；UTF-32 中使用的 32 位

4、代码单元足够大，每个代码点都可编码为单个代码单元；GB18030：GB18030 中的代码单元由 8 位组成；在 GB18030 中，因为代码单元较小的缘故，每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。5，举例：“中国香蕉是个大笨蛋这是我定义的aka字符集；各字符对应代码点为：北 00000001京 00000010香 10000001蕉 10000010是 10000100个 10001000大 10010000笨 10100000蛋 11000000中 00000100国 00001000下面是我定义的 zixia 编码方案8位，可以看到它的编码中表示了a

5、ka字符集的所有字符对应的代码单元；北 10000001京 10000010香 00000001蕉 00000010是 00000100个 00001000大 00010000笨 00100000蛋 01000000中 10000100国 10001000所谓文本文件就是我们按一定编码方式将二进制数据表示为对应的文本如 00000001000000100000010000001000000100000010000001000000这样的文件。我用一个支持 zixia编码和aka字符集的记事本翻开，它就按照编码方案显示为 “香蕉是个大笨蛋如果我把这些字符按照GBK另存一个文件，那么那么肯定

6、不是这个，而是110011*1 1011110110110110 1100101011000111 1011100011110110 1011010011110011 1011000110111111 1011010110110000 110100001010二，字符集1，常用字符集分类ASCII及其扩展字符集作用：表语英语及西欧语言。位数：ASCII是用7位表示的，能表示128个字符；其扩展使用8位表示，表示256个字符。范围：ASCII从00到7F，扩展从00到FF。ISO-8859-1字符集作用：扩展ASCII，表示西欧、希腊语等。位数：8位，范围：从00到FF，兼容ASCII字符集。

7、GB2312字符集作用：国家简体中文字符集，兼容ASCII。位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。范围：高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。BIG5字符集作用：统一繁体字编码。位数：使用2个字节表示，表示13053个汉字。范围：高字节从A1到F9，低字节从40到7E，A1到FE。GBK字符集作用：它是GB2312的扩展，参加对繁体字的支持，兼容GB2312。位数：使用2个字节表示，可表示21886个字符。范围：高字节从81到FE，低字节从40到FE。GB18030字符集作用：它解决了中文、日

8、文、朝鲜语等的编码，兼容GBK。位数：它采用变字节表示(1 ASCII，2，4字节)。可表示27484个文字。范围：1字节从00到7F; 2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。UCS字符集作用：国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织，UCS-2和UNICODE兼容。位数：它有UCS-2和UCS-4两种格式，分别是2字节和4字节。范围：目前，UCS-4只是在UCS-2前面加了00000。UNICODE字符集作用：为世界650种语言进

9、展统一编码，兼容ISO-8859-1。位数：UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16和UTF-32。2，按所表示的文字分类语言字符集正式名称英语、西欧语ASCII，ISO-8859-1MBCS 多字节简体中文GB2312 MBCS 多字节繁体中文BIG5MBCS 多字节简繁中文GBKMBCS 多字节中文、日文及朝鲜语GB18030 MBCS 多字节各国语言UNICODE，UCSDBCS 宽字节三，编码UTF-8：采用变长字节 (1 ASCII, 2 希腊字母, 3 汉字, 4 平面符号) 表示，网络传输, 即使错了一个字节，不影响其他字节，而双字节只要一个错了，其他也

10、错了，具体如下：如果只有一个字节那么其最高二进制位为0；如果是多字节，其第一个字节从最高位开场，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8最多可用到6个字节。UTF-16：采用2字节，Unicode中不同局部的字符都同样基于现有的标准。这是为了便于转换。从 00000到0007F是ASCII字符，从00080到000FF是ISO-8859-1对ASCII的扩展。希腊字母表使用从00370到 003FF 的代码，斯拉夫语使用从00400到004FF的代码，美国使用从00530到0058F的代码，希伯来语使用从00590到005FF的代码。中国、日本和韩国

11、的象形文字总称为CJK占用了从03000到09FFF的代码；由于000在c语言及操作系统文件名等中有特殊意义，故很多情况下需要UTF-8编码保存文本，去掉这个000。举例如下：UTF-16: 00080 = 0000 0000 1000 0000UTF-8: 0xC280 = 1100 0010 1000 0000UTF-32：采用4字节。优缺点UTF-8、UTF-16和UTF-32都可以表示有效编码空间 (U+000000-U+10FFFF) 内的所有Unicode字符。使用UTF-8编码时ASCII字符只占1个字节，存储效率比拟高，适用于拉丁字符较多的场合以节省空间。对于大多数非拉丁字符

12、如中文和日文来说，UTF-16所需存储空间最小，每个字符只占2个字节。Windows NT内核是UnicodeUTF-16，采用UTF-16编码在调用系统API时无需转换，处理速度也比拟快。采用UTF-16和UTF-32会有Big Endian和Little Endian之分，而UTF-8那么没有字节顺序问题，所以UTF-8适合传输和通信。UTF-32采用4字节编码，一方面处理速度比拟快，但另一方面也浪费了大量空间，影响传输速度，因而很少使用。四，如何判断字符集1，字节序首先说一下字节序对编码的影响，字节序分为Big Endian字节序和Little Endian字节序。不同的处理器可能不一样

13、。所以，传输时需要告诉处理器当时的编码字节序。对于前者而言，高位字节存在低地址，低字节存于高地址；后者相反。例如，0X03AB,Big Endian字节序0000: 0 30001: ABLittle Endian字节序是0000: AB0001: 0 32，编码识别UNICODE，根据前几个字节可以判断UNICODE字符集的各种编码，叫做Byte Order Mask方法BOM：UTF-8: EFBBBF (符合UTF-8格式，请看上面。但没有含义在UCS即UNICODE中)UTF-16 Big Endian：FEFF (没有含义在UCS-2中)UTF-16 Little Endian：FF

14、FE (没有含义在UCS-2中)UTF-32 Big Endian：0000FEFF (没有含义在UCS-4中)UTF-32 Little Endian：FFFE0000 (没有含义在UCS-4中)GB2312：高字节和低字节的第1位都是1。BIG5，GBK&GB18030：高字节的第1位为1。操作系统有默认的编码，常为GBK，可以下载别的并升级。通过判断高字节的第1位从而知道是ASCII或者汉字编码。python与字符编码：ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等，它用一个字节表示，范围是 0-127Unicode分为UTF-8和UTF-16。UTF-8变长度的，最多

15、 6 个字节，小于 127 的字符用一个字节表示，与 ASCII 字符集的结果一样，ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进展处理。Python 从 2.2 开场支持 Unicode ，函数 decode( char_set )可以实现其它编码到 Unicode 的转换，函数 encode( char_set )实现 Unicode 到其它编码方式的转换。比方 (你好).decode( GB2312) 将得到 uu4f60u597d，即你和“好的 Unicode 码分别是 0x4f60 和 0x597d再用 (uu4f60u597d).encode(UTF-8)

16、将得到 xe4xbdxa0xe5xa5xbd，它是 “你好的UTF-8编码结果。python中使用 unicode的关键：unicode是一个类，函数unicode(str,utf8)从utf8编码当然也可以是别的编码的字符串str生成 unicode类的对象，而函数unc.encode(utf8)将unicode类的对象unc转换为编码为utf8编码当然也可以是别的编码的字符串。于是，编写unicode相关程序，需要做的事情是 * 获取数据字符串时，用unicode(str, utf8)生成unicode对象 * 在程序中仅使用unicode对象，对程序中出现的字符串常量都以u字符串的形式

17、书写 * 输出时，可将unicode对象转换为任意编码输出，使用str.encode(some_encoding) unicode(你好, utf8)uu4f60u597d x = _ type(x) type(你好) x.encode(utf8)xe4xbdxa0xe5xa5xbd x.encode(gbk)xc4xe3xbaxc3 x.encode(gb2312)xc4xe3xbaxc3 print x你好 print x.encode(utf8)你好 print x.encode(gbk)?python里面根本上要考虑三种编码格式1 源文件编码在文件头部使用coding声明。告诉pyth

18、on解释器该代码文件所使用的字符集。/usr/bin/python#coding: utf82 内部编码代码文件中的字符串，经过decode以后，被转换为统一的unicode格式的内部数据，类似于u*。unicode数据可以使用encode函数，再自由转换为其他格式的数据，相当于一个统一的平台。直接输入unicode数据 u你好uu4f60u597d将unicode数据转换为gb2312格式 u你好.encode(gb2312)xc4xe3xbaxc3将输入的gb2312格式的数据解码为unicode 你好.decode(gb2312)uu4f60u597d输入数据的格式取决于所用shell终

19、端的编码设置，本例中为zh_rootchenzheng python# echo $LANGzh_解码同时转换为utf8 你好.decode(gb2312).encode(utf8)xe4xbdxa0xe5xa5xbd3 外部输入的编码其实这个和在python交互shell中输入的字符串，所遇到的情况根本一样。但程序中常常用到从网络，文件读取的数据，故此单独列出，需要特别注意其编码格式是否于系统要求相符。下面是baidu中文本周金曲榜的，返回一个xml文件，编码格式为gb2312box.zhangmen.baidu./x?op=4&listid=1由于xml.etree.EelementTre

20、e.parse()不识别gb2312编码，在解析的时候，需要将其转换utf8格式才可以，可以使用下面的函数def read_page(url):读取gb2312编码的xml文件，转换为utf8格式import urllibudata = urllib.urlopen(url).read().decode(gb2312)u8data = udata.encode(utf8)return u8data.replace(gb2312, utf-8) #简单替换xml文件第一行的encoding属性值另外，可以使用一个小函数来判断数据的编码格式：def encoding(s):cl = utf8, g

21、b2312for a in cl:try:s.decode(a)return aexcept UnicodeEncodeError:passreturn unknown被广泛的“在中使用中文我也一下：1. 在中使用中文在中有两种默认的字符串：str和unicode。在中一定要注意区分“Unicode字符串和“unicode对象的区别。后面所有的“unicode字符串指的都是里的“unicode对象。事实上在中并没有“Unicode字符串这样的东西，只有“unicode对象。一个传统意义上的unicode字符串完全可以用str对象表示。只是这时候它仅仅是一个字节流，除非解码为unicode对象，

22、没有任何实际的意义。我们用“哈哈在多个平台上测试，其中“哈对应的不同编码是：1UNICODE(UTF8-16)， C854；2UTF-8， E59388；3 GBK， B9FE。1.1 Windows控制台下面是在windows控制台的运行结果：可以看出在控制台，中文字符的编码是GBK而不是UTF-16。将字符串sGBK编码使用decode进展解码后，可以得到同等的unicode对象。注意：可以在控制台打印ss并不代表它可以直接被序列化，比方：向文件直接输出ss会抛出同样的异常。在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。这一点对各个环境都一样。

23、总结：在中，“str对象就是一个字节数组，至于里面的内容是不是一个合法的字符串，以及这个字符串采用什么编码gbk,utf-8,unicode都不重要。这些内容需要用户自己记录和判断。这些的限制也同样适用于“unicode对象。要记住“unicode对象中的内容可绝对不一定就是合法的unicode字符串，我们很快就会看到这种情况。总结：在windows的控制台上，支持gbk编码的str对象和unicode编码的unicode对象。1.2 Windows IDLE在Shell上运行在windows下的IDLE中，运行效果和windows控制台不完全一致：可以看出，对于不使用“u作标识的字符串，ID

24、LE把其中的中文字符进展GBK编码。但是对于使用“u的unicode字符串，IDLE居然一样是用了GBK编码，不同的是，这时候每一个字符都是unicode对象字符！此时len(ss) = 4。这样产生了一个神奇的问题，现在的ss无法在IDLE中正常显示。而且我也没有方法把ss转换成正常的编码！比方采用下面的方法：这有可能是因为IDLE本地化做得不够好，对中文的支持有问题。建议在IDLE的SHELL中，不要使用u“中文这种方式，因为这样得到的并不是你想要的东西。这同时说明IDLE的Shell支持两种格式的中文字符串：GBK编码的“str对象，和UNICODE编码的unicode对象。1.3 在I

25、DLE上运行代码在IDLE的SHELL上运行文件，得到的又是不同的结果。文件的内容是：直接运行的结果是：毫无瑕疵，相当令人满意。我没有试过其它编码的文件是否能正常运行，但想来应该是不错的。同样的代码在windows的控制台试演过，也没有任何问题。1.4 Windows Eclipse在Eclipse中处理中文更加困难，因为在Eclipse中，编写代码和运行代码属于不同的窗口，而且他们可以有不同的默认编码。对于如下代码：代码:#!/usr/bin/# -*- coding:utf-8 -*-s =哈哈ss =u哈哈printrepr(s)printrepr(ss)prints.decode(ut

26、f-8).encode(gbk)printss.encode(gbk)prints.decode(utf-8)printss前四个print运行正常，最后两个print都会抛出异常：代码:xe5x93x88xe5x93x88uu54c8u54c8哈哈哈哈Traceback(most recent call last):FileE:WorkspaceEclipseTestPythonTesttest_encoding_2.py, line13,in prints.decode(utf-8)UnicodeEncodeError:asciicodec cant encode characters i

27、n position 0-1: ordinal not in range(128)也就是说，GBK编码的str对象可以正常打印，但是不能打印UNICODE编码的unicode对象。在源文件上点击“Run as“Run，然后在弹出对话框中选择“mon：可以看出Eclipse控制台的缺省编码方式是GBK；所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK，那么可以直接打印GBK编码的str对象，比方s。如果把源文件的编码设置成“UTF-8，把控制台的编码也设置成“UTF-8，按道理说打印的时候应该没有问题。但是实验说明，在打印UTF-8编码的str对象时，中文的最后一个字

28、符会显示成乱码，无法正常阅读。不过我已经很满足了，至少人家没有抛异常不是:)BTW: 使用的Eclipse版本是3.2.1。1.5 从文件读取中文在window下面用记事本编辑文件的时候，如果保存为UNICODE或UTF-8，分别会在文件的开头加上两个字节“xFFxFE和三个字节“xEFxBBxBF。在读取的时候就可能会遇到问题，但是不同的环境对这几个多于字符的处理也不一样。以windows下的控制台为例，用记事本保存三个不同版本的“哈哈。翻开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进展转换，变成一个unicode字符，字符的数据值为“xFFxFE。这个字符不能被打印。编码的时候需要跳过这个字符。翻开unicode格式的文件后，得到的字符串正确。这时候适用utf-16解码，能得到正确的unicdoe对象，可以直接使用。多余的那个填充字符在进展转换时会被过滤掉。翻开ansi格式的文件后，没有填充字符，可以直接使用。结论：读写使用生成的文件没有任何问题，但是在处理由notepad生成的文本文件时，如果该文件可能是非ansi编码，需要考虑如何处理填充字符。1.6 在数据库中使用中文刚刚接触，我用的数据库是mysql。在执行插入、查

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

几种常见 字符编码详解.docx