当前位置: 首页 > 图文教程 > 脚本技术 > Python > Python转码问题的解决方法

Python
Python 调用DLL操作抄表机
python 输出一个两行字符的变量
用Python的urllib库提交WEB表单
Python 返回汉字的汉语拼音
python mysqldb连接数据库
python 判断自定义对象类型
Python字符串的encode与decode研究心得乱码问题解决方法
python 获取文件列表(或是目录例表)
python启动办公软件进程(word、excel、ppt、以及wps的et、wps、wpp)
python 获取et和excel的版本号
python ElementTree 基本读操作示例
python 判断一个进程是否存在
python thread 并发且顺序运行示例
合并Excel工作薄中成绩表的VBA代码,非常适合教育一线的朋友
Python 解析XML文件
asp Http_Referer,Server_Name和Http_Host
Python 自动安装 Rising 杀毒软件
用python实现的可以拷贝或剪切一个文件列表中的所有文件
Python 正则表达式操作指南
python ip正则式

Python转码问题的解决方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-11   浏览: 162 ::
收藏到网摘: n/a

在Python中,可以对String调用decode和encode方法来实现转码。 比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作
s.decode('gbk').encode('utf-8′)
可是,在实际开发中,我发现,这种办法经常会出现异常:
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
这 是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,这些 字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在转码的过程中出现了异常。
这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。
解决办法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
python文档
decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.