当前位置: 首页 > 图文教程 > 脚本技术 > Python > python 中文字符串的处理实现代码

Python
Python完全新手教程
Python学习资料
Python入门
一篇不错的Python入门教程
王纯业的Python学习笔记 下载
python的几种开发工具介绍
python编程-将Python程序转化为可执行程序[整理]
在漏洞利用Python代码真的很爽
推荐下python/ironpython:从入门到精通
python 图片验证码代码
wxpython 学习笔记 第一天
python 正则表达式 概述及常用字符
python 生成目录树及显示文件大小的代码
PHP webshell检查工具 python实现代码
phpsir 开发 一个检测百度关键字网站排名的python 程序
Cython 三分钟入门教程
Python中的Function定义方法
Python 流程控制实例代码
Python 字符串定义
Python 第一步 hello world

Python 中的 python 中文字符串的处理实现代码


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-10   浏览: 266 ::
收藏到网摘: n/a

python中直接将一个中文字符串赋值给一个变量使用的是utf-8格式的编码,以下为证. >>> teststr = '我的eclipse不能正确的解码gbk码!'
>>> teststr
'\xe6\x88\x91\xe7\x9a\x84eclipse\xe4\xb8\x8d\xe8\x83\xbd\xe6\xad\xa3\xe7\xa1\xae\xe7\x9a\x84\xe8\xa7\xa3\xe7\xa0\x81gbk\xe7\xa0\x81\xef\xbc\x81'
>>> tests2 = u'我的eclipse不能正确的解码gbk码!'
>>> test3 = tests2.encode('gb2312')
>>> test3
'\xce\xd2\xb5\xc4eclipse\xb2\xbb\xc4\xdc\xd5\xfd\xc8\xb7\xb5\xc4\xbd\xe2\xc2\xebgbk\xc2\xeb\xa3\xa1'
>>> test3
'\xce\xd2\xb5\xc4eclipse\xb2\xbb\xc4\xdc\xd5\xfd\xc8\xb7\xb5\xc4\xbd\xe2\xc2\xebgbk\xc2\xeb\xa3\xa1'
>>> teststr
'\xe6\x88\x91\xe7\x9a\x84eclipse\xe4\xb8\x8d\xe8\x83\xbd\xe6\xad\xa3\xe7\xa1\xae\xe7\x9a\x84\xe8\xa7\xa3\xe7\xa0\x81gbk\xe7\xa0\x81\xef\xbc\x81'
>>> test3.decode('gb2312').encode('utf-8')
'\xe6\x88\x91\xe7\x9a\x84eclipse\xe4\xb8\x8d\xe8\x83\xbd\xe6\xad\xa3\xe7\xa1\xae\xe7\x9a\x84\xe8\xa7\xa3\xe7\xa0\x81gbk\xe7\xa0\x81\xef\xbc\x81'
>>> test3.decode('gb2312').encode('utf-8') == teststr
True
如上所见,test3变量(gb2312编码)经过解码(变成unicode字符串)后再使用utf-8编码,就成了与teststr值相同的串了.
通过上面的例子我们也发现,unicode字符串是gb2312字符串(windows就使用这种格式)与utf-8字符串(python本身使用)之间的一座桥梁.