python31高级[unicode和bytes]
时间:2011-03-28 来源:iTech
一 Python3 中字符串的类型
bytearray([source[, encoding[, errors]]])
Return a new array of bytes. The bytearray type is a mutable sequence of integers in the range 0 <= x < 256.
Return a new “bytes” object, which is an immutable sequence of integers in the range 0 <= x < 256. bytes is an immutable version of bytearray.
Return a string version of an object. str默认为unicode的字符串。
貌似也没有了2.x中的basestring类型了。
二 实例
# -*- coding: gbk -*-
def TestisStrOrUnicdeOrString():
bs = b'Hello'
ustr = 'abc'
print (isinstance(bs, str)) #False
print (isinstance(bs,bytes)) #True
print (isinstance(ustr,str)) #True
print (isinstance(ustr, bytes)) #False
print (isinstance(bs,(bytes,str))) #True
def TestChinese():
us = '中国'
bs = 'AAA'
bs2 = bytes('中国','gbk')
print (us + ':' + str(type(us))) #中国:<class 'str'>
print (bs) #AAA
print (bs2) # b'\xd6\xd0\xb9\xfa'
print (':' + str(type(bs2))) #:<class 'bytes'>
print (bs2.decode('gbk')) #中国
# TypeError: Can't convert 'bytes' object to str implicitly
#newstr = us + bs2
print ('us == bs2' + ':' + str(us == bs2)) #us == bs2:False
s3 = 'AAA中国'
print (s3) # AAA中国
s4 = bytes('AAA中国','gbk')
print (s4) # b'AAA\xd6\xd0\xb9\xfa'
def TestPrint():
print ('AAA' + '中国') # AAA中国
#print (b'AAA' + b'中国') # # SyntaxError: bytes can only contain ASCII literal characters.
#print ('AAA' + bytes('中国','gbk')) # TypeError: Can't convert 'bytes' object to str implicitly
def TestCodecs():
import codecs
look = codecs.lookup("gbk")
a = bytes("北京",'gbk')
print (len(a), a, type(a)) #4 b'\xb1\xb1\xbe\xa9' <class 'bytes'>
b = look.decode(a)
print (b[1], b[0], type(b[0])) #4 北京 <class 'str'>
if __name__ == '__main__':
TestisStrOrUnicdeOrString()
TestChinese()
TestPrint()
TestCodecs()
三 总结
1) Python 3会假定我们的源码 — 即.py文件 — 使用的是UTF-8编码方式。Python 2里,.py文件默认的编码方式为ASCII。可以使用# -*- coding: windows-1252 -*-方式来改变文件的编码。如果py文件中包含中文的字符串,则需要制定为# -*- coding: gbk -*-,貌似默认的utf8不够哦。
2) python3中默认的str为unicode的,可以使用str.encode来转为bytes类型。
3) python3的print函数只支持unicode的str,貌似没有对bytes的解码功能,所以对对不能解码的bytes不能正确输出。
4) str和bytes不能连接和比较。
5) codecs任然可以用来str和bytes间的转化。
6) 定义非ascii码的bytes时,必须使用如 bytes('中国','gbk') 来转码。
python 2.6 的字符及编码转化见 :http://www.cnblogs.com/itech/archive/2011/03/27/1996883.html
完!