python 与 淘宝taobao...
时间:2010-08-07 来源:xuhuaijie
看到这个题目,大概你是想不清楚为什么 Python 这个技术 和 淘宝这个电子商务网站 能搭上关系的。呵呵,且听我说。
前阵子写了个python程序,抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单,不值得写呢。
我一开始也这样觉得,但是偏偏python对字符集的支持不够让我痛苦。
且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html
在windows的命令行界面中,这样显示出来的结果是正常的,即没有出现乱码的问题。大家一定想,这样就没有问题了不是。其实不然,看下一段代码:
- soup = BeautifulSoup(html)
- a = soup.find('div',{'id':'J_Navgation'})
- title = a['_title']
经过这样一段处理,就不是中文了。是乱码。为什么呢?我还不清楚,要是有高手知道,请不吝赐教。
经过长时间地查资料,使用 chardet 查了这个问题 ,发现字符集是 gbk,于是使用如下代码:
- self.soup = BeautifulSoup(html.decode('gbk','ignore'))
- a = soup.find('div',{'id':'J_Navgation'})
- title = a['_title']
- title = title.decode('gbk').encode('utf-8')
这样子虽然在 cmd 下显示仍然乱码,可是进数据库后,就可以正常了。但是问题是,经常出现 exception, 说无法解码。最后颇为戏剧性地是,我发现这个问题其实很好解决
- title = unicode(title)
这样就解决了所有问题。唉,绕了一圈,原来这样简单。 希望对碰到乱码的朋友有所帮助!
转载自: 米趣网
相关阅读 更多 +