文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>python 与 淘宝taobao...

python 与 淘宝taobao...

时间:2010-08-07  来源:xuhuaijie

看到这个题目,大概你是想不清楚为什么 Python 这个技术 和 淘宝这个电子商务网站 能搭上关系的。呵呵,且听我说。
    前阵子写了个python程序,抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单,不值得写呢。
    我一开始也这样觉得,但是偏偏python对字符集的支持不够让我痛苦。
    且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

   在windows的命令行界面中,这样显示出来的结果是正常的,即没有出现乱码的问题。大家一定想,这样就没有问题了不是。其实不然,看下一段代码:

  1. soup = BeautifulSoup(html)
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
复制代码

  经过这样一段处理,就不是中文了。是乱码。为什么呢?我还不清楚,要是有高手知道,请不吝赐教。
   经过长时间地查资料,使用 chardet 查了这个问题 ,发现字符集是 gbk,于是使用如下代码:

  1. self.soup = BeautifulSoup(html.decode('gbk','ignore'))
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
  4. title = title.decode('gbk').encode('utf-8')
复制代码

  这样子虽然在 cmd 下显示仍然乱码,可是进数据库后,就可以正常了。但是问题是,经常出现 exception, 说无法解码。最后颇为戏剧性地是,我发现这个问题其实很好解决

  1. title = unicode(title)
复制代码

  这样就解决了所有问题。唉,绕了一圈,原来这样简单。  希望对碰到乱码的朋友有所帮助!

 转载自: 米趣网

相关阅读 更多 +
排行榜 更多 +
找茬脑洞的世界安卓版

找茬脑洞的世界安卓版

休闲益智 下载
滑板英雄跑酷2手游

滑板英雄跑酷2手游

休闲益智 下载
披萨对对看下载

披萨对对看下载

休闲益智 下载