Php文档 Php问答行业资讯 Php论坛 Php手册 Php博客

游戏榜单

软件榜单

关闭导航

热搜榜

热门下载

热门标签

php爱好者> php文档>python 与淘宝taobao...

python 与淘宝taobao...

时间：2010-08-07 来源：xuhuaijie

看到这个题目，大概你是想不清楚为什么 Python 这个技术和淘宝这个电子商务网站能搭上关系的。呵呵，且听我说。
前阵子写了个python程序，抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单，不值得写呢。
我一开始也这样觉得，但是偏偏python对字符集的支持不够让我痛苦。
且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

在windows的命令行界面中，这样显示出来的结果是正常的，即没有出现乱码的问题。大家一定想，这样就没有问题了不是。其实不然，看下一段代码：

soup = BeautifulSoup(html)
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']

复制代码

经过这样一段处理，就不是中文了。是乱码。为什么呢？我还不清楚，要是有高手知道，请不吝赐教。
经过长时间地查资料，使用 chardet 查了这个问题，发现字符集是 gbk,于是使用如下代码:

self.soup = BeautifulSoup(html.decode('gbk','ignore'))
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']
title = title.decode('gbk').encode('utf-8')

复制代码

这样子虽然在 cmd 下显示仍然乱码，可是进数据库后，就可以正常了。但是问题是，经常出现 exception, 说无法解码。最后颇为戏剧性地是，我发现这个问题其实很好解决

title = unicode(title)

复制代码

这样就解决了所有问题。唉，绕了一圈，原来这样简单。希望对碰到乱码的朋友有所帮助！

转载自：米趣网

相关阅读更多 +

币安邀请新用户全攻略:从注册到奖励到账的完整步骤解析软件资讯 2026-01-23
币安App官网2026更新速览:新特性适配及官方安装包直达通道软件资讯 2026-01-23
币安app官网下载正版步骤:从访问官网到安装成功的详细教程软件资讯 2026-01-23
警惕虚假链接!OK易欧官网下载认准唯一官方地址及验证方法软件资讯 2026-01-23
OK易欧官网下载入口在哪?2026最新官方正版APP安全获取指南软件资讯 2026-01-23

排行榜更多 +

小镇消除故事最新版本

小镇消除故事最新版本

休闲益智下载

神将三国手游

神将三国手游

棋牌卡牌下载

瑞亚传说纷争手游

瑞亚传说纷争手游

策略塔防下载

4
战争团体
145.82MB · 90℃

1970-01-01

下载
5
军团冲突王国崛起中文版
130.48MB · 95℃

1970-01-01

下载
6
战争部队1917无冷却无限金币版
57.28MB · 99℃

1970-01-01

下载