Mysql字符集问题
时间:2009-03-26 来源:kinganeng
-- 查看字符集
SHOW VARIABLES LIKE 'character_set_%';
SHOW VARIABLES LIKE 'collation_%';
在my.cf文件的[mysqld]段设置:
default-character-set=utf8 init_connect='SET NAMES gbk'
这条语句的作用是把character_set_client,character_set_connection,character_set_results
设定为utf8,包括对应的排列方式的编码。
Character_set_server是系统编码,这个是不用改的。
-- 修改库的字符集
alter database xms_national character set utf8;
-- 设置表的字符集
ALTER TABLE region
DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
-- 设置所有列的字符集
ALTER table region CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci;
GBK与GB2312的字符集区别 在中国,大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的。
SHOW VARIABLES LIKE 'character_set_%';
SHOW VARIABLES LIKE 'collation_%';
在my.cf文件的[mysqld]段设置:
default-character-set=utf8 init_connect='SET NAMES gbk'
这条语句的作用是把character_set_client,character_set_connection,character_set_results
设定为utf8,包括对应的排列方式的编码。
Character_set_server是系统编码,这个是不用改的。
-- 修改库的字符集
alter database xms_national character set utf8;
-- 设置表的字符集
ALTER TABLE region
DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
-- 设置所有列的字符集
ALTER table region CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci;
GBK与GB2312的字符集区别 在中国,大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的。
- 最早制定的汉字编码是GB2312,包括6763个汉字和682个其它符号
- 95年重新修订了编码,命名GBK1.0,共收录了21886个符号。
- 之后又推出了GBK18030编码,共收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,现在WINDOWS平台必需要支持GBK18030编码。
- 按照GBK18030、GBK、GB2312的顺序,3种编码是向下兼容,同一个汉字在三个编码方案中是相同的编码。
-
也许大家已经看惯了书上说的GBK是对GB2312的扩充,就是说,GB2312字符集中的所有字符都可以在GBK字符集中找到。(by gashero)可是最近在一次调试Python爬虫的过程中就发现了一些字符的不同。同时大家也应该注意一些网页的默认编码字符集了。
当时正在分析的一个网页的默认编码字符集是GB2312,其中含有一个符号"·",这个常作为项目符号。在使用GB2312进行解码时,得到的unicode字符是\u30fb,然后使用系统默认编码GBK进行打印时就提示了编码错误。即字符串"\xa1\xa4"无法使用GB2312解码为unicode字符后再编码为GBK编码显示。(by gashero)实际测试中只要不会交换编码,那么使用同一种编码进行编码和解码就不会出问题。
后来查找得知,字符\u30fb是一种特殊的unicode字符,是一种不允许显示的字符,所以在GBK编码中就没有它的位置(by gashero)。而字符串"\xa1\xa4"使用GBK解码时得到的是\u00b7。
至此得知,虽然网页的默认编码是GB2312,但是实际上使用的是GBK编码,也使用了一些在GB2312和GBK之间不同的编码字符。所以也就导致了这个错误。
建议以后编程序的时候,遇到默认编码为GB2312的大可以直接使用GBK进行解码为unicode字符串。
相关阅读 更多 +