利用linux下的iconv工具转换文件编码
时间:2007-09-17 来源:jiushen
今天才知道有iconv这个转换编码的工具,
所以想把它用来将EUC-JP的编码转成UTF-8,
因为doxygen的默认处理编码就是UTF-8
命令很简单
但一开始的时候总有一两个文件会报错,后来才知道可能是因为EUC-JP编码的内容太少,
就像GB2312是GBK的一个字集一样,只要找到EUC-JP的父集就可以了.
用iconv -l这个命令查看编码,试了一下EUCJP-OPEN转换的时候没有问题.
因为iconv命令一次只能转换一个文件,所以写成脚本来处理一个目录下的所有文件.
-----------------------------------------------------
#!/bin/bash
for f in $(find src -name "*.[ch]")
do
iconv -fEUCJP-OPEN -tUTF-8 $f>tmp
mv -f tmp $f
done
-----------------------------------------------------
搞定!
后来我又试了同样的文件转成SJIS编码,但还是会报错
iconv: illegal input sequence at position XXXX
后来我换成了
iconv -fEUCJP-OPEN -tSJIS-OPEN $f>tmp
就可以了.
看来源编码和目标编码一定要对应才能转换.
到现在我还不知道怎么选择对应的源编码和目标编码,只能靠感觉了.
所以想把它用来将EUC-JP的编码转成UTF-8,
因为doxygen的默认处理编码就是UTF-8
命令很简单
但一开始的时候总有一两个文件会报错,后来才知道可能是因为EUC-JP编码的内容太少,
就像GB2312是GBK的一个字集一样,只要找到EUC-JP的父集就可以了.
用iconv -l这个命令查看编码,试了一下EUCJP-OPEN转换的时候没有问题.
因为iconv命令一次只能转换一个文件,所以写成脚本来处理一个目录下的所有文件.
-----------------------------------------------------
#!/bin/bash
for f in $(find src -name "*.[ch]")
do
iconv -fEUCJP-OPEN -tUTF-8 $f>tmp
mv -f tmp $f
done
-----------------------------------------------------
搞定!
后来我又试了同样的文件转成SJIS编码,但还是会报错
iconv: illegal input sequence at position XXXX
后来我换成了
iconv -fEUCJP-OPEN -tSJIS-OPEN $f>tmp
就可以了.
看来源编码和目标编码一定要对应才能转换.
到现在我还不知道怎么选择对应的源编码和目标编码,只能靠感觉了.
相关阅读 更多 +