把搜狗语料库转换成UTF-8编码
时间:2010-08-03 来源:ispexceed
搜狗语料库默认编码都是GBK,而现在大部分Linux下都使用UTF-8编码,为了使用方便,先把其都转换一下编码。搜狗语料库(我这里用的是分类语料库)一般就两层目录:
顶层目录-分类目录
--------------------------- convert2Utf.sh ---------------------------------
#! /bin/bash
echo 'convert dir: ' $1
cd $1
ls | while read d; do
if [ -d $d ]; then
echo 'processing dir: ' $d ' ...'
cd $d ls | while read f; do
if [ -f $f ]; then #count=`expr $count + 1` echo 'convert file: ' $f iconv -f 'GBK' -t 'UTF-8' $f > $f.bak rm $f
mv $f.bak $f
fi
done cd ..
fi
done cd .. ---------------------------------------------------------------------------- 假设要转换当前目录下的Sample/目录下所有文件编码,直接运行: $./convert2Utf.sh ./Sample
if [ -d $d ]; then
echo 'processing dir: ' $d ' ...'
cd $d ls | while read f; do
if [ -f $f ]; then #count=`expr $count + 1` echo 'convert file: ' $f iconv -f 'GBK' -t 'UTF-8' $f > $f.bak rm $f
mv $f.bak $f
fi
done cd ..
fi
done cd .. ---------------------------------------------------------------------------- 假设要转换当前目录下的Sample/目录下所有文件编码,直接运行: $./convert2Utf.sh ./Sample
相关阅读 更多 +