用ultraedit实现编码转换

时间：2010-09-28 来源：cdlda

使用UltraEdit打开一个文本文件,可以不用关心其编码.(Notepad创建的文件的默认编码还是当前code page设定的编码,在简体中文环境下是 CP936, 即GBK)
设定UltraEdit当前的code page: 选择 "View -> Set Code Page", 然后选择你需要的code page. 这样后面执行的编码转换操作都是根据这里设定的code page进行的.
选择 "Edit -> Hex Function -> Hex Edit" 进入Hex编辑模式,这样你可以输入任意你需要的16进制数字,例如 4E02(Unicode) 或者 8140(GBK) ( "丂" )
转换: 根据你当前的文件的编码,选择 "File -> Conversions -> Unicode to ASCII" 或者 "File -> Conversions -> ASCII to Unicode", 这里的ASCII就是便是当前的 Code Page的编码。
首先需要适当的字体，例如如果你的Windows是简体中文，而你想要转换 Unicode -> Big5，那么你需要 Big5 字体。从http://www.unifont.org/可以下载到很多字体。
即使有了合适的字体也不一定能正确的显示。我将我的系统 code page 设定成 CP950(Big5), 重起后将 UltraEdit 的 Code Page 设定成 CP936，然后转换 GBK <-> Unicode，结果是能够显示 Unicode编码的简体中文字符，而不能显示 GBK 编码的中文字符。估计可能是和字体的处理有关，字体处理如果和当前的 code page 有关的话，这种设定的不一致就会造成无法正确显示。不过在系统code page 是 CP936的情况下在选择了正确的字体后能显示繁体Big5-HKSCS的字符。
从 http://www.microsoft.com/globaldev/reference/WinCP.mspx 可以看到不同 Code Page 的编码转换表。

在编码方面UltraEdit存在一写令人费解的问题

Unicode规范中推荐的标记字节顺序的方法是BOM(Byte Order Mark)

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

由于UTF-8 BOM并没有得到广泛的支持，所以造成了一定范围内的不兼容。下面列出几个主要工具对于BOM的处理。

1. notepad

notepad 在保存时，选择UTF-8 格式，会在文件头写上BOM header.读取文件时，会分析BOM和文件中是否有中文字符，进而做出正确的选择。

2. notepad++

可以设置各种格式，有无BOM都支持。

3. editplus

文件保存时，选择UTF-8 格式，不会在文件头写上 BOM header.读取可以识别UTF-8

4. ultraedit

ultraedit在advanced->configuration中可以选择文件保存时是否写上BOM header.或者另存为中选择。读取是，如果没有设置自动检测UTF-8或者部分无BOM文件会无法正常显示。