《转,关于lua中的Unicode》
时间:2010-09-14 来源:ustb董
说说最近的几个事情
1.project采用lua,ui模块肯定是要彻底使用utf-16的,可是lua不支持,怎么办?最后好像是写了userdata,可以将multibytes转成utf-16保存在这个userdata中;接着为了保证字符串相同的userdata做key时是相同的,于是又添加了相应的避免重复功能;最后还为这个userdata在gc方面作了保证。
2.google:lua unicode,会发现一份通过table使用unicode的文章传得很广,实际上很不实用——需要工具,字符串不可读。
3.魔兽世界的lua脚本保存格式为utf-8,他的脚本中有一段是直接写文字信息的,所以这种保存格式比较有利。
4.看过战锤OL的插件,无意中看到类似 s = L"战锤OL" 的代码,心想难道lua支持unicode了?试了一下发现没有,于是觉得是不是他们的程序修改了lua的parser了。不久后的现在,脑袋终于开窍了。
其实不少实力派的前人早就强调过lua在unicode方面的解决方案了:lua string是一个raw buffer,可以存放任意数据。这个说法虽然正确却太抽象,因为他们都没有交代过具体的实现手法。
我们想要的所谓支持unicode的lua,到底是什么意思呢,最基础的大概就是能像c那样,用L作为字符串的前缀,并能将字符串赋值到变量上,就像上面的
s = L"战锤OL"
注意这句代码,你看出什么了吗?再明确一些
s = L("战锤OL")
感谢lua这种可忽略的写法,可以让lua写一些很漂亮的内容,除了string,还有table。
只要L是一个函数,接受multibytes字符串作为参数,转化为utf-16,然后将utf-16的字符串交给lua string,压栈。
这里要回头说说最上面所说的project,我不需要userdata了,因为他可以是一个lua string,相同的字符串做key的同质性?gc?通通都交给lua string吧,这里没你的事了。
最后,贴一下代码,收功
2{
3 size_t n = 0;
4 char* str = (char*)luaL_checklstring(L, -1, &n);
5 if(!str)
6 return 0;
7
8 iconv_t h = iconv_open("utf-16", "utf-8");
9 if(0==h)
10 return 0;
11
12 char wstr[4096];
13 size_t wn = 4096;
14 char** ppsrc = &str;
15 char* dst = wstr;
16 char** ppdst = &dst;
17 int ret = iconv(h, ppsrc, &n, ppdst, &wn);
18 if(ret==-1 || wn<0 || n>0)
19 {
20 iconv_close(h);
21 return 0;
22 }
23 iconv_close(h);
24
25 lua_pushlstring(L, (char*)wstr, (4096-wn));
26 return 1;
27}
28
29
30//here here
31lua_register(L, "L", utf8_to_utf16);