Python应用：文件内容分析：筛选单词清单

时间：2007-01-09 来源：wibrst

今天工作又遇到了问题，简单说一下：是汉化Flash项目(程序文件扩展名as)，部门的策划新手从老外那里发过来的策划案中的数据集文档析出中英文列表词元不完整，这是在调试程序时发现的。
我想起在源码中的字元定义很有规律可循，即都写成这种形式：

stype5Verb2.push("nap");

所以我可以使用Python正则来取出这种写法中的单词字元
这是所写程序，其生成所需字元清单，去除可能的重复字元并排序：


# restoreWordSets.py

import re
import types

sFile_wordSet=r'workfolder\words.as'

sPath_produce=r'workfolder\datasetFactory\produce\\'
sFile_Produce=sPath_produce+'wordSets.txt'

sWs=''
dWord={}

f=file(sFile_wordSet)
aWs=f.readlines()
f.close()

for ln in aWs:
 # ex stype5Verb2.push("nap");
 m=re.search('push\s*\(\s*"([^"]+)"\)',ln)
 if type(m) != types.NoneType:
 w=m.group(1)
 if not dWord.has_key(w):
 dWord[w]=1

aWord=dWord.keys()
aWord.sort()

for e in aWord:
 sWs+=e+'\n'

f=file(sFile_Produce,'w')
f.write(sWs)
f.close()