文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释
时间:2010-10-04 来源:finallyliuyu
(注:转载请注明作者和出处 作者:finallyliuyu 出处:博客园)
适用人群:文本分类初学者、新手、菜鸟、业余爱好者
目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的;
2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借助于此平台可以对书本上的一些关于分类器、特征词选择算法的结论进行验证;
3.写给我自己,体验 “the magic of mathematics” 。
1.获取语料库
方法一:搜狗2008版语料库;处理程序见《菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库》
方法二:finallyliuyu在博客园空间提供的语料库参见 《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二》
2. 文本分类系统设计框架图
预处理过程流程图
分类模块流程图:
3. 各部分代码讲解
预处理模块
3.1建立词典
3.2全局DF特征词选择算法
3.4卡方特征词选择算法
3.5信息增益法以及点互信息法
3.6 VSM模型建立方法
分类模块
3.7 KNN分类算法
3.8 准确率,召回率,F值计算
4. 程序调用说明:
5. 实验(重点推荐)
针对特征词选择法的验证实验“各种特征词选择算法对文本分类性能的影响”:纸上得来终觉浅,觉知此事要躬行
6。资源下载(注意右键点击下载地址用迅雷软件方可下载):
实验中用到的语料库 下载地址 注意:语料库为MSSQL2000备份格式,如何还原请大家自己查阅相关资料,网络上有很多这方面的知识也就不赘述了。
程序资源 下载地址