俞士汶教授谈中文语言处理-Yahoo!zz
时间:2006-08-08 来源:Chidra2020
俞士汶教授谈中文语言处理(一)
作者:俞士汶 北大教授 客座博客
编者按:我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。
访谈正文如下:
1、与英语等欧洲语言相比,中文在信息化处理上有很多不同的障碍,如:输入、分词等。请简要介绍一下中文语言处理的研究领域和存在的挑战?
中文信息处理应该大致划分为汉字信息处理和汉语信息处理两个显然不同的但相互又有联系的层次。在文字信息处理的层次上,由于汉字是大字符集,与英语等欧洲语言采用的几十个字母相比,发展进程中确实遭遇过很多不同的障碍,不过现在大体上已经克服了,汉字信息处理技术已经实用化、产品化。在语言信息处理的层次上,特别是到了内容处理或语义理解的阶段,人类语言共性的影响远远超出了它们各自的特性。以词语切分(segmentation,即问题中的“分词”)而言,并不能说它是汉语的特别任务,其他语言(包括英语)也有相似的课题。
有实践经验的人又普遍感到(书面)汉语信息处理确实存在一些特别的困难。原因主要在于书面汉语的以下两个重要特点:(1)不同的语言单位(以汉字表示的语素、词、短语、句子乃至更大的单位)之间界限不清晰;(2)中文的语言要素,特别是词,在运用时缺乏指示其功能或语义的形态变化。
认识到汉语信息处理的困难,汉语信息处理发展的方向也就明确了。既要吸收国际上其他语言的先进理论、技术和经验,也要充分重视汉语的特点。研究领域要做的工作很多,最具基础性的工作应该是建设服务于汉语信息处理的知识库。
2、作为中文语言处理的独特内容,中文分词在国内外研究和应用领域都有什么最新进展?
书面汉语的词语切分是汉语信息处理的第一道关口,姑且不论它是不是独特内容。或许有的理论或系统声称没有“分词”这个步骤,但从语句中辨识出可以作为操作单位的或语言知识库之登录项(entry)的语言单位(不妨以“词”命名),总是无可回避的。
完全正确的切分取决于对文本理解的深度或者说需要足够的语境信息,“白天鹅在湖里游泳”即是一例。目前自然语言理解技术未能取得突破,也不能期求词语切分百分之百地正确。不同的应用对切分的精度有不同的要求,不同的软件有不同的适用范围。
作为汉语词语切分研究领域的最近进展,有几件事值得一谈。一是清华大学孙茂松教授主持制订的大型分词词表(可能尚未出版);二是中科院计算所刘群博士等人将自主开发的切分软件放在网上,可以自由下载;三是中国教育部语言文字应用研究所开发的平衡语料库和北大计算语言学研究所开发的《人民日报》基本加工语料库,规模都有数千万字。另外,台湾中研院黄居仁教授加工了有11亿字的Chinese Gigaword Corpus,不过它是全自动进行的,而北大与语用所的加工结果都经过了人工校对。
样本语料库的意义不可低估。刘群博士的软件就是以半年《人民日报》基本加工语料库作为其统计算法的训练语料而开发出来的。北大计算语言所放在网上的1个月的《人民日报》基本加工语料库,下载人次已超过9400。俞士汶等人制订的语料库加工规范(2001年版和2003版)分别发表在《中文信息学报》(2003年第5,6期)和新加坡《汉语语言和计算学报》(2003年第2期)上,影响甚广。
技术的普及和基础资源的整备或许孕育了理论和技术的创新。
俞士汶教授谈中文语言处理(二)
作者:俞士汶 北大教授 客座博客
3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助?
与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。
从互联网很容易获取大量语料,可以用于训练或测试,这比从前方便多了。计算能力和网络技术的发展对汉语词语切分软件的开发和性能的提升肯定有帮助,譬如使用并行计算和分布式处理可以提高处理速度,促进切分软件实用化。不过,汉语词语切分的难题基本上属于自然语言表述的信息内容理解的层次,可能需要突破现有的计算机体系、期待人类认知过程的揭秘和新型智能信息系统的出现,机器求解才有可能达到与人类智能相媲美的程度。
4、如何判断不同中文分词系统的优劣?
无疑,正确率是最重要的指标。不过,很难以单一指标(如:正确率)评判汉语词语切分软件的优劣,在互联网上应用,速度也是一个重要的指标。适应不同的应用,需要量体裁衣,功能、性能指标不同的软件也自有各自适用的范围。
5、请介绍一下中文语言处理的国际性研究组织?SIGHAN中文分词竞赛是怎么回事?
为了严谨起见,我强调这里介绍的应该说是中国大陆以外的情况。
较早成立的有美国的“中文计算机协会”,至今已组织了20多次东方语言信息处理国际会议。第20次于2003年在我国东北大学召开。台湾于1998年成立计算语言学学会(Rocling),每年举行一次年会;并出版《中文计算语言学期刊》。新加坡于1991年成立“中文与东方语言信息处理学会”,现在一年出版4期《汉语语言与计算学报》(俞士汶是该杂志的联合主编)。
ACL(the Association for Computational Linguistics)是国际上最有影响的计算语言学学术组织。它有很多下属组织,如关于分析技术的SIGPARSE(the Special Interest Group on Natural Language Parsing)成立于1994年。关于中文信息处理的SIGHAN(the Special Interest Group on Chinese Language Processing, HAN乃“汉”的拼音)成立于2002年,每年跟随ACL举办一次研讨会(workshop)。SIGHAN于2003年、2005年、2006年组织了中文分词比赛,扩大了它的影响。北大计算语言所也为这些比赛提供过训练语料和测试语料,并参加了第一次比赛(只限于美国宾州大学语料),并取得开放测试第一名的好成绩。
顺便谈及国内,规模最大、影响最广的学术组织自然是“中国中文信息学会”,成立于1981年。今年11月将召开“中国中文信息学会成立二十五周年学术会议”。
俞士汶教授谈中文语言处理(三)
作者:俞士汶 北大教授 客座博客
6、如何看待中文分词技术和中文搜索引擎两者之间的关系?
以“字索引”支撑的全文检索技术应用到网页检索之所以不再有昔日的辉煌就是因为互联网上的信息太多了,量变引起质变,提高查准率成为主要追求目标。对网页文本进行切分建立词索引为搜索引擎提供了新的发展机遇。现在,在Yahoo,Google,百度等网站上检索“华人”,给出的结果不再包含关于“中华人民共和国”的网页信息,就是搜索引擎技术有重要进展的体现。
不过有两点需要说明:
第一,这样的技术并非是中文特别需要的,对于英语,如果只对word作索引,要检索对应中文“笋”的“bamboo shoot”,会检索到大量分别同“bamboo”或“shoot”相关的网页,同样降低了检索“bamboo shoot”的正确率。
第二,不正确的切分对查准率和查全率都有损害,还是举第2个问题答案中的例子,用户键入“白天鹅”,原本要检索“白色的天鹅”,如果切分成“白天/ 鹅/ ”,岂非“失之毫厘,谬以千里”。
7、什么是中文命名实体的抽取技术?它和分词技术之间有什么关系?
2006年SIGHAN在其组织的比赛中增加了中文命名实体识别的项目。所谓命名实体在文本中就是指人名、地名、机构团体名称、商品名称等专有名词。因为它们通常具有唯一性,在信息检索、信息提取等应用系统中受到特别的重视(当然要另有办法解决难以完全避免的重名问题)。比SIGHAN早很多,TREC (Text REtrieval Conference)也组织过这类项目的比赛。
命名实体识别或者说抽取就是把这些专有名词从文本或语句中分离出来。不难理解,命名实体抽取和词语切分需要融合处理。由于词典或训练语料的有限性,命名实体识别常常表现为新词识别。机构团体的名称通常很长,常由既有的切分单位组合而成。如果先做命名实体识别,对于由很多词组成的单位名称,又有进一步切分的必要。有时,专有名词与普通名词的词形并无区别,如“凤凰卫视中文台”及其简称“凤凰台”是实体的专名,而其中的“凤凰”、“卫视”、“中文台”都是普通名词,“卫视”又是“人造卫星转播电视”的缩略语,这些问题纠缠在一起,无论中文命名实体抽取还是一般意义上的词语切分都还有深入研究的必要。
发表于:2006年08月01日 10:48俞士汶教授谈中文语言处理(四)
作者:俞士汶 北大教授 客座博客
8、随着中文信息数字化进程的加快,特别是搜索引擎行业的发展,对中文语言处理人才的需求在加大,请介绍一下目前国内在这方面教育情况?
根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。
不过,按“计算语言学”和“自然语言处理”研究方向培养的博士和硕士属于高级研究人才,数量毕竟有限,满足不了中文信息化迅速发展的需求。特别是搜索引擎等信息服务业的发展,更增加了对既有计算语言学理论基础、又有丰富的语言工程实践经验的工程技术人员的需求。鉴于这样的认识,在杨芙清院士的倡导下,北大计算语言研究所和北大软件与微电子学院决定共同建设语言信息工程系,下设语言信息处理和计算机辅助翻译两个专业。对学习合格的学生将授予北京大学工程硕士学位。这是中国计算语言学研究逐步成熟、走向社会、服务大众的又一重要标志。
9、请简要介绍一下北大计算语言所的背景。开展了哪些中文语言处理方面的研究?取得了什么样的成绩?
北京大学计算语言学研究所(Institute of Computational Linguistics,ICL)成立于1986年,是一个文理学科结合的研究所。20年来,在培养了数十名博士、硕士的同时,在计算语言学和自然语言处理技术领域进行了广泛、深入的研究,研究课题涉及语言模型与分析技术、计算词典学与词典编纂、语料库语言学、术语学与术语标准化、计算语义学、机器翻译的理论与技术、自然语言处理评价技术、信息提取与信息检索技术、中国古诗计算机辅助深层研究等,这些课题来自国家973、国家863、国家自然科学基金、国家社会科学基金、国家科技攻关项目和部级项目,也有与国内外著名企业、大学、研究机构的横向合作项目。
除了论著之外,北大计算语言所在语言数据资源建设方面有较多的积累:现代汉语语法信息词典(8万词语),大规模现代汉语基本标注语料库(6000多万汉字),面向汉英机器翻译的现代汉语语义词典(6万),面向跨语言文本处理的中文概念词典(10万概念),句子对齐的双语语料库(80万句对),多个专业领域的术语库(35万术语),现代汉语短语结构规则库(600条规则)以及支持这些知识库建设的工具软件,如汉语词语切分及词性标注软件、汉语词语注音软件等,这些知识库和软件已在世界各地得到广泛应用,产生了广泛的影响。