您现在的位置: 论文资源库 >> 论文资源 >> 计算机 >> 人工智能 >> 正文

《现代汉语语法信息词典》的开发与应用|论文资源库

《现代汉语语法信息词典》的开发与应用
作者:未知 文章来源:网络 点击数: 更新时间:2008-6-23

【摘要】现代汉语语法信息词典是为计算机实现汉语句子的自动分析与自动生成开发的一部机器词典,它以数据库文件形式收录了5万多条现代汉语的词语,不仅给出了每个词语所属的词类,而且详细描述了它们的各种语法属性。本文介绍这部语法词典的开发历程、内容概要和设计思想,并且举例说明在自然语言处理系统中如何应用这部语法词典。

 

关键词:现代汉语、语法信息词典、机器词典、自然语言处理

 

The Development of Contemporary Chinese Grammatical

Knowledge Base and its Applications

ZHU Xuefeng     YU Shiwen     WANG Hui

Institute  of  Computational  Linguistics,  Peking   University

Beijing  100871, P.R.C

Phone :2501892

                                                          

 Abstract

The Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is  developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chinese words and idioms in the knowledge base represented by database files. The knowledge  base not only gives part of speech for each word or idiom, but also describes their various  grammatical attributes. The paper introduces the design, the development and the outline of the  knowledge base and shows its applications in natural language processing systems with examples.

 

Keywods: contemporary Chinese, grammatical knowledge base,  machine dictionary,

              natural language processing 

 

1. 现代汉语语法信息词典的开发历程

    十年前,中文输入技术的主流还是汉字编码,以词为单位进行输入也只是汉字输入的陪衬。北大计算语言学研究所在1986年提出了一个语法规则制导的以语句为单位的中文输入方案,并在一年多的时间内实现了。参考文献[1]深入浅出地介绍了这个方案的原理与实现技术。这个方法中就包含了一部电子词典,除了词条及每个词的检索特征(拼音、起笔、末笔等)外,还包括词类及细分的子类。这部词典成为现代汉语语法信息词典的基础。

    作为中国七五攻关项目“自然语言理解与人机接口”中的一个子专题,俞士汶于1987年提出了开发“现代汉语词语语法信息库”的计划[2] ,把研究重点放在词语语法属性的描述上。恰逢此时,中国著名语言学家朱德熙先生承担了全国社会科学规划领导小组下达的“现代汉语词类研究”的攻关项目。从此,北大计算语言学研究所与中文系的研究者们在朱德熙先生的率领下开始了联合攻关,并结成了稳定的合作关系。1990年,“现代汉语词语语法信息库”取得了阶段性成果,通过技术鉴定。

    在讨论八五攻关项目时,以中国工程院院士、中国中文信息学会理事长陈力为教授为代表的中国一批自然语言处理技术专家敏锐地觉察到,为了中文信息处理技术的发展,特别是语言信息处理技术的发展,有必要建立通用的应用开发平台[3][4]。这个大型语言工程将现代汉语语法信息词典(以下有时简称为“语法词典”)列为它的一个子专题。从1991年起北大计算语言学研究所承担了这个子专题的研制任务。本项研究继承了“现代汉语词语语法信息库”的成果,又经过5年的努力,现在本项研究已完成如下任务:(1)制订了现代汉语语法信息词典的规格说明书与开发方略[5];(2)建立了面向信息处理的现代汉语词语分类体系并完成了关于这个分类体系的研究报告[6];(3)明确了词语的收录范围与选词原则[7];(4)探讨了某些词类的子类划分[8];(5)语法词典本身的开发,这当然是最繁重、最艰巨的任务。到目前为止,语法词典收录的词语总数为5万多条,并且将这5万多词都归了类,按照规格说明书填入了语法属性信息,其中百分之七十经过了仔细的、多遍的、不同角度的校对。 

    按照应用开发平台工程总体组的布署,北大已将语法词典的部分内容提交给其他子专题开发组使用。最近,负责句法规则的研究者告知,语法词典对句法分析提供的语法知识是有价值的,也是相当充分的。对于开发者来说,这当然是莫大的安慰与鼓励。另外,北大计算语言学研究所与中国科学院计算所联合开发“汉英机器翻译模型系统”,与北京通字公司联合开发“面向通用图像码的自然语言生成系统”,与自然科学基金

这篇论文来自lunwen.5151doc.com[论文资源库]收集与整理,感谢原作者。
本文版权归原作者所有,如需转载或摘录请注明出处:论文资源库 http://lunwen.5151doc.com

论文录入:5151doc    责任编辑:5151doc 
【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
| 设为首页 | 加入收藏 | 联系站长 | 在线投稿 | 版权申明 | 网站登陆 |