您现在的位置: 论文资源库 >> 论文资源 >> 计算机 >> 人工智能 >> 正文

现代汉语文本的词语切分技术|论文资源库

现代汉语文本的词语切分技术
作者:未知 文章来源:网络 点击数: 更新时间:2008-6-23

一、引言

 1、汉语自动分词的必要性

    汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧义现象的处理。

    切词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。把字串分隔成词串,就是自动分词系统需要做的工作。

    词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。汉语信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。例如汉字的拼音-字转换、简体-繁体转换、汉字的印刷体或手写体的识别、汉语文章的自动朗读(即语音合成)等等,都需要使用词的信息。切词以后在词的层面上做转换或识别,处理的确定性就大大提高了。再如信息检索,如果不切词(按字检索),当检索德国货币单位"马克"时,就会把"马克思"检索出来,而检索"华人"时会把"中华人民共和国"检索出来。如果进行切词,就会大大提高检索的准确率。在更高一级的文本处理中,例如句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息。

 

2、汉语自动分词中的困难

    在过去的十几年里, 汉语自动分词工作虽然也取得了很大成绩,但无论按照人的智力标准,还是同实用的需要相比较,差距还很大。我们首先需要对这一工作的困难有充分的认识。

    1).分词规范的问题

    (1)汉语词的概念

    汉语自动分词的首要困难是词的概念不清楚。书面汉语是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一个通用、权威的分词标准来衡量。分词标准的问题实际上是汉语词与语素、词与词组的界定问题,这是汉语语法的一个基本、长期的问题。它涉及到许多方面:

    ·核心词表问题:分词需要有一个核心(通用、与领域无关的)词表,凡在该词表中的词,分词时就应该切分出来。对于哪些词应当收进核心词表,已提出各种收词条件,但这些条件本身难以操作,目前尚无合理的可操作的理论和标准。

    · 词的变形结构问题:汉语中的动词和形容词有些可以产生变形结构,如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等。可以切分出“打打/牌”,但“开开/心”就不合理。“看/没/看见”说得过去,“相/不/相信”就说不过去了。又如大量的离合词“打架”、“睡觉”等可以合理地变形为“打了一场架”、“睡了一个觉”。对这些变形结构的切分缺少可操作而又合理的规范。

    ·词缀的问题:语素"者"在现代汉语中单用是没有意义的,因此"作者"、“成功者”、"开发者"内部不能切开。依据这个标准, “作出了巨大个人财产和精神牺牲者”、"克服许多困难而最终获得成功者"、"开发中国第一个操作系统软件者"也不能切开,但这样复杂的结构与词的定义相矛盾。又如职务名称"教育局长",语义上理解为"教育局之长",切成"教育/局长"、"教育局/长"、"教育/局/长"或不予切分,都会有人提出异议。

    · 非词语素问题:一些汉字在古代汉语中是词,演变到现代汉语时成了非词语素,例如“民”。现代的书面汉语并非纯粹的"现代汉语",其中夹杂着不少文言成分,如“为民除害”、"以逸待劳"、"帮困济穷"等等。探寻白话文中夹杂文言成分的规律,是中文信息处理需要解决的一大问题。

    (2)不同应用对词的切分规范要求不同

    汉语自动分词规范必须支持各种不同目标的应用,但不同目标的应用对词的要求是不同的,甚至是有矛盾的。

    · 以词为单位的键盘输入系统:为了提高输入速度,一些互现频率高的相互邻接的几个字也常作为输入的单位,如:“这是”、“每一”、“再不”、“不多”、“不在”、“这就是”、“ 也就”等。

    · 校对系统:校对系统将含有易错字的词和词组作为词单位,如许多人“作”、“做”分不清。计算机自动判别时,若把它们当作单字词也不好区分,但在同前后文构成的词或词组中往往可以有确定的选择,故应把有关的词和词组都收进词库,如“敢做”、“敢作敢为”、"叫做"、“做出”、"看作"、"做为"等。校对系统要求分词单位较大。如把"勇斗"、"力擒"、"智取"等分别作为一个分词单位并划归及物动词参与上下文检查。"张老师"、"五分之三"、"北京中医学院"也应分别作为分词单位,并分别归类作为人、数字、机构名,再参与上下文检查。

    · 简繁转换系统:"干"的繁体形式有“乾”和“幹”,它的简繁转换是非确定的。但在词和词组的层面上,它的转换常常是确定的。比如“幹部”、“幹事”、“乾净”、“乾燥”等。为了提高简繁转换的正确率,简繁转换系统把这类词或词组收进词表。

     · 语音合成系统:语音合成系统收集多音字所组成的词和词组作为分词单位,如“补给”、"给水",因为在这些词或词组中,多音字"给"的音是确定的。

    ·检索系统:检索系统的词库注重术语和专名,并且一些检索系统倾向于分词单位较小化。比如,把"并行计算机"切成“并行/计算机”, "计算语言学"应切成“计算/语言学”,使得无论用"并行计算机"还是用"计算机"、“计算语言学”或是“语言学”检索,都能查到。分词单位的粒度大小需要考虑到查全率和查准率的矛盾。

 

    2).分词算法的困难

    要将汉语文本的字序列切分成词的序列,即使确定了一个合适的分词标准,要实现这个标准也还存在算法方面的困难。

    (1)切分歧义

    汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义(约占全部歧义

这篇论文来自lunwen.5151doc.com[论文资源库]收集与整理,感谢原作者。
本文版权归原作者所有,如需转载或摘录请注明出处:论文资源库 http://lunwen.5151doc.com

论文录入:5151doc    责任编辑:5151doc 
  • 上一篇论文:

  • 下一篇论文:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    | 设为首页 | 加入收藏 | 联系站长 | 在线投稿 | 版权申明 | 网站登陆 |