《华中师范大学》

面向中文信息处理的复句关系词自动标识研究

作者:
舒江波

关键词:
关系词自动标识自动机解空间规则库语义关联

摘要:
复句作为汉语语法的重要实体单位,在语法学界受到较多关注,且相关理论成果较多。但是,从中文信息处理的角度来看,汉语复句的信息化处理的相关成果还较少,复句信息工程尚未取得实质性的突破和进展。究其原因,一是研究还不全面深入,现有的成果还未囊括复句信息处理的所有环节和难题;二是大多数研究成果都是面向人的,很多方法在信息处理中操作性不强;三是各个研究相对孤立,未将所有环节串联起来,形成一个有机的整体。目前,复句的信息化研究主要是分句与非分句的识别、复句层次关系的识别,而这些研究都以关系词的提取为前提。可见,一方面,关系词的自动提取是其他各项研究工作得以开展的基础;另一方面,关系词作为构成复句的一个部件,本身也需要深入研究。在这种背景下,本文以面向中文信息处理为出发点,以邢福义先生的复句理论为指导,对复句关系词的自动标识方法进行研究和探讨,并以自动机理论、形式化逻辑等为辅助手段,对关系词标识涉及的问题进行建模,对总结的规则进行形式化描述和存储,并研究基于规则的关系词自动标识的方法,已达到自动标识复句关系词的目的。 本文的研究主要从以下四个方面展开: 1、全面总结影响关系词自动标识的因素。影响关系词标识准确率的因素主要有五类,分别为:关系副词的影响,介词的影响,关系标记不同用法的影响(同形异义词、同形异构词、同形异类词的关联和非关联用法的影响),关系标记搭配的影响和关系标记隐现形式的影响。对每一类影响因素,主要分析其各自的特点,并讨论对应的处理方法和策略。 2、对标记连用现象进行深入研究。主要研究二标记连用和三标记连用时各个标记的语法语义功能和类别。对于二标记连用,归纳出矛盾类和限制类两种类型。这种类型的区分,既可以在计算机处理时减少不必要的计算,也可以作为复句分析过程中的一个切入点。三标记连用现象中,识别不同的关系词所需的方法不同,没有一个统一且粒度较细的策略,需要具体问题具体分析。 3、研究句式特点与关系词标识之间的关系。主要考察三类句式:第一、格式固定且无歧义,但语义关系不好确定导致关系词辖域确定困难的句式,称之为特殊句式;第二、扩展句式,普通的基于搭配理论的算法不能很好地处理扩展句式的关系词标识问题;第三、多重复句的普通句式,复句实例的标记序列中含有多个标记对。对于特殊句式,采用表里关联的方式将标记序列与处理结果一一对应;对于扩展句式,采用自动机理论进行建模,既保证了可操作性,又保证了对语言现象的概括性;对普通句式,主要是把问题抽象化,并转化为数学模型,利用解空间的求解来对标记序列进行处理。针对上述句式,建立规则库,并探讨了基于规则的关系词自动标识方法。 4、对部分充盈模态和非充盈模态下关系词的标识问题进行研究。文章首先对分句的语义关联理论进行了进一步地补充,提出3大类14个语义关联特征,并制定了特征分析的优先图,修正了分句语义关联度的计算方法。充盈模态下的关系标记主要考察“不是……就是……”,“虽然……但是……所以……”等。研究发现,对“不是……就是……”,可利用极值分析法处理;对“虽然……但是……所以……”,暂无较好的处理策略,需要建立常识知识库。非充盈模态下主要是对三分句句式的关系词的识别进行考察,发现从关系标记的典型和非典型属性入手,通过结合搭配知识,并利用分句的语义关联特征,可较准确地标识出各个分句中的关系词

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享