99网
您的当前位置:首页汉语动结式依存结构与特征结构对比分析

汉语动结式依存结构与特征结构对比分析

来源:99网
2009年4月

第30卷第4期

                 

襄樊学院学报

JournalofXiangfanUniversity

                 

Apr.,2009

Vo1130No14

汉语动结式依存结构与特征结构对比分析

付晓歌

(武汉大学 留学生教育学院,湖北 武汉 430072)

摘要:依存语法是近年自然语言处理学界进行语义分析的一个主流方法。特征结构这一概

念,在生成语音学和生成语法学领域有较大影响,但是在语义分析上却运用很少。文章尝试把特征结构引入汉语语义描写,与依存结构进行对比分析。通过对独特的汉语句型———动结式,进行标注,来探讨哪种描写机制更适宜于汉语的语义描写分析。

关键词:依存结构;特征结构;汉语动结式

中图分类号:H04 文献标志码:A 文章编号:1009-2854(2009)04-0062-04

一、依存结构

传统的依存语法认为,一切结构句法现象可以概括为关联(connexion)、组合(junction)和转位(translation)三大核心。依存语法描述的是句子中词与词之间直接的句法关系,这种句法关系是有方向的,通常是一个词支配另一个词。它强调“动词中心说”,认为动词支配着别的成分,而它本身则不受其它任何成分支配。

在自然语言处理中,我们把表示依存关系的图示叫做依存树(图)。如“铁路工人学习英语语法”这个句子的依存树如下:

依存语法具有方便的可计算性 用依存语法

进行标注,句子的结构表现为线性的序列关系,跟用句法结构标注相比,信息抽取时计算变得比较简单。

符合汉语“意合”的特点 汉语的字组成词、词组成短语以及短语组成句子时,其意义都是由组成部分意义之间的关系体现的,且具有一定的相通性。用语义之间的依存关系来描述汉语句子的意义结构是合理而可行的。

截至到现在,依存语法的研究仅限于以传统的依存关系为基础的延伸研究,而传统的依存语法是以法语、英语等为研究对象的。当依存语法被引入汉语研究的时候,遇到了许多难题。

目前国内外对汉语依存语法体系的研究还不多,国内的汉语依存分析基本沿用的还是国外传统的依存公理和依存方法。主要有:中国社会科学院语言研究所李维等,他们为荷兰DLT机器翻译系

目前国内外的许多语言机构都在尝试运用基于依存语法的方法来处理自然语言。依存语法的具有以下优点:

依存语法简单、可操作性强 依存语法以动词中心,突出句子各成分之间的关系。在依存语法体系中,标注时只需要考虑支配和被支配、修饰和被修饰的关系,不过多强调词序等其他因素,比较适应汉语词序灵活的特点,应该说是一种简单明快的分析方法。

统设计过一套汉语依存体系,设计出36种依存关系。清华大学计算机科学系黄昌宁等最初把依存语法关系划分为32种依存关系,后来扩充到106种,最后又精简为44种。周强设计了11种依存关系。李涓子提出了70种依存关系。

这些机构的标准互不统一,他们的标注资源也很难整合在一起。

二、特征结构

一般来说,一个短语或句子可表示成一个由实

收稿日期:2008-12-21;修订日期:2009-04-14

作者简介:付晓歌(1984—),女,湖北老河口人,武汉大学留学生教育学院对外汉语教学专业研究生。

62

付晓歌:汉语动结式依存结构与特征结构对比分析

体、特征和特征值组成的三元组的集合,这个集合我们称之为该短语或句子的特征结构。如果特征词并未出现,我们约定其特征结构中的特征为空。例如:

例1:a高级职称研究工作者

 b<研究,,工作者><工作者,职称,><职称,级,高>

例1a句中,“工作者”是“研究”的施事,这个三元组中的特征没有出现,不标注;“职称”是“工作者”的特征,这个三元组中的特征值没有出现,不标注;“级”是“职称”的特征、“高”是“级”的特征值。

形式上,一个三元组可看作两个点和连接它们的边,其中的节点表示词,边表示特征。特征一定是某个节点的特征,这个节点就作为特征拥有者,另一个节点就作为特征值。于是一个特征结构可看作一个图,而且是无向图。考虑到特征值也可是另外一个特征结构,因此特征结构可看作一个递归图,意即节点本身又可是一个图。

对于一个语言单位,我们考察它所提供的信息。

例2:他认为今天星期天想要直接回答“他认为今天星期天”这句话能够提供哪些信息,是很困难的。不过我们可以通过下面四个问题来归纳:

谁认为今天星期天?———他

他认为什么?———今天星期天他认为今天星期几?———星期天

他认为哪天星期天?———今天

从例2句中得到的四个问题以及它们各自的答案,我们就可以得到特征结构的递归图。

三、依存结构与特征结构对比研究和依存结构相比,特征结构具有以下优点:1.允许嵌套

一般地,当结构内部无法找到一个词能代表所有词语的时候,该结构就作为整体和其它词语发生概念关联,这就意味着结构必须分级。

例3:a高级职称研究工作者

 b<研究,,工作者><工作者,职称,><职称,级,高>

2.允许多重关联

依存结构通常假设单一依存(mono-depend2ency),即一个节点只能依存另外一个且最多一个。但是句子各成分之间的关系通常是多重的,当结构内部的一个词和多个词发生意义上的关联的时候,在用依存语法进行标注时就无法一一顾及,会产生很多实际的问题。以兼语句为例:

例4:我让小王吃饭。

运用传统依存语法分析后,“小王”只跟动词中心词“让”发生关联,被“让”支配;然而实际上,小王”不仅跟动词中心词“让”发生关联,而且同时还是“吃”的动作发出者,受“吃”的支配。运用传统的依存语法无法分析出“小王”和“吃”之间的关系。运用特征结构,就分析为:

3.更适宜于标注没有中心词或中心词难以判断的句子

依存语法认为:一个结构中总存在一个中心词对内控制其它词语。但对汉语来说,经常会遇到没有中心词或中心词难以判断的情况。

无中心词依存结构隐含着一个假设即词语间的不平等地位。例如:谓宾结构中谓词作为中心词控制其它词语;偏正结构中,处于“正”位置的词语控制处于“偏”位置的词语。但对于汉语来说句子中谓词可能不出现。如“今天星期天”,主要是指今天”和“星期天”两个词汇概念间的联系,并无任何证据表明谁主谁次,由于没有出现中心词(动词),运用依存结构就很难进行分析,但是运用特征结构,就分析为<今天,星期,天>———“今天”是实体、“星期”是特征、“天”为特征值。

多个中心词连动句是典型的具有多个中心词的情况。例如:

例5:我上街买菜。

运用传统的依存语法根本就无法做出适当的分析。在“我上街买菜”这个句子中,有两个动词,哪一个应该充当中心词?其他的动词与中心词之间的关系又是什么样的?传统的方法对连动句的通常处理是一刀切的做法,即把V1作为中心词,V2(V3等)作为从属词。这样的做法比较武断。运用依存语法,我们很难解决这样的问题。

运用特征结构,就可以很好的解决多个中心词的情况。例5这个句子就可以分析为:<<上,,

63

““第30卷第4期               襄樊学院学报                 2009年第4期

街>,,我><上,,我><<买,,菜>,,我><买,,我>。

4.排除歧义句式

例6:学生讨论

按照传统的依存结构分析歧义短语“学生讨论”,只能构建一颗依存树,其中“学生”依存于“讨论”。可是这个短语具有一个表层结构,两个深层结构:一方面“学生”可作“讨论”的施事,另一方面可做“讨论”的“受事”。可见依存结构对这种歧义情况,为力。

运用特征结构进行分析,学生讨论可以分析为<讨论,,学生>或者为<讨论,学生,>就可以很好的分化歧义句式。

四、“动结式”依存结构与特征结构对比分析目前,我们处于标注的测试阶段,选取连动句、兼语句、主谓谓语句、动结式等进行尝试性标注。对汉语特殊句型进行依存标注,对研究依存语法理论、寻求面向语义的汉语特征结构、以及研究汉语语法本体,都有着重要的意义。本文选取汉语的特殊句型之一“动结式”进行标注,来探讨哪种语法体系更有利于汉语自动分析和信息抽取。

例7:肚子笑痛了。

例8:我走累了。例9:杯子摔碎了。

例10:他吃饱了

例7,按照传统的依存分析,“肚子”依存于笑”,可它们之间并不存在意义的关联,而“肚子”和“痛”之间才真正存在意义关联,尽管它们之间不存在句法关系。按照特征结构分析,就可以揭示句子中到底是什么“痛”了———“肚子痛了”;为什么会“痛”———“笑痛了”。

将例8用依存结构进行分析,“走”分别与我”和“累”产生联系。忽略了“我”和“累”之间的联系。在这个句子中,应该是“我”、“累”、“走”三者间都有联系。按照特征结构分析如下:

例9中“杯子”和“摔”及“碎”都发生意义关联,分析如下:

在例10中,“他”分别与“吃”和“饱”发生概念关联,若运用依存语法分析,“他”和“饱”只能依存于“吃”,“他”与“饱”之间的联系就被忽略了。

五、结论

1.特征结构比起依存结构在揭示意义联系和处理汉语特殊句式时都具有更大的优势

虽然表面看起来判断特征结构比判断依存结构更为困难,但特征结构多了一个判断依据就是特征词。因为任何语言的特征词都是相对固定的,只要抓住了句子中的特征词,就抓住了特征结构。从我们实际操作中来看,标注特征结构比标注句法结构和依存结构快得多。这是因为和句法结构相比,特征结构不用判断句法范畴、不用标注词性、不用判断词序、不用设计句法规则。与依存结构相比,特征结构不用判断哪个词是中心词;对于那些中心词难以判断的情况(如联合结构),也不用去设计中心词。所以,将特征结构这一新的描写机制引入汉语语义分析是具有优势且有很强的可操作性的。

2.运用特征结构标注中存在的问题

特征结构实际上是一种语义结构,因此建立特征结构的资源和其它语义资源一样面临如何保证一致性的问题。语义资源的建立同样也需要寻求一定的句法依据。

对于特征结构来说,一致性问题就是如何设计判断意义关联的具体标准。因为特征结构反映的是语义描写的信息,它就一定会表现在句法层面。想要准确的提取这些语义描写的信息,就必须确定出这些句

法表现。因此我们需要研究出判断特征结构的标准、以及判定实体、特征、特征值所运用的手段。怎样将

这些手段具体化形式化,使之具有确实的可操作性;如何确保各种手段之间没有冲突;如何消除各种冲突等等,都是迫切需要我们解决的问题。

““付晓歌:汉语动结式依存结构与特征结构对比分析

参考文献:

[1] 周 明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,2007(3):35-51.[2] 李 英.浅谈对中文信息处理的认识[J].人工智能及识别技术,2008(5):1709-1711.[3] 冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001(1):1-21.

[4] 刘伟权,王明会,钟义信.建立现代汉语依存关系的层次体系[J].中文信息学报,1996(2):32-46.[5] 冯志伟.特思尼耶尔的从属关系语法[J].国外语言学,1983(1):63-57.[6] 冯志伟.词义排歧方法研究[J].术语标准化与信息技术,2004(1):31-37.

[7] 张 伟.汉语语法研究中的热点问题———配价语法研究新动态[J].现代语文,2007(4):16-18.[8] 由丽萍,杨 翠.汉语框架语义知识库概述[J].电脑开发与应用,2007(6):2-7.

[9] 尤  ,李涓子,王作英.基于语义依存关系的汉语语料库的构建[J].中文信息学报,2003(1):46-53.[10] 周 强.汉语句法树库标注体系[J].中文信息学报,2004(4):1-8.

ContrastiveResearchonAttributeStructureand

DependencyStructureofChineseResultativeConstructions

FUXiao-ge

(CollegeofForeignStudentsEducation,WuhanUniversity,Wuhan430072,China)

Abstract:Dependencygrammarisoneofthemainstreamwaysofsemanticanalysisinnaturallanguageprocessingcircleinrecentyears.Theconceptofattributestructurehasalreadymadebigeffectonthefieldsofgenerativephonologyandgenerativegrammar,butlessonsemanticanalysis.Thisarticleattemptstointroduceattribute

structureintosemanticdescriptionofChinese,andmakeacontrastivestudywithdependencystructure.Theus2ageoflabelingresultativeconstructions,aspecialsentencepatterninChinese,isaneffectivemethodtodiscus2singwhichsystemisthebetterapproachonsemanticdescriptioninChinese.

Keywords:Dependencystructure;Attributestructure;Chineseresultativeconstructions

(责任编辑:陈道斌)

65

因篇幅问题不能全部显示,请点此查看更多更全内容