汉语短语结构定界歧义类型分析及分布统计+

汉语短语结构定界歧义类型分析及分布统计+

ID:37699759

大小:270.01 KB

页数:9页

时间:2019-05-29

汉语短语结构定界歧义类型分析及分布统计+_第1页
汉语短语结构定界歧义类型分析及分布统计+_第2页
汉语短语结构定界歧义类型分析及分布统计+_第3页
汉语短语结构定界歧义类型分析及分布统计+_第4页
汉语短语结构定界歧义类型分析及分布统计+_第5页
资源描述:

《汉语短语结构定界歧义类型分析及分布统计+》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、+汉语短语结构定界歧义类型分析及分布统计詹卫东*常宝宝**俞士汶***北京大学中文系北京100871**北京大学计算语言学研究所北京100871摘要本文对汉语短语结构的定界歧义做了全面考察,从歧义格式的组成成分,歧义对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计。希望能将计算机处理汉语时碰到的短语结构边界歧义问题进一步清晰化,供理论研究者和应用系统开发人员参考。关键词短语短语定界歧义自然语言处理一引言计算机处理汉语会在不同

2、层次上遭遇多种歧义问题。本文考察汉语短语结构的边界判定歧义,目的是使计算机处理汉语的短语结构定界问题进一步清晰化。全文分两大部分。第一部分分析汉语短语结构定界歧义的不同类型。本文对短语结构定界歧义的考察从抽象的句法格式入手,而不是从语言中具体的歧义实例开始。对有定界歧义的排列式,我们选择了这样三个考察角度。(I)考察其中组成成分有何特征;(II)考察不同的定界方式造成的对外影响;(III)考察抽象的格式歧义和具体的实例歧义的对应关系;本文在阐述对汉语短语结构不同类型的歧义的认识时,理论基础是短语(词组)本位

3、语法体系[文献1,2,14],同时参考了前人有关汉语歧义现象的研究[文献3,4,5,6,7,8],用到的短语功能分类体系及短语功能标记可参阅文献[11,12,14,15]。这里必须强调的是,本文涉及的汉语短语结构定界歧义现象,仅仅在观察视角和表述上是以词组本位语法体系为理论背景的,而歧义问题本身,跟具体采用什么语法体系以及基于何种短语标记体系来描述是无关的。不管基于何种语法理论,在中文信息处理的一定阶段,都必然会遭遇到本文所谈到的这些汉语短语结构定界歧义现象。本文第二部分在对具体歧义格式的理论分析基础上,结

4、合开发汉英机器翻译系统的实践经验,进一步对汉语中可能造成结构定界歧义的三成分排列式进行了统计分析,给出了汉语短语结构定界歧义排列格式的分布。希望这部分内容能为研究人员全面把握汉语短语结构定界歧义格式提供参考。以下第二到第四节是第一部分内容,第五节是第二部分,最后是结语。二包含终结符的歧义格式与不包含终结符的歧义格式2.1包含终结符的歧义格式看两个歧义格式的例子。(1)mpnpu<的>np;(2)vpu<的>npc<和>np+本文研究工作得到国家“863”项目(编号863-306-03-06-2)基金资助。作

5、者在跟中科院计算所二室刘群副研究员的讨论中获益良多,特此致谢。这两个排列式的组成成分中都含有终结符,如“的”、“和”(本文终结符指汉语中的词),同时这两个格式的结构边界都是有歧义的,即(1)、(2)都可以有两种组合方式:1a.[mp[npu<的>np]];2a.[vp的[np和np]]1b.[[mpnpu<的>]np];2b.[[vp的np]和np]而且,这两种组合方式在汉语中都能找到实例。如:1A.[一张[电影院的海报]];2A.[捐赠的[时间和地点]1B.[[一家电影院的]经理];2B.[[倒塌的房子]

6、和难民]2.2不包含终结符的歧义格式看两个歧义格式的例子。(3)npnpnp;(4)npvpnp跟(1)、(2)不同,(3)、(4)中都不含终结符。不过这两个排列格式也都是有边界歧义的。它们都至少有下面这两种组合方式:3a.[np[npnp]];4a.[np[vpnp]]3b.[[npnp]np];4b.[[npvp]np]上述不同的组合方式,也都可以在汉语中找到实例。如:3A.[公司[项目经理]];4A.[老师[辅导学生]]3B.[[羊皮领子]大衣];4B.[[电器修理]教材]2.3说明包含终结符还是不含

7、终结符,只是在考察有结构边界歧义的排列格式的组成成分特征时,得到的一种区分结果。从这个角度考察歧义格式,也可考虑其他的区分标准,比如以排列式中包含np还是不含np来作区分,这可以作为二级分类标准进一步把上面两类歧义格式区分出更多的小类来。本文以是否包含终结符作为首选区分标准,主要有两方面的考虑,一是认为形式上非常明显。跟汉语的“的”、“和”等特定虚词相关的结构边界歧义问题一向很突出(常有人跟英语的pp-attachment歧义相提并论),特别强调一下也不为过。至少可以促使对短语结构定界歧义的研究目标相对更集

8、中一些。二是一般有“的”、“和”这样的终结符参与造成的定界歧义,通常都要针对三项以上的排列格式(比如上面例1、2,歧义格式内部分别包含了四项和五项成分),才容易显出歧义来。而仅由非终结符参与形成的歧义,三项以内就可以清楚地显示出定界歧义问题了(见下文例子)。另外需要说明的是,要解决这些格式的定界歧义问题,无论包含终结符与否,最终都是要把短语结构之间的组合关系和条件研究清楚(通常是就两项短语成分组合如np+vp等进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。