浅论语篇结构标注研究的综述.doc

浅论语篇结构标注研究的综述.doc

ID:57905268

大小:69.50 KB

页数:4页

时间:2020-04-03

浅论语篇结构标注研究的综述.doc_第1页
浅论语篇结构标注研究的综述.doc_第2页
浅论语篇结构标注研究的综述.doc_第3页
浅论语篇结构标注研究的综述.doc_第4页
资源描述:

《浅论语篇结构标注研究的综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、论文摘要:语篇结构标注起步校晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注授近取得了令人陋日的成绩。目前,己经建成并公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章纽成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。语料库建设的主要成就为:确立了如何将语篇切分为基木语篇单位的理论,扩展了修辞关系集,为RST理论的运用提供了广阔的前景。木文综述该语料库建设的研究成果。0.概述随着计算机技术的普及和发展,语料为机器可读成为语料库建设的最基木的

2、要求乙一。要达到语料机读化这一目的,关键在于语料的标注。所谓标注,就是对语料库屮的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便计算机的识读。语料标注的类型主要包括语篇背累信息、词性、词形、句法分析、语义、语篇结构等。从当前的研究现状来看,虽然语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人嘱目的成绩。目前,已经建成并已公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多

3、层语言学标注信息的参照篇章语料库。在这基础上研究小纽•还进行了自动篇章标注算法、自动文摘、机器翻译等具体应用工程方面的研究。该参照篇章语料库的建成不但为篇章结构标注建立了理论体系,而且为语篇结构的应用研究开辟了新的领域。木文将综述该参照篇章语料库建设的研究成果。1.理论支撑的建立根据Carlson(2001)的介绍,用于话语分析的理论有很多,如Groz和Sidner仃986)Mtmn和Thompson(1987)等都提岀了白己的篇章分析理论,但这些理论主要用于单个的文木分析,往往着眼于语篇的某一个方曲,如指代关

4、系、语篇的风格、语篇的多维性以及某一理论在语篇屮的体现等,很少被用于大规模的语料分析或语料标注。在建立参照语料库时,Carlson(2001)等研究者将Mann和Thompson(1987)提出的修辞结构理论(RST)用于大批量的语篇标注和语篇分析。他们认为用修辞结构理论(RST)对语篇进行标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文木木身的特征;先前的研究表明该理论可以使不同的标注者在标注不同的文木时达到一定的统一;川该理论标注的语篇树形图对构建自然语篇生成系统、白动文摘系统、文本测评系统起

5、看关键的作川,也可以川來增强机器翻译的自然性。参照篇章语料库的建成确立了篇章结构标注的理论基础。2.基木语篇单位的确定语篇结构标注的另一成就是确定了英语基木语篇单位。在确定基木语篇单位时,不同的研究者往往运用不同的理论oGivon仃983)认为从句应该成为语篇的基木单位,Sacks(1974)认为谈话的话轮应该成为语篇的基木单位,Polanyi(1988)坚持语篇应该以白然句为切分单位,Grosz和Sindner(1986)认为语篇的基木单位应该从语篇的上下文屮获取,它是由一定的符号所反映的信息载体,能反映事物

6、的单个状态或部分状态,最有影响的修辞结构理论认为从句应该是语篇的基木单位,不管从句有没有语法标记或词汇标记。然而,在具体标注时,Marcu等研究者对基木语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都屈于基木语篇单位,包括起状语作川的非谓语动词词纽;充当主语、宾语、补语的从句不属于基木语篇单位;定语从句、后置的名词修饰短语或将其他基木语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语篇标记的短语作为基本语篇单位,如由inspiteof(尽管),accordingt

7、o(根据)等引导的短语。Marcu的切分方法综合了Grosz和Sindner仃986)和Menn仃987)和Thompson仃987)的理论,在确定基木语篇单位时考虑到词汇、句法、语义和在句屮的位置等因素。1.修辞关系的扩展当初,Mann和Thompson(1987)提出修辞结构理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义岀其他的关系类型。Mdrcu(2000)根据标注的语料库总结出53种单层核心关系和25种多层核心关系,78种定义关系又分

8、成16个组别,每槎季哂邢嗤男薮枪§M?BR>就如同当初的定义关系集一样,这些关系覆盖了基木语篇单位、语段乃至蕖个语篇。通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。2.标注标准和方法的制沱为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人T•标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注Z

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。