谈语篇结构标注研究的综述

谈语篇结构标注研究的综述

ID:26598494

大小:55.50 KB

页数:8页

时间:2018-11-27

谈语篇结构标注研究的综述_第1页
谈语篇结构标注研究的综述_第2页
谈语篇结构标注研究的综述_第3页
谈语篇结构标注研究的综述_第4页
谈语篇结构标注研究的综述_第5页
资源描述:

《谈语篇结构标注研究的综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、谈语篇结构标注研究的综述ok3pson(1987)等都提出了自己的篇章分析理论,但这些理论主要用于单个的文本分析,往往着眼于语篇的某一个方面,如指代关系、语篇的风格、语篇的多维性以及某一理论在语篇中的体现等,很少被用于大规模的语料分析或语料标注。在建立参照语料库时,Carlson(2001)等研究者将Mann和Thompson(1987)提出的修辞结构理论(RST)用于大批量的语篇标注和语篇分析。他们认为用修辞结构理论(RST)对语篇进行标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文本本身的特征;先前的研究表明该理论可以使不同的

2、标注者在标注不同的文本时达到一定的统一;用该理论标注的语篇树形图对构建自然语篇生成系统、自动文摘系统、文本测评系统起着关键的作用,也可以用来增强机器翻译的自然性。参照篇章语料库的建成确立了篇章结构标注的理论基础。2.基本语篇单位的确定语篇结构标注的另一成就是确定了英语基本语篇单位。在确定基本语篇单位时,不同的研究者往往运用不同的理论。Givon(1983)认为从句应该成为语篇的基本单位,Sacks(1974)认为谈话的话轮应该成为语篇的基本单位,Polanyi(1988)坚持语篇应该以自然句为切分单位,Grosz和Sindner(1986)认为

3、语篇的基本单位应该从语篇的上下文中获取,它是由一定的符号所反映的信息载体,能反映事物的单个状态或部分状态,最有影响的修辞结构理论认为从句应该是语篇的基本单位,不管从句有没有语法标记或词汇标记。然而,在具体标注时,Marcu等研究者对基本语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都属于基本语篇单位,包括起状语作用的非谓语动词词组;充当主语、宾语、补语的从句不属于基本语篇单位;定语从句、后置的名词修饰短语或将其他基本语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语篇标记的短语作为基本语篇单位,如

4、由inspiteof(尽管),accordingto(根据)等引导的短语。Marcu的切分方法综合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理论,在确定基本语篇单位时考虑到词汇、句法、语义和在句中的位置等因素。3.修辞关系的扩展当初,Mann和Thompson(1987)提出修辞结构理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义出其他的关系类型。Marcu(2000)根据标注的语料库总结出53种单层核心关系和25种多层核心关

5、系,78种定义关系又分成16个组别,每组都具有相同的修辞功能。就如同当初的定义关系集一样,这些关系覆盖了基本语篇单位、语段乃至整个语篇。通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。4.标注标准和方法的制定为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人工标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注之前,他们都接受专门的语篇结构标注培训,培训包括3个阶段。在第一阶段,向标注者介绍修辞结构理论和语篇分析工具。在培训的第二阶段,标注者开始探索语篇结

6、构的特征。在培训的最后一个阶段,标注小组谋求在构建语篇总结构图时保持一致,尽量减少分歧。最终,标注小组研制出两个基本策略用于文献分析并建立相关的语篇结构图。策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇结构图。以这种方式建立树型结构图,标注者必须预测到随后的语篇结构。然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。另一策略是将文本分析与建立语篇结构两项任务同时进行,很可能是成块地标注而不是循序渐进地一步一步地增加。以这

7、种策略进行标注,标注者一次可以切分很多语篇单位,并为每个自然句建立结构图,然后将相邻的自然句连接起来,构成较大的语段结构树。最终的语篇结构树是通过连接语篇结构中主要语块而建成的。5.标注质量的检验标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。5.1效度检验效度检验从两个方面进行,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。语义检验主要是关系到核

8、心语段的指派、修辞关系的选择以及语篇结构树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。