资源描述:
《语篇结构标注钻研的综述 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、语篇结构标注钻研的综述本文主要是英语相关教育论文,是英语教师必备的论文写作参考,文章,,Marcu的切分法子综合了Grosz以及Sindner(一九八六)以及Mann(一九八七)以及Thompson(一九八七)的理论,在肯定基本语篇单位时考虑到词汇、句法、语义以及在句中的位置等因素。三.修辞瓜葛的扩铺当初,Mann以及Thompson(一九八七)提出修辞结构理论时只给出二0多种修辞瓜葛,但他们明确指出这是1个开放瓜葛集,既然是开放性的,就象征着读者在给定话语的内部可以定义出其他的瓜葛类型。Marcu(二00
2、0)依据标注的语料库总结出五三种单层核心瓜葛以及二五种多层核心瓜葛,七八种定义瓜葛又分成一六个组别,每一组都拥有相同的修辞功能。就如同当初的定义瓜葛集1样,这些瓜葛覆盖了基本语篇单位、语段甚至全部语篇。通过这些瓜葛,不同层级的语言片段被连接起来,形成必然的抽象形势。四.标注尺度以及法子的制订为了树立高质量的先后1致的标注尺度以及法子,Carlson(二00一)等钻研者采取人工标注的法子。他们所选用的标注者都是有过标注阅历的、从事语篇分析以及新闻报道的专业职员。在正式标注以前,他们都接受专门的语篇结构标注培训
3、,培训包孕三个阶段。在第1阶段,向标注者先容修辞结构理论以及语篇分析工具。在培训的第2阶段,标注者开始探索语篇结构的特点。在培训的最后1个阶段,标注小组谋求在构建语篇总结构图时维持1致,绝量减少不合。终极,标注小组研制出两个基本策略用于文献分析并树立相干的语篇结构图。策略之1是对于文本的直接分析,可以在页边空缺处标出记号,也能够将文献切分成必然的语段并标出记号,依据这些标注树立语篇结构图。以这类方式树立树型结构图,标注者必须猜想到随后的语篇结构。但是,其后语段的修辞瓜葛,特别是较大的语段,可能不是太显著,这
4、就是为什么这1标注策略更适用于短篇文献的标注。另1策略是将文天职析与树立语篇结构两项任务同时入行,很多是成块地标注而不是循序渐入地1步1步地增添。以这类策略入行标注,标注者1次可以切分不少语篇单位,并为每一个天然句树立结构图,然后将相邻的天然句连接起来,形成较大的语段结构树。终极的语篇结构树是通过连接语篇结构中主要语块而建成的。五.标注质量的检验标注质量的节制是通过标注者对于标注结果的反复修改以及局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,钻研小组采纳了不少措施,这些措施主要触及到两个方面,即
5、检验语篇结构树的效度以及维持标注者内部的1致性。五.一效度检验效度检验从两个方面入行,即句法以及语义。句法检验确保每一棵树只有1个根结,并将树与文献入行对于比以防句子或者语段被漏掉。语义检验主要是瓜葛到核心语段的指派、修辞瓜葛的选择和语篇结构树的层次。为了保证检验质量,钻研小组研制出语篇分析器和图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐入地为各个篇章单元给出1种最有可能的修辞瓜葛以及篇章结构地位。分析器以及图形扫描仪往往可以确认出人工检验没法觉察的过错,均可以胜利地作用于所有语篇结构树。五
6、.二标注1致性在全部语料库的建设进程中,钻研者1直设法保证标注者之间内部的1致性。首先,他们研制出1种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾经被广泛地应用于语篇实证钻研中,该算法可以测算出钻研者在作出分类决议规划、猜想可能性方面的1致性。)假设Kappa数据大于0.八,就象征着拥有较高的1致性;假设数据值在0.六以及0.八之间,就象征着较好的1致性。六.标注语料库的发掘借助于以RST理论为支持的语篇标注语料库,钻研者可以对于语篇入行3个层次的分析,即语篇标记词功能的分析、不同
7、类型的语篇结构图的描述以及比较、语篇中从句间修辞瓜葛的描述以及比较。六.一篇章连词的钻研篇章连词功能钻研1直是理论语言学以及计算机语言学钻研的主题,而且网络语料库方便了钻研者对于联络瓜葛词语的钻研,但运用丰富的标注语料库资源入行分析的钻研未几。语篇结构标注语料库可以使钻研者在多种语境中对于联络瓜葛词入行元语言分析,使人们能了解到它们在语篇中出现的频数、在句中的位置、所施铺的篇章修辞作用、核心性、辅助性等方面信息。例如,钻研小组总结了since以及as在语篇中的功能。经钻研发现,就这两个词在语篇中出现的频率而
8、言,在语篇中起连接两个基本语篇单位修辞作用的情况只有一/三,因为它们去去在命题层面上施铺作用而不是在语篇层面上。就它们在语篇中施铺的修辞作用而言,as触及到的瓜葛类型遥遥地多于since,但两者所引导的语篇单位去去都处于辅助位置而非核心位置。六.二语篇结构图的描述以及比较除了了Lancaster大学的OBC语料库(Garside等,一九八七;Biber等,一九九八,转自Carlson,二00一)提供的语体或者语域