汉语篇章连接词识别与分类

汉语篇章连接词识别与分类

ID:37699790

大小:514.37 KB

页数:8页

时间:2019-05-29

汉语篇章连接词识别与分类_第1页
汉语篇章连接词识别与分类_第2页
汉语篇章连接词识别与分类_第3页
汉语篇章连接词识别与分类_第4页
汉语篇章连接词识别与分类_第5页
资源描述:

《汉语篇章连接词识别与分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京大学学报(自然科学版)第51卷第2期2015年3月ActaScientiarumNaturaliurnU『niversitatisPekinensis,Vo1.51,No.2(Mar.2015)doi:10.13209~.0479-8023.2015.029汉语篇章连接词识别与分类李艳翠,孙静周国栋,十1.苏州大学计算机科学与技术学院,苏州215006;2.河南科技学院信息工程学院,新乡453003干通信作者,E-mail:gdzhou@suda.edu.cn摘要基于白建的汉语篇章结构语料库以及语料库中连接词和连接

2、词关系类别的标注,抽取自动句法树和标准句法树的句法、词法和位置特征,利用有监督的方法进行连接词识别和分类。实验结果表明,连接词识别的F1值为69.2%,连接词自动识别并分类的总正确率为89.1%。关键词连接词识~Jml;连接词分类;汉语篇章中图分类号TP391AutomaticRecognitionandClassificati0nonChineseDiscourseConnectiveLIYancui1,一SUNJing,ZHOUGuodong1'十,1.DepartmentofComputerScienceandT

3、echnology,SoochowUniversity,Suzhou215006;2.SchoolofInformationEngineering,HenanInstituteofScienceandTechnology,Xinxiang453003十Correspondingauthor,E—mail:gdzhou@suda.edu.cnAbstractBasedontheannotationofdiscourseconnectiveinChineseDiscourseTreebank,especiallythean

4、notationoftheconnectiveanditsrelationclassification.Theauthorsextractsyntax,lexicalandpositionfeaturesofautomaticsyntaxtreeandstandardsyntaxtree,andusesupervisedmethodtorecognizeandclassifyconnective.ExperimentalresultsshowthatconnectiverecognitionF1一measureis69

5、.2%.andconnectiveclassificationaccuracyiS89.1%.Keywordsconnectiverecognition;connectiveclassification;Chinesediscourse自然语言的单位由小到大可以分为词、短语、是近几年的研究热点和难点。篇章结构分析在自动句子和段落,最后形成篇章(Discourse)。篇章有时文摘[”、问答系统[、指代消解引、篇章连贯性评也称语篇或话语,指一系列连续的子句、句子或语价【4】等方面都有所应用。段构成的语言整体单位。篇章不是语

6、言成分的无序在汉语篇章中,篇章关系是指同一篇章内部,堆砌,每个篇章不仅具有内部连贯性,而且篇章中句子之间或子句之间的语义连接关系,如条件关的各级单位是描述同一个问题或同一种情境的一个系、转折关系、因果关系等[51,连接词主要指连接相对完整的语言整体。在一个篇章中,子句、句子不同单位并表示这种语义关系的词语。连接词在句或语段间具有一定的层次结构和语义关系,只有分子中一般不充当句法成分,没有修饰和限定作用,析出其中的层次结构及语义关系,才能对篇章有一一般是表示连接作用的连词、关联词以及其他与之个总体把握。篇章结构分析就是分

7、析出篇章的层次有同等关系作用的语言单位。本文所述的篇章连接结构及语义关系,是自然语言处理的核心问题,也词不限于现代汉语】中的连词,只要对句子和语段863计~IJ(2012AA011102)、国家自然科学基金(61273320)和河南省教育厅科学技术研究重点项目(14A520080)资助收稿日期:2014—06—29;修回日期:2014—10-28;网络出版日期:2014-12-01307北京大学学报(自然科学版)第51卷第2期2015年3月起连接作用,能恰当表示句子之间或子句之间关系注的分句有2073个,分句的正确标注

8、率达69.1%。的语言单位均可称为连接词。如例1中的“因此”、文献【11]结合词性标记和关系词搭配理论,提出正“对此”、“不是⋯⋯而是”、“使”和“正因为”都是连向选择算法提取关系词,测试结果表明,关系词提接词,例句中字母引导基本篇章单位,’的个数表取的正确率达89.8%。并非复句中出现的关系标记示基本篇章单位层次。都是关系词,文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。