汉语复句关系自动判定研究

汉语复句关系自动判定研究

ID:36804701

大小:2.81 MB

页数:59页

时间:2019-05-15

汉语复句关系自动判定研究_第1页
汉语复句关系自动判定研究_第2页
汉语复句关系自动判定研究_第3页
汉语复句关系自动判定研究_第4页
汉语复句关系自动判定研究_第5页
资源描述:

《汉语复句关系自动判定研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要中文信息处理已经完成了字处理,较好地解决了词处理,正在向句处理阶段迈进。汉语复句作为一种语法实体,上连分句,下连篇章,在分句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面属性。然而,由于复句本身所具有的复杂且特殊结构,使得复旬成为句处理中的一大亟待解决的难点。目前,对于复句的计算机处理研究不多见。汉语句子从结构上可以划分为单旬和复句两大类。对于单句的研究主要侧重于句子成分以及成分之间关系的分析;对于复句来说则不仅仅是停留在成分分析这一层次上,还需要深入考察复句的直接构成单位—一‘分

2、句”之间的内在联系。因此,本文在充分研究了复句的定义、单复句的差异以及复句分类等知识点的基础上,提出了“分而治之”的策略——首先实现复句的切分,然后在此基础上进一步实现复句关系的自动判定。本文的研究内容主要包括两个部分:第一部分是实现复句的切分。通过确定逗号的功能,来判定复句的切分点,将复句准确地划分为分句的有序集合;第二部分是复句关系的自动判定。对于分句间隐含的逻辑语义关系,我们通过充分挖掘句中所包含的词汇、词性的内在联系,最大化地利用句中存在的关联词语的指示作用,最终较好地实现了复句关系的自动判定。根据上述

3、每一部分研究内容的特点,我们又分别选取了最佳的统计模型:支持向量机(SVM)和条件随机场(CRF)。为了使模型获得较好的分类精度,通过观察、分析大量相关的语言现象,将语言学本体知识融入到统计模型中,从而实现了模型的最优化。。实验所使用的语料为TCT973树库(TsinghuaChineseTreebank)。该树库目前已有100万汉字的规模。最终,各项实验的开放测试和封闭测试都取得了理想的效果。从分步实验来看,复句切分获得84.70%的正确率,复句关系的自动判定正确率最高达到94.86%:综合实验也达到了83.

4、26%的正确率(以上报告的均为开放测试结果)。随着特征的改进以及关联词语标注信息的增多,系统有望取得更加好的判定效果。关键词:复旬关系;复句切分;支持向量机;条件随机场;句法分析AbstractChineseinformationprocessinghasalreadyfinishedcharacterprocessingstage,andhasalsosolvedwordprocessingproblemwell.Nowitismarchingtothestageofsentenceprocessing.As

5、asortofgrammarentity,complexsentenceconnectsclauseasitsdownlevelandconnectsparagraphasitsuplevel.Ithasagoodlinkingupfunctionbetweenclauseandparagraph,anditalsohavemanypropertiesinaspectsofgrammas、semanticsandpragmatics.Complexsentencehascomplexandspecialstru

6、ctureofits’own,SOitbecomesanurgentprobleminsentenceprocessing.Atpresent,fewstudiesdedicatetocomputerprocessingofcomplexsentence.ChinesesentenceCanbedividedintotwoclassesofsimplesentenceandcomplexsentencebystructure.Researchtothesimplesentencemainlylayspartic

7、ularemphasisontheanalysisofthesentencecompositionandrelationbetweencompositions;thisisnotenoughtocomplexsentence,furtherinvestigationonrelationsofclauseswhichiSdirectbaseunitsofcomplexsentenceisneeded.Therefore,researchingonthebasisofdefinitionofcomplexsente

8、nce、differencesbetweensimplesentenceandcomplexsentence,andclassificationofcomplexsentence,thispaperproposesstrategyof‘divideandrule”,itmeanstorealizesegmentationofcomplexsentencefirst,thenbaseon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。