欢迎来到天天文库
浏览记录
ID:36804701
大小:2.81 MB
页数:59页
时间:2019-05-15
《汉语复句关系自动判定研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文摘要中文信息处理已经完成了字处理,较好地解决了词处理,正在向句处理阶段迈进。汉语复句作为一种语法实体,上连分句,下连篇章,在分句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面属性。然而,由于复句本身所具有的复杂且特殊结构,使得复旬成为句处理中的一大亟待解决的难点。目前,对于复句的计算机处理研究不多见。汉语句子从结构上可以划分为单旬和复句两大类。对于单句的研究主要侧重于句子成分以及成分之间关系的分析;对于复句来说则不仅仅是停留在成分分析这一层次上,还需要深入考察复句的直接构成单位—一‘分
2、句”之间的内在联系。因此,本文在充分研究了复句的定义、单复句的差异以及复句分类等知识点的基础上,提出了“分而治之”的策略——首先实现复句的切分,然后在此基础上进一步实现复句关系的自动判定。本文的研究内容主要包括两个部分:第一部分是实现复句的切分。通过确定逗号的功能,来判定复句的切分点,将复句准确地划分为分句的有序集合;第二部分是复句关系的自动判定。对于分句间隐含的逻辑语义关系,我们通过充分挖掘句中所包含的词汇、词性的内在联系,最大化地利用句中存在的关联词语的指示作用,最终较好地实现了复句关系的自动判定。根据上述
3、每一部分研究内容的特点,我们又分别选取了最佳的统计模型:支持向量机(SVM)和条件随机场(CRF)。为了使模型获得较好的分类精度,通过观察、分析大量相关的语言现象,将语言学本体知识融入到统计模型中,从而实现了模型的最优化。。实验所使用的语料为TCT973树库(TsinghuaChineseTreebank)。该树库目前已有100万汉字的规模。最终,各项实验的开放测试和封闭测试都取得了理想的效果。从分步实验来看,复句切分获得84.70%的正确率,复句关系的自动判定正确率最高达到94.86%:综合实验也达到了83.
4、26%的正确率(以上报告的均为开放测试结果)。随着特征的改进以及关联词语标注信息的增多,系统有望取得更加好的判定效果。关键词:复旬关系;复句切分;支持向量机;条件随机场;句法分析AbstractChineseinformationprocessinghasalreadyfinishedcharacterprocessingstage,andhasalsosolvedwordprocessingproblemwell.Nowitismarchingtothestageofsentenceprocessing.As
5、asortofgrammarentity,complexsentenceconnectsclauseasitsdownlevelandconnectsparagraphasitsuplevel.Ithasagoodlinkingupfunctionbetweenclauseandparagraph,anditalsohavemanypropertiesinaspectsofgrammas、semanticsandpragmatics.Complexsentencehascomplexandspecialstru
6、ctureofits’own,SOitbecomesanurgentprobleminsentenceprocessing.Atpresent,fewstudiesdedicatetocomputerprocessingofcomplexsentence.ChinesesentenceCanbedividedintotwoclassesofsimplesentenceandcomplexsentencebystructure.Researchtothesimplesentencemainlylayspartic
7、ularemphasisontheanalysisofthesentencecompositionandrelationbetweencompositions;thisisnotenoughtocomplexsentence,furtherinvestigationonrelationsofclauseswhichiSdirectbaseunitsofcomplexsentenceisneeded.Therefore,researchingonthebasisofdefinitionofcomplexsente
8、nce、differencesbetweensimplesentenceandcomplexsentence,andclassificationofcomplexsentence,thispaperproposesstrategyof‘divideandrule”,itmeanstorealizesegmentationofcomplexsentencefirst,thenbaseon
此文档下载收益归作者所有