欢迎来到天天文库
浏览记录
ID:33804799
大小:1.59 MB
页数:62页
时间:2019-03-01
《基于本体作战文书分词关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonKeyTechnologiesinOntology-basedOperationDocumentsSegmentationCandidate:YangXiaodongSupervisor:Asso.Prof.LiuJunProf.ShaoGenfuDecember,2013杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外
2、,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作
3、者签名:日期:年月日指导教师签名:日期:年月日杭州电子科技大学硕士学位论文摘要随着“信息化”军事作战时代的到来,单纯人工处理海量的作战文书已经远远不能满足信息提取的快速性和正确性的要求,那么人们希望计算机能像人脑一样具有“逻辑思维”并且“理解”作战文书的内容。众所周知,作战文书是由连续的、没有分隔符的中文字符串组成的,而计算机理解功能的最底层处理单位是词,因此对作战文书进行分词是关键性技术,这一步骤处理的正确与否直接影响对作战文书的后续处理——词性标注、语法分析、关键信息提取、地图的态势标注等,甚至可以决定作战文书理解的成败。因此,对于作战文书的分词研究是一项重要的课题。本文针对作战文书的
4、记述特点,进行的主要研究工作和取得的成果如下:(1)详细介绍了中文分词理论和应用系统的发展历程,并论述了进行作战文书分词研究的重要性和必要性。(2)主要从基于单字和基于词的两种不同类别概述了汉语分词技术的理论研究,并且分析了应用在常见分词系统中的分词算法,通过分析,明确了歧义问题和新词识别是阻碍中文分词技术发展的两个关键问题。(3)鉴于作战文书的格式及其内容的多样性,引入具有语义关系的本体技术,利用OWL本体描述语言来描述本体,同时,采用斯坦福大学开发的Protégé软件来构建军事领域本体,用具有高度概括性和逻辑推理性的军事领域本体来代替传统的分词词典,从而实现概念的推理和共享。(4)提出
5、了一种基于本体的正向和逆向最大匹配的作战文书分词算法。首先,针对作战文书的类别及其自身特有的用词规范,构建了一系列的提取规则,包括日期、地名、部队名称和专有名词提取规则;第二,结合作战文书本体、提取规则、词典,分别利用正向和逆向最大匹配算法进行作战文书切分;第三,对切分过程中出现歧义的字段,利用军用领域本体的语义相关性和上下文相关度处理,最终得到一种合理的分词结果。(5)设计并实现了一个作战文书分词软件原型系统。该系统主要包括三个模块:预处理模块、分词模块和歧义合成模块。基于评估分词的指标,对比分析了本分词系统与中科院的分词系统ICTCLAS、哈工大的分词系统的分词结果,验证说明了本文方法
6、对于作战文书分词具有较好的效果。关键词:作战文书分词,军事领域本体,歧义处理,语义相关性I杭州电子科技大学硕士学位论文ABSTRACTWiththeadventof"information"eraofmilitaryoperations,handlingmassiveoperationdocumentsmerelywithmanualhandingcannotmeettherequirementsofextractinginformationquicklyandcorrectly.Onlyifacomputercanunderstandthecontentofaoperationdocum
7、entswitha“logicalthinking”maythisproblembesolved.SinceoperationdocumentsconsistofcontinuousChinesestringswithoutanyseparatorwhilecomputercannotunderstandthecontentasitsbasicproceedingunitisaword,ChinesewordSegmen
此文档下载收益归作者所有