欢迎来到天天文库
浏览记录
ID:35067038
大小:6.37 MB
页数:88页
时间:2019-03-17
《基于浅层语义分析的文本摘要方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、4击糾成*葦UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕:t学位沦文MASTERTHESIS尸.凉聲.尤/._如歧/u?^7.^漏\\讀谋.■■-■>:::::;:::;,:..,论文题目基于浅层语义分析的支本摘要方法妍究与实现…―—'……—…— ̄ ̄^学科专业计算机软件与理论——….■—.一"^^201321060238.巧;学号.化者姓名李宝程、指导敷师刘贵松副教授'?
2、.......V苗'■■?:'o...c;.■<:/'1?;Vr:?排聽議議議議独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,。据我所知除了文中特别加W标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我同王作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:殊雖日期:占年月么P日^Xw6论文使用授权了大有关
3、保留、使用学位论文本学位论文作者完全解电子科技学和磁盘,,有权保口构送交论文的复印件的规定留并向国家有关部或机1^全^将的论文被查阅和借阅。本人授权电子科技大学可学位论文允许入有关数据,、缩描或部分库进索可臥采用影印印或扫部内容编行检等复制手段保存、汇编学位论文。此)(保密的学位论文在解密后应遵守规定.玄/;;导师签名作者签名释f《:日年^日期月巧?分类号密级注1UDC学位论文基于浅层语义分析的文本摘要方法研究与实现李宝程指导教师刘贵松副教授电子科技大学成都申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.03论
4、文答辩日期2016.05学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。RESEARCHANDIMPLEMENTATIONOFAUTOMATICTEXTSUMMARIZATIONBASEDONSLIGHTSEMANTICAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerAppliedTechnologyAuthor:LiBaoChengAdvisor:AssociateProfessor
5、LiuGuiSongSchool:SchoolofComputerScience&Engineering摘要摘要当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。文本摘要是文本信息处理中的一个非常重要的组成部分。在实现方法上,本文使用的浅层语义特征区别于常用
6、的词语特征,研究的重点不再是可以观察到的构成文章的词语、句子等基本信息,而是隐藏在这些句子、词语背后,更深层次的语义信息,称之为主题特征。通过对文章主题特征的挖掘与分析,可以进一步得到主题-词语的关联,主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力,从而选择出能够完整表达文章主题的句子作为文本摘要。本文在详细阐述国内外研究现状的基础上,首先基于主题对句子关联度计算进行了针对性研究,提出一种新的衡量句子与句子相关性的方法,在语义层面,充分利用主题对文章的表达能力,基于主题在句子上的概率分布,使用相对熵来计算两个句子上主题概率分布的差异性来确定句子
7、相关度,同时将文本归结为三类内容,作为摘要提取的依据,并在NLPCC2015数据集上进行了实验验证。同时,论文基于主题和图模型改进了文本摘要算法。通过LDA模型挖掘出文本语义层面的主题特征,分析文本中词语和主题的对应关系,基于改进的图模型进行文本摘要,改进其以往的建边方式,使用主题关联来确定不同节点之间是否建边。并在DUC数据集上实验验证,其ROUGE分数在比较的几种算法中得分最高。最后,在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,可以通过
此文档下载收益归作者所有