欢迎来到天天文库
浏览记录
ID:35057981
大小:4.34 MB
页数:81页
时间:2019-03-17
《基于nutch的医学信息搜索推荐系统研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、朵击如成*葦硕±学位论文MASTERTHESIS?痛咖讓学科专业计算机应用技术学号誦誦匪…作者姓名杨锁榜指导教师陈霜靈教授'.■"■-:I:;*."I.??!;I独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作LA及取得的研究成果。据我所知,除了文中特别加J标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文
2、中作了明确的说明并表示谢意。作者签名;柄始带日期;1〇16年^月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阀。本人授权电子科技大学可将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:^导师签名:7兼请遂曰期:16^年^月^曰分类号密级注1UDC学位论文基于Nutch的医学信息搜索推荐系统研究与应用(题名和副题
3、名)杨钡榜(作者姓名)指导教师陈雷霆教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机应用技术提交论文日期2016.3.28论文答辩日期2016.5.19学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。ResearchAndApplicationOfSearchRecommendationSystemForMedicalInformationBasedOnNutchAMasterThesisSubmittedtoUniversityofElectronicScienceandTechno
4、logyofChinaMajor:ComputerApplicationTechnologyAuthor:YangBeibangSupervisor:Prof.ChenLeitingSchool:SchoolofComputerScience&Engineering摘要摘要随着互联网技术快速发展,医学行业大量的文献资料、数据库等资源被分享到互联网上,而这些资源需要通过搜索引擎进行搜索才能找到。通用的搜索引擎使用人群较广,覆盖领域较宽,虽然在用户查询的时候也会给出推荐词,但是这些推荐词都是跟查询词语义相关的词。实际上搜索不仅是找到用户查询词语义相关的信息,而且要满足用户
5、多方面的搜索意图。查询推荐技术会提供更加准确的推荐词,帮助用户确定搜索意图,提高搜索的准确度。本文的工作主要有以下三个方面:(1)基于改进LDA主题模型的查询推荐。传统方式通过词语重复度来判断两篇文档是否相关,从而给出相关的推荐词,无法了解到文字背后隐含的关联关系。主题表示为一个概念或者一个方面,由一系列相关词语组成。LDA主题模型是一种效果较好的语义挖掘模型,其克服了向量空间模型的不足,但是医学信息中存在大量无法过滤的高频词,例如“口干”、“舌燥”等等,原始LDA主模型容易受到高频词的影响,导致主题间区分度较小,因此本文提出对LDA主题模型进行高斯加权改进,实验表明
6、基于改进LDA主题模型的查询推荐算法在查全率、多样性等方面效果都好于原始LDA主题模型的查询推荐算法。(2)基于查询词语义和查询点击文档聚类的查询推荐。分析用户搜索日志可知,用户在搜索医学信息时使用的查询词重复率远远高于其他信息,用户关注点较为集中,大部分人点击的网页集中在热点领域,例如医疗、健康、疾病等等,因此计算查询词相似度需要考虑查询词的语义和点击的文档内容这两方面因素的影响。根据医学信息上述特点,本文提出了一种新的查询词相似度计算方法,它线性组合了查询词语义相似度和查询点击文档内容相似度。层次聚类划分的类簇效果较好,但运算复杂度较大,因此本文提出改进的层次聚类
7、,对类簇间的相似度预先排序,从而达到降低算法的计算复杂度。不同与传统基于相似度排名的推荐策略,采用基于模型的推荐策略,从多个与用户查询词相似度较高的候选类簇中,按照预定的规则选取推荐词,然后按照相似度大小排序返回给用户推荐词。(3)系统设计与实现。本文实现了一个分层的查询推荐系统,系统划分为展示层、业务层、数据层,每层有多个模块组成,采用分层架构便于系统的扩展。关键词:推荐词,查询推荐,医学信息,相关推荐,搜索推荐IABSTRACTABSTRACTWiththerapiddevelopmentofinternettechnology,alargenu
此文档下载收益归作者所有