欢迎来到天天文库
浏览记录
ID:36804522
大小:2.62 MB
页数:51页
时间:2019-05-15
《面向患者需求的医学搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着互联网的快速发展,网络上信息量越来越大,人们对某一专业领域的信息需求越来越难以得到满足,主题搜索引擎应运而生,它可以帮助人们获得某一领域更准确有效的信息。本文的目的是提出一种面向患者需求的医学搜索引擎的设计思想,在运用用户建模技术及主题爬虫设计基础上,通过对开源搜索引擎Nutch相关模块进行修改,初步完成搜索引擎的构建。论文首先对通用搜索引擎和主题搜索引擎的发展以及用户需求的建模技术进行介绍o,接着详细介绍了主题搜索引擎的架构以及开源搜索引擎Nutch的工作原理,并对主题搜索引擎的核心主题爬虫的爬行策略技术进行研究;之后对应用于网页文档处理及分类的文本自动分类技术
2、和中文分词技术进行了介绍。在课题的核心用户需求模型构建部分,首先提出一种改进的文本特征提取方法,接着通过引入多领域需求和遗忘因子设计出智能多领域用户需求模型,并将其应用于检索结果的匹配。随后本文重点介绍了中文分词和主题爬虫设计模块,并实现了面向患者需求的医学搜索引擎的设计,接着对搜索引擎进行相关评价。最后,对本文所做的工作进行了总结,指出了课题需要进一步改进的方向。关键词:主题搜索用户需求建模文本特征提取Nutch_II—AbstractWiththerapiddevelopmentoftheInternetandincreasingoftheinformation,pe
3、ople’Sneedofaparticularareaisbecomingincreasinglydifficulttobemet.Topicsearchengineshowsupandithelpspeopletogetmoreaccurateandvaluableinformation.Thepurposeofthepaperistoproposeadesignideaofapatientdemandorientedmedicalsearchengine.Throughmodifyingrelatedmodulesofopen-sourcesearchengineNu
4、tchthesearchengineisbasicallycompletedbasedonthetechnologyofusermodelingandthedesignoftopiccrawler.Firstlythispaperintroducethedevelopmentofgeneralsearchengineandtopicsearchengine,andalsothetechnologyofuserdemandmodeling.ThenintroducethearchitectureoftopicsearchengineandhowNutchworksindet
5、ail,andresearchonthecoreoftopicsearchenginethatthecrawlstrategy,afterthewebpagetextprocessingandautomaticclassificationandalsoChinesewordsegmentationareintroduced.Inthepartofuserdemandmodelingwhichisthecoreofsubjectfirstlyproposedanimprovedtextfeatureextraction,thenthedesignofintelligentm
6、ulti·domainmodelofuserdemandwhichisusedinthesearchresultsmatchingbasedonmulti-domaindemandandforgetfactor.ThenthispapersubsequentlyfocusedonChinesesegmentationmoduleandtopiccrawlerdesignmodel,andimplementspatientdemandorientedmedicalsearchengine,thenevaluatethesearchresult.Finallysummariz
7、esthispaper’Sworkandpointsoutthedirectionofthesubject.Keywords:Topicsearch,usermodeling,textfeatureextraction,Nutch..III..浙江大学研究生学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝婆盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何
此文档下载收益归作者所有