欢迎来到天天文库
浏览记录
ID:37347489
大小:7.53 MB
页数:59页
时间:2019-05-22
《基于双分词器的医疗类网站站内搜索研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterTheResearchandImplementationonTheMedicalSiteIn-siteSearchEngineBasingonDoubleTokenizersBy:Zhong—yuanYaoSupervisor:Prof.ZongminWangComputerAppliedTechnologySchooIofInformationEngineeringApril2014原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独
2、立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者d啦斗j§\眺洲年}月岁日学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本
3、学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者拙丰瓦蹶抄cV年咋月砂日摘要站内搜索引擎技术是搜索引擎技术的一个重要分支,专门适用于医疗信息类网站的站内搜索引擎可以帮助医生和患者更加快捷方便的查找和定位信息,同时,针对适用于医疗信息类网站站内搜索性能指标需要更高于通用搜索引擎的特点,本文研究设计并实现一个适用于医疗信息类网站的基于双分词器的站内搜索系统具有一定的研究价值和实用价值。本文开篇介绍了研究的背景和意义,并随后介绍了站内搜索的相关知识及一般构建站内搜索引
4、擎的几种方式。通过对比分析,选择使用通用搜索引擎技术来解决适用于医疗信息类网站的站内搜索问题。紧接着,进一步介绍了通用搜索引擎及通用搜索中的关键技术。然后,介绍了几种用户搭建通用搜索引擎的两种方式,并通过对比分析,选择了使用开源全文搜索引擎框架Nutch来二次开发实现适用于医疗信息类网站站内搜索引擎。基于以上的研究和分析,本文主要做了以下两分面的工作:首先,本文根据医疗服务类网站站内最重要信息基本与医生和疾病及症状相关的特点,以及用户访问此类网站查询信息时输入查询条件基本是医生与疾病症状关键字的结合的查询习惯,在对开源搜索引擎框架Nutch进行了定制和二次开发的
5、基础上,针对通用站内搜索无法正确处理错别字查询条件、拼音查询条件以及在通用站内搜索中排序合理性较差等问题,提出了一种基于双分词器的医疗类网站站内搜索模型。该模型将Nutch默认中文分词器替换为基于字典库的庖丁分词器(Paoding—Tokenizer)并扩展其字典库,同时嵌入另一个拥有特殊字典的自己编写的分词器,并且利用这个特殊分词器来处理几乎全部的用户输入,切分出输入中的医生姓名和疾病及症状名称关键字,并忽略其他的无关信息,仅将这些关键字提交给索引器去检索索引库。其次,本文对基于双分词的站内搜索模型和单分词器的传统站内搜索模型进行了详细的对比实验,实验内容不仅
6、包括常规的查询时间、查准率、排序合理性参数等搜索引擎性能指标,还详细分析了不同类别关键词组成的长查询语句在两种站内搜索引擎模型下的性能表现,从而得出基于双分词器的站内搜索模型在长查询语句条件下相比传统单分词器搜索模型在搜索引擎性能指标上表摘要现的更有优势。除此之外,对基于双分词的站内搜索模型是否可以正确理解拼音查询和由拼音引起的错别字查询进行了实验分析,实验表明该站内搜索系统是可以对上述两类查询进行正确的处理的。关键词:医疗类网站站内搜索双分词器结构拼音检索搜索排序AbstractTheiIl—sitesearchtechnologyisaveryimporta
7、ntbranchoftheuniversalsearchenginetechnologies,anin-sitesearchengine,whichisusedonlyforthemedicalinformationservicewebsite,isanecessityforuserS,notonlydoctorsbutalsopatients,tofmdandidentifytheneededinformationquicklyandconveniently.Atthesametime,anin-sitesearchengine,usinginthemedic
8、alinformatio
此文档下载收益归作者所有