基于向量空间模型的本地搜索引擎的设计与实现

基于向量空间模型的本地搜索引擎的设计与实现

ID:35062589

大小:6.99 MB

页数:84页

时间:2019-03-17

基于向量空间模型的本地搜索引擎的设计与实现_第1页
基于向量空间模型的本地搜索引擎的设计与实现_第2页
基于向量空间模型的本地搜索引擎的设计与实现_第3页
基于向量空间模型的本地搜索引擎的设计与实现_第4页
基于向量空间模型的本地搜索引擎的设计与实现_第5页
资源描述:

《基于向量空间模型的本地搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP311.5单位代码0183;1研究生学号;201353H452密级;公开_t參古林大学硕女学位论义(专业聲位)基于向量空间模型的本地搜索引擎的设计与实现Designandimplementationofbasedonvectorspacemodeloflocalsearchengine作者姓名:毛晓刚类别:工程硕±领域巧向):软件工程携导教师:刘阳教授培养单位:软件学晓2016年6月未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本

2、论文的全部或部分内容进巧任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学博±(或硕壬)学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容夕h本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中y*明确方式标明。。本人完全意识到本声明的法律结果由本人承担学位论文作者签名:曰期(;2016年/月曰基于向量空间模型的本地搜索引擎

3、的设计与实现Designandimplementationofbasedonvectorspacemodeloflocalsearchengine作者姓名:毛晓刚领域(方向):软件工程指导教师:刘阳教授类别:在职工程硕士答辩日期:2016年5月15日摘要近一个世纪,随着人类的知识以前所未有的速度急剧膨胀,信息存储的数量越来越大,文件格式也越来越丰富。普通个人计算机往往都包含数百GB、甚至数TB的数据。要求用户从其中筛选出感兴趣的目标文档,往往需要付出大量的时间成本。在大量的、异构的数据中进行快速、准确的信息检索显然已成为迫切的需求。目前大多数通用操作系统,面对文件系统中相互嵌套、关联

4、的文件和文件夹,除了提供资源管理器让用户人工翻阅查找外,一般都还会提供一种基于文件名匹配的简易查询工具,通过遍历文件或文件夹的路径实现文件检索。这种仅根据字符串匹配原理的查询方式,因为没有参考文件正文中所包含的大量有用信息,使得大量相关的、有价值的文档难以被发掘。在实际使用中,尤其对于一些没有良好文件管理习惯的用户来说,效果很不理想。本文应用基于传统的向量空间模型的多层向量空间模型,并改进了其定义的权重计算方法,同时还加入了基于用户点击行为的相关反馈技术和基于同义词词典的查询语义扩展技术。利用这些技术实现了本地磁盘上异构化文件的全文实时信息检索服务核心系统。然后在该核心系统的基础上,

5、基于WebSocket通信协议制定了该系统的控制命令协议,实现了该系统的本地脱机和异地联机检索。目前,该系统已经过多次测试,并已经投入使用,取得了不错的效果。本文主要介绍了该信息检索系统的具体设计和实现方法。特别I是改进了多层向量空间模型的权重计算方法,并在贝叶斯估计投票排名算法基础之上,引入了基于用户点击行为的相关反馈技术。另外本文在查询语义扩展技术、以及利用VSM在异构的、动态的数据环境下中进行信息检索的具体方法等方面也做出了较为深入的研究和实现。最后,本文还尝试分析和说明了多层向量空间模型的效果、性能及改进方向。关键词:信息检索;实时信息检索;异构信息检索;向量空间模型;语义扩

6、展IIAbstractInrecentonecentury,theamountofinformationstorageisexpandingatarapidpaceandtheformatoffilesisgettingrichersincethehumanknowledgeswellingatanunprecedentedspeed.OrdinaryPCoftencontainhundredsofGBorevenseveralTBofdata.Itisusualforusertospendalotoftimesearchingforthefileswhichtheyareinter

7、estedin.Rapidandaccurateinformationretrievalinlargeandheterogeneousdatahasapparentlybecomeanurgentdemand.Atpresent,facedwithmutualnesting,associatedfilesandfoldersinthefilesystem,mostofthegeneraloperatingsystemsprovideaquerytoolba

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。