探索基于web文档理解的倒排全文索引研究与实现

探索基于web文档理解的倒排全文索引研究与实现

ID:35189654

大小:3.13 MB

页数:66页

时间:2019-03-21

探索基于web文档理解的倒排全文索引研究与实现_第1页
探索基于web文档理解的倒排全文索引研究与实现_第2页
探索基于web文档理解的倒排全文索引研究与实现_第3页
探索基于web文档理解的倒排全文索引研究与实现_第4页
探索基于web文档理解的倒排全文索引研究与实现_第5页
资源描述:

《探索基于web文档理解的倒排全文索引研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:公开学号:2007204单位代码:10407硕士学位论文论文题目:基于Web文档理解的倒排全文索引研究与实现研究方向数据挖掘专业名称计算机应用技术研究生姓名李玥导师姓名、职称刘发升教授2009年12月30日江西·赣州摘要浩如烟海的互联网信息推动了搜索引擎的普及和应用,同时也促进了搜索引擎技术的蓬勃发展。当今搜索引擎的各项技术日趋成熟,学术界也逐渐将目光从搜索引擎技术本身转移到搜索结果的专业化上来,主题搜索引擎的出现很大程度上提高了检索的查全率和查准率。作为搜索引擎的核心内容——索引技

2、术必然要跟上前进的步伐,不断创新。在主题搜索引擎全面发展的背景下,本文的研究目标是构建基于Web文档理解的倒排索引系统,用以弥补传统倒排索引对语义相关词关联索引的缺失。本文重点研究倒排全文索引和Web文档理解技术,从索引创建和更新维护方面入手,将两种技术有效地结合,使基于Web文档理解的倒排索引系统更适用于主题搜索引擎。本文主要开展了以下研究工作:(1)本文对Web文档理解理论及其方法进行综述,细致研究了PageRank技术、中文分词、向量空间模型和潜在语义分析技术。(2)本文提出了一种倒排文件的

3、改进结构——相关倒排文件。实验表明,检索系统使用相关倒排文件能够减少检索用时,提高检索效率。(3)本文对查询相似度计算公式进行了改进。实验表明,利用改进公式计算得出的网页与查询串的相似度值更精确。(4)本文细致分析倒排索引各项功能的实现过程,给出了倒排索引创建和相关倒排文件的检索算法。(5)本文设计并构建了基于Web文档理解的倒排索引系统。该系统实现了倒排索引的创建、添加、删除以及相关搜索功能。关键词:倒排索引;Web文档理解;潜在语义分析;索引动态更新;相关性IAbstractAsweknow,

4、thehugeamountofInternetinformationpromotedsearchenginetothepopularizationandapplication,thusalsocontributedtothesearchenginetechnologytoflourish.Fortoday'ssearchenginetechnologyisgoingtobemature,theconcernofacademicsonthesearchenginetechnologyitselfis

5、graduallytransferredtotheprofessionalizationofthesearchresults.TheemergenceofTopicSearchEngineimprovedsearchrecallratioandprecisionratio.Asthecoretechnologyofsearchengine,indexingisboundtokeepupwiththepaceofprogress,continuallyinnovating.Underthebackd

6、ropofTopicSearchEngine’sall-rounddevelopment,thispaper’sgoalistobuildtheinvertedindexsystembasedonWebdocumentcomprehending,inordertocompensateforthetraditionalinvertedindexsystemlackofassociationindexwiththerelatedwords.Thispaperputemphasisonthereache

7、rofinvertedindexingandWebdocumentcomprehendingtechnology.wecombinedthosetwotechnologies,inaspectsofindexcreation,updateandmaintenance,tomaketheindexsystemfitfortheTopicSearchEngine.Thispaperputweightonthefollowingaspectsthattheauthorimplemented:(1)Thi

8、spaperelaboratedthetheoryandthemethodofWebdocumentcomprehending.WeanalyzedseveralimportantWebdocumentcomprehendingmethodsuchasPageRank,Chineseautomaticsegmentation,vectorspacemodelaswellaslatentsemanticanalysis.(2)Thispaperproposedanimprovemen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。