基于单字中文全文检索的研究和实现

基于单字中文全文检索的研究和实现

ID:20640585

大小:1.75 MB

页数:86页

时间:2018-10-14

基于单字中文全文检索的研究和实现_第1页
基于单字中文全文检索的研究和实现_第2页
基于单字中文全文检索的研究和实现_第3页
基于单字中文全文检索的研究和实现_第4页
基于单字中文全文检索的研究和实现_第5页
资源描述:

《基于单字中文全文检索的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京交通大学硕士学位论文摘要中文全文检索系统是信息产业中发展较快的一个领域。本文就中文全文检索的不同算法模型,特别是基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。本文首先详细描述了倒排表的工作原理.倒排表是传统全文检索系统采用的存储结构。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在,进而针对这些问题提出了后继倒排表的存储结构,从而提高了检索的效率。对改进前后的检索效率进行了分析和

2、比较,从M在理沧验证了其实用价值。本文重点用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能,充分利用面向对象的多念性设计系统结构。用C++类封装各种索引的管理功能,类的内部实现对索引文件逻辑信息的组织和I/o,并向外部提供功能函数。各种数据压缩和索引组织的实施方案都被封装成不同的类,这些类都从同一个基类派生而来,供其它功能函数统一调度,最终可以达到灵活组合数据压缩和索引组织方案的目标。本文最后对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。为了准确地将最符合用户

3、需要的文档优先提交给用户,设计了一种可以反馈用户对检索结果满意程度的排序算法,从而提高了检索的查准率。关键词:全文检索倒排表后继倒排表北京交通大学硕士学位论文AbstractChineseFullTextRetrievalSystemisoneofthefastdevelopingfieldsinITindustry.ThepaperanalyzesseveraldifferentalgorithmmodelsbasedonChinesewordandChinesecharacter,andputsforwardakin

4、dofdatastructureandalgorithmmodelthatdoesn’tdependonaspecificcomputeroroperatingsystem.Itverifiesthetheoreticalandpracticalvalueofthemodelinthecurrentapplicationbycomparingtheefficienciesbetweenthemode】andtheotherone.Firstlythispapershowshowinversionlistworks.Inv

5、ersion1stisthemostpopularstoragestructureusedintraditionall’ulItextretrievalsystem.Byanalyzingtheefficiencyofretriewfl,thepapershowsbottlenecksimpactingtheretrievalspeed.0nthebasisoftheseanalyses.thepaperputfor’wardSequence[nversioilliststoragestructurewhichcanim

6、provetheef'tliciencygreatly.Itverifiesthetheoreticalvalueofthenewstoragestructureinthecurrentapplicationbycomparingtheelficienciesbetweenthestoragestructureandtheotherone.ThispapergivesimportanceondescrjbinghowtodevelopafulltextretrievalsystembyC++language.Tocomp

7、areperformanceofdifferentindexcompressmethodsflexibly,polymorphismofOOPisintroducedtodesignthesystem.Allindexfi1emanagementcanbedesignedindifferentclasses,everyclassrealizesthelogicalstructuremanagementandI/0ofindexfilesandprovideinterfacefunctions.Allkindsofinde

8、xcompressmethodsaredesignedasclassesderivedfromasamebaseclass.Bythisway,developercancombinedifferentindexcompressmethodsindexstructuresflexibly.Concerningthesp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。