欢迎来到天天文库
浏览记录
ID:20640585
大小:1.75 MB
页数:86页
时间:2018-10-14
《基于单字中文全文检索的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京交通大学硕士学位论文摘要中文全文检索系统是信息产业中发展较快的一个领域。本文就中文全文检索的不同算法模型,特别是基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。本文首先详细描述了倒排表的工作原理.倒排表是传统全文检索系统采用的存储结构。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在,进而针对这些问题提出了后继倒排表的存储结构,从而提高了检索的效率。对改进前后的检索效率进行了分析和
2、比较,从M在理沧验证了其实用价值。本文重点用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能,充分利用面向对象的多念性设计系统结构。用C++类封装各种索引的管理功能,类的内部实现对索引文件逻辑信息的组织和I/o,并向外部提供功能函数。各种数据压缩和索引组织的实施方案都被封装成不同的类,这些类都从同一个基类派生而来,供其它功能函数统一调度,最终可以达到灵活组合数据压缩和索引组织方案的目标。本文最后对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。为了准确地将最符合用户
3、需要的文档优先提交给用户,设计了一种可以反馈用户对检索结果满意程度的排序算法,从而提高了检索的查准率。关键词:全文检索倒排表后继倒排表北京交通大学硕士学位论文AbstractChineseFullTextRetrievalSystemisoneofthefastdevelopingfieldsinITindustry.ThepaperanalyzesseveraldifferentalgorithmmodelsbasedonChinesewordandChinesecharacter,andputsforwardakin
4、dofdatastructureandalgorithmmodelthatdoesn’tdependonaspecificcomputeroroperatingsystem.Itverifiesthetheoreticalandpracticalvalueofthemodelinthecurrentapplicationbycomparingtheefficienciesbetweenthemode】andtheotherone.Firstlythispapershowshowinversionlistworks.Inv
5、ersion1stisthemostpopularstoragestructureusedintraditionall’ulItextretrievalsystem.Byanalyzingtheefficiencyofretriewfl,thepapershowsbottlenecksimpactingtheretrievalspeed.0nthebasisoftheseanalyses.thepaperputfor’wardSequence[nversioilliststoragestructurewhichcanim
6、provetheef'tliciencygreatly.Itverifiesthetheoreticalvalueofthenewstoragestructureinthecurrentapplicationbycomparingtheelficienciesbetweenthestoragestructureandtheotherone.ThispapergivesimportanceondescrjbinghowtodevelopafulltextretrievalsystembyC++language.Tocomp
7、areperformanceofdifferentindexcompressmethodsflexibly,polymorphismofOOPisintroducedtodesignthesystem.Allindexfi1emanagementcanbedesignedindifferentclasses,everyclassrealizesthelogicalstructuremanagementandI/0ofindexfilesandprovideinterfacefunctions.Allkindsofinde
8、xcompressmethodsaredesignedasclassesderivedfromasamebaseclass.Bythisway,developercancombinedifferentindexcompressmethodsindexstructuresflexibly.Concerningthesp
此文档下载收益归作者所有