基于备份系统中流式全文索引嵌入模型的研究与设计

基于备份系统中流式全文索引嵌入模型的研究与设计

ID:34834592

大小:3.17 MB

页数:68页

时间:2019-03-12

基于备份系统中流式全文索引嵌入模型的研究与设计_第1页
基于备份系统中流式全文索引嵌入模型的研究与设计_第2页
基于备份系统中流式全文索引嵌入模型的研究与设计_第3页
基于备份系统中流式全文索引嵌入模型的研究与设计_第4页
基于备份系统中流式全文索引嵌入模型的研究与设计_第5页
资源描述:

《基于备份系统中流式全文索引嵌入模型的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中山大学硕士学位论文备份系统中流式全文索引嵌入模型的研究与设计姓名:曾芳申请学位级别:硕士专业:计算机软件与理论指导教师:倪德明20080529中山火学硕二L学位论文备份系统中流式伞文索引嵌入模型的研究‘j设计备份系统中流式全文索引嵌入模型的研究与设计专业名称:计算机软件与理论硕士生:曾芳指导教师:倪德明副教授摘要随着本地存储设备容量的增大,文件数量的增多,数据备份系统中的归档集规模也日益庞大。现有的数据备份系统,无论是开源还是商用,归档管理中都缺乏对归档文件按内容搜索的功能,用户在归档集中寻找相关内容的信息时,需要手动在成千上万个归档文件

2、中查阅,严重地降低了信息查找的效率。本文首次提出将全文搜索与数据备份系统相结合的思路,即在备份文件的同时对文件建立全文索引,最终实现对归档集进行按内容搜索的功能。备份系统对文件的处理是一次扫描的,为了提高性能,我们希望备份和建索引的过程是在一次扫描过程中同步完成的。然而,备份系统中文件是以数据流的形式输入的,备份处理是对数据流中连续的固定大小的数据段分次进行,这意味着一个文件可能要被分成多段处理。现有的开源全文搜索引擎,处理文件时都是以完整文件为处理单位,不支持对文件数据流的多段处理。在数据备份系统中,我们需要的是一个能够支持文件流式全文索

3、引的子模块。本文介绍了全文搜索引擎原理及中文分词等关键技术,通过分析各种类型的文件格式以及研究开源搜索引擎框架LuceIle的内部结构,建立了一个流式全文索引的嵌入模型,然后用半形式化的语言,对数据流及流式嵌入模型的特点进行了分析与描述;在该理论模型的指导下,结合现有技术实现了一个应用原型,该原型支持对文件数据流的分段文本提取和全文索引,并能够作为子模块嵌入到数据备份系统中,使备份与全文索引过程同步,有效地把全文搜索同数据备份系统结合起来,最终实现了对备份生成的归档集进行按内容搜索的功能。本文同时也为有相似需求的领域提供了设计级复用的基础。

4、关键词:数据备份,流式,文本提取,全文索引中山人学硕上学位论文备份系统中流式全文索引嵌入模型的研究jj设计ResearchandDesignofEmbeddedModelofStreamingFull—textIndexinginBackupSystemMajor:ComputerSo胁area11dTheoryName:FangZellgSupeⅣisor:AssociatePro£DemingNiAbstractAsasteadypro伊essismadeinwebsearcmngtecllll0109y,wecallflndmemos

5、twalltedinfomation锄ongmaSsofin.eleVantonesinmeint锄etmorequickly.Atthes锄etime,tllemlmberofdocum饥tsisincreasingf瓠t,sincethestoragedeVicesare黟owinglargcr.Sohowto丘ndsomeSpeci6cfilesquicklyamonglotsoflocalfilesbccomesverycmcial.NowadaySeVerydatabackupsysteIll,nomatteropell-sour

6、ceorcommercial,off;erSnoa_bilityofsearchingmecontentsofarchiVes.WhenuserSwanttofindsomereleVantcontent,t11eyshouldcheckeachfileinCD-ROMsordirectoriesonebyone.TKsreducesthee伍ciencyofinfonIlationretrieValdraSticallyThis枷cleanalysesthedeficiellciesofcu【盯饥tdatabacl(IJpsysteIIl

7、sinarChiVes’mallageIllent,andapplythetechnologyof如ll-textse鲫“ngintodatabackupsystems.Tbena_bleuserSsearcmngarc:11ives,weestablisha如11一textindexdata_base仔ommecontelltof绯’hives.Wh锄doingsomebackup,wedefinitelyShouldscanfilesonce.TbimproVetheperf.omlanceofindexing,wecreatetlle

8、indexdatabaseatmes锄etime.ThatmeansbackupaIldindexingtakeplacesimultaneously.Sincemedataof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。