档案领域垂直搜索技术的研究与实现.pdf

档案领域垂直搜索技术的研究与实现.pdf

ID:57746271

大小:10.56 MB

页数:66页

时间:2020-03-27

档案领域垂直搜索技术的研究与实现.pdf_第1页
档案领域垂直搜索技术的研究与实现.pdf_第2页
档案领域垂直搜索技术的研究与实现.pdf_第3页
档案领域垂直搜索技术的研究与实现.pdf_第4页
档案领域垂直搜索技术的研究与实现.pdf_第5页
资源描述:

《档案领域垂直搜索技术的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、学校代码:10255学号:208132档案领域垂直搜索技术的研究与实现AResearchandImplementationofVerticalSearchTechnologyinArchivesDomain专业:计算机应用技术作者:王振华指导教师:韩俊、李柏岩答辩日期:2011年1月东华大学学位论文原创性声明lallllqllllllllllUlllllllLIIIIIhlllllllmlllIY2136026本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本

2、论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:三l歇华日期:Ⅵf『年}月罗日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于保密口,在——年解密后适用本版权书。不保密学位论文作者签名:.

3、王荆畏、:节日期:Ⅵl1年f月罗日指导教师虢韩次日期:力l7年7月旷日东华大学硕士研究生学位论文摘要:档案领域垂直搜索技术的研究与实现档案是一种十分重要的文件,任何国家、任何公民都跟它密切相关。时至今日,我国档案的信息化建设已经初步取得了一定成果,然而依然远落后于发达国家水平。如何促进档案的信息化建设,提高档案的利用率是国家研究的一个紧要课题。如今,搜索引擎因为具备实时高效的为用户提供精确信息的优势得到了人们的青睐,日渐成为人们获取自己所需信息的重要途径。然而通用搜索引擎往往覆盖面广,信息不够准确,不能满足特定用户的需求。近年来,面向特定领域的垂直搜索引擎

4、迅速发展起来。与通用搜索引擎不同,它是面向特定领域的搜索,它可以做的更加专注,更加领域化,可以搜索更加深层的信息,提供更加准确的资料。尽管如此,垂直搜索引擎还是有很多不尽人意的地方。对垂直搜索引擎的研究和改进是当前国际研究的一个热点。研究档案领域特点并针对这些特点对垂直搜索技术提出改进,将其应用于档案领域。研究专门针对该领域的垂直搜索引擎是本文研究的主要内容。首先,订制针对档案的主题爬虫获取有关档案的信息及档案文件是构建档案领域垂直搜索引擎的起始。档案是一种特殊的文件,具有原始性、存储格式规范、历史再现性、管理规范、编号统一等特点。T东华大学硕士研究生学位

5、论文档案的存储一般是在专门的存储机构的网站,由这些机构向社会或者特定人群开放。该领域的主题爬虫可以限定搜索范围,搜集档案相关的文档及档案文件并分析。为此,本文提出了面向该领域的链接分析算法,并引入使用无关文档来发现相关文档的策略构建主题爬虫。主题爬虫爬取的文档需进行内容分析、关键词提取并计算权值、抽取摘要等处理。计算关键字的权值时鉴于许多档案存在档案信息说明文档,其中包含主题词、责任者等重要信息,本文在TF-IDF(TermFrequency—InverseDocumentFrequency)算法基础上做出改进。当一份档案存在这种信息时,其中的关键词权值为

6、l;不存在这种信息或不在此处出现的关键词,根据关键词出现在标题、正文、摘要或其它位置分别赋予不同的权值。此外,利用文本处理技术对档案及相关的文档进行结构化处理,把文档转化为格式化的XML文件形式,来提供更加准确的搜索服务。用户查询过程中,使用静态摘要与动态摘要相结合的方式为用户提供更合理的文档简述。当档案文件中存在摘要时,取这些已经存在的摘要作为查询结果的摘要(静态摘要);否则,根据用户的输入,从索引中找出关键词所在位置,并抽取关键词所在的句子组成摘要返回用户(动态摘要)。在搜索时,通过用户投票的形式优化查询排序的结果。最后,本文设计了档案领域垂直搜索引擎

7、的系统框架和流程,实现了本文提出的爬虫算法及爬取策略,实现了改进后的TF—IDF算法。作为对比,本文实现了一个最佳优先算法爬虫和TF—IDF算法。经研究和实验,使用本文提出的改进和应用方案,能够获得更好的结东华大学硕士研究生学位论文果。主题爬虫能够获得更多的档案和档案相关文件。使用改进后的方法,能够获得更准确的文档关键词权值。关键词:档案,垂直搜索,主题爬虫,查询排序东华大学硕士研究生学位论文AResearchandImplementationofVerticalSearchTechnologyinArchivesDomainAbstract:Archiv

8、esareveryimportantfilesthateveryc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。