欢迎来到天天文库
浏览记录
ID:31987496
大小:1.59 MB
页数:57页
时间:2019-01-30
《it知识搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、IT知识搜索引擎的设计与实现ADissertationSubmittedtoShanghaiJiaoTongUniversityForMasterDegreeofEngineeringDESIGNANDIMPLEMENTATIONOFANITKNOWLEDGESEARCHENGINEUniversityCode:10248Author:XiaKeStudentID:1080379146Mentor1:ZhouJingYuMentor2:ChengYiField:SoftwareEngineeringDateofOralDefense:2013-7-5SchoolofSoftware
2、ShanghaiJiaotongUniversityMar,2013IT知识搜索引擎的设计与实现上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日IT知识搜索引擎的设计与实现上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交
3、论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日IT知识搜索引擎的设计与实现IT知识搜索引擎的设计与实现摘要互联网的信息量一直以惊人的速度在增长,这个过程中已经诞生了很多优秀的搜索引擎,但是随着信息的规模的日趋庞大,通用搜索引擎已经不能完全满足用户的要求。在这样的背景下垂直搜索引擎出现了,并成为了当前研究的一个热点。IT
4、知识搜索引擎与通用索引擎的区别在于其专注于IT知识这样的一个特别的专业领域,它是一种典型的垂直搜索引擎。本文对搜索引擎的概念、分类、结构框架作了介绍,并分析了IT知识搜索引擎作为垂直搜索引擎的一些特点。技术论述重点在搜索引擎的两个部分:爬虫系统和数据检索系统。在爬虫系统,本文分别的介绍了通用爬虫和主题爬虫的原理和主要实现思路,并对比了两者的异同,并着重对主题爬虫进行了原理上的分析。主题爬虫实际上是在通用爬虫的基础上进行功能扩充而得到得,它在抓取页面时过滤掉与主题不相关或者低质量的网页,其扩充的功能主要包括关键词和主题相关度计算模块。在数据检索系统,本文主要主要论述了IT知识搜索引擎
5、所适用的索引结构以及排序算法。论文最后基于Heritrix框架实现了一个IT主题爬虫,这个框架的特点在于可以实施扩展。通过实验,进行通用爬虫和主题爬虫的爬取数据质量对比分析,验证了本文爬虫设计的思路以及设计的实用性。从整体上看来,本文的主要研究的问题是:如何设计和实现一个较为完整的IT知识搜索引擎。就技术上而言,实现这样的一个系统实际上是许多技术的一个整合,其中有的部分属于一些公开资料上可以查到的技术,或者在一些开源软件上已经实现的技术,这部分的内容主要放在第二章的技术综述中;而系统的总体设计和详细设计的内容集中在第三第四章,这部分将论述要实现的具体设计方案,其中的要点主要包括:索
6、引结构的设计,IT主题爬虫的设计,IT搜索引擎结果排序以及改进的TF/IDF算法。关键词:搜索引擎,垂直搜索引擎,爬虫,倒排索引IIT知识搜索引擎的设计与实现DESIGNANDIMPLEMENTATIONOFANITKNOWLEDGESEARCHENGINEABSTRACTWiththeinformationvolumeonlinegrowingatsurprisingspeed,manyexcellentsearchengineshavesofaremerged.However,duetothehugevolumeofinformation,whichisalsoinconsta
7、ntgrowth,generalsearchenginesnolongermeettheusers’demands.Undersuchcircumstances,verticalresearchengineemergesandhasbecomeafocusofpublicconcern.ITknowledgeResearchEngineisatypicaltypeofverticalsearchengine,itdifferentfromgeneralresearch
此文档下载收益归作者所有