毕业设计论文 搜索引擎

毕业设计论文 搜索引擎

ID:5466454

大小:2.35 MB

页数:67页

时间:2017-12-14

毕业设计论文 搜索引擎_第1页
毕业设计论文 搜索引擎_第2页
毕业设计论文 搜索引擎_第3页
毕业设计论文 搜索引擎_第4页
毕业设计论文 搜索引擎_第5页
资源描述:

《毕业设计论文 搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科生毕业设计目录第一章课题背景知识(1)第一节搜索引擎原理(1)第二节搜索引擎分类(2)第三节搜索引擎技术的发展历史(4)第四节搜索引擎现状(5)第五节搜索引擎展望(6)第二章技术诠释(10)第一节HTTP及HTML(10)第二节网络蜘蛛(11)第三节网页噪声(13)第四节页面分析(13)第五节中文分词(16)第六节布尔代数(19)第七节CGI(19)第八节SOCKECT网络编程(20)第三章TOKING海量网页搜索系统体系结构及实现(21)第一节结构设计(21)第二节数据流图(22)第三节网页抓取部分(31)第四节网页预处理部分(35)第五节信息查询服

2、务部分(42)第六节用户反馈(46)第七节功能拓展(46)第八节优化用户感受(50)第四章系统测评(52)第一节抓取速度(52)第二节分词效率(52)第三节搜索评价(53)参考文献(54)致谢(55)附录(56)66本科生毕业设计第一章课题背景知识70年代中期,美国国防部高级研究计划局DARPA(DefenseAdvancedResearchProjectsAgency)开始了互联网技术的研究。而WWW(WorldWideWeb)自1989年诞生以来,近二十年来发展迅猛,它已成为人类社会信息资源中的一个重要组成部分,越来越多的社会信息资源实体开始选择Web

3、作为其载体。著名的netcraft(viaDigg)刚刚完成了最新的互联网调查,结果显示到2006年3月31日止,互联网上一共有80655993个网站。而单是在06年3月这一个月里,世界上的网站数量就增长了310万个。而在2003年8月所得的调查结果为4000万个,这说明了互联网上的网站数量在过去的3年里就已经翻了一番,增长速度十分惊人。著名的网站排名的国际网站www.alexa.com在2007年4月更是收录了全球大约有34762836735个网址。由此,人们在信息海洋中搜索自己所需要的信息的能力显得愈发重要,搜索引擎成了人们在网上检索信息的必要工具。第

4、一节搜索引擎原理搜索引擎,应该被定位成一个计算机应用软件系统,或者一个网络应用软件系统。从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。为了有效地做到这一点,它大致上被分成三个子系统;即网页搜集,网页预处理和查询服务。网页搜集主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成,爬行器是该部分的核心;网页预处理主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;查询服务主

5、要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档,存入文档数据库。并将当前页上的所的超连接存入到URL66本科生毕业设计服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作

6、完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。图1-1-1搜索引擎通用总体系统结构图第一节搜索引擎分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。一、全文搜索引擎全文搜索引擎是名副其实的

7、搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。66本科生毕业设计  图1-2-1全球著名全文搜索引擎LOGO二、目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)

8、查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。