面向元搜索引擎web页面排序改良技术探究和完成

面向元搜索引擎web页面排序改良技术探究和完成

ID:25997347

大小:57.00 KB

页数:6页

时间:2018-11-24

面向元搜索引擎web页面排序改良技术探究和完成_第1页
面向元搜索引擎web页面排序改良技术探究和完成_第2页
面向元搜索引擎web页面排序改良技术探究和完成_第3页
面向元搜索引擎web页面排序改良技术探究和完成_第4页
面向元搜索引擎web页面排序改良技术探究和完成_第5页
资源描述:

《面向元搜索引擎web页面排序改良技术探究和完成》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向元搜索引擎Web页面排序改良技术探究和完成-->第1章研究背景1.1引言1989年,(bps,网页的整体数量还以近千万的速度在持续增长。网络信息正以惊人的速度增长着,但同时也带来了大量杂乱无用的信息。面对着这一资源,用户很难快速从中获得自己感兴趣的信息,因此,如何准确迅速地获得有价值的信息成为人们关注和迫切解决的热点,搜索引擎的诞生在一定程度上很好地缓和了这一问题。1.2搜索引擎1.2.1搜索引擎发展1990年,在加拿大蒙特利尔最初的搜索引擎诞生了。主要根据用户发送检索文件的要求对FTP数据库进行检索,而不必指定具体的FTP服务器的地址,极大地方便了用户的检索。随着网络机器人理论成

2、熟的发展,自1993年底,一些搜索引擎纷纷涌现。第一代搜索引擎,例如LyeosYahoo等,主要通过机器人程序从互联网上抓取网页,将当时的信息检索技术应用到互联网上,从而多数搜索引擎成为了门户网站,加上当时的检索速度很慢,对某一查询需要花费很长的等待时间,致使用户数量少,每天的查询次数也不多。为了让搜索引擎满足更多人的需要,进一步扩大互联网的规模和提高信息检索效率,第二代搜索引擎出现了,例如Altavista,Google、百度。它们采用分布式的方式提高互联网的数据规模和查询效率,尤其是Google运用的PageRank排序算法,极大地改善了查询结果对用户查询需求的相关性,深受广大用户

3、的喜爱。但是互联网的数据信息以惊人的速度增长着,出现了搜索引擎返回的结果中包含有大量的无用信息,目前的搜索引擎仍然不能满足用户的需求,第三代搜索引擎成为当前的研究热点。第三代搜索引擎主要引入了智能化的信息处理方式,结合用户理解的知识、经验和学习能力将互联网上的无结构化或非结构化的信息,以一种结构化的方式组织起来,通过提取,过滤等方式把发现的知识返回给用户。所处理的对象可以是图像信息,也可以是音频、视频等信息。因此,第三代搜索引擎正结合着数据挖掘技术向知识型方向发展。1.2.2搜索引擎分类搜索引擎按照工作方式的不同,分为全文搜索引擎、分类目录搜索引擎、元搜索引擎和垂直搜索引擎四种。1)全

4、文搜索引擎全文搜索引擎的代表有Google,Altavista等。全文搜索引擎用机器人程序或网页爬虫程序从互联网上抓取网页信息,以一定的排序搜索算法建立自己的数据库。它自动搜索信息的功能分两种:一种是定期搜索,另一种是提交网站搜索。定期搜索是每隔一段时间,调用爬虫程序对互联网进行抓取信息;提交网站搜索是网站所有者自主地向全文搜索引擎提交,由爬虫程序对该网站进行抓取信息。在数据库建立好之后,用户可以根据自己的需要向搜索引擎发出查询条件,搜索引擎会从数据库中查找出符合用户查询条件的相关网站,再以一定的排序算法将排序后的结果返回给用户。从搜索结果的角度,又可将全文搜索引擎分为两种,一种是拥有

5、自己的爬虫程序和数据库,搜索结果从自己的数据库中读取,另一种是租用别人的数据库,以自己的排列方式返回结果。从一定程度上,全文搜索引擎才是真正的搜索引擎。它的主要特点是查全率比较高,查准率比较低。2)分类目录搜索引擎分类目录搜索引擎其实不是真正的搜索引擎,它的索引方式完全依靠人工分类操作。在信息获取上,它不是自主地从网站上采集信息,而是根据各网站向它提交信息时,经过人工编辑,结合分类的标准和规则,对网站进行分类,因此可以说分类完全是凭人的主观判断。用户查询信息时,可以根据关键词进行查找,也可以根据目录进行查找,返回给用户的查询结果是根据目录中的标题字母的先后顺序排列的。典型的分类目录搜索

6、引擎是Yahoo。它的主要特点是查准率较高,层次清晰,查全率较低,查找面窄。3.8.3关键词和网页主题内容........38-393.9关键词和网页主题内容的语义........39-41第4章面向元搜索引擎的Web页面排序........41-504.1系统目标........414.2系统架构........41-424.3系统功能模块具体........42-504.3.1用户查询界面........42-434.3.2Web数据采集........434.3.3Web内容提取........43-444.3.4预处理-->........44-454.3.5中文分词.....

7、...45-464.3.6实词提取........464.3.7内容重复性........46-474.3.8关键词时间敏感性........47-484.3.9近义词语义相........48-494.3.10语义相似度........494.3.11返回结果排序........49-50第5章面向元搜索引擎的Web页面........50-595.1评测指标........505.2评测分析........50-575.2.1时间敏感性..

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。