欢迎来到天天文库
浏览记录
ID:12033983
大小:920.00 KB
页数:51页
时间:2018-07-15
《搜索引擎及搜索引擎优化(seo)实验》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、实验三搜索引擎及SEO实验一、实验目的研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。二、实验内容1.研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2.研究至少两种中文分词算法,了解其实现原理;3.研究至少两种网页正文提取算法,了解其实现原理;4.研究至少两种网页去重算法,了解其实现原理;5.研究Google的PageRank和Map
2、Reduce算法,了解它们的实现原理;6.使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:(1)网页标题(title)的优化;(2)选取合适的关键词并对关键词进行优化;(3)元标签的优化;(4)网站结构和URL的优化;(5)创建robots.txt文件,禁止蜘蛛抓取网站后台页面;(6)网页内部链接的优化;(7)Heading标签的优化;(8)图片优化;(9)网页减肥技术。7.使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后
3、能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1.研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2.研究两种中文分词算法,填写相应的表格,表格必须填写完整;3.研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;4.研究两种网页去重算法,填写相应的表格,表格必须填写完整;515.研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;6.提供实施SEO之后的网站静态首页界面和H
4、TML代码,尽量多地使用所学SEO技术;7.严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8.使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1.通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2.通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;3.通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;4.通过使用搜索引擎并
5、查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;5.通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;6.对实验二所设计的网站静态首页实施SEO;7.使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验报告要求1.研究几种常用的网络蜘蛛爬行策略并填写如下表格:策略名称基本原理参考资料深度优先策略深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件百度百科深度优先搜索:http://ba
6、ike.baidu.com/view/288277.htm51)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。广度优先策略宽度优先搜索算法(又称广度优先搜索)是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽
7、度优先搜索类似的思想。其别名又叫BFS,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位址,彻底地搜索整张图,直到找到结果为止。百度百科广度优先搜索:http://baike.baidu.com/view/1242613.htm网页选择策略对搜索引擎而言,要搜索互联网上所有的网页几乎不可能,即使全球知名的搜索引擎google也只能搜索整个Internet网页的30%左右。其中的原因主要有两方面,一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页;二是存储技术和处理技术的问题。因此,网络爬虫在抓取网页
8、时。尽量先采集重要的网页,即采用网页优先抓取策略。网页选择策略是给予重要程度、等级较高的Web页以较高的抓取优先级,即We
此文档下载收益归作者所有