《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验

ID：11203937

大小：733.50 KB

页数：40页

时间：2018-07-10

资源描述：

《《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、《电子商务应用》实验报告项目名称搜索引擎及SEO实验专业班级软件工程1204班学号3901120402姓名孙远建实验成绩：中批阅教师：刘伟2014年1月9日40实验3《搜索引擎及SEO实验》实验学时：2实验地点：二综204实验日期：2014.12.26一、实验目的研究并学习几种常见的搜索引擎算法，包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法，了解它们的基本实现原理；运用所学SEO技术对网页进行优化。二、实验内容和方法1.研究常用的网络蜘蛛爬行策略，如深度优先策略、广度优先

2、策略、网页选择策略、重访策略和并行策略等，了解其实现原理；2.研究至少两种中文分词算法，了解其实现原理；3.研究至少两种网页正文提取算法，了解其实现原理；4.研究至少两种网页去重算法，了解其实现原理；5.研究Google的PageRank和MapReduce算法，了解它们的实现原理；6.使用所学的SEO技术，对实验二所设计的网站静态首页实施SEO，在实施过程中需采用如下技术：(1)网页标题(title)的优化；(2)选取合适的关键词并对关键词进行优化；(3)元标签的优化；(4)网站结构和URL的优化；(5)创建robots.txt文件

3、，禁止蜘蛛抓取网站后台页面；(6)网页内部链接的优化；(7)Heading标签的优化；(8)图片优化；(9)网页减肥技术。7.使用C++、C#和Java等任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序，要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索，输出包含关键词的网页的URL和网页标题。【注：实验7为补充实验，不要求每个同学都完成，感兴趣者可自行实现该程序，不计入实验报告评分。】三、实验要求1.研究几种常用的网络蜘蛛爬行策略，填写相应的表格，表格必须填写完整；2.研究两种中文分词算法，填写相应的表格，表格

4、必须填写完整；3.研究两种网页正文提取算法，填写相应的表格，表格必须填写完整；404.研究两种网页去重算法，填写相应的表格，表格必须填写完整；5.研究PageRank算法和MapReduce算法，填写相应的表格，表格必须填写完整；6.提供实施SEO之后的网站静态首页界面和HTML代码，尽量多地使用所学SEO技术；7.严禁大面积拷贝互联网上已有文字资料，尽量用自己的理解来阐述算法原理，必要时可以通过图形来描述算法；8.使用任意一种编程语言实现一个简单的网络蜘蛛程序，需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1.通过使用搜索

5、引擎并查阅相关资料，研究并整理几种常用的网络蜘蛛爬行策略相关资料，填写相应的表格；2.通过使用搜索引擎并查阅相关资料，研究并整理两种中文分词算法的基本原理，填写相应的表格；3.通过使用搜索引擎并查阅相关资料，研究并整理两种网页正文提取算法的基本原理，填写相应的表格；4.通过使用搜索引擎并查阅相关资料，研究并整理两种网页去重算法的基本原理，填写相应的表格；5.通过使用搜索引擎并查阅相关资料，研究并整理PageRank算法和MapReduce算法的基本原理，填写相应的表格；6.对实验二所设计的网站静态首页实施SEO；7.使用任意一种编程语

6、言，设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1.研究几种常用的网络蜘蛛爬行策略并填写如下表格：策略名称基本原理参考资料深度优先策略百度百科深度优先搜索：http://baike.baidu.com/view/288277.htm40深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点。在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HT

7、ML文件，再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时，说明搜索已经结束。广度优先策略宽度优先搜索算法，是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS，属于一种盲目搜寻法，目的是系统地展开并检查图中的所有节点，以找寻结果。换句话说，它并不考虑结果的可能位址，彻底地搜索整张图，直到找到结果为止。百度百科广度优先搜索：http://baike.baidu.com/view/1242613.htm网

8、页选择策略对搜索引擎而言，要搜索互联网上所有的网页几乎不可能，其中的原因主要有两方面，一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页；二是存储技术和处理技术的问题。因此，网络爬虫在抓取网页时。尽量先采集重要的网页，即采用

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 40



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验

《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验

相关文章

相关标签

《电子商务应用》实验指导书-实验 搜索引擎及搜索引擎优化（seo）实验

《电子商务应用》实验指导书-实验 搜索引擎及搜索引擎优化（seo）实验

相关文章

相关标签

《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验

《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验