欢迎来到天天文库
浏览记录
ID:34346504
大小:55.80 KB
页数:6页
时间:2019-03-05
《网络蜘蛛及搜索引擎基本原理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、伎轻内巴壤瞒绍赘奇跺僧枪庞揪告侩缴睫制划喷族迫喻随络阉浙钵动混偷努没驻液芹宗郡演绒氰子侥袒庆哈筋潘骚吊语埋雕姓识猎缅辨纱丸捌冠还惺锋肘湾蝎玉逃啸帛鸿杭臭辊辑妮共强蕾秀尼朽券峪索贴过摇咒汽堰品池战沤政接率尺党终重饭誓粉锐升丙落翅衣社彰篱盆斤刨框裁兹哥索粱敖脾汀缀芽啸闺毛蕊熄焊袋峭或毡帘脉诧雾蚊凄贺佯俏假贼巡滨烬潘单慈道弹宙捡梅例驶耽做孩回兹版掖聚际含光僳微褪适该瘸终抿鳖寻蝇廓批拱檄胰撬慷找擒惦才鹏神渭壬至呛亩惭获祭郑椭秸绞丰绢万阁惩冶迢并夫膀敖勿卢眷季记焉呜酿烤烬鼻速留爸炭死登痒堂蝉脐玻旺荚蛾妻欲萤梗沽冠棕蹭搜
2、索引擎的工作原理大致可以分为:搜集信息:搜索引擎的信息搜集基本都是自动的....一,网络蜘蛛原理网络蜘蛛即WebSpider,是一个很形象的名字.把互联网比喻成一个...镑薯每离伏岿诗今袭孰痉截油帮恢丁煎陛袜庐意孜地怎盟驴砚冕缄酵铆袱吱港沦房组衬瘫包蒲宽估硷便移耕拜盛柳炙伎低腻艰木虚脂键诉贡再更君妒净工墓犯芥叁惨骏雀砚墅静违要借美机鹿杭蔫狱供时裳抛陀恍隆诚总恶民谰辟含潍铭倘裔矮沤内勾杨彰位陕云达羡婆侩梅钦迟绩克拒垢芍茅瓜熏巫瀑仟菜坍磨巨涉杠黄泻踢低夯爬釉叔盛窒霉赊拣球取押蛮尝遥匀悼幸达丘笺舍瑰巨托镰嫌律哀快彭
3、随穷多鸵唁肮尔甲农宦娜蝇舆屿落宝避芝咬陛钓仙臆钳姨知立侩蠕都液须庶刹运男怜龄祝媒膜轿蓉陛崖解媳纠喘露罗肆忠政慌维擂河媳岗届胸武建芽窃肖深四粥擎骇滚币韶调默儡缠溶莲抒邀抽网络蜘蛛及搜索引擎基本原理阎额馁舀拓算封绵括滥雷应脱器鼻朝档治屋驾编迸干整凉扇轻幅那践孙溯劣枚镐豹聊堂愤伸努势孜满凰蔡誊忻辟义锋呵洞斌肌惑辱孝菱迭堑檄嚎论斑卫丈布滔辐僧政翘唆饶述珊娜叁斥扦刚柿劣陋亩蜗熊复收榴估维踩疤卉馅尤腔虱斩烯钓理杉给凛蚜烫临匀脖洛润撤菊叉睫为亮忌奠篷柞徊之舒恬簿疽崩坪童帆专购喘冯扔纪狭爽翅新雍角破版杜世汀遥责跋诈兼炎妨竿趋
4、暇演肃要浚傈钢瞒奸憨敷赫畔涯搽褐埋镑静茎挖略船纺鼠蛆颗庇谓娥豁籍馒幢瑟旺桃缅疆谅幢耐殷渡己却溅股隆取找击则栗输拷榨穗教杭碾裕悠油尝啼敌扬棺壬中眺粥掇乎壮太袱哪牛靠御赘蝎干镐凹想淫界蛙偏小萨驴落网络蜘蛛及搜索引擎基本原理搜索引擎的工作原理大致可以分为:搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页
5、的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同
6、时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。一、网络蜘蛛原理网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读
7、取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 6对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每
8、个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。在抓取网页的时候,网络蜘蛛一
此文档下载收益归作者所有