主題爬行策略與算法研究綜述

主題爬行策略與算法研究綜述

ID:44040039

大小:44.05 KB

页数:11页

时间:2019-10-18

主題爬行策略與算法研究綜述_第1页
主題爬行策略與算法研究綜述_第2页
主題爬行策略與算法研究綜述_第3页
主題爬行策略與算法研究綜述_第4页
主題爬行策略與算法研究綜述_第5页
资源描述:

《主題爬行策略與算法研究綜述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主題爬行策略與算法研究綜述[摘要]主題爬行是專業搜索引擎的基礎,爬行策略與爬行算法是主題爬行技術的核心,通過分析主題爬行的基本原理,對爬行策略與爬行算法進行分類比較,展示爬行策略與爬行算法的研究進展及當前研究熱點,為主題爬行技術的進一步研究提供參考[關鍵詞]搜索引擎主題爬行爬行策略爬行算法[分類號]TP391搜索引擎技術自誕生之日起就成為互聯網中最吸引人的技術之一,各種商業化的搜索引擎已經成瞭人們使用互聯網時不可缺少的工具。傳統搜索引擎的工作原理是服務提供商利用網絡爬蟲(Webcrawler,也被稱作網絡蜘蛛(Webspider)或網

2、絡機器人(robot),通過一些種子站點按照深度優先或者廣度優先的搜索策略對可以爬行到的資源進行掃描、下載,並將下載的信息以快照或全文方式存儲在數據庫中,建立相關索引,當用戶在搜索引擎的用戶界面中輸入搜索關鍵字後,搜索引擎訪問數據庫,返回數據庫中與搜索關鍵字匹配的紀錄。隨著互聯網中網頁資源的快速增長,傳統的搜索引擎在某些方面的缺陷也越來越明顯:①搜索結果不夠全面。傳統搜索引擎希望鏡像整個Web世界,搜索引擎追求的是盡量多的處理及存儲網絡爬蟲爬回的網頁,但不同的搜索引擎由於受到服務器位置、網絡帶寬、爬行算法、服務器容量等因素的影響,服務

3、器中存儲的資源是有限的,任何一個搜索引擎不可能存儲並索引網絡上所有的網頁信息。即使是全球最大的搜索引擎Google,其索引的頁面數量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實效性。隨著Web資源的快速增長,傳統搜索引擎網絡爬蟲的爬行周期不斷增加,數據庫更新時間越來越長。每一個網頁都有自己的生命周期,網頁的更新速度可能會快於搜索引擎數據庫的更新速度,當搜索引擎把數據庫中已經過期的信息反饋給用戶時,用戶可能根本無法打開相關鏈接或者打開的是過期的網頁。③搜索結果的針對性不強。用戶輸入一個關鍵字後返回很多結果,但存在大量重復,

4、很多結果並不是用戶需要的。通過對歐洲和美國9個主要的搜索引擎日志的統計分析,認為用戶對於搜索結果的查看呈減少趨勢。普通用戶僅僅會察看搜索引擎返回的前若幹條數據,對於其他搜索結果,很多用戶沒有耐性全部看完。不同專業背景的人,對於同一個關鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產品鑒於傳統搜索引擎的這些缺陷,一些學者提出瞭垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁面為目標,僅僅在互聯網中快速爬行某一部分Web頁面並存儲,這樣的搜索引擎既可以節約網絡帶寬資源,又可以縮

5、短搜索引擎數據庫的更新周期,使搜索引擎得到實時性更好的網頁。DeBra等最先提出的主題爬行(topiccrawling)搜索引擎通過限定爬行主題,提高瞭搜索精度,成為垂直式搜索引擎的代表。主題爬行技術的核心是爬行策略與算法,本文從主題爬行技術的基本原理出發,對其策略進行分類,沿著爬行策略及算法的改進,分析瞭主題爬行策略與算法的研究熱點,為主題爬行技術的進一步研究提供參考1主題爬行原理主題爬行是在傳統網絡爬行技術基礎上,加入文本分類、聚類以及Web挖掘等相關技術用於捕獲特定主題的Web信息。主題爬行技術的應用可以提高搜索精度,降低搜索引

6、擎對網絡資源的占用,縮短搜索引擎數據庫的更新周期。基於主題爬行技術的搜索引擎與傳統搜索引擎最大的區別在於:該搜索引擎的網絡爬蟲是面向主題的。傳統搜索引擎的網絡爬蟲在爬行過程中采用的是“通吃”策略,不分類別、不分內容全部爬行並下載;基於主題的網絡爬蟲在爬行前或者爬行過程中根據已經爬行的結果有選擇性的進行預測下一步爬行並下載主題爬行過程通常由三部分構成:①分類器(classifier),主要對已抓取網頁的元素進行計算,判斷其主題相關度,確定是否對該網頁中所包含的超級鏈接進一步抓取;②提取器(distiller),該模塊存儲待下載隊列,並

7、確定待下載隊列的優先級;③爬行器(crawler),該模塊在分類器和提取器的指導下,執行網頁抓取工作。主題爬蟲的爬行過程為爬行器根據不同的爬行策略執行爬行操作,抓取網页送人分類器中,分類器對已經抓取的網頁進行處理,根據設定主題及其域值判斷該網頁的主題相關性,結合其他參數,確定是否對該網頁包含的超級鏈接進一步爬行。如果爬行,則送入提取器中的隊列,由提取器根據隊列規則確定其爬行優先極。Chakrabarti等人1999年正式提出瞭個性化主題搜索引擎的概念,該搜索引擎不以傳統的關鍵詞作為搜索內容,而是在某一限定范圍內,通過計算Web頁面內容

8、與主題的相關性,決定主題爬蟲是否值得進一步搜索。其中,主題是由一些范例文檔來確定的,該主題爬蟲實時查找與文檔詞典有相關性的網頁,保證瞭搜索頁面的時效性與針對性2主題爬行基本爬行策略與算法主題爬行技術的核心是爬行的策略與算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。