元搜索引擎研究綜述評

元搜索引擎研究綜述評

ID:46379212

大小:75.50 KB

页数:11页

时间:2019-11-23

元搜索引擎研究綜述評_第1页
元搜索引擎研究綜述評_第2页
元搜索引擎研究綜述評_第3页
元搜索引擎研究綜述評_第4页
元搜索引擎研究綜述評_第5页
资源描述:

《元搜索引擎研究綜述評》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、元搜索引擎研究綜述評[摘要]介紹元搜索引擎的起源與發展、基本原理和分類,重點從元搜索引擎關鍵技術的實現上闡述元搜索引擎研究的主要內容與進展,最後分析現有元搜索引擎存在的各種局限性,歸納出未來值得研究和探討的若幹方向[關鍵詞]元搜索引擎個性化信息檢索[分類號1G3531元搜索引擎的起源與發展Internet自誕生以來不斷成長,信息容量呈爆炸性趨勢增長。這一方面方便瞭人們獲取信息;但另一方面也給人們查詢信息帶來瞭麻煩,常常使用戶陷入“信息過載”和“資源迷向”的困境。搜索引擎的出現大大增強瞭人們收集信息的能力,但隨著Web內容的飛速發展,信息膨脹速度遠遠超過瞭搜索引擎檢索范圍,一個搜索引擎通常

2、不能找到用戶所需的全部信息,用戶在進行檢索時需要在多個搜索引擎間進行切換,找到自己真正需要的信息仍如同大海撈針般困難。在這種情況下,一個能集合多個搜索引擎檢索結果並能對此做出整合處理的檢索工具一一元搜索引擎出現瞭,它有效解決瞭獨立搜索引擎信息覆蓋率不足和查準率不高的問題自1995年第一個元搜索引擎MetaCrawler推出以來,元搜索引擎技術迅速發展,目前網絡中已經有上百個元搜索引擎,其中不乏優秀的元搜索引擎,如Mamma、MctaCrawler.SavvySearch等。國內的中文元搜索引擎發展較為緩慢且數目不多,如萬緯、MetaFisher、北鬥星等,其檢索效果也不理想,未來發展空間

3、很大2元搜索引擎的研究現狀2.1元搜索引擎的原理及其分類元搜索引擎(meta-searchengine)是一種基於搜索引擎的搜索引擎,亦稱“搜索引擎之母”。用戶隻需提交一次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將各獨立搜索引擎返回的所有查詢結果集中處理後再返回給用戶。因此,元搜索引擎可根據檢索的目標搜索引擎、檢索提問處理方式以及如何編譯與顯示結果等的不同而劃分為:集中羅列式元搜索引擎(又稱“集成搜素引擎”或"all-in-one式搜索引擎”)和統一入口式元搜索引擎(又稱“多線索式搜索引擎”);桌面型元搜索引擎和基於Web的元搜索引擎(也可稱為“在線元搜索

4、引擎”);並行處理式元搜索引擎和串行處理式元搜索引擎2.2元搜索引擎研究的主要內容與進展目前,元搜索引擎研究活動主要集中在以下幾個關鍵技術的實現上:2.2.1成員引擎的調度策略提出瞭若幹成員引擎的調度算法,典型的有:①普通法,即不考慮各個成員搜索引擎的特性,隻是將元搜索引擎的查詢請求簡單地發送給自己的每個成員搜索引擎,用戶可自由選擇其成員引擎,如萬緯搜索引擎;②定性法,如ALIWEB方法、NetSerf方法、D-WISE方法、gGLoss方法。它跟據一定的評分函數預測每個成員搜索引擎的質量;③定量法,根據一些比定性方法使用的衡量標準更易理解的標準來衡量成員搜索引擎的有用性,如估計有用文件

5、的數量或估計最相似文件的相似度;④基於學習的方法,根據以往檢索成員搜索引擎的經驗預測各引擎對新查詢的有用性。檢索經驗可能來自多方面,如靜態學習方法MRDD方法、動態學習方法SavvySarch和混合學習方法ProFusion方法。在成員引擎的調度策略方面,國內的一些學者也提出瞭幾種比較有特色的調度算法,如張衛豐等提出瞭一種基於遺傳算法的調度算法來實現成員引擎的調度通過詳細分析多種調度策略的優點與不足,我們認為普通法比較簡單,但查準率不高。定性法可提供一些有關成員搜索引擎數據庫內容的信息,能提高查準率,但不能有效和精確地估計成員引擎數據庫的有效性,因而也容易遺漏或忽略一些潛在有用的成員搜索

6、引擎數據庫,比如一篇有用的文檔在某個成員搜索引擎數據庫中出現頻度非常低,利用定性法就可能忽略掉該成員搜索引擎數據庫。定量法根據給定的查詢請求計算數據的有用性,如,它試圖估計成員搜索引擎數據庫有用文件的數量,並以這個標準來選擇數據庫或者估算比較每個庫中最有用文件的相關度高低,以此選出最能滿足查詢請求的數據庫,則其衡量標準更易理解。基於學習的方法中,靜態學習方法可實現元搜索引擎在實際查詢中利用訓練收集的分佈向量選擇合適的成員數據庫和需要抽取的結果數目,實現查詢精度最大化,但其訓練收集的分佈向量很難適應未來查詢的變化;動態學習方法可始終更新訓練結果集合以適應多變的查詢任務,但搜索引擎用戶有檢查

7、排在最前面文件的傾向,其結果很有可能出現成員數據庫的關鍵詞權值不能充分反映成員數據庫對於該查詢關鍵詞的真實響應,所以綜合靜態學習與動態學習的混合學習方法在實際中用得較多2.2.2搜索結果的合成元搜索引擎在結果顯示過程中,需要將與用戶查詢相關度高的結果放在前面,但是由於不同搜索引擎所采用的技術不盡相同,所以很難按照一個統一的標準去排列這些結果。通常,每個成員搜索引擎返回的文檔根據局部相似度或全局相似度來對文檔進行降序排列,代表性的結果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。