欢迎来到天天文库
浏览记录
ID:46800763
大小:63.00 KB
页数:5页
时间:2019-11-27
《網頁信息抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、網頁信息抽取方法的研究[關鍵詞]網頁抽取;網頁模板;網頁相似度;網頁聚類一、相關技術1.常規抽取方法介紹基於定義規則的信息抽取是指由用戶根據待抽取信息節點特征,定義一種抽取規則(例如用正則表達式來描述規則)來進行信息抽取。這種方法的優點是簡單、精確、技術難度低、方便快速部署。其缺點是需要針對每一個信息源的網站模板進行單獨的設定。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應用,很難滿足用戶對查全率的需求基於HTML結構的信息抽取技術是依靠HTML文件固有的結構特性進行信息抽取的。在進行信息抽取之前,先把HTML文件轉換成解析樹,這個解析樹反映其
2、層次結構。接著,半自動地或者自動地生成抽取規則,並把它應用於這棵樹上。基於HTML結構的信息抽取又可細分為很多類,此類方法有一個最大的不足是HTML結構過於靈活,難以正確識別HTML所表述的結構化信息基於知識工程的信息抽取通過運用應用領域的知識手工地建立系統的語法表示規則。知識工程師的技能對系統的性能起著決定性的作用基於自然語言方式的信息抽取是使用自然語言處理進行信息抽取,需要經過的處理步驟包括:句法分析、語義標註、專有對象的識別(如人物公司)和抽取規則。基於自然語言處理方式在含有大量自由文本且句子完整、適合語法分析的網頁中的信息抽取取得瞭較好效果。這種
3、基於自然語言理解方式的信息抽取技術,要獲得有效的抽取規則需要大量的樣本學習1.常規抽取技術分析雖然性能最好的系統通常都是手工建立的,即基於知識工程的方法,但是由於創建的過程非常費時、費力,而且需要有合適的領域專傢的幫助,適應性較差歸納學習方法通過學習產生規則,這些規則在應用於新文檔抽取時健壯性不夠,準確性也不高。基於HMM的方法由於使用統計原理,應用於新文檔時抽取效果較好。但是基於HMM方法的研究主要仍集中在傳統的純文本抽取上,而Web頁面不完整的語句以及特有的結構,難以較好地應用該方法基於頁面模式分析的Wrapper構造方法是專門針對Web文檔設計的。
4、它們利用瞭WebX檔的語法以及文檔結構等特性,能較好地從包括大量重復模式的文檔中識別數據。但是Web頁面的模式如此豐富,不同的網站即使相同的網站也會使用不同的頁面模式來介紹不同的內容以吸引用戶,這樣,大多數算法將不得不對不同模式的頁面收集網頁進行標記訓練生成專用的Wrapper由上分析可知適應性的Web信息抽取技術的瓶頸在於獲得標記過的訓練數據。使用機器學習方法的動力就在於通常認為標記文檔的代價比人工書寫Wrapper抽取規則小,然而標記文檔可能也需要豐富的領域知識,而且這項工作單調又容易出錯目前的信息抽取研究的基本點都在為不同的抽取任務尋找最合適的技術
5、,現在要判別抽取系統的優劣還需要專業知識和經驗。最終,希望有半自動化的方法能夠對各種異構的文檔使用統一的標準來衡量,用更簡單的方法獲得滿意的效果二、基於模板的信息抽取算法1.設計思想選擇基於模板的方法源於以下幾點考慮:(1)當前的絕大多數Web頁面是動態頁面,是基於數據庫的。(2)使用這種方法不需要分析Web頁面中文字的語義關系。(3)不需要進行網頁去噪工作2.算法概述基於模板的信息抽取方法主要包含如下幾個步驟:(1)隨機抽取目標網站的N個網頁作為樣本。如果把具有相似版面的網頁歸為一類的話,對樣本數量的要求是盡量包含所有類的網頁,每種類別至少t篇以上,這
6、裡暫且定為t=10o將樣本網頁集合標記為C。(2)將樣本網頁轉化為DOM樹。網頁是由HTML標簽來組織的,這些標簽表面是字符串序列,本質上是具有嵌套關系的樹形結構,即DOM樹。DOM樹能夠體現網頁的結構,基於模板的信息提取本質上就是提取DOM樹中的公共節點。因此將網頁轉化為DOM樹是以下所有工作的前提。(3)判斷網頁的相似性。確切的說是判斷DOM樹的結構相似性,目的是為瞭區分不同結構的網頁,為網頁聚類做準備。(4)依據相似性對網頁聚類。在某個網頁集合中,具有相同相似度的網頁可以看做是同一個模板產生的網頁,也就是說這組網頁具有相似的DOM樹結構。因此這個網
7、頁集合可以劃分出k個類,在下一步中依次提取每個類的模板。(5)提取同一類的模板。模板是指某一類網頁中公共的DOM樹,即所有DOM樹的一個交集。(6)對模板進行人工修正。在經過第(5)步之後,網頁集合中每個類別都會有一個模板,這個模板的葉節點便是潛在的信息節點。但並不是所有信息節點都是本文想要的,因此需要人工篩選。在人工篩選之前,應過濾掉一些明顯的無用節點,例如廣告信息。過濾時可使用啟發式規則。(7)利用模板提取目標站點中的其他網頁。經過模板修正之後,該模板便可用來提取目標站點的網頁信息。提取的過程是:獲得目標站點的一個待提取網頁;將網頁與得到的所有模板進
8、行比較,找到最匹配的模板,用該模板對此網頁進行提取。如果沒能找到匹配模板,則提取
此文档下载收益归作者所有