欢迎来到天天文库
浏览记录
ID:43873636
大小:58.85 KB
页数:27页
时间:2019-10-16
《论文摘要格式》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、資訊碩、博士論文摘要—優等學號:R86526010論文名稱:助理型軟體資訊摄取技術:樹狀結構HTML文件樣板之自動產生法AutomaticGenerationofTree-StructuredTemplatesforInformationExtractionfromHTMLDocuments生授院所位度文數字究教校系學年語頁鍵研導學關指莊水龍Shui-lungChuang許永真JaneYung-jenHsu國立臺灣大學資訊工程學研究所碩士八十八英文樣板式資訊撷取樣板自動產生法文法推論序列對齊108template-basedinformatio
2、nextractiontemplategenerationgrammaticalinferencesequencealignment[提要]網際網路的快速成長已經改變了人們處理日常生活資訊的方法及習慣。有愈來愈豐富的資料是以HTML文件的格式呈現在Web上,為了使這些大量的線上資料能夠被有效地利用,各式各樣的資訊撷取系統被發展岀來。然而面對著日益龐大的資料量以及應用程式需求'過去以人工分析來手動建構所需之資訊撷取系統已無法滿足現階段大量的需求'因而許多的研究人員正極力發展各種可行的方法來自動建構所需之資訊摄取系統。我們採取的資訊拮頁取方法是樣板
3、式資訊拮頁取法(Template-basedInformationExtraction)。一份HTML文件可以根據它的標籤而被表達成一棵文件樹'以期能表達出該文件的結構資訊。而相似的文件通常具有相同的文件結構,因此我們利用…個樹狀結構樣板來表達這個相同的文件結構特性。透過一個樹狀配對法,我們可以決定樣板和文件之間的對應關係,進而從文件中撷取出所要的資訊。撰寫所需的樹狀結構樣板需要相當的訓練和經驗,而且樣板設計者還需要深入去分析所要處理的資訊源之文件結構為何。這樣的工作不僅很無趣,而且費時'更糟糕的是所得到的樣板很可能容易出錯,為了減少整個資訊撷
4、取系統發展上的困難,本論文提出了一個口動化樣板產生法,使用者只需要提供少數幾篇相關文件及相對應之撷取目標,透過我們所提出來的方法,便可以自動地產生一個適當的樣板。我們將所發展出來的方法實際地應用在幾個知名的網路搜尋引擎及線上新聞網站上。實驗結果顯示了我們所捉出的方法確實可以很有效且快速地產生所需要的樣板,也更加確認了這套方法的可行性及實用性。結合了樣板式資訊撷取法和自動樣板產生法,我們使得發展一個資訊撷取程序變成了只要提供幾篇同類的文件和相關的摄取資訊。很明顯地,這大大地減少了整個資訊摄取系統開發過程所需要的時間和精神。Therapidgrow
5、thoftheWorldWideWebhaschangedthewayinwhichpeopleexchangeandshareinformation.AstheInternetservesasanimportantsourceofinformation,answerstoquestionsarcoftenscatteredoveramultitudeofWebpages.Tomakehugeamountsofon-linedocumentsavailableandmanageable,thevariousinformationextracti
6、onsystemsareunexpendable.However,manuallyconstructingsuchinfoiinationextractionsystemsisalaborioustask.Automaticmethodshavethepotentialtohelpthisdevelopmentprocess・Thisthesisfollowsastructure-basedapproachtoextractingtai*getinformationfromHTMLdocuments.Eachdocumentcanbetrans
7、formedintoauniquedocumenttree,"whichcapturesthestructuralpropertiesdefinedbyitsHTMLtags.Ontheotherhand,aclassofdocumentscanbecharacterizedassharingacommontree-structuredtemplate・Throughanapproximatetreematchingapproach,themappingbetweenadocumenttreeandatemplatetreecanbeestab
8、lished.Accordingtothematchingresult,thetargetinformationcanbedeterminedande
此文档下载收益归作者所有