欢迎来到天天文库
浏览记录
ID:12368638
大小:1.88 MB
页数:132页
时间:2018-07-16
《 字串圖形結構偵測方法 - 國立政治大學》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、國立政治大學資訊科學系DepartmentofComputerScienceNationalChengchiUniversity碩士論文Master’sThesis中文資訊擷取結果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋指導教授:劉吉軒中華民國九十五年七月July2006122中文資訊擷取結果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋Student:Yung-WeiCheng指導教授
2、:劉吉軒Advisors:Jyi-ShaneLiu國立政治大學資訊科學系碩士論文AThesisSubmittedtoDepartmentofComputerScienceNationalChengchiUniversityInpartialfulfillmentoftheRequirementsfortheDegreeofMasterinComputerScience中華民國九十五年七月July2006122中文資訊擷取結果之錯誤偵測摘要資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果
3、彙整至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術的結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費大量人力及時間的工作。在本研究論文中,我們提出字串圖形結構與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結構比對各資料內字元及字元間關聯,接著由公式計算出每筆資料的比對分數,藉由分數高低可判斷是否為錯誤資料;後者則是利用字串特徵值,來描述字串外表特徵,再透過SVM和C4.5機器學習分類方法歸納出決策樹,進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學理論之節點位置與鄰點概念,直接比對
4、原始字串內容;後者則是將原始字串轉換成特徵數值,進行分類等動作。在實驗方面,我們以「總統府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結果顯示,本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組,不但能節省驗證資料所花費的成本,甚至可確保高資料品質的資訊擷取成果產出,促使資訊擷取技術更廣泛的實際應用。關鍵字:錯誤偵測、資訊擷取、文本資料描述122ErrorDetectiononChineseInformationExtractionResultsAbstractGivenatargetedsubjectandatextcollection,
5、informationextractiontechniquesprovidethecapabilitytopopulateadatabaseinwhicheachrecordentryisasubjectinstancedocumentedinthetextcollection.However,evenwiththestate-of-the-artIEtechniques,IEtaskresultsareexpectedtocontainerrors.Manualerrordetectionandcorrectionarelaborintensive
6、andtimeconsuming.ThisvalidationcostremainsamajorobstacletoactualdeploymentofpracticalIEapplicationswithhighvalidityrequirement.Inthispaper,weproposestringgraphstructureandstringfeature-basedmethods.Theformertakesadvantageofgraphstructuretocomparecharactersandtherelationbetweenc
7、haracters.Nextstep,wecountthecorrespondingscoreviaformula,andthenthescoresaretakestoestimatethedatacorrectness.Thelatterusesstringfeaturestodescribeacertaincharacteristicsofeachstring,afterthatdecisiontreeisgeneratedbytheC4.5andSVMmachinelearningalgorithms.Andthenclassifythedat
8、aisvalidornot.Thesetwodetectionmethodshavetheabilityto
此文档下载收益归作者所有