基于归纳规则的从半结构化数据中进行信息抽取的方法的研究

基于归纳规则的从半结构化数据中进行信息抽取的方法的研究

ID:36775599

大小:1.62 MB

页数:49页

时间:2019-05-15

基于归纳规则的从半结构化数据中进行信息抽取的方法的研究_第1页
基于归纳规则的从半结构化数据中进行信息抽取的方法的研究_第2页
基于归纳规则的从半结构化数据中进行信息抽取的方法的研究_第3页
基于归纳规则的从半结构化数据中进行信息抽取的方法的研究_第4页
基于归纳规则的从半结构化数据中进行信息抽取的方法的研究_第5页
资源描述:

《基于归纳规则的从半结构化数据中进行信息抽取的方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:/翕乞匆。7f日期:加俾谓1诣上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版

2、,允许论文被查阅和借阅。本人授权上海交通大学可以将本学应论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密日,在翘2年解密后适用本授权书。本学位论文属于不保密口。(请在以上方框内打“√”)学位论文作者签名:曩毛务日期:∥V年弋,月~昭⋯雌氢印日期:夕∥胡硝基于归纳规则的从半结构化数据中进行信息抽取的方法的研究摘’要近几年来随着互联网的飞速发展,网络上存在着大量的有用的信息,各种各样的网络应用程序应运而生以解决网络上信息的采集和挖掘工作,而其中

3、信息抽取任务是很多应用能够进行的基础,具有相当重要的地位,尤其是从半结构化的数据中抽取出满足用户需要的数据。半结构化的信息抽取是一个相对较年轻的领域,其有效性和表达性是衡量抽取效率的两个主要标准;有效性即抽取的效率,表达性即抽取能力的广泛性。目前的各类系统在解决抽取问题时很少同时考虑这两方面,大部分是考虑了有效性忽略了表达性,或者考虑了表达性而忽略了有效性。传统具有良好表达性的系统在采用机器学习方法时,运用自上而下的方法,从一般到特殊,往往具有很大的搜索空间,同时需要大量的训I练实例,降低了其有

4、效性。而具有较高有效性的系统很多的利用了HTML页面的结构信息,在处理大量较结构化的页面时比较有效,而在处理结构有所变化的页面时常常不能完成正确的抽取。本文提出了一种CWIWSK方法,兼顾两者的优点,采用机器学习的方法,采用自下而上的方法,从特殊到一般,需要较少量的训练实例,同时采用分离符的概念,通过把分离符的HTML整体标记做变化来完成信息抽取的任务,通过这种方法在减少了系统的搜索空间的同时,不影响系统的表达能力。因此CWIWSK的目的是试图在考虑有效性的同时考虑表达性,以使在有效性和表达性之

5、间能够达到一个较好的平衡,能较好的完成信息抽取的任务。关键字信息抽取,封装器归纳,规则,机器学习,表达性,有效性ARESEARCHONINDUCTIVEMETHODTOEXTRACTINFORMATl0NFROMSEMI.STRUCTUREDDATAAbstractInrecentyears,theInternetdevelopsSOfastthatnOWalotofinformationcanberetrievedfromtheWorldWideWeb(WWW).Variousnetworka

6、pplicationsbeenemergedSOsolvetheinformationaggregationanddigestion.AmongalltheseapplicationsInformationExtraction(IE)isafundamentaltooltoaidtheseapplicationandhasanimportantroleincomplementingtheseapplications.IntheIEfield.InformationExtractionfromth

7、esemi-structuredataisespeciallyimportant.InformationExtractionfromsemi—structureddataisrelativelyanewfield.Itonlydevelopsintherecentlydecade.Theeffectivenessandefficiencyaretwoimportantmethodstoevaluatetheextractiontask.Theefficiencyisabouthowefficie

8、nttheExtractiontaskcouldaccomplishtheextractionjob.Andtheeffectivenessisabouthowwidetheinformationextractioncouldbeappliedto.Intherecentlydevelopedinformationextractionsystems,theyonlytakeoneofthemintoaccount.Somesystemstaketheeffectivenessintoaccoun

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。