基于gate框架的信息抽取系统的研究与实现

基于gate框架的信息抽取系统的研究与实现

ID:34146443

大小:2.15 MB

页数:79页

时间:2019-03-03

基于gate框架的信息抽取系统的研究与实现_第1页
基于gate框架的信息抽取系统的研究与实现_第2页
基于gate框架的信息抽取系统的研究与实现_第3页
基于gate框架的信息抽取系统的研究与实现_第4页
基于gate框架的信息抽取系统的研究与实现_第5页
资源描述:

《基于gate框架的信息抽取系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、华东师范大学硕士学位论文基于Gate框架的信息抽取系统的研究与实现姓名:徐东兴申请学位级别:硕士专业:计算机应用技术指导教师:黄国兴20070101华东师范大学÷濞机科学技术秀2007年硕士毕业论文摘要随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web信息抽取技术在近年来引起了越来越多的研究者关注。由于Web页面缺乏规范的语法结构,所以传统的自然语言处理技术并不能很好的适用

2、于Web信息抽取,另外Web页面中的大部分内容都以属性列表的形式呈现,如果把Web的这种结构特征应用于信息抽取,就可以避免使用复杂的语言学知识。因此,如何将基于自然语言理解方式和基于结构方式有效的结合起来克服各自的缺点,混合使用各种方法进行信息抽取成为当前研究的重点之一.本文结合自然语言处理技术和HTML页面结构特征在信息抽取中的应用,进行了以下研究工作:1.提出一种基于命名实体标注的DOM树(NBDOM)分析方法进行信息抽取。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的语义信息;然后在此基础上构建NE-DOM,通过

3、对NE-DOM结构的分析产生基于XPath的抽取规则。2。在NE-DOM分析的过程中提出了基于竞争分类的BO[(用户感兴趣区域)确定算法,该算法可以显著的降低噪声数据对抽取结果的影响。同时在抽取过程中使用了大量成熟的XML技术来提高抽取的效率。3.研究了Sheffield大学的自然语言处理平台Gate,并在此基础上设计和实现了一个基于上述原理的信息抽取原型系统GateWeblE。经验证该系统达到了预期的效果,提高了系统的召回率、抽取效率和对页面变化的适应能力。本论文中已经完成的GateWebIE系统符合Gate的标准,实验结果令人满意,可

4、以作为组件部署和集成到其它电子商务类的信息系统中,有较高的应用价值,并值得做进一步研究。关键词:信息抽取,Gate框架,本体,命名实体识别,XML华东师范大擘计算机科学技术系2003年硕士毕业论文WiththefastdcvclopmentofIntemetteelmology,webhasbeoOmcthelargestvirtualdatabaseintlaeworld.HowtousethewebinformationeffectivelyhasbO..,COmCallimportantresearchtopic.Soitappca

5、ismoleandinolrl:texlmologiesandapplieatio,sbasedonweb,inelndingwebinformationcxtractiolt,wlaielahaycatlraetedmuchattentionfromre,searchersinre,c蛐tyears.Duetothewebpagesal'l:lackofastandardizedstructure.thetraditionalnalllrallanguageprocessingl七,elanologyisnotapplicabletot

6、heWcbinformationextractionwell.Andmostoftlaecontentofwebpagesisshownintheformofalistofattributes,SOwe啪呲suchstructureininformationextractiontoavoidusingcomplexlinguisticknowledge.Therefore.howto嗽variousmethodsmixedforinformationcxtraetionhasbCCOlnConcfocusofthestudy.WeUSIg

7、:thenaturallanguageprocessingandthestnleturalcharacteristicsofhtmlIragesmixedtoextractinformation矗蛐webinthispaper,andtlaeresearchesa∞asfollow,1.ProposeamctlaodtoanalysisDOM舡∞forinformationextraction.ThemethodisbasedOilnamedentitytaggi,gandtheextractionrulesarcbased011XPat

8、h.2.Propose翘algorithmtodeterminethepositionofBlocksofInterest.wlaiehisbased011tlaeclassification

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。