正文描述:《用于信息抽取自动标注技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文摘要摘要Web的迅速增长和普及使得互联网成为一个巨大的信息源。由于Web信息源的异构性和结构欠缺,早期存取这些信息的手段都局限在浏览和搜索上。如今出现了很多诸如检索、集成、抽取和数据挖掘等的智能信息处理技术,帮助人们方便存取所需的Web数据。信息抽取(IE)就是这样一种把输入网页自动转化成结构化数据的努力。目前已经出现很多m系统及工具,如WINE、SoftMealy和SRV等,它们大多是一种监督式的系统,需要手工标注训练实例学习得到抽取规则。然而,这样的标注是单调的,费时费力的,还易受到变化的
2、影响,特别是网站升级时的变化。因此,如何为训练文档提供语义标注变得尤为必要,好的办法就是自动化这种标注工作,使其能够方便处理各种数据源。针对标注问题,本文提出一种基于有限状态机的包装器生成方法实现自动标注,应用于Web信息抽取领域。本文的主要思想是通过少量的训练例子集训练生成有限状态机,然后利用状态机对其他同类型的网页进行自动标注。状态机的状态即需要标注的数据,本文利用开源工具GATE进行实体识别形成状态;状态转移条件是两个状态间的上下文规则。利用状态机进行标注可以很好的解决半结构化网页存在属性缺
3、失、属性多值和属性无序的情况。另外,我们将概率引入状态机,通过规则和概率的结合来决定状态机的状态转移,从而减少状态机的不确定性。我们选择了真实在线的网页进行了实验分析,通过召回率和正确率来评价算法的性能,结果表明我们的算法能够很好的标注存在属性缺失、属性多值和属性无序的网页。关键词:信息抽取:标注;GATE:有限状态机;概率论英文摘要Abstract111eexplosivegrowthandpopularityoftheWorldWideWebhasresultedinahugeamountof
4、informationsourcesontheInternet.DuetotheheterogeneityandthelackofstructureofWebinformationsources,previouslyaccesstosuchinformationsourceshasbeenlimitedtobrowsingandsearching.Nowalotofintelligentinformationprocessingtechniquesofretrieval,integration,e
5、xtractionanddataminingcomeouttohelppeopleaccessWebdataofinterestreadily.Informationextraction(IE)issuchanefforttoautomatethetranslationofinputpagesintostructureddata.CurrentlytherealemanyIEsystemsandtoolslikeWINE,SoftMealyandSIW,mostofthemaresupervise
6、dsystemswhichrequiremanualannotationoftraininginstancesinordertolearnextractionrules.However,suchannotationistedious,time·consumingandsubjecttochanges.inparticularwhenwebsitesupgrade.Sohowtoprovidesemanticannotationfortrainingdocumentsbecomesurgentand
7、mustbe;it’SnicetoautomatesuchannotationworkSOaStodeal、析t11differentdatasourcesreadily.Inthispaper,wepresentafmite--state·-transducer-basedmethodofautomaticannotation,whichCandeal澌thpages丽thmissingattributes,multiple-valuedattributes,multi—orderingattr
8、ibutes.Moreover,wealsoargumentit淅mprobabilitytheorytoreducetheuncertaintyofthestatemachine.11leexperimentalresultsshowthatOuralgorithmCanannotateWebpagesefficientlyandaccuratelyandthusspeed—upextractionruleslearninginWebinformationextractionsy
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。