web信息智能抽取技术地研究和实现

web信息智能抽取技术地研究和实现

ID:32264388

大小:4.30 MB

页数:70页

时间:2019-02-02

web信息智能抽取技术地研究和实现_第1页
web信息智能抽取技术地研究和实现_第2页
web信息智能抽取技术地研究和实现_第3页
web信息智能抽取技术地研究和实现_第4页
web信息智能抽取技术地研究和实现_第5页
资源描述:

《web信息智能抽取技术地研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着我国经济的迅速发展,国家信息基础设施建设强度加大加强和人民生活质量的提高,网络已经深入人们生活的方方面面,成为工作或生活中不可缺少的一部分,怎样快速有效的获取Web上的信息,已经成为了一个重要的研究课题。但是网络上的信息种类繁多、网页结构形式多变,大多数网页上还包含了许多广告、导航、热点链接等噪音信息,这些问题给研究者带来了很大的困扰。而目前的信息抽取技术还存在很多不足:如仅能处理一种类型网页,提取的信息细化程度低,准确率与效率矛盾、人工干预与智能化操作、不支持增量信息处理等问题。这就迫切需要一种全新的信息提取方法来解决这些问题,本课题就是在这种需求下产生的。本文主要采用的是模板

2、化的信息提取算法,先利用规则生成器识别网页上的目标实体分隔符,然后由模板生成器把这些分割标记配置到模板中,最后由信息抽取器根据模板提取该站点的相关信息。具体创新点或关键技术如下:1、通过分析的站点网页结构,分析网页结构布局形式和标签的分布规律,并结合目前国内外的信息抽取技术,发明了一套可以定义任何网页结构形式的模板,并设计出了一套模板自动配置方案;2、设计了信息抽取器:实现了读取模板,以及根据模板配置进行信息抽取的方法,并在此过程中增加了信息增量/多页处理算法:采用增量/多页算法来解决同一主题的内容分布在多个网页的问题,即需要进行融合计算,以及解决不同时间段,主题网页内容动态更新的问题,

3、即要进行增量提取;去重处理算法:处理站点间相似或相同主题重复问题;3、结果的结构化存储:根据模板的配置,提取相关的信息,并采用结构化的形式进行保存;设计一个可动态扩展的信息提取系统:根据不同的需要,动态配置模板,不需要更改代码。本文在理论上提出了一套依据模板能自动提取各种类型网页的信息抽取方案,并开发了相应的系统IWlES。实践结果证明,本方案相对于常见的web信息抽取技术方法具有更好的提取速度以及更高的准确率、召回率。关键词:信息抽取,规则生成器,模板生成器,增量/多页处理ABSTRACTW池rapidlydevelopingcountry’Seconomy,enlargingenha

4、ncementofthenationalinformationinfrastructureconstructionandenhancementofthepeoplelife’squality,thenetworkhasalreadypenetratedpeople’slifeandbecameanessentialpartin0111"worksorourlife.HowquicklyandefficientlyobtaintheinformationonWeb?Thisproblemhasalreadybecomeanimportantresearchtopic.Butinthenet

5、workinformationgreatvariety,thehomepagestructuralstyleischangeable,onmostpagesalsoincludesalotofnoiseinformation,suchasads,navigation,hotlinks,andSOon,whichhavebroughtagreatdealofdistresstoresearchers.Therea他alotofdeficienciesincurrentinformationextractiontechnologies,suchasdealingwithonlyonetype

6、ofWebpages,口xtractedresult丽mthelowleveldetail,accuracyandefficiencyofcontradiction,manualinterventionandtheintelligenceoperations,unsupportedtheincrementalinformationprocessingproblem.Forresolvingtheseproblems,thesubjectdevelopsanewinformationextractionmethod.Thisthesisisbasedonatemplateofinforma

7、tionextractionalgorithms:itisthefirsttoidentifythetargetentities’partitiontagsfromtheWebpagebytherulesgenerator,andthenconfigurethesepartitiontagstothetemplatebythetemplategenerator,finallywithdrawstherelatedinformatio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。