试论web信息抽取技术研究与基于web service的实现

试论web信息抽取技术研究与基于web service的实现

ID:35131847

大小:265.74 KB

页数:52页

时间:2019-03-19

试论web信息抽取技术研究与基于web service的实现_第1页
试论web信息抽取技术研究与基于web service的实现_第2页
试论web信息抽取技术研究与基于web service的实现_第3页
试论web信息抽取技术研究与基于web service的实现_第4页
试论web信息抽取技术研究与基于web service的实现_第5页
资源描述:

《试论web信息抽取技术研究与基于web service的实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学硕士学位论文Web信息抽取技术研究与基于Webservice的实现姓名:张志强申请学位级别:硕士专业:计算机应用技术指导教师:李天柱20040601摘要摘要随着Internet技术的发展WWW上积累了大量数据成为世界上最大的数据源但Web信息多以HTML格式发布缺乏语义信息造成大量的Web数据不能直接为应用程序直接使用为了使大量的Web数据能够为以数据为驱动的应用所使用人们广泛采用了信息抽取技术现已成为当前研究热点之一在以往的工作中我们实现了基于结构的信息抽取技术在Web网页显示特征的深入分析基础上以XpathXquery作为抽取规则给出了一

2、套抽取规则的生成优化方案试验结果表明这套方案所使用的方法具有较高的查准率查全率但在该方法中对Web网页结构的几个特殊情况只做了特定地分析缺乏理论上地系统阐述对抽取能力的表达也不够充分本文仔细研究了基于结构信息抽取方法的典型系统借鉴非1NF关系数据库的关系模式的平面化/嵌套化操作引入了DOM的平面化/嵌套化理论对Web网页结构做了深入分析给出了三种基本类型的平面化/嵌套化情况1集合对象平面化2元组对象平面化3DOM结构嵌套粒度过大分析了各种平面化/嵌套化对抽取的影响之后引入了结构重组规则针对各种平面化情况采用结构重组规则给出了相应的具体解决方案提高了系

3、统的抽取能力结合Web网页结构的上下文环境对各种结构重组规则的具体解决方法的适应性进行了详细的分析初步讨论了基于结构的信息抽取技术的抽取能力规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术还可以采用其他信息抽取技术的方法提高了现有信息抽取技术的效率和健壮性同时为各种信息抽取技术的融合提供了一种思路WebService的出现为数据集成提供一种很好的解决方案本文将WebService技术与信息抽取技术相结合在原型系统中实现了基于WebService的信息抽取系统关键词信息抽取语义模式DOM平面化/嵌套化WebServiceIAbstractAb

4、stractAsInternetrapidlydeveloping,WorldWideWebhasalreadybecomethebiggestinformationresources.ButthemostofvaluableWebinformationisinHTMLform,whichmarkedbyHTMLandaimatrepresentationandlackofschemaandsemanticinformation,inordertoaccesstheWebinformationwithstructuredanduniformedway

5、,peopleapplyinformationextractiontechnologytoWeb.Inthepastwork,wehaveimplementedaprotypesystem,itbeprovedbeworkwellbyexperiment.Butatpresent,noworkhasanalysisedtheWebstructureintheoreticway.Now,inthispaper,weintroduceunnest/nesttheorytoillustratetheWebpagestructure.Afterstudied

6、sometypicalinformationextractsystemsbasedonstructure,wefindtherearefourkinksofnest/unnest:(1)unnestofsetobject;(2)unnestofrecordobject;(3)toobiggranularityofDOMnode.Underthistheory,weprovidedeffrentRestructure_Rullforeverykindofnest/unnest,andanalysistheadaptabilityoftheRestruc

7、ture_Rull.ByRestructrue_Rull,wecanuseotherinformationextracttechnologyinoursystem,bythiswaywefindamethodtointegratemanyinformationextracttechnologytogether.WebServiceisthefutureoftheInternetandprovidesagoodsolutionforinformationintegrate.WeintegrateWebServicetechnologywiththein

8、formationextractiontechnologyanddevelopaprotypesystemb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。