基于html的web信息抽取技术的研究与应用

基于html的web信息抽取技术的研究与应用

ID:32293990

大小:7.74 MB

页数:59页

时间:2019-02-02

基于html的web信息抽取技术的研究与应用_第1页
基于html的web信息抽取技术的研究与应用_第2页
基于html的web信息抽取技术的研究与应用_第3页
基于html的web信息抽取技术的研究与应用_第4页
基于html的web信息抽取技术的研究与应用_第5页
资源描述:

《基于html的web信息抽取技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于HTML的Web信息抽取技术的研究与应用摘要伴随着科技的进步和Internet的不断发展,互联网开始逐渐成为现代人了解世界的重要媒介,同时网络上的信息每天都在更新,如何才能批量而精准的获取网络媒体中的新闻和文章等信息并将其转化为结构化的记录呢?Web信息抽取有望帮人们解决这些难题,但是现有的信息抽取技术大多是采用半自动化的方式建立的,抽取规则的建立需要大量的人工参与,针对这一问题笔者结合新闻类型的网页对信息抽取技术展开研究。本文先根据url和关键词完成目标网页的定位,后抽取新闻列表页的列表信息和新闻正文页的正文内容,结合人工智能思想和已有的Web

2、信息抽取技术进行以下几方面的工作:1.从首页逐级定位到目标网页一般很难塑造出某种模型,所以考虑将文本聚类中的语义相似度算法应用到该过程中,将用户输入的描绘目标网页类别的关键词与各级导航栏中的栏目名称进行相似度计算,建立自动探测目标网页的模型,从而实现这一过程的自动获取。2.为了更好的分析和研究新闻信息列表页的抽取,将HTML格式的页面转换成为XML格式的文档,获取每个节点的XPath路径,利用新闻信息列表页中的某些特征作为输入层的神经元信息建立BP神经网络模型,通过训练样本得出待抽取信息所在路径的最优解,最终达到信息列表页的信息抽取。3.从新闻正文页

3、转化而来的XML文档入手,充分利用每一行的文字密度比这一显著特征建立BP神经网络模型,凭借神经网络模型优秀的机器学习能力,实现统计学思想与信息抽取的完美结合,并在其基础上建立正文页的抽取规则。4.设计并建立信息抽取的原型系统,选取国内多家新闻类型的网站对系统进行测试,验证抽取性能,并对算法进行优化。关键词:Web信息抽取;HTML;XPath;词汇相似度;BP神经网络基于HTML的Web信息抽取技术的研究与应用AbstractWiththeadvancesoftechnologyandthecontinuousdevelopmentofInterne

4、t,theInteractbegantobecomeallimportantmediumformodernpeopletounderstandtheworld,Atthesalnetimetheinformationisupdatedonthenetworkeveryday,Howcangetthenewsandmediaarticlesandotherinformationsvolumeandaccurateandturnitintostructuredrecords?Webinformationextractionisexpectedtohelp

5、peoplesolvetheseproblems,buttheexistinginformationextractiontechnologyismostlyestablishedonsemi-automatedfashion,theestablishmentoftheextractionRulesrequiresalotoflaborinvolved,theextractiontechniquesofthisproblemwillberesearchedwithWebnewspages.Positioningunderthelandingpageur

6、landkeywordiscompletedfirstlyinthisthesis.Thennewslistpageinformationsandnewscontentofthetextpagesareextracted.Withthethoughtofartificialintelligence,someexistedWebinformationextractiontechnologyareproposed.Thefollowingsolutionsareasfollows:1.Itisdifficulttoshapeageneralmodelth

7、atfromthehomepagenavigatetothetargetpagestepbystep,SOthesemanticsimilarityalgorithrnoftextclusteringisconsideredandappliedtothisprocess.Thesimilarityiscalculatedbetweenkeywordwhichtheusersinputtodescribetargetpagecategoriesandcolumnnanlcinthenavigationbaratalllevels,amodelthatd

8、etectingandlandingpageautomaticallyisbuilt,SOthisproce

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。