基于内容冗余的web信息抽取

基于内容冗余的web信息抽取

ID:24908176

大小:3.26 MB

页数:63页

时间:2018-11-17

基于内容冗余的web信息抽取_第1页
基于内容冗余的web信息抽取_第2页
基于内容冗余的web信息抽取_第3页
基于内容冗余的web信息抽取_第4页
基于内容冗余的web信息抽取_第5页
资源描述:

《基于内容冗余的web信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、TP391公开分类号:___________密级:______________10127UDC:____________单位代码:______________硕士学位论文论文题目:基于内容冗余的Web信息抽取200902134学号:_________________________陈夫桂作者:_________________________计算机应用技术专业名称:_________________________2012年6月6日内蒙古科技大学硕士学位论文论文题目:基于内容冗余的Web信息抽取陈夫桂作者:_____________

2、____________胡文江教授内蒙古科技大学指导教师:单位:高永兵副教授 内蒙古科技大学协助指导教师:单位:单位:论文提交日期:2012年6月6日学位授予单位:内蒙古科技大学基于内容冗余的Web信息抽取ExploitingContentRedundancyforWebInformation Extraction研究生姓名:陈夫桂指导教师姓名:胡文江内蒙古科技大学信息工程学院包头014010,中国Candidate:ChenFu-guiSupervisor:HuWen-jiangSchoolofInformationEnginee

3、ringInnerMongoliaUniversityofScienceandTechnologyBaotou014010,P.R.CHINA独创性说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。签名:___________日期:____________关于论文使用

4、授权的说明本人完全了解内蒙古科技大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵循此规定)签名:___________导师签名:___________日期:____________内蒙古科技大学硕士学位论文摘要随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在所需的信息中,使有用信息很难从无用信息中分离出来,这在一定程

5、度上加重了网页噪声,使有用信息产生飘逸,它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运而生。对信息抽取的现状进行分析可以发现,模板技术提供了一个很好的信息抽取途径。本文介绍了网页信息抽取技术的发展历史、操作原理和相关技术,详细分析了现有的页面抽取方法的优点和不足,总结出基于模板的站点信息进行抽取时存在两个关键性质:性质一:多个网站包含统一实体的页面。此外,一个跨页面的实体的属性值是本质类似的。性质二:在一个网站的网页有一个类似的结构即符合一个共同的模板。其中性质一意味着有跨网站的冗余内容,可以利用此实体内容的冗余,从一个

6、站点中提取,以确定重叠的实体在不同的网站页面的属性值。性质二意味着属性值出现在一个网站的页面上的固定位置,故可以利用位置内容的冗余,因此,一旦确定了一个网站若干页的属性值,就可以推断出它们在网站中的具体位置,使用这个方法从该网站的其余页面中提取属性值。基于此,本文提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库,然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,而进行了一系列相似性度量;为了过滤掉噪声,在那些基于模板的网站发现并应用了该属性的实际值。通过大量数据

7、进行实验表明,本文提出的方法能够更有效地抽取网页信息。关键词:信息抽取;内容冗余;相似度;抽取规则II内蒙古科技大学硕士学位论文AbstractAlongwiththecomputerandtherapiddevelopmentofnetworktechnology,moreandmorepeoplebegintosearchtheInternetfortheinformationtheyneed.However,inthenetwork,manyoftheadsandnotrelatedlinksembeddedintherequ

8、iredinformation,sothatusefulinformationisdifficulttoseparatefromtheuselessinformation,whichtosomeextentaggravatesthep

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。