基于节点类型标注的网页主题信息提取技术研究

基于节点类型标注的网页主题信息提取技术研究

ID:35069929

大小:4.71 MB

页数:55页

时间:2019-03-17

基于节点类型标注的网页主题信息提取技术研究_第1页
基于节点类型标注的网页主题信息提取技术研究_第2页
基于节点类型标注的网页主题信息提取技术研究_第3页
基于节点类型标注的网页主题信息提取技术研究_第4页
基于节点类型标注的网页主题信息提取技术研究_第5页
资源描述:

《基于节点类型标注的网页主题信息提取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、:密级:论文编号M-lII中国农业科学悦寒学位论文'、'Ie基于节点类型标注的网页主题信息提取按术研究ResearchontheTechniueofExtractinWebPaeqggIn化rmationalContentBasedonNodeTypeAimotation硕±研究生:谢方立指导教师:周国民研究员申请学位类别:管理学硕女,';专业、:销巧',吟一'垂研究方向:Wd)信息培养单位:农业信息研究所研究生院2016

2、年6月独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知>,除了文中特别加^1标注和致谢的地方外,1论文中不包含其他人已经发表或撰写过的研巧成果,也不包含为获得中国农业科学院或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名时间:年>2^_目关于论文使用授权的声明本人完全了解中国农业科学院有关保留、使用学位论文的规定,目中国农业科学院有权保留送交论文的复印件和磁盘,允许论文

3、被查阅和借阅,可采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国农业科学可院W用、不同方式在不同媒体上表传播学位论文。发的全部或部分容内^硏生签名;:^>究时间月近^年2少/《^导师签名:时间年月]如<^5厂合密级:论文编号:中国农业科学院学位论文基于节点类型标注的网页主题信息提取技术研究ResearchontheTechniqueofExtractingWebPageInformationalContentBasedonNodeTypeAnnotation硕士研究生:谢方立指导教师:周国民研究员申请学

4、位类别:管理学硕士专业:管理科学与工程研究方向:Web信息检索培养单位:农业信息研究所研究生院2016年6月Secrecy:No.ChineseAcademyofAgriculturalSciencesDissertationResearchontheTechniqueofExtractingWebPageInformationalContentBasedonNodeTypeAnnotationM.S.Candidate:XieFangliSupervisor:ZhouGuominMajor:ManagementScienceandE

5、ngineeringSpecialty:WebInformationRetrievalJune2016摘要随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题

6、信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为三类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。三、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集

7、合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(NodeTypeAnnotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(DoC)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以

8、及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。