欢迎来到天天文库
浏览记录
ID:33307807
大小:14.05 MB
页数:62页
时间:2019-02-24
《基于html的web信息抽取技术的研究与应用精选》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、哈尔滨工程大学硕士学位论文基于HTML的Web信息抽取技术的研究与应用姓名:于立艳申请学位级别:硕士专业:计算机软件与理论指导教师:邢薇201103 摘要伴随着科技的进步和����的不断发展,互联网开始逐渐成为现代人了解世界的重要媒介,同时网络上的信息每天都在更新,如何才能批量而精准的获取网络媒体中的新闻和文章等信息并将其转化为结构化的记录呢��信息抽取有望帮人们解决这些难题,但是现有的信息抽取技术大多是采用半自动化的方式建立的,抽取规则的建立需要大量的人工参与,针对这一问题笔者结合新闻类型的网页对信息抽取技术展开研究。的语义相似度算法应用到该过程中,将用户输入的描绘
2、目标网页类别的关键词与各级导航栏中的栏目名称进行相似度计算,建立自动探测目标网页的模型,从而实现这一过程的自动获取。��袷降奈牡担�袢∶扛鼋诘愕腦��路径,利用新闻信息列表页中的某些特征作为输入层的神经元信息建立�神经网络模型,通过训练样本得出待抽取信息所在路径的最优解,最终达到信息列表页的信息抽取。��有挛耪�囊匙;��吹腦�文档入手,充分利用每一行的文字密度比这一显著特征建立�神经网络模型,凭借神经网络模型优秀的机器学习能力,实现统计学思想与信息抽取的完美结合,并在其基础上建立正文页的抽取规则。试,验证抽取性能,并对算法进行优化。关键词:��畔⒊槿。籋��籜��;
3、词汇相似度;�神经网络 ����������������������������������������������������������������������������,���������������������������甌�����������������������������������������������������.�����������琒�������������������������,��,一 哈尔滨�程大学硕十学位论文����������篧���������;� 伴随计算机网络的蓬勃发展,互联网已经成为人们获得信息的主要资源,人们获取和
4、发布信息的信息资源载体已经从传统的电视、电话、广播、书本等媒介逐步过渡到网络,网络上的页面信息量每天成指数型、爆炸型方式增长,信息量如此的巨大给那些希望从网络上获取专业化、行业化、有针对性的信息的人们带来了很多阻碍,譬如政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如果采用原始的手工方式来查找、收集、筛选、统计这些信息不仅费时费力盲目且毫无效率可言,而且面对越来越多的信息资源,投入的人力物力以及劳动强度和难度都是可想而知的。虽然已有的搜索技术诸如谷歌、雅虎、百度、有道等搜索引擎对于人们检索和搜集信息带来了方便,但是由于它们多是基于字符串匹配和
5、词义相似性的原理进行信息查询的,~使得其结果就是一些相似的、聚类的信息的汇总,其中不乏有很多重复性的网页及内容,使用价值远远小于人们的期望值,同时也不能满足对行业化、专业化的信息有强烈要求取技术便应运而生,它主要的任务是将网页中用户感兴趣的信息准确的抽取出来以更有。组织性的统一的形式集成在一起,采用通用的智能的技术帮助用户分析、汇聚多领域的‘二的目的一般不同于信息检索,它是着重抽取有价值的信息为后续工作做铺垫,利用各种��畔⒌姆⒉即蠖嗍峭ü��贖��蛘遆�的结构来实现的,而这些结构大多呈半结构化或者非结构化的形式,计算机无法自己去理解找寻用户所需要的信息,如��信息抽
6、取的发展及国内外研究现状定的一段文字或者记录等,以此来形成具有结构化的数据并将数据结果存入到数据源当 哈尔滨工程大学硕十学位论文中供特定的用户使用或者查阅的过程。可以这样理解它的含义,给定一个页面或者文本,用户根据自己的需求及兴趣抽取出里面的某一名称、事件或者实体,或者对象与对象之间的关系,并将抽取出来的信息以结构化的形式描述出来,然后将其存储在数据库中为以后的工作和分析提供基本素材,举例来说,这些分析工作可以包含对股票的涨幅提供对比依据、对汇率的历史数据分析提供基础数据、对市民购物提供价格对比、对间接关联的事物提供媒介等等。信息抽取与日常的生活是息息相关的,从生活中
7、就能体会到信息抽取带来的便利,信息抽取不同于搜索引擎,搜索引擎是根据输入的关键词,找出关键词所对应的文章或者链接,返回所有与关键词有关的列表。而信息抽取是首先对给定的待抽取的文本或者页面进行分析,将半结构化或者非结构化的文本或页面转换成结构化的形式,然后再抽取出相应的涵盖在其中的内容或者信息。信息抽取在广义上可以包括音频、视频、图像、广播等各类形式的数据对象,但是这里主要是从狭义的方面也就是自然语言的处理方面来考虑。对自然语言的文本进行处理以便达到获取结构化信息为目的的信息抽取技术的研究始于上个世纪六十年代,出现了两个比较有代表性的组织机构,一个是美
此文档下载收益归作者所有