基于hmm和bp网络混合模型的web文本信息抽取..研究

基于hmm和bp网络混合模型的web文本信息抽取..研究

ID:31971760

大小:1.74 MB

页数:61页

时间:2019-01-29

基于hmm和bp网络混合模型的web文本信息抽取..研究_第1页
基于hmm和bp网络混合模型的web文本信息抽取..研究_第2页
基于hmm和bp网络混合模型的web文本信息抽取..研究_第3页
基于hmm和bp网络混合模型的web文本信息抽取..研究_第4页
基于hmm和bp网络混合模型的web文本信息抽取..研究_第5页
资源描述:

《基于hmm和bp网络混合模型的web文本信息抽取..研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一章绪论1.1研究背景和研究意义随着计算机的普及以及网络的迅速发展,信息的复杂度和数量级也正在迅猛增长,想要从如此众多的信息中找出某些特定的因素,变的非常难以处理。特别是互联网出现之后,产生的大量的web文本,因其组织结构的不同,而更加增加了寻找特定信息的难度。如何更好更快的从海量信息中,提取出需要的信息,成了当前的重要的研究课题。因此信息抽取技术也就应运而生。信息抽取(InformationExtraction)是从非结构化并且机器可读的文本中自动提取结构化或者半结构化信息的一种信息获取方式。它是计算机科学的一个分支—语言工程的一个子学科。通常情况下,被抽取的结构化

2、信息,可以存储在数据库中,供用户查询使用。信息抽取技术上一种应用于大型数据集合中,并且抽取出特定信息知识的一种技术。当前互联网的发展,使得网络信息大量存储与网页中,整个互联网成为了一个特大型的数据集合。在这种情况下,web文本信息的抽取也就逐渐形成。Web上的文本信息与传统的文本信息相比,具有以下特征:1:非结构或半结构化,没有特定的格式和结构;2:更新周期短,具有明显的动态性,无规律可循。3:无效信息较多,目前的web网页为了增加美观以及吸引用户,往往增加过多无效的信息,如广告,动画等。因为以上原因,web文本的信息抽取也面临了一系列的问题,如何从复杂繁多的数据信息中,

3、及时地将需要的信息准确的提取出来,成为了当前信息抽取领域的主要课题。Wikipedia:Informationextraction(IE)isatypeofinformationretrievalwhosegoalistoautomaticallyextractstructuredorsemistructuredinformationfromunstructuredmachine-readabledocuments.Itisasub-disciplineoflanguageengineering,abranchofcomputerscience-4-1.2web信息抽取

4、概述在上世纪九十年代,web信息抽取被研究者提出,在此之后,研究者对于该领域的技术和方法进行了多方面的研究和改进,由此尔始,web信息抽取综合了数理统计学领域,web页面处理领域,以及计算机编程领域等多领域的一种综合学科。在一些研究成果里面,Web信息抽取的定义为:Web信息抽取即是在与万维网及其相关的资源和行为中抽取研究者或者用户感兴趣的、有用的模式和隐含信息[1]。随着web的出现与繁荣,研究者逐步的对web信息抽取的技术进行不断总结改进,因此,在该领域目前已经逐渐形成许多成熟的算法和系统。如知名的CarnegieMellonUniversity“自动学习和发现中心”

5、的“web挖掘”项目。该项目通过自动从web中提取实例,来创建大型的、结构化的有用事实的数据库,通过机器学习算法训练,能够自动的提取信息。用户首先定义要被提取的类器学习算法,通过训练,能够自动提出信息。用户首先定义要被提取的类(比如公司、产品、雇员)和关系(比如“被雇佣”),并通过Web提供训练样本,系统然后使用这些训练数据学习通用的信息提取步骤,然后按照这个步骤从其他Web页面中提取信息。他们已经开发了许多经典学习算法,其中包括:(1)一阶规则学习算法;(2)文本语法推断算法。他们已经证明,这些方法能够提取关于大学教员、学生、课程和研究项目的信息,在抽取结果中的精确度超

6、过了七成,而召回率也将近四成[2]。Web信息抽取技术按照自动化程度可以分为人工提取,半自动化信息提取和全自动化信息提取。这种分类方式主要是根据web信息抽取技术的核心wrapper(包装器)生成方式的不同而分类。在一般意义上web文本挖掘可以分为:Web内容抽取(WebContentExtraction),Web结构抽取(WebStructureExtraction)、Web使用记录抽取(WebUsageExtraction)。Web内容抽取是从文档内容或其描述中抽取知识的过程。按照抽取的对象不同可以分为两类:针对文本文档的和针对多媒体文档的抽取,Web内容抽取是对We

7、b上大量文档集合中的内容进行抽取、分类、聚类、关联规则以及趋势预测等。Web结构抽取是从WWW的组织结构和链接关系中推导知识。由于文档之间的互-5-连,WWW不仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。通过得到的这些信息,对某些相关联的网页进行排序,从而对重要的信息进行挖掘。对web结构的抽取则是为了发现页面的结构,在这些工作的基础上对发现的网页通过某些方法进行聚类和分类,以此对重要的页面进行发现和抽取。在这些方法中有一些代表算法如PageRank、Hub/authority、HITS(Hype

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。