基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】

基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】

ID:471672

大小:675.92 KB

页数:45页

时间:2017-08-07

基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】_第1页
基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】_第2页
基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】_第3页
基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】_第4页
基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】_第5页
资源描述:

《基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计文献综述计算机科学与技术基于包装器的Web信息抽取算法实现一、选题的背景与意义当今社会随着互联网的迅速发展,互联网上流通的信息也在爆炸性地增长,并正在成为我们工作和生活中不可或缺的一员。然而,由于WWW是一个虚拟的开放环境,任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息,众多的互联网搜索引擎不断出现,向广大用户提供基本的信息检索服务,怎样快速有效经济地检索到某个主题的所有相关信息,就成了一个十分热门的课题。Web信息抽取技术就是有效解决如何准确的从Web页面中抽取所需要内容的一项技术。信息抽取(Infomatio

2、mExtraction)就是从新闻,文献,资料等非结构化或半结构化的电子文件中有针对性地提取感兴趣的信息形成结构化的数据库文件,以便用户检索和统计,辅助用户决策。它从用户的角度来理解现有的信息世界,不是为用户提供需要的文档,而是从文档中抽取用户所需要的信息。在抽取出信息的同时保持源文档和抽出信息之间的链接,方便用户参考源文档。信息抽取通过文本分析,主义分析,结构化生成等过程抽取出有效的语义内容。经过几十年的发展,主流的信息抽取技术一般可以分为基于自然语言理解,基于机器学习,基于Ontology和基于网页结构分析等方法。1、基于自然语言理解的方法自然语言的

3、理解在传统的信息抽取问题中已经得到了广泛的研究,采用过滤,词性和词汇主义标识来建立短语和语句元素间的关联,通过给定的例子学习抽取规则。这些规则通过语法上的约束来定位元素。2、基于包装器的方法45包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习归纳算法,生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。包装器归纳方式和基于自然语言理解方式的不同之处仅仅在于它使用语义项的上下文来定位信息并没有用到语言的语法约束,而是使用可以明确描绘所要数据块结构的特征格式。3、基于Ontology的方

4、法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构,来后成抽取规则或模式。然而,抽取也可以直接依赖数据本身的描述信息来完成,而对网页结构的依赖较少。而基于Ontology方法事先需由领域知识专家采用人工方式编写某一应用领域的Ontology,包括对象的模式,常值和关键字等信息,其中常值和关键字提供了语义项的描述信息。通过解析这个Ontology,系统能识别和抽取输入文档或页面的表示数据,并自动生成一个数据库。4、基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树,半自动

5、或自动的生成抽取规则,并应用到语法树上完成信息抽取操作。目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信息组织分布相同的信息,如会议论文信息,商品信息,图书信息。这些研究的目的不是为了提取网页中的正文内容,而是为了把网页中的无结构化数据或半结构化,不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术,如果网页正文信息抽取这种技术集成到文摘系统中,就可以方便的摘取网页的摘要;如果集成到文本分类系统中,就可以自动对网页分类聚类,这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展

6、到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性,中文信息抽取的水平与国外显得比较落后,主要的研究工作集中在中文命名实体识别上。20世纪90年代初期开始,国内外一些学者对中文通用命名实体识别进行了一些研究。如:清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算45姓氏和人名用字概率。山西大学的刘开瑛做过人名,地名等实体的识别,他采用还是有统计为主的方法。复旦大学的吴立德对中文人名,组织机构名识别进行过研究采用了基于统计的方法,或者是基于规则的方法,或者是统计和规则相结合的方法,均取得了不错的效果。但是国内在信息抽取模板自动获

7、取方面的研究国内还是很少,但同时这又是信息抽取研究方面急待解决的一个问题。二、基本内容与拟解决的主要问题:(一)基本内容:本次课题是基于包装器的方法来实现WEB文本信息抽取。n包装器是一种软件构件,负责将数据和查询请求由一种模式转成另一种模式。n一个包装器实际上可看作是一类页面到该页面所含元组集合的函数。n在WWW信息应用中,包装器是一个软件过程,用已经定义好的信息抽取规则,将输入的WEB页面中的信息抽取出来,转换成用特定格式描述的信息(结构化信息)包装器的工作过程如图1所示本次课题的主要任务主要分为以下二个方面1、熟悉Java编程工具,掌握Java编程

8、过程。2、针对某一类或几类特定的页面设计抽取规则,实现对页面的信息抽取。(二)拟

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。