2486.网页信息抽取模块研制

2486.网页信息抽取模块研制

ID:6665165

大小:406.00 KB

页数:24页

时间:2018-01-21

2486.网页信息抽取模块研制_第1页
2486.网页信息抽取模块研制_第2页
2486.网页信息抽取模块研制_第3页
2486.网页信息抽取模块研制_第4页
2486.网页信息抽取模块研制_第5页
资源描述:

《2486.网页信息抽取模块研制》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、专科毕业设计(论文)设计题目:网页信息抽取模块研制系部:信息工程系专业:微机应用班级:姓名:学号:指导教师:职称:讲师2009年6月南京摘要垂直搜索引擎和普通的网页搜索引擎的最大区别是垂直搜索引擎对网页信息进行了结构化信息抽取,因此信息抽取技术成为了构建垂直搜索引擎的核心技术。本文首先简介4种Web的信息抽取技术,然后结合Jtree和Xpath技术来实现动态网页信息抽取系统.关键字:信息抽取;垂直搜索引擎;结构化信息提取;JTree;XPathAbstractThedifferencebetweensearchengineandsimp

2、lesearchengineisthatPlumbsearchenginestructedthefilethatcatch,andthesearchinformationbecomethecoretechnologytobuildthePlumbsearchengine.Thisarticletalkaboutfourdifferenttechnologyforwebsearchfirst,andthencombinetheJtreewithxpathtobuildthissearchsystem.Keywords:Informatio

3、nsearch;Plumbsearchengine;structedinformationextraction;Jtree;xpath;目录引言5第一章开发概述61.1研究背景和意义6第二章Web信息抽取相关技术72.1垂直搜索引擎中的信息抽取技术的选用72.2几种Web的信息抽取技术简介72.3JTidy简介102.4XHTML简介11第三章系统分析与设计123.1需求分析123.2系统设计123.2.1网页抓取功能123.2.2样本页转换成XHTML功能123.2.3XHTML转换成XML功能133.2.4XpathViewer解析

4、器133.2.5XSLT解析器文件133.2.6提取信息13第四章信息抽取系统的实现144.1解析页面并生成Jtree144.2抽取规则的生成算法生成154.3根据Xpath生成XSLT文件17第五章试验185.1获取抽取页面并测试18总结21致谢23参考资料引言随着互联网信息的不断增长,人们越来越多地使用搜索引擎来寻找自己需要的信息。研究表明,搜索引擎所能搜索到的信息资源只是能被其建立索引的部分,而很多信息资源不能被搜索引擎索引到。比如专利、文献数据库内的信息,往往需要人们通过查询表单来进行访问。实际上这些不能被搜索引擎索引到的信息内

5、容更加专门化并具有更高的价值。其次,搜索引擎主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。用户对直接获取有用信息的需求越来越强烈。第一章开发概述1.1研究背景和意义信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。在实际的情报研究中,需要进行统计分析的对象是网页或者文本中特定字段的内容,而不是整个网页或者文本本身。为了能够更有效地支撑情报研究工作,方便地获取和利用这部分信息,需要设计专门的信息抽取、解析工具等对这些信息资源进行抽取和整理。本文所要介绍的就是一个实现了

6、信息自动抽取的系统,与其他信息抽取程序比较,这个系统在使用界面上对用户更加直观友好,在抽取功能上实现了动态的包装器自动生成,即对不同的信息资源都能自动生成对应的抽取程序。通过分析这些不能被搜索引擎索引到的网页信息,发现有以下两方面的特点:a.动态网页或网页的动态生成。这些网页并不稳定存在于服务器端,只有当用户通过访问接口访问资源数据库时,服务器才动态生成这些网页并产生一个含有用户信息变量在内的URL地址指向这些页面。这也是其很难被搜索引擎索引到的原因。b.网页结构上的一致性。这些由数据库生成的网页在减轻网站的页面维护负担的同时,按网页模

7、版批量生成的页面在结构上是基本一致的。垂直搜索引擎就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息检索服务,如购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索、中文论坛搜索。垂直搜索引擎和普通的网页搜索引擎的最大区别是它对网页信息进行了结构化信息抽取,也就是从网页的某些非结构化数据中抽取出特定的结构化信息数据;如中文论坛搜索引擎中的结构化信息可表示为:{标题,作者,发布日期,阅读次数,回复次数,Url链接,帖子摘要}。垂直搜索是以结构化数据为最小单位,然后将这些数据存储到数据库中;而普通的网页搜索

8、引擎是以网页或网页块为最小单位的。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标,因此结构化的信息抽取技术成为了垂直搜索引擎的关键技术之一。第二章Web信息抽取相关技术2.1垂直搜索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。