欢迎来到天天文库
浏览记录
ID:34139616
大小:2.64 MB
页数:75页
时间:2019-03-03
《基于分块的web信息抽取系统研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP393单位代码:10425学号:S09070954◎寸闺石油土学硕±学位论文ChinaUniversityofPetroleumMasterDegreeThesis基于分块的Web信息抽取系统研究TheResearchofBlock.basedWeblnformationExtractionsystem学科专业:计算机科学与技术研究方向:计算机网络作者姓名:王超指导教师:徐杰锋教授二。一二年五月TheResearchofBlock..basedWebInformationExtractionsystemAThesisSubm
2、iaedfortheDegreeofMasterCandidate:WangChaoSupervisor:Prof.XuJiefengCollegeofComputer&CommunicationEngineeringChinaUniversityofPetroleum(EastChina)位论文的独创性声明是本人在指导教师指导下独立进行研究工作所取得的成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外,本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油大学(华东)或其它教育机构的学位或学
3、历证书而使用过的材料。与我一同工作的同志对研究所做的任何贡献均已在论文中作出了明确的说明。若有不实之处,本人愿意承担相关法律责任。∥≯7学位论文作者签名:兰!墅三日期:劢21年6月f同学位论文使用授权书本人完全同意中国石油大学(华东)有权使用本学位论文(包括但不限于其印刷版和电子版),使用方式包括但不限于:保留学位论文,按规定向国家有关部门(机构)送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他复制手段保存学位论文。保密学位论文在解密后的
4、使用授权同上。学位论文作者签指导教师签名:日期:z24z-6月/171日期:阴2/年6月1日摘要伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题。伴随着这些需求,结合传统信息抽取技术,Web信息抽取应运而生。本论文在学习已有信息抽取方法的基础之上,结合近几年涌现的新技术、新方法,展开Web信息抽取技术的研究。本课题首先介绍了信息抽取的起源、发展过程、基本概念、方式方法,在此基础上,对Web信息抽取系统中的关键技术作了详细分
5、析,包括页面清理、规范化处理、页面结构分析、典型页面抽取器等。结合Web技术发展趋势,本文从分块入手,探究一种高效的Web页面分块及正文块提取方法。通过对页面DOM树中的信息节点增加偏移量、字符数属性,将信息节点映射N-维空间。随后,利用CURE算法进行信息节点聚类,得到的各个簇即对应Web页面的各个信息块。最后在已经分好块的基础之上,本文寻找到了不同信息块之间区分度较大的三个特征,并构造权值公式,通过此公式计算各个信息块的权值,取权值最大的信息块作为正文数据区域。一最后,本论文给出了系统的总体架构以及各个模块的具体流程,并对该系统的聚类、
6、信息抽取效果进行了实验,且给出了对比分析。实验表明,本文提出的基于分块的Web信息抽取系统具有较高的正确率,是可行的。关键词:Web信息抽取;聚类算法;页面分块;正文块识别;harplyincreasedwhichpresentedahugechallengetoUSwhenweuseofthem.HowaccuratelyandquicklyextracttherequiredinformationfromtheWebpageshasbecomethefirstproblemwhenpeopleusetheIntemet.Alongwit
7、htheserequirements,theWebinformationextractiontechnologywhichbasedonthetraditionalinformationextractioncameintobegins.Ourresearchisonthebasedofthestudyofexistinginformationextractionmethods,combinednewtechnologieswhichemergenceinrecentyearstoimplementtheWebinformationextra
8、ctiontechnologyresearch.Firstlythispaperdescribestheoriginsanddevelopmentofinformationext
此文档下载收益归作者所有