欢迎来到天天文库
浏览记录
ID:33997269
大小:1.33 MB
页数:90页
时间:2019-03-03
《web信息整合平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERDISSERTATION论文题目:WEB信息整合平台设计与实现学科专业:计算机软件与理论指导教师:高辉副教授作者姓名:杨康班级学号:200921060225万方数据分类号密级注1UDC学位论文WEB信息整合平台设计与实现(题名和副题名)杨康(作者姓名)指导教师高辉副教授博导_电子科技大学成都(职务、职称、学位、单位名称及地址)申请学位级别硕士专业名称计算机软件与理论论文提交日期2012.03论文答辩日期2012.05学
2、位授予单位和日期电子科技大学答辩委员会主席评阅人2012年月日注1:注明《国际十进分类法UDC》的类号II万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家
3、有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘要摘要随着Internet技术的高速发展,网络信息资源的快速增长,网络已成为人们获取数据的重要来源。面对庞大的网络资源,搜索引擎为人们检索提供重要的技术手段。然而,传统的搜索引擎是基于单词的检索,存在一定的局限性,如搜索结果存在大量无关的网页、由于转载而造成信息内容雷同等。因此,极有必要对网
4、络信息资源进行整合,以帮助人们从海量网络资源中,提炼出人们所关心的特定信息,并对数据重新整合与统一的展现。本文的主要研究工作就是整合WEB资源信息,使互联网用户能够快速准确地搜寻到自己需要的信息。首先,本文对WEB信息整合中的相关理论和技术研究,包括信息整合两种方法、三大组成模块以及四种关键技术等。并在设计过程中对各模块涉及知识做全面综述,包括本体概念、网络爬虫、信息抽取、资源描述框架等。其次,本文设计并实现了一种WEB信息整合平台原型系统,该系统以本体为指导。设计了系统总体结构框架模型,系统由4大模块组成:数据采集、信息抽取、存储模型、前台呈现。提
5、出了基于本体和搜索引擎聚焦网络爬虫,基于本体的页面分析过滤算法,基于本体和DOM树路径的信息抽取规则,以及基于RDF的数据存储模型和基于B/S前台结果呈现等一系列设计方案。通过该信息整合平台,用户可以设置需要整合的领域信息,系统能够检索并整合出互联网中相关领域资源,并将结果以统一的、结构的、形象的展示给用户。该系统不需要对不同数据源分别建立包装器,而是作用域整个互联网之上,能够融合互联网中多种异构资源。最后,本文还对WEB信息整合平台做了综合测试,包括爬虫的效率与抓取量测试、数据抽取率测试等。测试证明系统能整合互联网中部分异质的数据源,但也存在一些不
6、足。关键词:WEB,异质资源,信息抽取,本体,信息整合I万方数据ABSTRACTABSTRACTWiththerapiddevelopmentofInternettechnology,andenrichofnetworkinformationresources,theInternethasbecomeamoreimportantwayforpeopletoqueryandaccesstodata.Facedwiththehugenetworkresources,thesearchengineprovidesanimportantcontributio
7、nforpeopletoinformationretrieval.However,traditionalsearchenginesarekeyword-basedretrieval.Therearesomelimitations,suchastheexistenceofalargenumberofirrelevantsearchresults,thepagemaybereservedwithsameinformationcontent.Therefore,itishighlynecessarytointegrateofInternetInformat
8、ionresourcestohelppeopleextractthespecificinformationc
此文档下载收益归作者所有