欢迎来到天天文库
浏览记录
ID:33726471
大小:1.46 MB
页数:56页
时间:2019-02-28
《基于搜索引擎和xml的化工物性数据搜集与发布系统的开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京化工大学硕士学位论文基于搜索引擎和XML的化工物性数据搜集与发布系统的开发姓名:张聚弘申请学位级别:硕士专业:计算机应用技术指导教师:山岚20050603北京化工大学硕士研究生学位论文基于搜索引擎和XML的化工物性数据搜集与发布系统的开发摘要随着多年的化工专业数据库建设,网上已经存在有很多面向广大化工从业和研究人员的数据查询网站。但是这些网站一般不能提供比较全面的化工物性数据,并且格式也有很大的差别。现有的搜索引擎技术是面向链接分析得网页抓取和全文分析系统,不能很好地发现网页背后数据库中的信息。面向专业的主题式搜索引擎
2、已经开始研究如何更好地获得这些数据。本文介绍了搜索引擎技术的历史、工作原理、新技术、专业领域数据库搜索引擎和面临的挑战,提出了页面分析与数据提取技术和主动式Web信息获取技术。使用Java以及Oracle9i数据库构建了一个面向化工物性数据的数据搜集和发布系统,其中利用了搜索引擎技术中的Spider技术和页面分析技术来获取数据,利用XML的通用性对数据进行转化和组织存放入了本地数据库中。针对页面分析和数据提取过程出现的数据定位不准确问题,本文提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对
3、比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。本系统实现了对网上的化工物性数据的高效、准确的数据提取。通过J2EE技术和AXIS构架本系统建立化工物性数据网上查询系统和WebService系统,开发了化工物性发布系统。关键字:数据提取,页面结构,搜索引擎,对比分析,化工物性数据北京化工大学硕士研究生学位论文D臃LOPOFCOMPONENTPROPERTYDAI.AGATHERANDPUBUCSYSTEMBASEDONSEARCHENGINEANDXMLAfteryearsbu
4、ildingofcomponentpropertydatabase,therearemanysiteswhichprovidequeryserviceforusersformchemicalIndustry.Buttheyusuallycan’toffercomprehensivecomponentpropertydata,andthedataformatarealsonotunifom.1meexistentsearchenginesareWebpagesgatheringandfull—textsearchsystem
5、sbasedoninteractlinksanalysis.Now,thetop-specificsearchenginerelevanttoasetoftopicsisbeginningtoresearchhowtogetmoredata.Inthispaperweintroducethehistory,workprinciple,newtechnology,challengesofsearchengineandthetop-specificsearchengine,proposetheWebpageanalysis,d
6、ataextractingandtheWebpageactiveretrieval.AcomponentpropertydatagatherandpublicsystemisbuiltwithJavaandOracle9i,usedSpiderandWebpageanalysistogetdata,usedXMLtotransformandorganizedatatoinsertintolocaldatabase.AWebdataextractionmethodisproposedtogetexactdata,Ⅱ北京化工大
7、学硕士研究生学位论文whichisbasedonPageComparisonandstructureanalysisinthesamesite.Inthissystem,wecontrastandanalyzepagesbasedonbuilderpagetreeandpagepartitiontogetWebpagedatablock,usesame-structurepagesanalyzeinthesamesiteandformatjudgetoextractcomponentpropertydata.Thissys
8、temhasextractedcomponentpropertydataformsomesites,accuratelyandefficiently.UsingJ2EEandAXISweestablishedcomponentpropertydataquerysiteandWebservice,impl
此文档下载收益归作者所有