基于搜索引擎和xml的化工物性数据搜集与发布系统的开发

基于搜索引擎和xml的化工物性数据搜集与发布系统的开发

ID:33726471

大小:1.46 MB

页数:56页

时间:2019-02-28

基于搜索引擎和xml的化工物性数据搜集与发布系统的开发_第1页
基于搜索引擎和xml的化工物性数据搜集与发布系统的开发_第2页
基于搜索引擎和xml的化工物性数据搜集与发布系统的开发_第3页
基于搜索引擎和xml的化工物性数据搜集与发布系统的开发_第4页
基于搜索引擎和xml的化工物性数据搜集与发布系统的开发_第5页
资源描述:

《基于搜索引擎和xml的化工物性数据搜集与发布系统的开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京化工大学硕士学位论文基于搜索引擎和XML的化工物性数据搜集与发布系统的开发姓名:张聚弘申请学位级别:硕士专业:计算机应用技术指导教师:山岚20050603北京化工大学硕士研究生学位论文基于搜索引擎和XML的化工物性数据搜集与发布系统的开发摘要随着多年的化工专业数据库建设,网上已经存在有很多面向广大化工从业和研究人员的数据查询网站。但是这些网站一般不能提供比较全面的化工物性数据,并且格式也有很大的差别。现有的搜索引擎技术是面向链接分析得网页抓取和全文分析系统,不能很好地发现网页背后数据库中的信息。面向专业的主题式搜索引擎

2、已经开始研究如何更好地获得这些数据。本文介绍了搜索引擎技术的历史、工作原理、新技术、专业领域数据库搜索引擎和面临的挑战,提出了页面分析与数据提取技术和主动式Web信息获取技术。使用Java以及Oracle9i数据库构建了一个面向化工物性数据的数据搜集和发布系统,其中利用了搜索引擎技术中的Spider技术和页面分析技术来获取数据,利用XML的通用性对数据进行转化和组织存放入了本地数据库中。针对页面分析和数据提取过程出现的数据定位不准确问题,本文提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对

3、比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。本系统实现了对网上的化工物性数据的高效、准确的数据提取。通过J2EE技术和AXIS构架本系统建立化工物性数据网上查询系统和WebService系统,开发了化工物性发布系统。关键字:数据提取,页面结构,搜索引擎,对比分析,化工物性数据北京化工大学硕士研究生学位论文D臃LOPOFCOMPONENTPROPERTYDAI.AGATHERANDPUBUCSYSTEMBASEDONSEARCHENGINEANDXMLAfteryearsbu

4、ildingofcomponentpropertydatabase,therearemanysiteswhichprovidequeryserviceforusersformchemicalIndustry.Buttheyusuallycan’toffercomprehensivecomponentpropertydata,andthedataformatarealsonotunifom.1meexistentsearchenginesareWebpagesgatheringandfull—textsearchsystem

5、sbasedoninteractlinksanalysis.Now,thetop-specificsearchenginerelevanttoasetoftopicsisbeginningtoresearchhowtogetmoredata.Inthispaperweintroducethehistory,workprinciple,newtechnology,challengesofsearchengineandthetop-specificsearchengine,proposetheWebpageanalysis,d

6、ataextractingandtheWebpageactiveretrieval.AcomponentpropertydatagatherandpublicsystemisbuiltwithJavaandOracle9i,usedSpiderandWebpageanalysistogetdata,usedXMLtotransformandorganizedatatoinsertintolocaldatabase.AWebdataextractionmethodisproposedtogetexactdata,Ⅱ北京化工大

7、学硕士研究生学位论文whichisbasedonPageComparisonandstructureanalysisinthesamesite.Inthissystem,wecontrastandanalyzepagesbasedonbuilderpagetreeandpagepartitiontogetWebpagedatablock,usesame-structurepagesanalyzeinthesamesiteandformatjudgetoextractcomponentpropertydata.Thissys

8、temhasextractedcomponentpropertydataformsomesites,accuratelyandefficiently.UsingJ2EEandAXISweestablishedcomponentpropertydataquerysiteandWebservice,impl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。