欢迎来到天天文库
浏览记录
ID:34701273
大小:10.59 MB
页数:77页
时间:2019-03-09
《web海洋数据抓取及存储系统的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、AThesisfortheDegreeofMasterin.ComputerApplicationTe——c——h——n———o——l——o——g——y——ResearchandImplementationofWebMarineDataCrawlingandStoringSystembyYaoLeiSuper、lsor:ProfessorYuGeNortheasternUniversityJune2010独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他入己经发表或撰写
2、过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢=匠恩。学位论文作者签名:影洮秀曰期:2D/口、7.f学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年囹一年半口学位论文作者签名:姚霭签字目期:弘历、7
3、.fc产一l,V、}两年口、导师签名:亏戈签字日期:沙矽。7。莎东北大学硕士学位论文摘要Web海洋数据抓取及存储系统的研究与实现摘要经过长年累月的信息调查和资料收集,各国的相关研究机构已经保存了大量的海洋科学数据及相关信息。随着互联网的普及,这些机构也已经把相关海洋数据信息发布在了Web上供用户查询下载。但目前还没有针对此领域的信息检索和数据抓取工具,因此难以自动、高效地大规模获取Web海洋数据。另外,海洋数据通常以科学文本数据的形式发布,这种形式的数据是半结构化的,需要额外的格式说明等元数据信息才能理解其含意。这种形式的数据难以进行
4、直接操作,只有将其存储到关系数据库中才能得到有效的查询和分析。针对以上的背景情况,本文构建了一个面向Web海洋数据进行发现、抓取和存储工作的系统框架。该框架将整个系统划分成三大模块,分别完成目标网站检索、海洋数据抓取和数据存储的相关工作。对于目标网站的检索,本文构建了海洋科学数据领域的关键词库,并在此基础上提出了本领域的主题相关度评价算法,从而通过调用搜索引擎并对返回结果进行主题过滤的方式检索到了满足需求的站点地址。对于海洋科学数据文件的下载,本文设计了一个专用的网页文件抓取器并提出了海洋数据元数据文件的提取算法,从而能够有效的抓取到
5、海洋数据文件并进行正确的解析。对于海洋文本数据的存储,本文设计并建立了科学文本数据到关系数据库数据之间的映射模型,从而将存放在文本文件中的海洋数据正确的加载到了海洋关系数据库中,让这些数据得到了有效的利用。实际应用表明,本文所设计并实现的系统取得了较好的效果,能够满足构建海洋数据仓库的相关研究中对海量数据的获取需求。同时本系统也有着良好的交互性,并具有一定的通用性和可扩展性。关键词:链接评价;网页抓取;科学文本;数据抽取东北大学硕士学位论文AbstractResearchandImplementationofWebMarineData
6、CrawlingandStoringSystemAbstractWithinformationinvestigationanddatacollectionduringthepastyears,researchinstitutionsfromeachcountryhavesavedamassofmarinescientificdataandrelatedinformation.WiththedevelopmentofInternet,theseinstitutionshavepostedthemarinedataandinformati
7、ononWebwherepeoplecouldqueryordownloadthesedata.However,itisdifficultforUStoautomaticallyandefficientlyobtainalarge-scaleOceanDatafromWeb,becausetherearenotanytoolstoretrievalandsnatchdatainthisfield.FurthermoremarinedataonWebareusuallyintheformofscientifictextdatafiles
8、,whicharesemi—structuredandhardtounderstandwithoutadditionalmetadatafiles.Ifwewanttoqueryandanalysisthesedatae
此文档下载收益归作者所有