感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf

感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf

ID:52418762

大小:2.58 MB

页数:82页

时间:2020-03-27

感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第1页
感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第2页
感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第3页
感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第4页
感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第5页
资源描述:

《感动Hadoop平台的教育资源垂直搜索系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本人郑重声立进行研究工作文不包含任何其含为获得江苏大本文的研究做出明。本人完全意学位论文版权使用授权书IIIIll,IIIIIlllIIIIl\1894374江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅手{l借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论之伞文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论

2、文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于不保密∥。学位论文作者签名:孔:均沙,/年6月,p日指导教师签名:砒知f}年易只fD日分类号:UDC:学位论文密级:编号:基于Hadoop平台的教育资源垂直搜索系统的设计与实现ImplementationofEducationResourceVerticalSearchingSystemBasedonHadoop学科专业:过篡扭应旦撞垄研究生:孔擅指导老师:堂建踢计算机科学与通信工程学院2011

3、年6月江苏大学工程硕士论文摘要互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用H

4、adoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括:(1)通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。(2)基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(M

5、DVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。(3)研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。(4)以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在

6、实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库江苏大学工程硕士论文江苏大学工程硕士论文ABSTRACTTheWWWhasbeenatremendousimpactonthewayofhumanbeingslives,works,andstudies,evenentertainments.Especiallyineducationrealm,educators,studentsandtheirparentsCangetmorean

7、dmorereferencesandeducationresourceswiththehelpofintemet.However,there’Sstillanunresolvedaproblem,forlackingofsuitablestandardsandfilteringmethods,actually,itwillspendmoretimetogettheresourceyoureallywant.Tosolvethisissue,weneedtodosomeresearchanddesignabetter

8、platformtoextractinterestinginformationconveniently,accuratelyandefficiently.OnthebasisofcomparingtheframeworksanddesigningmethodsadoptedbycurrentSearchingEngines,andlearningfromot

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。