基于Hadoop平台的实体识别系统的研究与实现.pdf

基于Hadoop平台的实体识别系统的研究与实现.pdf

ID:51200449

大小:8.58 MB

页数:73页

时间:2020-03-21

基于Hadoop平台的实体识别系统的研究与实现.pdf_第1页
基于Hadoop平台的实体识别系统的研究与实现.pdf_第2页
基于Hadoop平台的实体识别系统的研究与实现.pdf_第3页
基于Hadoop平台的实体识别系统的研究与实现.pdf_第4页
基于Hadoop平台的实体识别系统的研究与实现.pdf_第5页
资源描述:

《基于Hadoop平台的实体识别系统的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文摘要近些年随着科技的发展,人们从生产、生活中积累并抽象产生出更多的数据,使得传统的信息系统不再适合处理、计算现有的数据,并且通过研究表明计算机的物理性能已经基本达到极限,摩尔定律正在渐渐失效。针对这类问题,研究人员提出了各种各样的解决方法。例如将现有的计算机扩展为一机多核等,通过改造cpu来达到提高计算机性能的目的,并且在实际应用取得成功,但是仅仅这些还满足不了对海量数据的计算。2007年,Google首先提出了商业云计算概念,进一步带动计算机领域对云计算的研究。现有的云计算系统主要是通过将一组廉价的计

2、算机组织起来,相互连接协同操作,其所能达到的性能堪比价格昂贵的超级服务器。本文以云计算中的实体识别技术为背景,在Hadoop平台中设计并实现了在大数据集上使用条件函数依赖约束进行数据过滤的实体识别系统。本文主要研究内容及贡献如下:(1)首先研究了云计算的发展,并针对云计算环境中对数据质量研究工作较少的现状提出了在云计算环境中基于过滤条件函数依赖约束的实体识别问题。(2)针对基于M印Reduce框架的Hadoop平台,以及其分布式文件存储系统进行了分析。通过研究在Hadoop平台下执行计算任务的工作流程以及数

3、据中条件函数依赖约束的特点,利用共享输入数据和共享Map中间结果两种方法,提出了解决在Hadoop平台下基于条件函数依赖的实体识别任务的优化合并。通过使用任务合并技术可以高效的对在大数据集上的条件函数依赖约束进行检查,而且可以优化合并输入任务,达到缩小输入任务个数,减少对输入数据的读取代价,并且控制了任务执行过程中产成的中间结果的大小等目的。(3)在虚拟机环境中搭建Hadoop平台,对真实的基因和蛋白质数据进行了条件函数依赖约束的检查。验证了本文算法的有效性和本文所设计的系统的有效性。关键词:实体识别;数据

4、质量;云计算;Hadoop;条件函数关系依赖1AbstractPeopleaccumulateandabstractmoreandmoredatafromproductionandactivitywiththedevelopmentofscienceandtechnologyinrecentyearstomakethetraditionalinformationsystemisnotfitforhandlingandcalculatingtheexistingdata.Itshowsthatthephysi

5、calperformanceofcomputerhasalreadyreachedthemaximumbasicallyandtheMoore’SLawislosingeffectivenessgraduallyaccordingtoresearch.Theresearchersproposeallkindsofsolutionsaimingatthiskindofproblem.Toachievethepurposeofimprovingtheperformanceofcomputeraccordingt

6、otransformingCPU,andforexample,theexistingcomputersareexpandedtobecomewithmorethanonenuclearandithasmadeaSUCCESSinpracticalapplication.Butitdoesn’tmeettheneedsofcalculatingthemassdata.TheconceptofthecommercialcloudcomputingisproposedfirstlybyGooglein2007an

7、dputsthestudyaboutthecloudcomputinginthecomputerareainmotionfurther.TheexistingcloudcomputingsystemsCO—operateandinterconnectbyorganizingagroupofcheaply-pricedcomputers.Andtheachievedperformanceisthesameastheperformanceoftheexpensivesuper-server.Inthispape

8、r,thedataqualitytechnologyforcloudcomputing,HadoopplatformtoachievetheMapReduceprogrammingmodelwasdesignedandimplementedtheentityrecognitionsystemforlargedatasetsusingconditionalfunctionaldependencyconstraint

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。