欢迎来到天天文库
浏览记录
ID:53028457
大小:350.20 KB
页数:5页
时间:2020-04-14
《基于Hadoop的海量医疗小文件处理系统-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、总第306期计算机与数字工程Vo1.43NO.42015年第4期Computer&DigitalEngineering733基于Hadoop的海量医疗小文件处理系统魏强孔广黔吴云(贵州大学计算机科学与技术学院贵阳550025)摘要由于Hadoop自身不适合处理海量的小文件,论文提出了一种小文件处理方案,将小文件归并到SequenceFile中有效地解决了NameNode内存使用问题,设计了基于Hadoop的海量医疗小文件处理系统,实验证明该系统在内存使用以及处理大文件时具有良好的性能。关键词医疗数据;Hadoop;小文件;数据处理中图分类号TP311.5BOl:10.3969/j.i
2、ssn1672—9722.2015.04.044MassiveSmallMedicalDocumentProcessingSystemBasedonHadoopWEIQiangKONGGuangqianWUYun(CollegeofComputerScienceandTechnology,GuizhouUniversity,Guiyang550025)AbstractBecauseHadoopitselfiSnotsuitablefordealwithlargeamountsofsmallfiles,thispaperpresentedasmallFileprocessingsche
3、me,mergesmallfileintoSequenceFileeffectivelyasagoodsolutiontotheproblemoftheNameNodememoryusage,designedamassivemedicaldataprocessingsystembasedonHadoop,finallythroughtheanalysisoftheex—perimentalresults,showthattheprocessingsystemhasgoodperformance.KeyWordsmedicaldata,Hadoop,smallfile,dataproc
4、essingCI镐sNI耵1berTP311.5要耗费昂贵的计算资源;同时如何有效地分割大规1引言模数据和合理地分配计算任务都需要繁琐的编程医疗数据是指人们在就医过程中产生的数据,才能实现,这对于医院分析和处理数据是一个挑包括病人挂号信息、医生所开处方、药品清单、患者战。Hadoop[]的出现,为我们提供了新的思路。所拍摄的CT等其它图像信息以及病人的个人健Hadoop是Apache软件基金会(ApacheSoft-康信息档案。近年来,随着医疗行业信息化进程的wareFoundation)下的一个开源项目,是云计算[3]加速,医疗数据量呈现几何倍数增长。据统计,到模型的开源实现,它是
5、一个能够对大量数据进行分2020年,医疗数据将急剧增长到35ZB(1ZB:==2。。布式处理的软件框架。同时,并行计算中存在的问TB),相当于2009年数据量的44倍_1],海量的医题如负载平衡、工作调度、容错处理、分布式存储、疗数据和繁杂的数据类型给整个医疗行业存储和网络通信等也将由Hadoop负责处理。处理数据带来了巨大的压力。与此同时,人们对医2Hadoop相关技术疗数据关注度越来越高,如何有效地存储和处理海量医疗数据,为患者和医生提供高效的数据服务和Hadoop框架的核心是HDFS(HadoopDis—数据支持已成为亟待解决的问题。传统处理大规tributedFileSyst
6、em,Hadoop分布式文件系统)和模数据通常使用分布式计算、网格计算等技术,需MapReduce。HDFS为海量的数据提供了存储,而收稿日期:2014年1O月6日,修回日期:2014年11月27日基金项目:医疗云平台的设计与研究(编号:联科(合)20130901)资助。作者简介:魏强,男,硕士研究生,研究方向:计算机网络,云计算。孔广黔,男,博士,副教授,研究方向:计算机网络。吴云,男,博士,副教授,研究方向:云计算。734魏强等:基于Hadoop的海量医疗小文件处理系统第43卷MapReduce为海量的数据提供了计算。Hadoop一步处理并得到最终的键值
7、对并输有如下优点:1)可伸缩性:能可靠地存储和处理出到文件。PB(1PB=2。。GB)级数据;2)低成本性:可以通过Hadoop框架下的MapReduce模型同样采用廉价的普通机器组成的服务器集群来分发以及处Master/Slave模式,由JobTracker(主控节点)和理数据,这些服务器集群可达上万个节点;3)高效TaskTracker(任务节点)组成。JobTracker主要负性:通过分发数据,Hadoop可以在数据所在的节点责任务的调度以及对Tas
此文档下载收益归作者所有