基于云计算的食源性疾病预测分析方法的研究

基于云计算的食源性疾病预测分析方法的研究

ID:34712870

大小:3.67 MB

页数:66页

时间:2019-03-09

上传者:beiai1218
基于云计算的食源性疾病预测分析方法的研究_第1页
基于云计算的食源性疾病预测分析方法的研究_第2页
基于云计算的食源性疾病预测分析方法的研究_第3页
基于云计算的食源性疾病预测分析方法的研究_第4页
基于云计算的食源性疾病预测分析方法的研究_第5页
资源描述:

《基于云计算的食源性疾病预测分析方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文论文题目:基于云计算的食源性疾病预测分析方法的研究作者姓名王妍指导教师于明远副教授学科专业计算机技术所在学院计算机科学与技术学院提交日期2017年4月万方数据 浙江工业大学硕士学位论文基于云计算的食源性疾病预测分析方法的研究作者姓名:王妍指导教师:于明远副教授浙江工业大学计算机科学与技术学院2016年4月万方数据 DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofMasterResearchonPredictionandAnalysisMethodofFoodborneDiseaseBasedonCloudComputingCandidate:YanWangAdvisor:AssociateProfessorMingyuanYuCollegeofComputerScienceandTechnologyZhejiangUniversityofTechnologyApr2017万方数据 浙江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。作者签名:日期:年月日导师签名:日期:年月日万方数据 浙江工业大学硕士学位论文基于云计算的食源性疾病预测分析方法的研究摘要近些年频频发生的食源性疾病事件,使得人们越来越关注食源性疾病问题。如今,食源性疾病已经成为世界各国重点关注的事件之一,人们在日常生活中通过饮食的各方面极有可能导致食源性疾病。且从研究现状来看,食源性疾病的安全意识和相关的食源性监测系统还没有形成规范化的管理与监督,食源性疾病预测分析中仍然存在数据挖掘技术效率不高和可视化技术效果不明显等问题。针对上述问题,本文对食源性疾病预测分析方法的研究,主要从以下三个方面展开:首先本文提出了RandomForests预测分析算法(Spark-IRF,ImprovedRandomForestsalgorithmbasedonSpark),该算法主要是从降维和权重投票方法两个部分来改进DRF(DynamicRandomForests)算法。接着从准确率和召回率两个方面对实验数据分析,结果显示Spark-IRF算法在准确率和召回率上相比DRF算法、Spark-MLRF(SparkMachineLearningRandomForests)算法有明显的提高。其次提出了聚类可视分析算法WIK-means(theWeightedIntelligentK-meansAlgorithm),解决IK-means(IntelligentK-means)算法中存在的问题,即IK-means算法在计算数据点到质心之间的距离时,同等地对待每一个特征变量属性,可能会使得距离较远或者同等重要的两个相关属性被分配到不同的簇中,而导致数据结果失真。WIK-means算法在计算距离的过程中,对每个特征属性赋予相应的权重值来计算误差平方和的最小值。最后通过不同的聚类中心点不同的迭代次数,对K-means算法IK-means算法WK-means(WeightedK-means)算法DBScan算法、K-SCP算法和WIK-means算法进行分析,结果表明我们提出的WIK-means算法在时间效率和准确率方面都具有相对明显的优势。最后本文设计并实现了基于Spark的食源性疾病预测分析系统FASBSFD(ForecastingandAnalysisSystemBasedonSparkforFoodborneDiseases)。在该系统中,食源性疾病预测分析方法采用了Spark-IRF预测分析算法及WIK-means算法进行聚类可视化展示,最后通过食源性疾病数据验证表明该系统是可行有效的。关键词:云计算,Spark,食源性疾病,随机森林预测分析,WIK-means可视分析i万方数据 浙江工业大学硕士学位论文RESEARCHONPREDICTIONANDANALYSISMETHODOFFOODBORNEDISEASEBASEDONCLOUDCOMPUTINGABSTRACTInrecentyears,foodbornediseaseoccurredfrequently,whichmakepeoplepaymoreandmoreattentiononit.Nowadays,foodbornediseasehasbecomeoneofthemostimportanteventsintheworld.Itislikelytocausefoodbornediseaseswhenwehavesomeunhealthyfoodinourdailylife.Inaddition,fortheviewofcurrentstatus,thefoodsafetyawarenessandtherelatedfoodbornediseasesmonitoringsystemhavenotyetformedastandardizedmanagementandsupervision.Intheforecastingandanalysisoffoodbornedisease,therestillexistsomeproblemsintheinefficientdataminingtechnologyandunobviousvisualizationtechnology.Forthiscase,theresearchofforecastingandanalysispredictionmethodonfoodbornediseasesinthispaperismainlystudyingfromthefollowingthreeaspects.Inthefirstplace,apredictiveanalysisalgorithm(Spark-IRF,ImprovedRandomForestsalgorithmbasedonSpark)hasbeenproposed,itimprovedtheoriginalalgorithmmainlyfromtwopartsondimensionreductionandweightedvotingmethod.Then,wehaveananalysisofexperimentdataonaccuracy,precisionandrecall.TheresultsanalysesontheexperimentshowthattheSpark-IRFalgorithmhastheadvantageoverDRF(DynamicRandomForests)algorithmandSpark-MLRF(SparkMachineLearningRandomForests)algorithmonaccuracyandrecallrate.Inthenextplace,weproposedaclusteringalgorithm(WIK-means,TheWeightedIntelligentK-meansAlgorithm),itsolvedtheexistingproblemsinIK-means(IntelligentK-means)algorithm,thatis,Euclideandistanceisusedtocalculatethedistancebetweendatapointsandthecenterofacluster.Andeachfeaturevariableistreatedequally,soitmaymaketworelatedattributeswhicharetoofarawayorhasthesameimportancebeassignedtodifferentclusters,thusresultindatadistortion.Inthecourseofcalculatingthedistancebetweendatapointsandthecenterofacluster,WIK-meansalgorithmassignsthecorrespondingweightstoeachfeaturevariabletominimizethesumofthesquarederrorsbetweenentitiesandtheirrespectivecentroids.Intheend,wemakeadetailedanalysisofK-meansalgorithm,IK-meansalgorithm,WK-meansalgorithmWK-means(WeightedK-means)andWIK-meansalgorithmbydifferentcentroidsandii万方数据 浙江工业大学硕士学位论文differentnumberofiterations.ItturnsoutthatWIK-meansalgorithmhasrelativelyobviousadvantagesintime,spaceefficiencyandaccuracy.Finally,aforecastingandanalysissystembasedonSparkforfoodbornediseases(FASBSFD)hasbeendesignedandimplemented,whichusestheRandomForestsalgorithmaspredictiveanalysisalgorithmandWIK-meansalgorithmasclusteringvisualization.Ultimately,theresultsshowthattheprototypeisfeasibleandeffectiveforus.KeyWords:CloudComputing,Spark,FoodborneDisease,RandomForestAnalysisPrediction,WIK-meansVisualAnalysisiii万方数据 浙江工业大学硕士学位论文目录摘要..........................................................................................................................................i第1章绪论....................................................................................................................-3-1.1研究背景和意义.............................................................-3-1.2国内外现状研究.............................................................-5-1.3主要研究内容...............................................................-8-1.4论文的组织结构.............................................................-8-1.5本章小结...................................................................-9-第2章理论基础与相关技术..............................................................................................-10-2.1云计算与Spark.............................................................-10-2.1.1云计算..............................................................-10-2.1.2Spark..............................................................-11-2.2数据挖掘技术..............................................................-13-2.2.1数据预处理.........................................................-13-2.2.2RandomForestsAlgorithm...........................................-13-2.2.3预测评估指标.......................................................-14-2.3数据可视化................................................................-15-2.3.1D3.................................................................-16-2.3.2K-means聚类.......................................................-17-2.4食源性疾病监测............................................................-19-2.5本章小结..................................................................-20-第3章食源性疾病预测分析算法Spark-IRF..................................................................-21-3.1Spark-IRF算法的设计......................................................-21-3.1.1Spark-IRF算法的相关重要步骤.......................................-21-3.1.2Spark-IRF算法.....................................................-28-3.2Spark-IRF算法性能分析....................................................-30-3.2.1实验环境...........................................................-30-3.2.2Spark-IRF算法在食源性疾病预测分析的应用实例.......................-31-3.2.3Spark-IRF算法性能分析.............................................-33-3.2.4基于食源性疾病预测分析方法比较.....................................-34-3.3本章小结..................................................................-35-第4章食源性疾病数据聚类可视分析方法WIK-means................................................-36-4.1WIK-means聚类算法.......................................................-36-4.1.1WIK-means算法的设计与实现.........................................-36-4.2WIK-means算法的性能分析.................................................-38-4.2.1实验环境...........................................................-38-4.2.2WIK-means算法的性能分析...........................................-39-万方数据 浙江工业大学硕士学位论文4.2.3食源性疾病数据聚类可视方法比较.....................................-40-4.3本章小结..................................................................-41-第5章FASBSFD原型系统的设计与实现.......................................................................-42-5.1FASBSFD系统需求分析.....................................................-42-5.1.1FASBSFD系统的功能分析.............................................-42-5.1.2FASBSFD系统的性能分析.............................................-43-5.1.3FASBSFD系统的可靠性分析...........................................-43-5.2FASBSFD系统设计..........................................................-44-5.2.1FASBSFD系统的架构设计.............................................-44-5.2.2FASBSFD系统的功能设计.............................................-45-5.3FASBSFD系统实现.........................................................-47-5.3.1可视化实现.........................................................-47-5.3.2Spark-IRF算法的预测分析实现.......................................-48-5.3.3WIK-means算法的聚类分析实现.......................................-49-5.4本章小结..................................................................-50-第6章结论与展望..............................................................................................................-52-6.1工作总结..................................................................-52-6.2展望.....................................................................-53-参考文献......................................................................................................................-54-致谢..................................................................................................................................-58-攻读学位期间参加的科研项目和成果..................................................................................-59-万方数据 浙江工业大学硕士学位论文第1章绪论1.1研究背景和意义食源性疾病是当今世界普遍存在的问题,过去几十年里世界各大洲均有食源性疾病的暴发。食源性疾病是指通过食物进入人体内的各种致命因子引起的感染或中毒,对人类健康和国家的经济状况来说仍然是一个威胁。为了有效地控制和管理食源性疾病,相关政府[1]部门、食品监察局以及消费者要相互配合、协作。根据美国疾病预防与控制中心(Center[2]forDiseaseControlandPrevention,CDC)的数据报告显示,目前全球每年食源性疾病的发病人数约为10亿人,美国每年约有4800万人患有食源性疾病,有12.8万人入院治疗。仅2005年,全球有150万人死于腹泻病,2011年美国有3037人死于食源性疾病。2015[3]年3月,根据世界卫生组织(WorldHealthOrganization,WHO)报告估计,通过食物可以导致或传播超过200种类型的疾病,有些时候会在某些弱势群体中导致长期的健康问题,如老年人、孕妇或者婴幼儿等。食源性疾病是重要的公共卫生和经济问题,每个人都面临食源性疾病的威胁。食源性疾病负担过重不仅导致个体发病和死亡,而且对经济、社会政治生活带来重大影响。无论[4]是发达国家还是发展中国家,都很重视食源性疾病的研究工作。相较于过去,如今的分子生物学技术已经允许快速的追溯到食源性疾病的爆发源头,且在过去的几十年,发达国家的食品消费越来越意识到存在于食物中潜在的食源性疾病。因此,在食源性疾病监测和管理方面投入大量的人力和物力,来建立更多的食源性疾病监测系统、网络等,有助于及时的预防和控制疾病的发生。由于食源性疾病具有暴发性、散发性、地区性以及季节性等特点,影响食源性疾病的病因众多且复杂,如何挖掘其中的有用信息成为当务之急。而数据挖掘技术可以实现我们的需求,目前有关数据挖掘方面的技术有:粗糙集、统计分析方法、聚类、决策树、遗传、[5]人工神经网络和模糊技术等,这些技术能完成分类、估计、预测、分组和聚类。伴随着互联网时代的到来,信息数据呈现爆炸式的增长。随着数据量的增大,出现了一些并行计算技术,云计算就是其中的一种。而Spark是继Hadoop之后的下一代基于内存计算的大数据并行计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高-3-万方数据 浙江工业大学硕士学位论文可伸缩性。因此,利用基于云计算的Spark提供的并行计算能力,结合数据挖掘技术和数据可视化来解决食源性疾病问题必将称为一种趋势。首先利用数据挖掘预测技术建立预测模型。数据挖掘预测是通过对原始数据集各特征属性进行分析,找出其中的关联度和所占比例,得到预测分析模型,之后利用该预测模型对其他数据进行分析预测。可以通过机器学习反复建立预测模型,其中典型的机器学习方法包括:决策树方法、随机森林、人工神经网络、支持向量机、正则化方法、近邻法、朴素贝叶斯方法等。决策树算法的典型代表是是由J.R.Quinlan于1990年提出的ID3[6](IterativeDichotomiser3)算法,是通过训练数据集S中的数据属性来生成存储在内存[7]中的决策树。人工神经网络(ANN,ArtificialNeuralNetworks),是对人脑若干基本特性的抽象,用于模拟人脑功能。是20世纪90年代V.Vapnik等人根据多年在统计学习理论中的研究,提出了一种对线性分类器进行设计的机器学习方法—支持向量机(SVM,[8][9]SupportVectorMachines)。随机森林是最早是由加州大学伯克利分校的LeoBreiman和AdeleCulter于2001年提出的一种算法,指的是通过多棵决策树树集成组合形成森林,对数据样本集进行训练并预测分析的一种二分类器。通过数据挖掘技术,可以从大量不完全的、有噪声或者模糊的数据集中挖掘出有用的信息,并将这些对我们不可见或难以直接显示在人们面前的数据,投影映射为可以感知到的图形、颜色或符号等,来增强这些数据的识别率及向我们高效率的传递有用的信息,目前就成为了一种迫切的需求。而数据可视化技术通过运用计算机图形学、图像或人机交互等技术,可以将收集或模拟出的数据集映射为能够识别的图形、图像或视频等,使数据更[10]加形象化,帮助人们快速的获取想要的信息。对于复杂、大规模数据集的处理,已有的统计学分析和数据挖掘技术,是通过对数据进行简化和抽象,没有达到直观显示的目的。而数据可视化技术可以加强数据集中的具体细节并展示。因此,通过数据可视化向人们形象化的展示数据结果具有重要的意义。综上所述,基于食源性疾病的预测分析并进行数据可视化分析是一项具有现实意义的课题。为此提出基于随机森林预测分析的挖掘算法和聚类可视化分析方法作为研究课题,以此为基础建立的预测模型可以非常有效的提取出食源性疾病数据中的各个特征属性的重要性大小及关联程度。基于该课题,围绕几个关键技术进行展开研究,具体包括基于[11]Spark的大规模数据的预处理、随机森林预测分析方法,聚类算法与D3.js可视化技术结合进行展示。-4-万方数据 浙江工业大学硕士学位论文1.2国内外现状研究[12-13]如今,食源性疾病已经成为了一个全球性问题,在世界各国都普遍存在。2016年5月,第69届世界卫生大会(WHA,WorldHealthAssembly)主要围绕卫生应急、传染病防控、世卫组织改革及2030年可持续发展过程中的相关卫生问题等议题进行商榷。通过关于食品安全的WHA53.15号决议,该决议认为食源性疾病严重影响了世界人民的健康[14]和幸福,并对个人、家庭和国家造成了严重的经济损失。2003年世界卫生组织发表的重要文献——《世界卫生组织全球食品安全策略》中提出了要对加强食源性疾病监测体系[15]等方案。目前,世界各国已经建立了比较完善的食源性监测系统。美国的监测系统主要[16]包括:食源性疾病主动监测网、公共卫生实验室信息系统和食源性疾病爆发监测系统等。丹麦拥有比较完整的食源性疾病监测系统,监测范围涵盖了生活的各个方面。从2001年开始,为了提高食源性疾病的监测工作,中国已经在全国各省市地区,通过食源性疾病监[17]测网进行食源性疾病监测。全国大多数省市自2010年起,就开始将最新的食源性疾病数据提交到这些监测系统中进行分析。2016年浙江省疾病预防控制中心(ZhejiangProvincialCenterforDiseaseControlandPrevention)通过对副溶血性弧菌进行研究分析,[18][19]找出影响食源性疾病爆发的因素。2017年4月,国际食品安全大会在北京召开,其中一点就提出了要对“食品安全微生物检验与控制技术标准化”的议题。为了更好地预估食源性疾病爆发的趋势和量化食源性疾病造成的影响,2011年,[20]Scallan等人利用不同的数据集和不同的统计分析方法估算了由31种病原体引发的食源[21]性疾病的数量。Heino等人提出了随机化的框架来识别食源性疾病事件数量的增长。[22]Neill等人提出了一种快速的方法来检测食源性疾病的空间聚集,为了找到密度最高的单元,并计算疾病爆发的可能性。国家食品安全风险评估中心于2013年,通过对公共卫[23]生信息数据采用时间序列模型统计方法进行预警分析,来预测2012年和2013年我国的食物中毒事件发生的平均水平。且ARIMA模型预测效果较好,符合我国的食物中毒事件发生及变化规律,其预测结果可以为我国食品安全预测预警提供依据。时间是食源性疾病爆发的另一个关键因素,因此时空结合的食源性疾病聚集监测会成为研究的一种趋势。Web2.0时代,基于互联网和社交媒体的数据给疾病监测和研究带来[24]新的数据来源。芝加哥政府利用监督学习算法监测识别Twitter中关于可能的食源性疾病的内容,并通过Twitter做出相应的响应。2015年,郭旦怀等人通过采用基于密度的[25]DBScan算法来探测聚集性的食源性疾病病例之间的关联性。而对于散发性食源性疾病,-5-万方数据 浙江工业大学硕士学位论文提出基于频繁模式的K-CPS聚类方法来对病人进行聚类分析。2013年,WamiqM.Ahemd等人在对细菌污染的分类提出了基于分布式计算的Fisher[26-27]判别分析方法。随后,在对细菌菌落的研究方面,E.DanielHirleman等人利用SVM进行属性的特征提取。2014年,M.Phil等人提出了利用遗传算法(GA,GeneticAlgorithm)[28]来识别DNA微阵列数据集中的重要基因。2015年,P.T.Kidd等人提出了一种特征根的[29]回归方法(LRR,LatentRootRegression)预测分析典型海鲜产品的剩余保存期限,具有有效的实时性。在数据可视化展示方面,2016年,VinayakHegde等人先通过k-means[30]聚类算法计算学生居住地点,之后利用GoogleMapAPI找出这些地址的经纬度并展现[31]出来。2016年,YunhaiWang等人提出用一种基于认知驱动的线性降维方法,使在预测过程中达到最大化的分离,并通过基于密度的聚类方法进行可视化展示。从研究状况来看,食源性疾病问题既是全球面临的共同问题,也是一项重要的民生问题。但是由于影响食源性疾病的病因众多且复杂的特点,使得挖掘隐藏在食源性疾病数据中的潜在、有用的信息变得更加困难。当今,几种主要的数据挖掘技术包括分类、聚类、神经网络等。其中,分类是将不同对象的特征属性划分到相对应的类别中,常见的分类算法有决策树分类、朴素贝叶斯分类算法、支持向量机和随机森林分类器等。由于随机森林算法在预测分析方面有比较好的分类效果,不少研究人员和学者从时间和空间效率方面对该算法进行改进研究。Svore等人[32]提出了一个等级提升决策树算法,主要通过并行计算来提高效率和内存限制问题。2014[33]年,Luis等人提出的DRF算法是在分布式并行环境下利用动态分配的方法来实现RF算法,DRF算法在时间效率较RF算法有所提高,但会产生大的空间消耗。基于Apache[34]SparkMIlib并行化的Spark_MLRF算法大大的提高了算法执行的效率。但是对于连续性变量,在选出最佳分裂点的过程中,数据集中每个分区的样本方法用来降低数据传输操作,这样会极大地降低算法的准确度。对于数据展示方面,不少学者也对数据可视化技术从各个方面进行分析研究。William[35]等人提出基于决策支持的交互式可视化方法,主要是把数据可视化强调的“whatis”变换[36]为交互式可视化中的“whatif”。通过对模糊逻辑的案例的研究,Miguel等人提出利用大[37]规模可视化技术来提高图像中的数据探索效率。孙国道等人通过对高维时空的房地产数据进行聚类分析,并利用不同的可视化技术进行效果展示。在基于划分的聚类分析方法中,K-means算法是应用比较广泛的方法,许多研究人员对K-means算法进行分析,并对该算法的各方面进行改进。Renato等人通过对原始的K-means算法进行改进,提出了基于权-6-万方数据 浙江工业大学硕士学位论文[38]重的WK-means算法,在对不同的数据集进行性能测试,实验结果表明该算法对于K-means算法具有较好的优势。对于k值的选定,WK-means算法没有一个固定的方法,只是随机的选取,这样可能会导致错误的聚类效果。Ilham等人提出了基于Spark的[39]IK-means算法,主要是利用捆绑式数据来代替原始的弹性式数据集(RDD,ResilientDistributedDataset),可以极大的提高执行效率。但是在IK-means算法中,捆绑式的处理数据可能会使那些相对重要的属性和无关属性混合在一起,导致之后数据的失真,降低准[40]确率。TSAI等人提出了基于密度的TSS-DBSCAN算法,主要是为了降低对无用数据的聚类扩张,提高数据聚类的执行效率。从研究现状来看,在如今这个信息飞速发展的时代,基于云计算的环境,将数据挖掘技术与数据可视化技术相结合应用,对各方面的数据信息进行挖掘、分析,具有重要的意义。以食源性疾病预测分析为例,目前其中尚存在以下几个问题:(1)由于导致食源性疾病的致病因素种类较多,如微生物、化学物质或有毒食品等,[41]目前还没有一个相对统一和完善的评价标准,因此对监测食源性疾病的致病因子可能会出现记录无效、不完全概括或者模糊的情况。(2)对于食源性疾病监测信息中的数据预处理过程,已有的算法效率较低。现今,各行业所积累的数据量越来越大,同样在食源性疾病数据中,所包含的致病特征属性的多样性、无序性和复杂性等特点,导致数据处理过程的准确度降低。因此,提出利用Spark[42-43]云平台的数据预处理方法,来实现数据的整合、分析和筛选过程。(3)食源性疾病监测信息的数据挖掘算法效率并不是很理想。大多数数据挖掘算法都是基于单机的单节点操作,当该节点宕机而出现故障后,会导致程序无法继续执行,从而[44-45]无法保障数据的安全性。RF算法通过对食源性疾病数据的分类,可以找出其中相对重要的特征属性。但由于决策树在集成随机森林的过程中,导致大量的内存消耗而降低执行效率,且对于大数据量的操作可能会产生更大的时间和空间开销。因此,提出了Spark-IRF的效率。(4)食源性疾病监测信息之间的关联关系还不能满足现实的需求。经过数据预处理并进行挖掘分析的数据,只有利用某种形象化的方式呈现出来,才有使用的价值。为了较好[46-47]的将食源性疾病数据展示,提出将聚类算法和D3可视化技术结合的方法,向人们明确、形象的投影所要呈现的效果,增强数据的识别率。-7-万方数据 浙江工业大学硕士学位论文1.3主要研究内容本课题的研究目标是针对食源性疾病监测信息中出现的一些问题,提出了将预测分析技术和数据可视化技术相结合应用到食源性疾病数据的监测中,用来将食源性疾病数据的处理、筛选、展示及应用的过程。该课题以食源性疾病的监测为基础,主要研究基于Spark的预测分析挖掘算法并应用到食源性疾病监测信息中,提高挖掘食源性疾病中各致病因素及其重性的效率问题。且研究数据可视化技术在食源性疾病监测中数据显示的应用问题,最终实现一个高效、实用的食源性疾病监测的预测分析原型的应用系统。针对上述研究目标,从以下几个主要方面来展开研究。(1)研究适用于食源性疾病监测的基于云计算的预测分析挖掘算法主要是在云计算环境下,基于Spark的Spark-IR布式实现,从数据降维处理和权重投票两个方面来提高预测分析挖掘算法效率。(2)数据可视化技术在食源性疾病数据监测中的应用研究利用聚类算法,并结合数据可视化技术展示数据信息的效果,可以清晰有效的传递有用信息,更加方便直观的获取有用的数据信息。(3)基于Spark的食源性疾病预测分析的系统(ForecastingandAnalysisSystemBasedonSparkforFoodborneDiseases)实现的探索针对(1)、(2)两项内容的研究,最终设计并实现一个FASBSFD,该系统主要包括寻找特征属性重要性程度及其相关关系、疾病发病与地域性或食品种类的关联度等功能,本系统通过数据可视化技术可以达到交互式的呈现效果。1.4论文的组织结构本文的结构安排如下:第一章介绍了基于云计算的食源性疾病预测分析方法课题研究的背景和意义,阐述了国内外目前的食源性疾病的研究现状,介绍了数据挖掘算法和数据可视化技术在食源性疾病方面的研究。第二章主要介绍了一些理论基础与相关技术,包括云计算与Spark并行计算平台,数据挖掘和数据可视化技术,以及简单介绍了食源性疾病监测体系。第三章提出了一个基于Spark的随机森林预测分析算法(Spark-IRF,ImprovedRandomForestsalgorithmbasedonSpark),并介绍了该算法的原理及简要的伪代码实现;最后,根-8-万方数据 浙江工业大学硕士学位论文据Spark-IRF算法及Spark-MLRF算法在给定的数据集的性能分析对比。第四章首先提出了WIK-means(theWeightedIntelligentK-means)聚类算法,并介绍了该算法的基本概念和定义,接着介绍WIK-means算法结合可视化技术的处理过程,并实现WIK-means算法的部分伪代码;最后,给出WIK-means算法与K-means算法、WK-means算法及IK-means算法的性能分析对比情况。第五章提出了一个基于云计算的食源性疾病预测分析方法的原型系统。首先简单介绍了本系统的需求分析,接着分析了系统的架构设计及功能设计,最后给出了系统的实现和使用方法。第六章首先总结本文研究工作,接着指出了本文中的有待改进之处,最后指出今后的研究目标和方法。1.5本章小结本章介绍了课题的研究背景和意义,以及食源性疾病目前在国内外的研究现状,并提出了将云计算技术与数据挖掘技术、数据可视化技术相结合,来高效的解决数据挖掘和数据展示相关问题;最后给出了本课题的主要研究内容和论文的章节安排。-9-万方数据 浙江工业大学硕士学位论文第2章理论基础与相关技术本章首先介绍了云计算与Spark分布式框架的基本概念技术,接着阐述了数据挖掘技术和数据可视化相关技术;最后,针对食源性疾病数据,介绍了我国已经完成构建和部署的食源性疾病监测体系。2.1云计算与Spark2.1.1云计算在过去的几年间,云计算受到了来自学术界和商业界的广发关注,现今已成为一种非[49-50]常有前景的计算机技术。云计算被定义为是一种像网格计算的分布式模型,主要是用来把计算资源转化为服务需求,旨在可伸缩性的调整负载均衡,且是作为一个设备给用户提供硬件、软件应用、数据管理和存储。也就是说,用户不用了解服务器的地理位置或者任何其他关于计算机基础设施的技术概念。按不同的划分标准,云计算有三种服务模式、四种部署模型。首先根据服务模式,可以把云计算分为三层:(1)IaaS(InfrastructureasaService):给用户提供虚拟机或者其他计算机资源,服务器、存储和网络硬件等。(2)PaaS(PlatformasaService):也可以叫做中间件,用来提供各种开发和分布式应用的解决方案服务。(3)SaaS(SoftwareasaService):作为一个远程服务器,让用户可以远程从云端运行各种应用程序。其次按照部署模型分类,云计算可以分为:1)公用云(PublicCloud):通过云服务提供商提供公有云给用户,且不同的用户可以共享云计算资源。2)私有云(PrivateCloud):专门为某一个企业或用户提供服务。3)社区云(CommunityCloud):建立在不同组织机构的一个应用平台,共享一套基础设施。4)混合云(HybridCloud):包含两种或者两种以上的云计算模式的混合体,彼此之间相互独立,如公有云和私有云。-10-万方数据 浙江工业大学硕士学位论文云计算具有较好的可伸缩性,通过向用户提供计算机资源和服务来满足他们的需求。其次,用户只要支付他们所使用的服务,而不需要额外其他的开销,即云计算是一个按用户使用量来付费的一个模式。2.1.2Spark[51-52]于2009年诞生于伯克利大学AMPLab的Spark,是一个用于处理大数据的开源框架,即允许用户在集群环境下运行对大规模数据进行分析应用。Spark是基于内存计算的大数据并行计算框架,具有较高的容错性和可伸缩性。如今,Spark已经发展成为包含多个子项目的大数据计算平台,其中主要的子项目包括SparkGraphX、SparkStreaming、SparkSQL、SparkMLlib等相关项目,其功能如表2-1所示。表2-1Spark框架主要子项目功能子项目名称功能介绍SparkGraphX基于BSP模型的、一个分布式图计算框架,适合进行大规模同步的全局图计算。SparkStreaming将流式计算分解成一系列短小的批处理作业;处理实时数据流;具有较好的容错性、实时性、扩展性以及吞吐量。SparkSQL基于Spark框架、按照SQL数据库的方式管理和操作大数据;支持Parquet文件的读写;支持直接读取JSON格式数据的操作。SparkMllibSpark对常用机器学习算法的实现库,也包括相关的测试和数据生成器。[53-55]RDD(弹性分布式数据集,ResilientDistributedDatasets)是Spark计算框架中的核心部分。RDD可以重建丢失的数据集,因此具有容错性及可伸缩性。Spark在提交任务之后会把Job生成多个Stage,每个Stage之间是相互依赖的。由图2-1可知,Stage1依赖Stage2,而多个Stage之间的这种依赖关系就组成了DAG(有向无环图,DirectedAcyclicGraph)。通过利用DAG,内存中的数据共享,即不同的任务可以执行相同的数据。图中分为A、B、C、D、E、F五个不同的RDD,各自执行不同的操作过程,如map、groupBy、union、join等。Spark的任务处理流程图如图2-1所示。-11-万方数据 浙江工业大学硕士学位论文图2-1Spark任务处理流程图和MapReduce中的Shuffle过程不同,Spark中通过shuffle操作输出Map任务,通过读取HDFS上的数据块chunk,之后不同的块经过split操作后形成不同的集合,为每个对应的Reduce任务创建一个bucket,在Mapper中产生的结果根据已设置的partition值填充到对应的bucket中。在Spark中,具体的Shuffle处理过程如图2-2所示。Chunk1Chunk2Chunk3ChunknHDFSsplit2split1splitnMapCluster1Cluster2ClusternCluster1Cluster4Cluster2ClusternPartition1PartitionkBucket1Bucketk图2-2Spark中数据处理的shuffle过程图-12-万方数据 浙江工业大学硕士学位论文2.2数据挖掘技术2.2.1数据预处理[56]数据预处理(DataPreprocessing)是数据准备阶段的初始过程,旨在重新格式化原始的数据记录来识别用户的各种属性信息。数据预处理包括数据清洗、数据集成、数据归约以及数据转换技术。数据清洗主要是处理或者过滤掉丢失的数据、不合适的噪声数据、多余无用的数据,或者是不一致的数据格式,只保留有用和必要的数据,可以极大的提高后续挖掘过程的执行效率。由于食源性疾病数据中,各数据属性的格式杂乱无章。利用数据预处理技术,得到统一规范的数据集。采取的方法为:1)将属性列中包含空缺值的无用数据,替换为“0”;2)删除属性列“食品类别1”中的某些不符合要求的符号,如“23014003”、“23014007”等不相关的数据。2.2.2RandomForestsAlgorithm[57-59]随机森林(RandomForests)算法是一种基于决策树模型的集成器分类算法,即是一种集成、组合方法(EnsembleMethod)的算法分类器,最早由LeoBreiman和AdeleCutler于1995年提出。基于原始数据集,随机森林利用一种bootstrap抽样方法组合形成k个不同训练数据集,通过训练这k个数据子集来构建k棵决策树。这些决策树预测分析测试集的每个样本数据,最后的分类结果由这些决策树的投票来决定。假设原始训练数据集:Sxy(,iNj),1,2,...,;M1,2,...,,其中x为数据样本,yij是S中的特征变量。即原始数据集包含N个样本,每个样本有M个特征变量属性。构建随机森林的主要过程如图2-3所示,主要处理步骤为:Step1:抽样选取k个训练数据子集从原始数据集S中,利用bootstrap采样方法抽取k个训练数据子集。即从数据集S中随机抽样N条记录,并由k个训练数据子集组成训练数据集合S,如式(2-1)所示。TrainSTrainSSkS12,,...,式(2-1)同时,那些没有被选中用于训练决策树的数据就组成了袋外数据(OOB,Out-Of-Bag),如式(2-2)所示。-13-万方数据 浙江工业大学硕士学位论文SOOBOOBOOBk12OOB,,...,式(2-2)其中k<>map=ReadExcelUtils(filepath);//读取表格文件的内容10:Stringencode=URLEncoder.encode(xx,“gbk”);//通过百度地图将具体地址转化为数字邮编11:StringurlString=http://opendata.baidu.com/post/s?wd=”+encode+“&rn=1”;12:fileWritter=newFileWritter(file.getName(),true);-22-万方数据 浙江工业大学硕士学位论文13:bufferWritter=newBufferedWritter(fileWriter);14:Documentdoc=null;15:doc=Jsoup.connect(urlString)16:.header(“User-Agent”,“Mozilla/5.0(Macintosh;U;IntelMacOSX10.4;en-US;rv:1.9.2.2)17:Gecko/20100316Firefox/3.6.2”)18:.timeout(5000).get();//抓取页面数据,读取到文件2.食源性疾病数据的降维处理(DimensionReduction)由于食源性疾病数据复杂高维性,为了提高随机森林算法的准确度,本章根据特征属性变量的重要性提出了一种数据降维方法。在每棵决策树的训练过程中,计算训练数据子集中每个特征属性变量的增益率(GainRatio,GR),并按降序排列。选择序列中前k(k<

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭