欢迎来到天天文库
浏览记录
ID:35177245
大小:5.09 MB
页数:51页
时间:2019-03-20
《基于云平台的机器学习算法并行化研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、??、^,.V;:響涼;i;爲y雪杉灣I''‘、学校代码:10135义Z^一、吉;5xj遞L?‘^衣I.'卽夸分类号:《茜岭善A―:;‘ ̄^"-fci:拷冰l:’ffI1;‘-..V.,^若vr'.古:.旬.V护V—如從乂净心,1.兵襄飾解雜!1胃#硕±学位论文'戶‘’''V'單';、'V、;、啼.多‘点..貨攻.r洽棘品.'苗苗^祕读.4’刊:令基于宏平台的机器学习?法并行化研究与应用三.?梦';..:..;
2、々弯-P^\arallelresearchandapplicationofmachinelearning<a心lgoriUimbasedondoudlatform\\p戸_、、'<-聲!/於’满雜''-.、:.如:>.声古祭訪皆Tvv‘七非皆!海学科n类:工学f讀参钢"_',.-级学科:软件工程'f、杂.|l?'?4学科只、专业:软件工程乃苗f,=研究方向:生巧巧患学’‘。气'申请人姓名心:巧方方..為山
3、jj龄祭巧导巧师姓名:兆华g:幕.户巧義、實'?.,’今%请心托茄.t-'皆-V扛.!}‘v-一'‘占.—*:节WV,《1.-yMv诚/i.托1山一參'.'、.^^,:合..:;;?^若..、^/令;^.汁:安吟:冷.^亦餐讓鉛,\於0学校代码=1135论文分类号=学号:20U4019015研究生类别=全日制解姨據乂蜂硕±学位论文基于是平台的奶器学习算法并行化研究与应用ParallelresearchandappUca村onofmachin
4、elearningalorithmbasedoncloudlatformgp学科口类;工学-级学科:软件工程学科、专业:软件工程研究方向:生物信息学申请人姓名:京方方巧导教师姓名:纪兆华—_六年四月八日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,尽我所知,除了文中特别加L乂标注和致谢的地方外,论文中不包含其他人邑经发表或撰写过的研究成果,也不包含本人为获得内蒙古师范大学或其它教育机构的学位或
5、证书而使用过的材料。本人保证所呈交的论文不侵化国家机密一、商业秘密及其他合法权益。与我同工作的同志对本巧究所做的任何贾献均己在论文中作了明确的说明并表示感谢。签名;曰期:年月。曰UI(^关于论文使用授权的说明本学位论文作者完全了解内蒙古师范大学有关保留、使用学位论文的规定:内蒙古师范大学有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索,可米用影印、缩印或扫描等复制手段保存、汇编学位论文,并
6、且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。.馨名如导师签名:梦j皆麥方曰期;年曰WI^知内蒙古师范大学硕±学位论文中文摘要随着信息化时代的到来,数据成为了最为宝贵的资源,各行各业可处理的数据W指数形式增长,包括电子商务网站的各种商务数据、银行的各种业务数据化及生物体的各种基因组数据等等,这种爆炸式的数据增长,。目前平很难在已有的平台中得到有效的处理,Hadoop一台是在大数据中挖掘出有用信息种相对高效率的并行化新技术,使
7、用Map民educe(MR)编程框架,数据量越大,这种技术越能体现出其独一特的优势。M地out是种开源的机器学习(ML)算法库属于Apache社区,基于Hadoop平台的MR计算框架,为程序开发者提供高效的算法实例。由于机器学习算法基本属于迭代计算,而M民将中间数据存放在分布式文件处理系统HDFS上,I/O资源消耗高的局限()其具有性。原于M組out机器学习库的缺陷,Spark计算框架应运而生,SparkRDD一主要基于弹性分布式数据集,RDD是分布式内存的个抽象概()念,降低了I
8、/O资源消耗和容错能力的开销。Spark同样可W搭建在HadoopYARN平台上,分布式存储数据。伴随着SparkML化的出现,使机器学习算法的并行化研究有了质的提升。本文主要研究基于-SarkML1化的聚类算法Kmeans和分类算法决策树及其组装树随机p-means森林用来解决单机无法处理的基因组数据问题。K算法作为数据处理的第一二步,用于找到最佳的类别个数
此文档下载收益归作者所有