基于云平台的机器学习算法并行化研究与应用

基于云平台的机器学习算法并行化研究与应用

ID:35177245

大小:5.09 MB

页数:51页

时间:2019-03-20

基于云平台的机器学习算法并行化研究与应用_第1页
基于云平台的机器学习算法并行化研究与应用_第2页
基于云平台的机器学习算法并行化研究与应用_第3页
基于云平台的机器学习算法并行化研究与应用_第4页
基于云平台的机器学习算法并行化研究与应用_第5页
资源描述:

《基于云平台的机器学习算法并行化研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、??、^,.V;:響涼;i;爲y雪杉灣I''‘、学校代码:10135义Z^一、吉;5xj遞L?‘^衣I.'卽夸分类号:《茜岭善A―:;‘ ̄^"-fci:拷冰l:’ffI1;‘-..V.,^若vr'.古:.旬.V护V—如從乂净心,1.兵襄飾解雜!1胃#硕±学位论文'戶‘’''V'單';、'V、;、啼.多‘点..貨攻.r洽棘品.'苗苗^祕读.4’刊:令基于宏平台的机器学习?法并行化研究与应用三.?梦';..:..;

2、々弯-P^\arallelresearchandapplicationofmachinelearning<a心lgoriUimbasedondoudlatform\\p戸_、、'<-聲!/於’满雜''-.、:.如:>.声古祭訪皆Tvv‘七非皆!海学科n类:工学f讀参钢"_',.-级学科:软件工程'f、杂.|l?'?4学科只、专业:软件工程乃苗f,=研究方向:生巧巧患学’‘。气'申请人姓名心:巧方方..為山

3、jj龄祭巧导巧师姓名:兆华g:幕.户巧義、實'?.,’今%请心托茄.t-'皆-V扛.!}‘v-一'‘占.—*:节WV,《1.-yMv诚/i.托1山一參'.'、.^^,:合..:;;?^若..、^/令;^.汁:安吟:冷.^亦餐讓鉛,\於0学校代码=1135论文分类号=学号:20U4019015研究生类别=全日制解姨據乂蜂硕±学位论文基于是平台的奶器学习算法并行化研究与应用ParallelresearchandappUca村onofmachin

4、elearningalorithmbasedoncloudlatformgp学科口类;工学-级学科:软件工程学科、专业:软件工程研究方向:生物信息学申请人姓名:京方方巧导教师姓名:纪兆华—_六年四月八日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,尽我所知,除了文中特别加L乂标注和致谢的地方外,论文中不包含其他人邑经发表或撰写过的研究成果,也不包含本人为获得内蒙古师范大学或其它教育机构的学位或

5、证书而使用过的材料。本人保证所呈交的论文不侵化国家机密一、商业秘密及其他合法权益。与我同工作的同志对本巧究所做的任何贾献均己在论文中作了明确的说明并表示感谢。签名;曰期:年月。曰UI(^关于论文使用授权的说明本学位论文作者完全了解内蒙古师范大学有关保留、使用学位论文的规定:内蒙古师范大学有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索,可米用影印、缩印或扫描等复制手段保存、汇编学位论文,并

6、且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。.馨名如导师签名:梦j皆麥方曰期;年曰WI^知内蒙古师范大学硕±学位论文中文摘要随着信息化时代的到来,数据成为了最为宝贵的资源,各行各业可处理的数据W指数形式增长,包括电子商务网站的各种商务数据、银行的各种业务数据化及生物体的各种基因组数据等等,这种爆炸式的数据增长,。目前平很难在已有的平台中得到有效的处理,Hadoop一台是在大数据中挖掘出有用信息种相对高效率的并行化新技术,使

7、用Map民educe(MR)编程框架,数据量越大,这种技术越能体现出其独一特的优势。M地out是种开源的机器学习(ML)算法库属于Apache社区,基于Hadoop平台的MR计算框架,为程序开发者提供高效的算法实例。由于机器学习算法基本属于迭代计算,而M民将中间数据存放在分布式文件处理系统HDFS上,I/O资源消耗高的局限()其具有性。原于M組out机器学习库的缺陷,Spark计算框架应运而生,SparkRDD一主要基于弹性分布式数据集,RDD是分布式内存的个抽象概()念,降低了I

8、/O资源消耗和容错能力的开销。Spark同样可W搭建在HadoopYARN平台上,分布式存储数据。伴随着SparkML化的出现,使机器学习算法的并行化研究有了质的提升。本文主要研究基于-SarkML1化的聚类算法Kmeans和分类算法决策树及其组装树随机p-means森林用来解决单机无法处理的基因组数据问题。K算法作为数据处理的第一二步,用于找到最佳的类别个数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。