欢迎来到天天文库
浏览记录
ID:35179268
大小:3.25 MB
页数:69页
时间:2019-03-20
《基于云计算的文本分类研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ZSTUZhejiangSci-TechUniversity硕士专业学位论文ProfessionalMaster’sThesis中文论文题目:基于云计算的文本分类研究与应用英文论文题目:TheResearchandApplicationofTextClassificationBasedonCloudComputing专业学位类别:工程硕士专业学位领域:计算机技术作者姓名:严嘉铭指导教师:黄理灿完成日期:2016年1月5日学位论文版权使用授权书本学位论文作者完全了解浙江理工大学有权促留并向国家有关部口或机构送交本论文的复印件和磁盘,允许论文被查阅
2、和借阅。本人授权浙江理工大学可从将学位论方的舍都或都分内容编入有关数据库进行检索和传播,可米用影印、缩印或扫描等复制手段保存。、汇编学位论文(保密的学位论文在解密后适用本授权书)学位论文作者签名:/签字日期/;年月日导师签名;签字曰期>^/;//年A月^曰,,浙江理工大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得浙江埋工大学或其他教育机构的学位或证书而
3、使用过的材料。与我一同工作的同志对本巧究所做的任何贾献均己在论文中作了明确的说明并表示谢意。旅奏学位论文作者签名;f/签字日期。尸:VI//年月日^浙江理工大学硕士学位论文基于云计算的文本分类研究与应用摘要当代互联网的高速发展产生了大量富有价值的互联网信息,其中文本数据占据着重要的位置,如何从海量的文本数据中挖掘出有用的信息是具有重大意义的课题。文本分类是文本挖掘中一项重要的研究方向,分类算法的实现是文本分类的重要部分,影响着文本分类效果和分类性能。基于传统计算机的分类算法实现过程需要消耗大量的时间,不能满足日益增长的数据处理需求,
4、云计算平台的研究和发展就是在这一背景下兴起,满足了日益增长的海量数据处理需求。鉴于目前文本分类的研究现状和云计算平台应用的发展趋势,本文将基于云计算平台对文本分类相关技术进行研究,主要工作有以下三个方面:(1)深入分析了朴素贝叶斯文本分类算法相关理论,对条件属性独立性假设进行深入研究,重点讨论了朴素贝叶斯属性加权对独立性假设的影响。然后针对属性加权,本文提出了基于余弦相似度的加权朴素贝叶斯分类算法,采用余弦相似度优化属性权值,对分类算法进行改进。(2)研究朴素贝叶斯算法在云计算平台中的并行化实现。基于云计算平台Hadoop,根据MapReduce编程模
5、型对贝叶斯算法并行化进行设计和实现;基于云计算平台Spark,根据基于内存的运算模式来分析和设计贝叶斯算法的并行化。然后实验对比算法在两个平台上性能提升的效果。(3)针对电子商务商品类目分类领域,在Spark平台和文本分类相关技术的研究基础上,对基于Spark平台文本分类并行化实现过程进行分析和设计,分析任务提交后各节点的作用和任务分配情况。然后研究改进的朴素贝叶斯算法在Spark上的并行化实现,给出了详细的并行化实现过程。实验结果表明,改进算法对比传统算法有一定的优势,基于内存计算的Spark在算法执行上要优于基于MapReduce模型的Hadoop
6、。改进的算法能有效的移植到Spark上,在Spark上实现商品类目分类能有效的提高分类性能。关键字:云计算;文本分类;朴素贝叶斯;Hadoop;SparkI浙江理工大学硕士学位论文基于云计算的文本分类研究与应用TheResearchandApplicationofTextClassificationBasedonCloudComputingABSTRACTTherapiddevelopmentofcontemporaryInternetgeneratedalotofvaluableinformationontheInternet,wherethetex
7、tdataoccupiesanimportantposition,howtodigouttheusefulinformationfromvastamountsoftextdataisasignificantsubject.TextClassificationisanimportantresearchdirectionofTextMining,andtheachievementclassificationalgorithmisanimportantpartofthetextclassification,whichaffectthetextclassifi
8、cationresultsandclassificationperformance.Class
此文档下载收益归作者所有