基于云计算的文本分类研究与应用

基于云计算的文本分类研究与应用

ID:35179268

大小:3.25 MB

页数:69页

时间:2019-03-20

基于云计算的文本分类研究与应用_第1页
基于云计算的文本分类研究与应用_第2页
基于云计算的文本分类研究与应用_第3页
基于云计算的文本分类研究与应用_第4页
基于云计算的文本分类研究与应用_第5页
资源描述:

《基于云计算的文本分类研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ZSTUZhejiangSci-TechUniversity硕士专业学位论文ProfessionalMaster’sThesis中文论文题目:基于云计算的文本分类研究与应用英文论文题目:TheResearchandApplicationofTextClassificationBasedonCloudComputing专业学位类别:工程硕士专业学位领域:计算机技术作者姓名:严嘉铭指导教师:黄理灿完成日期:2016年1月5日学位论文版权使用授权书本学位论文作者完全了解浙江理工大学有权促留并向国家有关部口或机构送交本论文的复印件和磁盘,允许论文被查阅

2、和借阅。本人授权浙江理工大学可从将学位论方的舍都或都分内容编入有关数据库进行检索和传播,可米用影印、缩印或扫描等复制手段保存。、汇编学位论文(保密的学位论文在解密后适用本授权书)学位论文作者签名:/签字日期/;年月日导师签名;签字曰期>^/;//年A月^曰,,浙江理工大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得浙江埋工大学或其他教育机构的学位或证书而

3、使用过的材料。与我一同工作的同志对本巧究所做的任何贾献均己在论文中作了明确的说明并表示谢意。旅奏学位论文作者签名;f/签字日期。尸:VI//年月日^浙江理工大学硕士学位论文基于云计算的文本分类研究与应用摘要当代互联网的高速发展产生了大量富有价值的互联网信息,其中文本数据占据着重要的位置,如何从海量的文本数据中挖掘出有用的信息是具有重大意义的课题。文本分类是文本挖掘中一项重要的研究方向,分类算法的实现是文本分类的重要部分,影响着文本分类效果和分类性能。基于传统计算机的分类算法实现过程需要消耗大量的时间,不能满足日益增长的数据处理需求,

4、云计算平台的研究和发展就是在这一背景下兴起,满足了日益增长的海量数据处理需求。鉴于目前文本分类的研究现状和云计算平台应用的发展趋势,本文将基于云计算平台对文本分类相关技术进行研究,主要工作有以下三个方面:(1)深入分析了朴素贝叶斯文本分类算法相关理论,对条件属性独立性假设进行深入研究,重点讨论了朴素贝叶斯属性加权对独立性假设的影响。然后针对属性加权,本文提出了基于余弦相似度的加权朴素贝叶斯分类算法,采用余弦相似度优化属性权值,对分类算法进行改进。(2)研究朴素贝叶斯算法在云计算平台中的并行化实现。基于云计算平台Hadoop,根据MapReduce编程模

5、型对贝叶斯算法并行化进行设计和实现;基于云计算平台Spark,根据基于内存的运算模式来分析和设计贝叶斯算法的并行化。然后实验对比算法在两个平台上性能提升的效果。(3)针对电子商务商品类目分类领域,在Spark平台和文本分类相关技术的研究基础上,对基于Spark平台文本分类并行化实现过程进行分析和设计,分析任务提交后各节点的作用和任务分配情况。然后研究改进的朴素贝叶斯算法在Spark上的并行化实现,给出了详细的并行化实现过程。实验结果表明,改进算法对比传统算法有一定的优势,基于内存计算的Spark在算法执行上要优于基于MapReduce模型的Hadoop

6、。改进的算法能有效的移植到Spark上,在Spark上实现商品类目分类能有效的提高分类性能。关键字:云计算;文本分类;朴素贝叶斯;Hadoop;SparkI浙江理工大学硕士学位论文基于云计算的文本分类研究与应用TheResearchandApplicationofTextClassificationBasedonCloudComputingABSTRACTTherapiddevelopmentofcontemporaryInternetgeneratedalotofvaluableinformationontheInternet,wherethetex

7、tdataoccupiesanimportantposition,howtodigouttheusefulinformationfromvastamountsoftextdataisasignificantsubject.TextClassificationisanimportantresearchdirectionofTextMining,andtheachievementclassificationalgorithmisanimportantpartofthetextclassification,whichaffectthetextclassifi

8、cationresultsandclassificationperformance.Class

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。