欢迎来到天天文库
浏览记录
ID:20766224
大小:2.52 MB
页数:79页
时间:2018-10-15
《基于卷积神经网络的文本分类并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP3?1单位代码:10636",??#"*tawr*tiir*Tn<?rji>.IS:V^*Vj10100密级:公开学号:205131成“丨if範七#硕士学位论文中文论文题目:基于卷积神经网络的文本分类并行化研究英文论文题目:ResearchontheparallelizationoftextcategorizationbasedonConvolutionNeuralNetwork论文作者:梁瑷云指导教师:袁丁专业名称:计算机应用
2、技术研究方向:数据挖掘所在学院:计算机科学学院论文提交日期:2018年3月20日卜.士i'2018年5月27曰:论戈答辩曰期:.笑鸯、,学位论文出版授权书本人完全同意《中国优秀博硕士学位论文全文数据库出版章程》“”(以下简称章程)意将本人的硕士学位论文提交中国学术期,愿刊(光盘版)电子杂志社在《中国优秀博硕士学位论文全文数据库》中全文发表。《中国优秀博硕士学位论文全文数据库》可以以电子、网络及其他数字媒体形式公开出版,并同意编入CNKI《中国知识资源总库》,在《中“国章博程硕”士规学位论文评价数据库》
3、中使用和在互联网上传播,同意按定享受相关权益。作者签名:.年」日论文题目:毕业院校:四川师范大学毕业年份:>〇移年月所在学院:脅所学专业:-聋机料齡悴今机佥祕本哥说明:本授权书由中国学术期刊(光盘版)电子杂志社保存。联-627919516279317662790693传真:010-62791814系电话:010通信地址:北京猜华大学邮局84-48信箱采编中心邮编:100084基于卷积神经网络的文本分类并行化研究计算机应用技术专业研究生:梁瑷云指导老师:袁丁摘要随着互联网的普及以及计算机技术的快速发
4、展,网络数据呈现出爆发式的增长趋势,其中主要以文本的形式大量存在。在这种数据量的增长趋势下,如何在有限的时间内将海量的、杂乱无章的、表达不规范的文本数据按照某种规则进行自动分类,成为国内外自然语言处理领域亟待解决的热点问题。当前,网络文本信息主要表现为这些特点:实时性强、数据量大、特征稀疏、表达不规范等;现有的单机模式下的分类算法主要存在这些不足:运行时间长、准确率不高等。为了有效解决以上两个方面的不足,本文在已有的分类算法的研究基础上,以新闻文本做为研究对象,对关联规则算法、卷积神经网络算法和Spark分布式计算平台进行了深入的研究分析,主要进行以下
5、三个工作:(1)提出一种基于Spark关联规则优化算法,并将其运用于文本挖掘领域。针对当前文本稀疏、语义表达不足等问题,本文围绕现有的关联规则算法进行深入研究,提出了一种关联规则算法的优化方法——Apriori_MC(AprioriAlgorithmBasedonMatrixColumns),并将其与Spark分布式平台相结合,提高算法的运算效率。通过与已有的部分关联规则算法进行实验对比分析,验证了该算法的可行性与运行效率,同时利用该算法挖掘文本语料库中的关联关系。(2)设计一种基于Spark平台的卷积神经网络(Convolutionalneuraln
6、etwork,CNN)并行模型。本部分首先围绕传统的CNN算法进行描述,主要从该算法的设计结构、激活函数、参数优化等方面进行介绍,并针对传统单机模式下的CNN算法训练时间长、数据等问题,设计一种基于Spark平台并行化训练CNN模型的方法CNN_SP,该方法利用分治思想,将训练样本分解成均匀的数据块,然后将数据块分发给Spark集群中的各个工作节点,每个工作节点上拥有一套完整的CNN模型,当各个工作节点执行完毕后,对生成的中间结果进行算术平均数求取权重值,I通过广播的形式传递给各个节点,实现模型更新。当迭代次数达到上限或网络收敛于某阈值时模型停止。通过
7、该实验验证了CNN模型在Spark集群中的可行性,能加快算法的执行效率,缓解单机环境下对内存的消耗。(3)设计一种结合特征扩展和句子成分提取的双输入CNN模型EE_CNN(FeatureExpansionandSentenceComponentExtractionCNN),并实现并行化。针对2)中采用CNN模型存在的问题,设计出EE_CNN模型,该模型首先对预处理后的样本进行句法分析,提取句子中的关键成分(如主语、谓语、宾语等),再根据这些关键成分利用1)中的关联关系、相似度关系对样本进行特征扩展;并将该算法与并行化技术相结合,实现并行化。通过实验证明
8、,EE_CNN模型的准确度达到93.4%,相较于SVM算法该算法提高了3%左右;相较于传统的C
此文档下载收益归作者所有