基于卷积神经网络的短文本分类方法研究

基于卷积神经网络的短文本分类方法研究

ID:35062109

大小:3.97 MB

页数:53页

时间:2019-03-17

基于卷积神经网络的短文本分类方法研究_第1页
基于卷积神经网络的短文本分类方法研究_第2页
基于卷积神经网络的短文本分类方法研究_第3页
基于卷积神经网络的短文本分类方法研究_第4页
基于卷积神经网络的短文本分类方法研究_第5页
资源描述:

《基于卷积神经网络的短文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、 ̄单位代码10635戶&学号1120133330020891(處據乂聲硕:t学位论文基于卷积神经网络的短文本分类方法研究论文作者:蔡慧苹指导教师:王丽丹教授学科专业:信号与信息处理研究方向:计算智能与信息安全提交论文日期:2016年4月20日论文答辩日期:2016年5月27日学位授予单位:西南大学中国?重庆2016年5月独创性声明学位论文题目;基于卷巧神经闷盛的括女太分奥方法巧兔本人提空的学位论文是在导师指导下进行的硏究工作及取得的

2、研巧成果。论文中引巧他人己经发表或出版过的研巧化果,文中5加了特則标注。巧本巧究及学位论文撰写曾椒出贡献的老师、朋友、同仁巧义中作了巧确说巧井表示東必感谢。学位论文作者巫字曰閣:年b月e曰学位论文版权使用授权书本学化论文作者完全了解西南大学有关楠留、巧巧学位跑义的规定,有权巧留并巧国惠有关部口或机构逗交论义的复巧件和磁盘,允许论文被査阅和借阔。本人授极西南大学硏巧生院(算)可凹将学化论文的全部或部分巧容编入有关数捂库进行检索I可科巧巧影巧、缩巧或扫描等复制手段保存、汇编

3、学位论文,(保密巧学位论文在稱带后這用本授化书:,本论文□不巧巧,□保密期眼至年月止)。■*学位论文作者签名;普據气导师篮名:革宇日期;年t月S日签字日期:么口f^年6月b日目录摘要IABSTRACTIll11第章引言1.1研究背景及意义11.2国内外的研究现状21.3论文的研究内容41.4论文的结构安排5第2章相关基本理论介绍72.1中文分词方法72.2短文本的传统特征提取方法92.3短文本的分布式特征提取方法1

4、42.4短文本分类算法17250.本章小结2第3章数据预处ms特征提取方法研究213.1任务总体流程2132数21.据预处理3.3中文分词223.4分布式特征提取方法223.5本章小结24第4章卷积神经网络分类模型研究254.1卷积神经网络模型结构设计254.2卷积神经网络模型的训练284.3实验过程294430.实验结果与分析4.5卷积神经网络模型的性能分析3146.本章小结33第5章总结与展望355.1本文的

5、主要工作3552一35.下步的工作思路参考文献37致谢43攻读硕±学位期脈发表的论文45攻读硕±学位期45fSl参与的科研项0摘要基于卷积神经网络的短文本分类方法研究信号与信息处理专业硕±研究生指导教师:王丽丹教授摘要近年来,伴随着计算机技术、互联网及移动互联网产业的高速发展,网民数量呈现出了爆发式的增长,W微信、微博等社交平台为代表的互联网产品也日趋成熟。随着大量活跃用户加入其中,每天都有数W亿计的短文本数据在运些平台上产生,如聊天记录、

6、用户评论等。无论是对于政府部口、科研单位还是互联网服务提供商来说,能够正确地应用短文本分类技术,从而挖掘出蕴藏在数据背后用户的真实意图,具有非常重要的研究意义和巨大的应用价值。006一自2年深度学习概念第次被提出,已经在图像识别和语音识别等领域中取得了极大的突破。大量研究成果都证明了相比于传统的机器学习算法,深度学习理论中的诸多模型都能够获得更加出色的性能。本文尝试探索更加适合短文本数据的特征提取方法,并且将深度学习理论中的卷积神经网络模型引入到短文本分类技术中来。为此,本文主要做了

7、W下工作:首先,本文详细阐述了短文本分类任务中的详细流程,具体包括数据预处理、中文分词、特征提取、分类算法研究等步骤。在此基础上,通过对短文本数据自身的特点进一行分析,进步阐述了传统的文本分类方法中所面临的诸多问题,运为后续介绍本文所采用的特征提取和分类模型设计的研究工作奠定了基础。其次,在对短文本进行特征提取时,为了能够更充分地描述词与词在连续低维空间中的语义关系,即提高特征的表达能力,除了原始数据集W外,在训练中还引入了维基-百科中文数据集。本文并未采用传统的人工构建特征的方式,

8、而是利用SkipGram神经网络语言模型来训练出数据集中每个词的wordembedding。再将每条样本中出现的所有wordembedding组合为二维特征矩阵的形式,用来代表该条样本的分布式特征。一再次,本文设计了种具有3种不同大小卷积核的卷积神经网络结构,从而能够在一原始输入特征的基础上,进步完成多种局部抽象特征的自动提取过程。此外,在每次I西南大学硕击

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。