基于主题模型和卷积神经网络的短文本分类算法研究

基于主题模型和卷积神经网络的短文本分类算法研究

ID:23518840

大小:1.39 MB

页数:59页

时间:2018-11-08

基于主题模型和卷积神经网络的短文本分类算法研究_第1页
基于主题模型和卷积神经网络的短文本分类算法研究_第2页
基于主题模型和卷积神经网络的短文本分类算法研究_第3页
基于主题模型和卷积神经网络的短文本分类算法研究_第4页
基于主题模型和卷积神经网络的短文本分类算法研究_第5页
资源描述:

《基于主题模型和卷积神经网络的短文本分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP18密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于主题模型和卷积神经网络的短文本分类算法研究论文作者:刘泽锦学科:计算机科学与技术指导教师:王洁副教授论文提交日期:2017年5月UDC:004学校代码:10005中文图书分类号:TP18学号:S201407041密级:公开北京工业大学工学硕士学位论文题目:基于主题模型和卷积神经网络的短文本分类算法研究英文题目:RESEARCHONSHORTTEXTCLASSIFI-CATIONALGORITHMSBASED

2、ONTOPICMODELANDCONVOLUTIONALNEURALNETWORK论文作者:刘泽锦学科专业:计算机科学与技术研究方向:计算机应用技术申请学位:工学硕士指导教师:王洁副教授所在单位:信息学部答辩日期:2017年5月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论

3、文中作了明确的说明并表示了谢意。签名:刘泽锦日期:2017年5月20日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:刘泽锦日期:2017年5月20日导师签名:王洁日期:2017年5月20日摘要摘要随着互联网的飞速发展,网络中产生了大量短文本,这些短文本涉及的内容与领域多元化,逐渐成为使用频繁且公认的沟通方式。电子商务评论、信息检索、智能问答

4、系统均是海量短文本的产生源,如何从中挖掘有效信息,是近年来广泛研究的课题。文本分类是文本挖掘的有效方法,由于短文本长度短、词语特征稀疏等特点,导致长文本分类方法不再适用。国内外学者针对短文本分类问题进行了大量的研究与探索,主要采用的方法大致可分为两类:1)基于外部语料库、知识库特征扩展的方法,此类方法复杂耗时,在特征扩展过程中容易引入噪音,造成分类效果提升有限。2)基于神经网络的方法,此类方法采用一种随机初始化词向量或预训练词向量作为输入,文本长度短,特征不充分。本文分别针对上述两类方法的不足,开展以下两方面的研究工作:第一,针对短文本词

5、语特征稀疏,使用外部语料进行特征扩展引入噪音的问题,提出一种基于主题模型的短文本分类算法,该方法无需外部语料。首先,在双词主题模型的基础上提出快速双词主题模型,将迭代中单次采样复杂度由O(K)降低到O(1),且给出单个词语对应主题的求解算法;然后,使用快速双词主题模型对短文本建模,将文本中一小段滑动窗口内的两个同主题词语组成词对特征;最后,用主题分布作为另一部分特征,将词语、同主题词对、主题分布特征结合后进行分类。在Weibo数据集上的结果表明基于快速双词主题模型的特征扩展与分类算法可有效提升短文本分类的准确率,召回率和F1值。第二,针对

6、短文本词语特征稀疏,提出一种结合卷积神经网络与随机森林的短文本分类算法(CNN-RF)。首先,使用不同方式预训练两组词向量,分别作为两个卷积-池化层的输入,得到两个池化层特征图;然后,对两个池化层特征图进行卷积操作得到第二层卷积特征图;最后,模型训练过程分为两个阶段:1)Softmax预训练:将Softmax分类器接入到第二层卷积特征图,训练并保存模型参数;2)随机森林训练:保持预训练阶段模型参数不变,将分类器改为随机森林,使用第二层卷积特征训练随机森林,增强模型的泛化能力。在三个公开数据集上的结果表明,CNN-RF可有效提升短文本分类的

7、准确率,召回率和F1值。关键词:短文本分类;主题模型;特征扩展;卷积神经网络;随机森林IAbstractAbstractWiththerapiddevelopmentoftheInternet,thenetworkproducedalargenumberofshorttext,theseshorttextinvolvedinthecontentandfielddiversification,andgraduallybecometheuseoffrequentandrecognizedcommunication.E-commercer

8、eviews,informationretrieval,intelligentquestionandanswersystemarethesourceoftheproductionofmassi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。