欢迎来到天天文库
浏览记录
ID:35059205
大小:2.59 MB
页数:67页
时间:2019-03-17
《基于word2vec的文本建模及分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391学校代码10590UDC004密级公开深圳大学硕士学位论文基于Word2vec的文本建模及分类研究学位申请人姓名冯贵川专业名称软件工程学院(系、所)计算机与软件学院指导教师蔡树彬深圳大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文基于Word2vec的文本建模及分类研究是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律后果由本人承担。
2、论文作者签名:日期:年月日摘要文本信息的分类问题是文本挖掘的一个重要研究方向,是自然语言处理和机器学习的关键技术之一。随着互联网上文本信息的急剧增加,对文档的自动分类需求越来越高。近些年来,机器学习在文本分类领域的应用越来越广泛,相对于传统的文档分类模型,机器学习在分类结果和效率上都有所进步。文本建模是文本分类的基石,目前主要的文本建模方法包括向量空间模型和主题模型。其中使用最广泛的是向量空间模型,但是向量空间模型存在维度大、稀疏性高以及同义词和多义词等语义问题;相对于向量空间模型,主题模型可以实现有效的降维,发现文档的潜在主题,但是主
3、题模型需要大量的样本进行学习,训练难度大并且非常耗时,影响了分类的效率。本文仔细研究了文本分类的有关技术,提出了一种文本建模方法word2vec_k-means,与传统的文本建模方法相比,该方法在分类的准确率和效率上都有所提升,并且通过实验验证了该方法的有效性。本文主要在以下三个方面进行了研究:(1)深入的研究了文本分类的流程和相关技术,针对一些常见的文本表示模型,分析了这些文本表示模型的优缺点。(2)提出了一种文本建模方法word2vec_k-means,该方法以word2vec训练得到的词向量为基础,首先对这些词向量进行聚类处理,从
4、而生成不同的类别数目即主题数,然后再对文档进行特征项的权重选取,最终可以得到每篇文档在词向量聚类类别下的分布结果,从而完成文本的建模过程。通过这种文本表示方法不仅能够有效的降低文本的向量维度,同时还解决了同义词之间的语义问题,并且大幅度的减少了模型的训练时间。(3)用本文所提出的文本建模方法来进行文本的向量化表示,完成文本建模,在此基础上应用SVM分类算法,将这种文本表示模型优秀的语义表示能力和SVM强大的分类能力结合起来。实验结果表明,与传统的文本建模方法相比,word2vec_k-means文本建模方法在分类准确率以及F1值的微平均
5、和宏平均上均有所改善。关键词:word2vec;文本建模;文本分类;SVMIAbstractTextclassificationisanimportantresearchareaoftextmining,andalsooneofthekeytechnologiesonthenaturallanguageprocessingandmachinelearning.WiththeexplosivegrowthofInternettextmessages,automatictextclassificationhasbeenusedmoreand
6、morewidely.Inrecentyears,machinelearningmethodshavebeenappliedtothefieldofautomatictextclassification.Comparedwithtraditionaltextclassificationmodel,themethodofmachinelearninghasmadeprogressinclassificationresultsandflexibility.Textmodelingisthecornerstoneoftextclassific
7、ation,atpresentthemaintextmodelingmethodsincludevectorspacemodelandtopicmodel.Amongthemostwidelyusedisvectorspacemodel,butthevectorspacemodelhassomeshortcomings,suchahighdimensionandsparsity,synonymsandpolysemy,etc.Comparedwiththevectorspacemodel,topicmodelcanreducedimen
8、sioneffectivelyandfindthepotentialtopicbetweendocuments,italsosolvetheproblemofsemanticsbetweenwords,bu
此文档下载收益归作者所有