基于词嵌入文本聚类技术的研究与实现

基于词嵌入文本聚类技术的研究与实现

ID:35070385

大小:2.35 MB

页数:54页

时间:2019-03-17

基于词嵌入文本聚类技术的研究与实现_第1页
基于词嵌入文本聚类技术的研究与实现_第2页
基于词嵌入文本聚类技术的研究与实现_第3页
基于词嵌入文本聚类技术的研究与实现_第4页
基于词嵌入文本聚类技术的研究与实现_第5页
资源描述:

《基于词嵌入文本聚类技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10255学号:2131560基于词嵌入文本聚类技术的研究与实现学科专业:计算机科学与技术作者:朱德超指导教师:宋晖答辩日期:2016年1月东华大学计算机科学与技术学院2016年1月东华大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保

2、留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本版权书。本学位论文属于不保密□。学位论文作者签名:指导教师签名:日期:年月日日期:年月基于词嵌入文本聚类技术的研究与实现摘要随着互联网的发展和电子媒体的繁荣,新闻文本数据的规模日益增长,而对新闻文本的组织、摘要和浏览会花费大量的时间。为了保证新闻的时效性,同时让读者方便地获取特定种类的新闻,并使新闻的阅读量最大化,需要对大规模的新闻文档集进

3、行快速的分组。文本聚类技术做为一种非监督的机器学习方法,能够在没有人工标注的情况下,对未分类的文本进行快速的初步分组,因此具有一定的灵活性和较高的自动化处理能力,故而使用文本聚类技术可以对大规模的新闻文本集进行有效地组织、摘要和导航。然而,传统的基于词袋模型(BagofWords)的文本聚类方法可以根据词频统计信息等特征对文本中词性进行加权,区别特征贡献度,但无法捕捉文本中词汇的语义关系;基于主题模型的文本聚类方法可以捕捉到新闻中词语与文章的共现,提取新闻的隐含主题,却不能捕[1]捉词与词之间的共现关系;近年由Mikolov等人提出的Skip-Gram方法通过统计词与上下文的共现,训练得到的词

4、向量能够携带词汇间的语义关联,在很多机器学习任务中表现优秀,但却无法处理汉语中约20%的多义词、同义词和近义词对文本语义的影响;而且,流行的文本聚类方法大都在词语、短语这样短文本上进行聚类是表现较好,却无法有效在新闻这样的长文本上进行聚类。本文提出一个新的新闻文本聚类方法TDE-DC(TopicDocumentEmbeddingbasedDocumentClustering),通过结合Skip-Gram模型、主题模型和TF-IDF加权方法的优点,克服各模型单独使用时的缺陷来获得更好的新闻长文本聚类效果。TDE-DC文本聚类方法主要完成了如下工作:1)使用词汇和词汇所在文本的隐含主题一起作为输入

5、,通过Skip-Gram模型对上下文(Context)中的词汇进行预测,从而得到同时携带词汇间隐含语义关系和隐含主题的主题词向量(TopicWordEmbedding),即获得了高质量的词向量表示,也有效地克服了汉语中高频出现的多义词、同义词及近义词对文本含义的特殊影响;2)以TF-IDF值为权重,将主题词向量进行加权线性累加得到新闻文本的向量表示,即主题文档向量(TopicDocumentEmbedding),获得了一种低维度的文本向量表示,有效地对长文本的向量表示进行了降维。3)使用主题文档向量之间的余弦距离最为文本的相似度函数,并利用传统的聚类方法对新闻长文本向量进行聚类。实验表明,使用

6、TDE-DC模型对新闻长文本聚类能够获得较为满意的结果。关键字:TDE-DC;长文本聚类;LDA;Skip-Gram;TF-IDFASTUDYANDIMPLEMENTATIONOFDOCUMENTCLUSTERINGBASEDONWORDEMBEDDINGABSTRACTWiththedevelopmentoftheInternetandelectronicmediaindustry,thescaleofnewstextdatahasrapidlygrown.Itwillspendalotoftimetoorganizeandsummarizethetextsofthenews.Inorder

7、toensurethetimelinessofnewsandallowingreaderstoaccessaparticularkindofnewseasilyinordertomaximizetheamountofreading,itbecamenecessarytogrouplarge-scalenewsdocumentationsetfast.Asakindofunsupervisedmac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。