短文本相似度的关键技术研究

短文本相似度的关键技术研究

ID:35092843

大小:4.29 MB

页数:48页

时间:2019-03-17

短文本相似度的关键技术研究_第1页
短文本相似度的关键技术研究_第2页
短文本相似度的关键技术研究_第3页
短文本相似度的关键技术研究_第4页
短文本相似度的关键技术研究_第5页
资源描述:

《短文本相似度的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、 ̄ ̄单位化码10602I号2013011510分类号TP301级公开心'?序呼錢GUANGXINORMALUMV巨PSITY硕去学位文短文本相似度的关键技术研究KeTechnoloResearchonshorttextsimilaritygyy学院:计算机科学与信息工程学院专业:计算机软件与理论研究方向:数据挖捆年级:2013级研究生:刘令强 ̄指导教师:陈元談教授完成日期:2016年4月■■■■■■■■■■■■■■■I短文本相

2、似度的关键技术研巧专业名称:计算橄件与理论申请人:刘令强指导教师:良鼎詞陈元谈教授论文答辩委眞会主席:和聲金i:巧学3走ioht4/¥崎短文本相似度的关键技术研究:刘令强导师姓名:袁鼎荣陈元玻研究生姓名II学科专业:计算机软件与理论研巧方向:数据挖掘年级:2013级摘要随着计算机科学技术和物联网不断的发展壮大,越来越多的数据短文本的形式出现在互联网上例如新闻标题、贴吧言论、微博消息等。对短文本数据运用分类、聚类的技术,从中挖掘出有价值的信息为人们的生活提高有用的便利

3、,W满足不同方面的需要,因此对一个迫在眉睫的任务和课题短文本数据进行挖掘越来越成为。本文首先对短文本的基本概念进行介绍,并说明目前短文本面临两个主要的问题,第一个是由于短文本特征词稀疏性,而无法利用常用文本的算法处理,或者无法取得和长文本相同的效果;第二个是短文本缺乏上下文依赖性无法提供有效背景信息;接着分别对现有的几种主要的计算长文本相似度的方法进行了分析,主要包括基于VSM的余弦相似度算法和基于语义词典的语义相似度算法;最后介绍目前主要短文本相似度计算法主要包括基于大规模文本集进行统计的方法和基于

4、描述特征的方法;本文不仅计算长短文本相似度的,并分析了不足之处方法而且其各自的特点。然后本文介绍LDA主题模型的原理和重要参数。LDA主题模型可更深入的挖掘短文本的內在语义,使短文本的相似度计算不局限于短文本的语言结构上,而从潜在短文本内在的语义的方向进行数据建模和计算;LDA的主要原理是将每篇文档当做由很多个主题姐成的,先把每个文本生成不同的主题比例分布函数,然后为每个特征词进行训练生成对应的主要主题。接着介绍多粒度主题模型对单粒度主题模型所拥有的好处,能够部分缓解短文本LDA主题模型生成过程中产生

5、的数据稀疏性的问题,多粒度主题模型通过不同的主题数,充分挖掘短文本数据集的不同维度的有用信息,W提高短文本语义相似度计算的关联程度。一最后介绍本文提出的两个提高短文相似度计算的改进方法。第,对己有根据单粒度主题模型来改进短文本相似度计算的方法,本文采用了多粒度主题模型来改进短文本相似度计算方法,利用LDA主题模型在不同主题数下,对短文本的训练集进行数据建模,然后对利用己训练的LDA模型对短文本测试集进行主题分析,分析两个的短文本片段所用主题成分,如果不同的短文本片段拥有类似的主题的成分,说明这两个多文

6、本具有语义上的相,二关联通过这种关联的程度的高低来提高两个短文本片段的相似度值,本文对原始!第1短文本片段进行特征词的扩展,再结合上面的基于多粒度的主题模型的方法来提高相似度一计算的准确率,和方法类似先对短文本训练集进行数据建模并分析短文本测试集中不同短文本片段的主题成分,把每个短文本相似度片段中所占的主题成分最多的几个主题作为主题标记添加到每个对应的短文本片段的里面,来提高短文本的特征词的数量,如果两个短文本片段拥有类似的主题成分,该两个短文本片段有相同的主题标记,进而提高两个短文本相似度的计算

7、。实验结果表明本文提出的方法能够有效的提高短文本分类器的性能,相对于BuyAns数据集在KNN和KNNMTBS上分类性能,基于结合短文本待征词扩展和基于多粒度的方法_平均准确率提离了4.1%左右;本文所提出的方法在问题分类数据集Phan上的分类性能比KNN,KNNLMTBS也取得更好的分类效果,相对于Phan数据集在KNN和KNNMTBS上分_类性能,基于结合短文本特征词扩展和基于多粒度的方法平均准确率提高了5.1%左右。关键词:多粒度主题模型短文本相似度特征词扩展KNNIIKeyTech

8、nologyResearchonshoit化xt站milarityName:LiuLingqiangTutor:YuanDingrongChenYuanyanMajor:SoftwareandTheoryofConput

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。