欢迎来到天天文库
浏览记录
ID:50115318
大小:3.09 MB
页数:45页
时间:2020-03-05
《基于Apriori算法的短文本分类.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、砂士研究嗲像铪式题目基干法的短》本分类学院所、中心)信息学院专业名称计算机技术研究生姓名汪正嘉学号—导师姓名岳昆职称教授二零一五年四月扉页:论文独创性声明及使用授权本论文是作者在导师指导下取得的研宄成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,不存在剽窃或抄袭行为。与作者一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。现就论文的使用对云南大学授权如下:学校有权保留本论文(含电子版),也可以采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部分内容,可以将论文用于查阅或借阅服务;学校有权向有关机构送交学位
2、论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。内部或保密的论文在解密后应遵循此规定)研究生签名:导师签名士曰期摘要摘要众所周知,文本作为世界上最主要的信息表达载体,在当今互联网上呈现出了庞大的数量和多种类型。近些年来论坛上的一些特定板块中规定了文字字数的限制,随着微博、微信等新应用的兴起,这类字数较少的文本信息的数量迅速膨胀,此类信息称为短文本信息。长度较短、特征较少的特殊文字属性,使得对短文本的分析处理方法与传统的文本处理方式不一样。故而现有的针对普通文本的分类算法并不十分适合,其准确率与效率很难满足实际应用。算法可以通过挖掘频
3、繁项集,较好地实现事务之间关联规则的发现。然而,直接利用算法并不能较好地解决短文本分类问题,我们需要补充短文本的信息量。特征扩展是一门在短文本向量的基础上进行特征补充的技术,构建合理的特征扩展集合可以很好地解决短文本表达信息能力不足的问题。向量空间模型是一种较为流行的文本表示方法,它通过将文本向量化,把文本间的相似度计算转化为向量之间的相似度计算,简单易懂。因为对短文本扩展的特征集合会随着时间的变化而变化,故而需要针对特征扩展集合进行增量维护。基于上述背景,本文将帖子标题作为短文本,与标题相对应的正文作为长文本知识库,主要工作及贡献概括如下:首先通过改进的算法挖掘出长文本知识库中的频
4、繁项集;继而在频繁项集中抽取出特征扩展集合,从而解决短文本表达信息能力不足的问题,对现有的短文本分类方法是一种良好的扩展。然后基于向量空间模型,提出了一种对特征扩展集合进行增量维护的算法,并给出了算法的分析,以保持其实时性和通用性。最后针对本文提出的理论方法,我们以实验的方式测试了算法的准确率、召回率、乃值和效率,验证了本文方法的可行性。本文的工作实现了对短文本信息量良好补充的效果,并且在分类效率变化不大的情况下通过对特征扩展集合的增量维护实现了提升短文本分类准确率的效果。关键词:短文本分类;关联规则;向量空间模型;增量维护;长文本知识库AbstractAbstractAsweall
5、known,asthemostimportantcarrierofinformation,textoflargeamountandvarioustypesarebeingpresentedontheInternetnowadays.Inrecentyears,thewordsnumberwhichuserswriteonsomemodulesofforumarelimitedtoacertainrange.AlongwiththeriseofnewapplicationssuchasWeiboandWeixin,theamountofthesetextswithlimitedword
6、s,,,,,Abstractalgorithmaswellasitsanalysistoupdatefeatureextensiondatabase?whichcanmaintainitsinstantaneityandgenerality.Finally,basedontheapproachofthispaperproposed,,,,目录目录第章前言研究背景研究现状研究内容论文结构第章背景知识关联规则算法简介文本分类算法简介关联规则算法简介算法简介关联规则算法的应用特征选择简介向量空间模型简介增量维护简介本章小结第章标题的特征扩展及特征扩展集合的增量维护基于分类模型的频繁项集挖掘
7、算法特征扩展集合的增量维护增量维护目标的获取基于向量空间模型的特征扩展集合增量维护算法第章实验设计与分析基于算法和算法的短文本分类测试准确性测试效率测试对增量维护算法的准确率和效率测试本章小结第章总结与展望附录ss参考文献細云南大学(专业)硕士学位论文第章前言研究背景随着网络结构的不断发展以及网络人口的持续增长,用户在网络上的资源服务中越来越容易迷失。如何提高网络资源为用户服务的效率是当前的热门课题。随着贴吧、微博、微信和即时移动通信软件的出现,移动互联网
此文档下载收益归作者所有