欢迎来到天天文库
浏览记录
ID:34137825
大小:3.79 MB
页数:77页
时间:2019-03-03
《支持多语义层次的短文本特征提取及其分类技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据分类号UDC密级学位论文支持多语义层次的短文本特征提取及其分类技术作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:贾霞光王斌副教授东北大学信息科学与工程学院硕士学科类别:工学计算机应用技术2014年6月论文答辩日期:2014年6月2014年7月答辩委员会主席:赵海杨晓春石祥滨东北大学2014年6月万方数据AThesisinComputerApplicationTechnologyShortTextsFeatureExtractionandClassificationTechniqu
2、esforSupportingMulti..1evelSemantemeByJiaXiaguangSupervisor:AssociateProfessorWangBinNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:、贾霞乞
3、日期:矽/%∥.7够学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时问为作者获得学位后:半年口一年口一年半口两年d学位论文作者签名:贡霞麦J签字日期:2。/够,厶彤导师签名:过拭签字目期:z吖眈厶谘\万方数据东北大学硕士学位论文摘要支持多语义层次的短文本特征提取及其分类技术摘要随着互联网等信息技术的高
4、速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如何智能的对这些短文本数据进行挖掘、分析和归类是数据挖掘领域普遍关注的热点问题,近年来已经出现了多种短文本分类技术。现有的方法在对短文本分类时,只是单纯的根据知识库对短文本进行同义词和近义词扩展,然后按照长文本的分类方法指导短文本分类。这种方法引入了大量无关特征,而且没有考虑词语间层次上的语义关系,以及词语间的组合语义。因此,本文重点对短文本的多层语义特征的生成和提取做了研究,并用这些特征来
5、指导短文本的分类。本文首先综述了现有的文本分类技术,并基于此,将短文本的特征抽象为四层语义特征,并提出了支持多语义层次的短文本特征提取和分类框架。为了尽最大限度的保留了文本原有语义特征,本文首先提出了改进的基于词性标注的分词方法,并以此作为短文本的分词方法。提出了基于Probase的短文本的三层语义特征生成与选择方法,将短文本中原有的单词扩充到概念、实例和属性三层语义特征集合上,达到了文本特征层次化的效果。同时,在基于Probase生成特征词典时,通过同类特征求交集不同类特征求并集的方法来生成特征词典,并且基于贪心思想的优化
6、算法来降低特征词典的维度,有效的提高了短文本分类的精确性。提出了基于潜在狄利克雷主题模型生成文本主题特征的方法,考虑了词与词之间的组合语义特征,使短文本的层次化特征表述更加全面。提出了基于Probase和潜在狄利克雷模型的四层语义特征模型,以进一步全面表述短文本的特征,使短文本分类的准确性大大提高。最后,在真实的数据集上进行了大量的测试研究,通过实验结果本身及对实验结果的分析,证明了支持多层语义的短文本特征提取方法更能全面的抽取短文本的特征,同时短文本的多层语义特征更能精确的指导短文本分类。关键词:短文本;分类;多语义层次;
7、特征提取;Probase;LDA;SVM;.II—万方数据东北大学硕士学位论文AbstractShortTextsFeatureExtractionandClassificationTechniquesforSupportingMulti.1evelSemantemeAbstractWiththerapiddevelopmentofIntemet,lotsofdataispreservedincomputersintheformofshorttexts,suchastheadvertisingverbals,papertit
8、les,webcomments,andTwittermessages.Thewayofmining,analyzingandclassifingtheseshorttextsisahottopicinthedataminingfield,andmanyshorttextsclassific
此文档下载收益归作者所有