欢迎来到天天文库
浏览记录
ID:35062994
大小:3.66 MB
页数:64页
时间:2019-03-17
《基于图的半监督情感分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、:10293密级:单位代码一A硕女緣化徐戈,寺U4名4身论文题目:基于图的半监督情感分类算法研究.1013081703学号郑文静姓名导师奎重应用数学学科专业马戶线性分析及应用研究方向理学硕申请学位类别2016.04论文提安日期南京邮电大学学位论文原创性声明巧成果。本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研L,尽我所知,陈了文中特别加iU示注和致谢的地方外沿文中不包含其他人己经发表或撰写过。的研巧成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而
2、使巧过的材料一了谢意与我同王作的同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。心。/W占.研究生签名:夺作日期:中才南京邮电大学学位论文使用授权声明本人投权南京邮电大学可LU保留井向国家有关部口或机构送交论文的复印件和电子文论文的全部或部分内容编入有关数据库进行检索;档;允许论文被杳阅和借阅;可将学位^心采用影印、汇编本学位论文。本文电子文档的内容和纸质可、缩印或扫描等复制手段供存一。)巧生院办理致。论文的公布(包括刊登授权南邮电大学研论文的内容相京涉文密后适用授权书。密学
3、位论在解本乏口互看化.口期:>扛研导师签名:凌蓋/巧生签名:坪争Graphbasedsemi-supervisedsentimentclassificationThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofScienceByWenjingZhengSupervisor:Prof.LeiLiApril2016摘要在互联网快速发展的今天,“大数据”的存储和使用,已经成为信息技术领域急需解决的问题。文本数据作为人类知识的载体,意义非凡,如何运用大量未标记样本来提升文
4、本情感分类的精度,也变得愈发重要。本文主要研究了基于图的半监督情感分类算法,创新工作如下。(1)将半监督学习中重要的聚类核算法应用到情感分类问题中,给出了基于聚类核的半监督情感分类算法。首先在标记样本和未标记样本上,建立加权无向图后,求解聚类核。然后将该核函数用于SVM情感分类器的训练上,完成分类工作。该方法直接将未标记样本所蕴含的信息融合到核中,不需要建立多个分类器。实验表明,该算法在分类精度上明显优于基于Self-learningSVM和Co-trainingSVM的半监督情感分类算法,且在不同数据集上都有较好的适应性。(2)将聚类核算法同图最小分割法相结合应用到情感分类问题中,建立
5、了基于图聚类核的半监督情感分类算法。首先在所有样本上进行构图,对邻近标记点和未标记点分别给予不同的权重。然后,求解出基于该图的聚类核,将通过聚类核从新表示后的数据带入到图最小分割法中,得到更好的分类效果。该算法更好的满足半监督学习的基本假设,有效利用了未标记样本中蕴含的信息。实验表明,该算法在分类精度上明显优于其他半监督情感分类算法,且不同数据集上都有较好结果。(3)将Graph-of-words文本表示模型引入半监督情感分类问题中,提出了两种基于Graph-of-words的半监督情感分类算法。在文本预处理过程中,使用Graph-of-words模型进行文本向量化,然后将上述模型与前面
6、提出的分类算法想结合,完成情感分类问题。该算法考虑了文本表示方法对于情感分类算法的影响,进一步了提高半监督情感分类算法的分类精度。实验表明,基于Graph-of-words模型的半监督情感分类算法在分类精度上明显优于前面列举出的算法,改进效果明显。关键词:半监督学习聚类核图情感分类文本表示模型IAbstractWiththerapiddevelopmentoftheInternettoday,ithasbecomeanurgentproblemtousebigdatabetterinthefieldofinformationtechnology.Also,Textdata,thecarr
7、ierofhumanknowledge,issignificanttohumanbeings.Thenthewaytousealargenumberofunlabeledsamplestoimprovetheaccuracyofsentimentclassificationhasbecomemoreandmoreimportant.Thispapermainlystudiedsemi-supervisedclassification
此文档下载收益归作者所有