基于多标签学习框架的微博文本分类研究

基于多标签学习框架的微博文本分类研究

ID:35063352

大小:5.70 MB

页数:52页

时间:2019-03-17

基于多标签学习框架的微博文本分类研究_第1页
基于多标签学习框架的微博文本分类研究_第2页
基于多标签学习框架的微博文本分类研究_第3页
基于多标签学习框架的微博文本分类研究_第4页
基于多标签学习框架的微博文本分类研究_第5页
资源描述:

《基于多标签学习框架的微博文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:密级;公巧UDC:004.9一追一-—^学号和^.1"???^南…'?TiryM^TrTw"■irw—iiiiw,?mm^""i"■i,益W木""*""顆,狎、.!7vt:;11f.巧狐東禹大?堂腑工程硕±学位论文基于多标签学习框架的微博文本分类研究(学位论文形式:应用研究)研究生姓名:高廳杨导师姓名:陶军教巧王宏宇高级工程师申请学位类别工程硕±学位授予单位东南大学王程领域名称计g机技术论义答辩日期2016年6月24日研究方向网络学位授予日期20年月日答辩委员

2、会主席李必信教授评阅人2016年6月24日?乘菊:k參硕±学位论文基于多标签学习框架的微博文本分类研究专业名務;计算臟术研究生姓名:高鹏杨导师姓名:隨_^王宏宇(校外)-BLOGTHESTUDYOFMICROTEXTCLASS巧ICATIONBASEON-LABELMULTILEARNINGFRAMEWORKADis化rtationSubmited化SoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYG

3、aoPenangygSupervisedbyTaoJunPROFESSORWanHonuggySeniorEnineergCollegeofJointGraduate-MonashSoutheastUniversityUniversitySoutheastUniversityAril2016p东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机

4、构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。"W.心()研究生签名;六觀\方^日期;^东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电。,可W采用影印本人电子文档的内容和纸质论文的内容相子文浩、缩印或其他复制手段保存论文一致。除在保密期内的保密论文外,允许论文被査阅巧借阅,可W公布(包括W电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括W电子信息形式刊登)授权东南大学研究生院办理。备八师签名:曰期:U

5、?研究生签若為f^摘要一批短文本的新媒体例如微博随着互联网的发展诞生了、短信、语音等。相较于传统媒体它们具有文本长度短一、传播速度快、信息更新速度快、文本形式多变等持点。然而,国内目前对于这类新型媒体的分类研究还处在起步阶段。传统的机器学习分类学习框架W及文本相似度计算方法由一于分类目标标签的单性W及文本向量表示的限制,并不适用于新型的短文本分类研巧。与现有的大部分分类学习框架不同,多示例多标签学习框架能够更加准确全面地反映样本的特性,提高多语义下的分类效果,也更加适合微博短文本的分类应用场景。在此背景下,本文结合微博短文本的特点对新浪微博真实短文本

6、数据的分类使用了多标签学习一框架算法,并且提出了种新型的文本相似度计算方法。具体的工作包括:-(1)多标签学习框架算法MLANN算法的研究与改良。考察了算法的具体流程、实现原理W及算法适应场景,并同传统的监督学习算法进行了优缺点比较;结合短文本分类的具体需求,提出了算法的不足之处,引出了下文文本相似度计算的工作。2一()引入类别袋的概念,提出种新型的文本相似度计算方法。结合短文本分类应用解决方案一BOCaReduce、iU及几种传统文本相似度计算方法的研究提出种基于类别袋()的WMp为核屯的文本相似度计算方法一。该算法通过引入个带有类别标签的语料库解决了短文本

7、特征信息缺乏,同义词鉴别困难的特点。(3)在真实微博数据中的分类效果验证。通过关联规则W及数据分析对新浪微博半年的真实数据进行过滤筛选,选出具有分类价值的微博文本2。通过实验比较并考察了种传统文本相似度计算方法同文本提出的文本相似度计算方法在多标签学习框架算法下对微博文本的分类效果。关键词:多标签学习框架,微傅文本分类,文本相似度计算IAbstractAbstractnwe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。