面向微博文本的分类技术应用研究.pdf

面向微博文本的分类技术应用研究.pdf

ID:50456604

大小:5.67 MB

页数:47页

时间:2020-03-06

面向微博文本的分类技术应用研究.pdf_第1页
面向微博文本的分类技术应用研究.pdf_第2页
面向微博文本的分类技术应用研究.pdf_第3页
面向微博文本的分类技术应用研究.pdf_第4页
面向微博文本的分类技术应用研究.pdf_第5页
资源描述:

《面向微博文本的分类技术应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、??,一...':班‘‘.—.VVv.f'工租巧古..’:I一..^:.皆嗓考.学化论义''.:'?1'..巧.—面向微博文本的分类技术应用研究-V,---■?,''-:..-/.,'-:.r:','.T'.tV王裙瑶-?..,?..'..'??f.:/j策r—I.一.中...V破巧:冰.-,:.评乂''--'.,>戊'-'乐?y-中r户—二〇五年一月、

2、-V..-分类号密级UDC硕±学位论文面向微博文本的分类技术应用研究王裙瑶学科专业计算机巧乂指导教师蒙祖强教授指导教师孙国荣高级工鸦师论文答辩日期2015年1月24日学位授予日期2015年3月30日答辩委员会主席葛丽娜广西大学学位论文原创性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研究成果。除己特别加1^标注和致谢的地方外,论文不包含任何其他个人或集体已经发表或撰写的研究成果,也不包含本人或他人为获得广西大一学或其它单位的学位而

3、使用过的材料。与我同工作的同事对本论文的研究工作所做的贡献均已在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产极归属广西大学,即;学校有。本人授权广西大学拥有学位论文的部分使用权权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阀,可将学位论文的全部或部分内容编入有关数据库进行检索和传播,可W采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于:□保密,在年解密后适用授权。喊保密。""(请在W上相应方框内打V)t、论文作者签名:抓化日

4、期:>vv^9指导教师签名:日觀作者联系电话:电子邮箱:面向微博文本的分类技术应用研究摘要当今社会,信息技术的迅猛发展W及因特网的近速普及,使得数字信息资源急剧增加。如何从海量非结构化的文本数据中获取有用信息成为信一息处理领域研究的重要问题之。文本主要任务是研究微薄文本的分类技术,即根据未分类文本的语义信息判别其所属的类别,自动把文本划分到一个或几个类别中预先设定的文本类别的。文本分类的主要目的是帮助人们快速将信息分类,从而能够根据类别有效地找到其所需要的信息。微博是一一种新塑賄柯络社交平脊,也是

5、新型媒体之。微博文本属于一等特点短文本类别,用词简洁,包含的信息量多少不。除此之外,微博文本的形式更加自由。,传播速度快,实时性强,很多信息是很有价值的微博文本分类在各个领域有着广泛的应用前景一。相对于般文本分类,微博文本分类在理论一些巧、方法和技术都还存在许多问题,本文对此进行步的探讨。本文研究分类技术在微博短文本上的应用。首先介绍了分本分类的研究内容和国内外现状一,接着阐述了文本分类的般过程,分别描述文本分类的几个关键阶段,如预处理,文本表示,特征选择等。然后对典型分类算法做介绍,如K近邻(KNN)、朴素

6、贝叶斯等。接着结合KNN算法的优缺点和微博文本的特性,化及用户自身偏好,提出了基于微博特征的分类算I法。改进后的KNN算法在训练时间、分类速度和分类准确率上获得较好的提高。实验结果亦证实,改进后的KNN算法在微博文本的分类应用中,较KNN算法和朴素贝叶斯算法具有更短的训练时间、更快的分类速度和更离的分类准确。关键词;KNN文本分类短文本微博IISTUDYOFTHEAPPLICATIONOFTEXTCLASSIFICATIONTECHNIQUESONWE化OABSTRACT'Toda

7、ssociettheraiddevelomentofinformationtechnoloandtheyy,ppgyrapidspreadoftheInternet,makin呂化gitalinformationresourcesincreaseddramatically.Howtogetusefulinformationfromvastamountsofl;extinformationbutunstrucUiredinformationrocessinfield拓ree

8、d化becomeapgroblemtobesolved.Themaintaskofthetextisthet;e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。