中文短文本分类技术的研究与实现

中文短文本分类技术的研究与实现

ID:42031247

大小:3.52 MB

页数:64页

时间:2019-09-05

中文短文本分类技术的研究与实现_第1页
中文短文本分类技术的研究与实现_第2页
中文短文本分类技术的研究与实现_第3页
中文短文本分类技术的研究与实现_第4页
中文短文本分类技术的研究与实现_第5页
资源描述:

《中文短文本分类技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:链是南签字魄弘l毕年f月习日学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进

2、行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:惫乏蓓签字日期:a朋V年}/-1胡日I导师签名:签字日期:弼凇,。f,妒年y-月罗口日摘要文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处

3、理长文本的分类方法并不能很好用于处理短文本。本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特

4、征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。关键字:文本挖掘短文本文本分类主题模型AbstractTextclassificationisanimportantsubjectinthefieldoftextmining.Itreferstothat,int

5、heknownclassificationsystem,itconfirmstheprocessoftheunknowntextcategorybasedontheknowntextcontentautomatically.Textclassificationhelpsusersdealwiththemessyinformationpartlyandreadalargenumberoftextsbytheirtendency.Currently,mosttextclassificationsdealwiththelongtextswhichcontainmoreinformat

6、ion.HoweveLwiththerapiddevelopmentofIntemet,moreandmoreshorttextsappearinthelife.Lackoftheinformationofshorttexts,traditionalmethodsoflongtextclassificationdonotworkwellforshorttexts.Firstly,thedissertationsummarizestheexistingtechnologiesofshorttextclassificationbothdomesticallyandinternati

7、onally.Mostmethodsofshorttextclassificationneedtoknowthebackgroundknowledgethatcostalotofenergywhiletheycan’tbeappliedinallcases.TheusualshorttextincludesBBS,productreviews,SMS,micro-blogandSOon.Comparedwiththelongtext,shorttexthasitsdistinctivefea

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。