基于机器学习的汉语短文本分类方法研究与实现

基于机器学习的汉语短文本分类方法研究与实现

ID:35066342

大小:4.94 MB

页数:87页

时间:2019-03-17

基于机器学习的汉语短文本分类方法研究与实现_第1页
基于机器学习的汉语短文本分类方法研究与实现_第2页
基于机器学习的汉语短文本分类方法研究与实现_第3页
基于机器学习的汉语短文本分类方法研究与实现_第4页
基于机器学习的汉语短文本分类方法研究与实现_第5页
资源描述:

《基于机器学习的汉语短文本分类方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、UDCs"密化么…开….……ji基今4^名:齡文舞^^手.y’硕±研究生学位论文基于祝器学习的巧语短文本分类方法硏究与实现申请人:黄旭'1'I学号:2141344培养单位:计算机科学技术学晓/、承话'人甲怜业:计鄉技术^巧方向:自然语言处理指导教师:付国宏教授/■完成日期8日:2016年5月2句..C..、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加标注和致谢的地

2、方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得黑龙江大学或其他教育机构的学位或证书而使用过的材料。W(:学位文作者签名:案化签字日期年6月占日学位论文版权使用授权书本人完全了解黑龙江大学有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权墨龙注去堂可将学位论文的全部或部分内容编入有关数据库进行检索,可レッ采用影印、缩印或扫描等复制手段保存、汇编学位论文。学位论文作者签名:章化导师签名:^签字日期:日:如6年^月(

3、日签字日期处^学位论文作者毕业后去向:工作单位:电话::通讯地址:邮编中文摘要随着近年来Web2.0技术和社会媒体领域的高速发展。微博、网络即时短新闻、互联网电商客户发表的产品评论等中文短文本数据呈现爆发式的增长,已经成为当下最重要的信息传播手段,这种方式促进社会信息快速高效的传播。但是,多样的信息也给人们的日常生活带来了诸多不便,复杂的信息会浪费广大用户相当长的时间去寻找有价值的信息。因此如何快速准确地从错综复杂的短文本中抽取用户需求的信息是一个新的挑战。短文本分类为解决这一问题提供了帮助,能够根据用户的需求,将杂乱的信息进

4、行分类,从而方便用户快速定位。本文实现了互联网短文本的分类,通过本文的短文本分类系统可以快速将混杂的原始语料进行分类,为后续基于互联网短文本领域内和领域之间的意见挖掘研究打下基础。针对于汉语短文本自身的特点,本文在机器学习框架下探索不同特征的文本表示和分类方法对短文本分类的影响。具体地,本文从以下两个方面展开研究:(1)基于传统词袋模型的汉语短文本分类。在支持向量机的框架下,采用基于词袋模型并使用经典的特征选择方法和权重计算方法进行文本表示。探索不同特征选择方法对文本分类的影响,其中特征选择包括文档频率、信息增益、卡方统计量、互信息等。并与基于L

5、DA的分类模型进行对比。实验结果表明,基于传统词袋模型的效果一般,其中卡方统计量特征选择方法的效果比较突出。基于LDA模型的短文本分类在效果上有了很大的提升。(2)基于词向量特征的汉语短文本分类。针对短文本特征稀疏的特点,进一步探究使用词向量进行短文本的表示。并且在此基础上,对比研究了三种不同句向量融合方法对分类效果的影响,其中包括基于词向量pooling的句向量融合、基于PV-DM模型的句向量融合和基于词向量连接的句向量融合等。实验结果表明,基于词向量表示的短文本分类效果优于基于传统词袋模型的短文本分类,其中三种融合方法中基于PV-DM模型的融

6、合效果比较突出,取得了不错的效果。关键词:短文本分类;机器学习;词袋模型;LDA;词向量-I-AbstractWiththerapiddevelopmentofWeb2.0technologiesandsocialmedia,Internetuserscontinuetoincrease.Inrecentyears,individualmicroblog,customercommentsbasedoninternet,etc.Chineseshorttextmessagesintotheperiodofexplosivegrowth,andhas

7、becomeanimportantwayofinformationdisseminationtopromotethefastandefficientdisseminationofthesocietyinformation.However,avarietyofinformationalsotothedailylivesofhumaninconvenience,complexinformationwillwastethemajorityusers’timetofindit,Textcategorizationtosolvethisproblemhas

8、helped,accordingtotheuser'sneeds,theinformationcluttertofacilitateit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。