使用机器学习方法进行新闻情感自动分类

使用机器学习方法进行新闻情感自动分类

ID:36535040

大小:212.97 KB

页数:6页

时间:2019-05-11

使用机器学习方法进行新闻情感自动分类_第1页
使用机器学习方法进行新闻情感自动分类_第2页
使用机器学习方法进行新闻情感自动分类_第3页
使用机器学习方法进行新闻情感自动分类_第4页
使用机器学习方法进行新闻情感自动分类_第5页
资源描述:

《使用机器学习方法进行新闻情感自动分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第21卷第6期中文信息学报Vol.21,No.62007年11月JOURNALOFCHINESEINFORMATIONPROCESSINGNov.,2007文章编号:1003-0077(2007)06-0095-06使用机器学习方法进行新闻的情感自动分类徐军,丁宇新,王晓龙(哈尔滨工业大学深圳研究生院智能计算研究中心,广东深圳518055)摘要:本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方

2、法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。关键词:计算机应用;中文信息处理;文本分类;情感分析;贝叶斯;最大熵中图分类号:TP391文献标识码:ASentimentClassificationforChineseNewsUsingMachineLearningMethodsXUJun,DINGY

3、u-xin,WANGXiao-long(IntelligenceComputingResearchCenter,ShenzhenGraduateSchool,HarbinInstituteTechnology,Shenzhen,Guangdong518055)Abstract:Inthispaper,westudyhowtoapplymachinelearningtechniquestosolvesentimentclassificationprob-lems.Themaintaskofsentimen

4、tclassificationistodeterminewhethernewsorreviewsisnegativeorpositive.Na-iveBayesandMaximumEntropyclassificationareusedforthesentimentclassificationofChinesenewsandreviews.Theexperimentalresultsshowthatthemethodsweemployedperformwell.Theaccuracyofclassifi

5、cationcana-chieveabout90%.Moreover,wefindthatselectingthewordswithpolarityasfeatures,negationtaggingandrepre-sentingtestdocumentsasfeaturepresencevectorscanimprovetheperformanceofsentimentclassification.Conclu-sively,sentimentclassificationisamorechallen

6、gingproblem.Keywords:computerapplication;Chineseinformationprocessing;textcategorization;sentimentanalysis;NaÇveBayes;maximumentropy文献[1]等。1引言近年来,BBS和Blog的迅速发展,主观性的言论也越来越多,这些言论大部分都是一些主观的论随着WWW的高速发展,在线的资源数量不断断和对事物的一些看法,如对电子产品、汽车的使用增多,这些资源多是以文本方式出现,从而文本分类评

7、价、电影评论等,那么如何判断这些评论是正面还成为处理和组织大量文档数据的关键技术,所以利是反面?态度是赞成还是反对?认为其值得推荐还用计算机进行文本的自动分类成为自然语言处理和是不值一文?这就引出了文本分类领域一个新的研人工智能领域一项非常有意义的研究课题。目前的究方向)))基于情感的文本分类。文本自动分类的研究主要是采用统计和机器学习的基于情感的文本分类是近年来才兴起的一个研方法,根据文本的主题和内容对文本进行分类,例如究方向,主要研究如何对文本所表达的情感等主观收稿日期:2007-04-10定稿日期

8、:2007-07-13基金项目:863专题目标导向类项目(2006AA01Z197);国家自然科学基金重点项目(60435020)作者简介:徐军(1980)),男,博士生,主要研究方向为中文信息处理;丁宇新(1972)),博士,副教授,主要研究方向为机器学习;王晓龙(1955)),教授,博导,主要研究方向为机器学习和自然语言处理。96中文信息学报2007年内容进行分类,判断其是正面还是负面。它具有很种子词语之间统计关系来自动识别词语语义倾向

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。