欢迎来到天天文库
浏览记录
ID:37700715
大小:351.11 KB
页数:7页
时间:2019-05-29
《网络环境下中文情感倾向的分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据2008年5月第2期语言文字应用Applied“nguisticsMay,2008No.2网络环境下中文情感倾向的分类方法金聪1金平2(1.华中师范大学计算机科学系湖北武汉430079;2.华北石油管理局价格定额中心河北任丘062552)[摘要]论文从中英文语言差异的角度出发,针对语义倾向方法在中文应用中暴露出来的问题,提出了具体的应用于中文的改进算法。在实验中,运用基金测试文档进行实测以验证改进算法的有效性。实验表明,改进后语义倾向方法在应用于网络环境下中文文本情感倾向分类中具有理想的性能,并具有不需要大量训练样
2、本、对领域知识有较弱的依赖性等特点,展示出良好的应用前景。[关键词]中文情感分类;评价文本分类;语义分析方法;语义倾向[中图分类号]H08[文献标识码]A[文章编号]1003.5397(2008)02.0139.06CategorizationofChineseEmotionalReactionTypesontheNetJlNc帆g,JlN‰gAbst髓ct:IIIthispaper,wep∞poseaChine∞emotiond嘲ctioncate90Iizationn圮thodontheNetbased∞sen瑚tic
3、p陀feI.e肿e.AndataIniningtechniquewhichisb删on∞n啪ticp11eferenceisused.IIlteH璐ofdifEb陀ncebetweenClline驼andEnglish,we龃alyzethepmblemof∞In粕ticpr;eferencewhen即一iedinChine眈跚dpr
4、opo跎锄i呷rovedalgoritllm.Inthe唧eri砒ms,newa190Iitllmis印pliedtoChine∞fhlldre“ews.鸭e瑚IIltsshowtllati
5、mprovedalg嘶thmpe而n啮betterwh即i“s惦edtoChine∞e咖tional弛actioncalegori勰tionmenlod彻theWeb.Compared诵thtlletrainedcla硒ificationalgorithm,tlleinlpmvedalgorithmdoesn’tneedtobetrained稍tllagreatdealofdocuments蛐dh鹪litdedependenceondomainknowledge,whichpmnlisesa¨glltfutu弛applic
6、ati∞.Keywords:Chine靶emDtionalreactioncate90rization;evaluationteI【tclas8mcati∞;眈Ⅱ舢tic删ysis;8emanticpreference[收稿日期]20cr7—1l—19[作者简介]金聪,华中师范大学计算机科学系教授,博士,研究生导师,主要研究智能信息处理、情感信息处理、人工智能等;金平。华北石油管理局价格定额中心会计师,主要研究数据信息处理、数据统计分析等。万方数据·140·语言文字应用2008年第2期一引言随着互联网的飞速发展,网上信息急
7、剧增长。虽然海量的信息资源可以为我们带来极大的便利,但纷乱庞杂的信息也令我们不知所措。如何快速有效地利用网络信息已成为人们关注的焦点。目前已相继展开了大量的网络信息挖掘的研究工作,并已有成熟的成果问世,例如网络信息的主题分类技术⋯等。但对网络信息其他领域的研究却相对匮乏,例如互联网上中文情感倾向的分类问题就很少有人研究。互联网是一个信息仓库,中文文本不计其数。这些中文文本不仅表达思想,而且还蕴含丰富的情感。以往人们对中文文本内容的关注,往往仅着眼于对文本内容的分析,而忽略了中文文本的情感因素。我们知道,情感是中文文本的重要
8、组成部分,仅关注内容不关注情感是很难完整反映作者意图的。本文在对互联网中文文本进行情感分析中,主要关注的是如何对中文的情感倾向进行分类,这在现实问题中有广泛的应用前景。例如,在进行网上调查时,可以从客户的反馈中分析出对所评论对象持肯定还是否定态度;在对售后服务进行评论时,可以分析出客户是在称赞还是批评等。二语义倾向分析网络中文信息以文本形式存在,因此挖掘互联网中文信息需要借助文本分类工具。目前大多数文本分类工具都是基于词语间的相似度或文档中的词频数进行分析的。这些工具通过对训练文本的训练,统计出相关类别中词语的出现频度或概
9、率,然后根据目标文本中相关词语的频度信息判别出其类别。运用这些工具一般有一个潜在的假设前提,即文本类别的清晰度取决于词语出现可能性的分布,同时还需假设文本中词语间是相互独立的。但对情感词语而言,这两个假设有很大问题。因为某些词语虽然出现的可能性很大,但有可能不表达任何情感倾向,与类别无关。另外,文本中情
此文档下载收益归作者所有