基于语义理解的文本倾向性识别机制

基于语义理解的文本倾向性识别机制

ID:33327055

大小:173.20 KB

页数:5页

时间:2019-02-24

基于语义理解的文本倾向性识别机制_第1页
基于语义理解的文本倾向性识别机制_第2页
基于语义理解的文本倾向性识别机制_第3页
基于语义理解的文本倾向性识别机制_第4页
基于语义理解的文本倾向性识别机制_第5页
资源描述:

《基于语义理解的文本倾向性识别机制》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第21卷第1期中文信息学报Vol.21,No.12007年1月JOURNALOFCHINESEINFORMATIONPROCESSINGJan.,2007文章编号:1003-0077(2007)01-0096-05基于语义理解的文本倾向性识别机制徐琳宏,林鸿飞,杨志豪(大连理工大学计算机科学与工程系,辽宁大连116024)摘要:文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文

2、本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。关键词:计算机应用;中文信息处理;倾向性识别;知网;语义相似度;否定句;程度副词中图分类号:TP391文献标识码:ATextOrientationIdentificationBasedonSemanticComprehensionXULin-hong,LINHong-fei,YANGZhi-hao(Dep.ofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian

3、,Liaoning116024,China)Abstract:Atthefieldsofspamfiltering,informationsecurityandautomaticsummarizations,textorientationidentificationisusedwidely.ThepaperpresentsthemechanismbasedonSemanticComprehensionfortextorientationidentification.Firstly,itacquiresthesemanticorientationthroughcomputi

4、ngsemanticsimilaritythevocabularyandtaggedvocabularyinHow-Net,anditadoptsthederogatoryorcommendatorytermsasfeaturesofclassification.ItutilizesSupportVectorMachineclassifiertoidentifythetextorientation.Finallyitdealswiththenegativesentenceviamatchingnegativerules.Atthesametime,italsoidenti

5、fiesthederogatoryorcommendatoryintensitythroughdegreeadverbinordertoimprovetheaccuracyofclassification.Keywords:computerapplication;Chineseinformationprocessing;orientationidentification;HowNet;semanticsimilarity;negativesentence;degreeadverb摘提取中,可将褒贬义词汇密集的句子和段落摘出,1引言更好的反映原文的中心思想。自从上世纪90年

6、代以来,词汇倾向性的研究在随着互联网的普及,越来越多的人们从网络获国外得到了普遍的关注,并迅速发展起来。取知识和发布信息,对这些信息的有效处理和过滤Hatzivassiloglou和McKeown在1997年首先开始已成为一个重要的研究课题。文本倾向性识别可以了词汇倾向性的研究。他们主要是针对形容词作倾鉴别用户对某产品、事件和政策等持褒义还是贬义向性分析,利用词汇之间的连词(and,or,but,的观点。目前,倾向性识别广泛地应用在许多研究either-or,和neither-nor等)训练生成词汇间的同领域,具有极大的实用价值。在企业中,产品评论的义或反义倾向的连接图,

7、然后用聚类的方法将词汇褒贬性评估,可以为管理者提供准确而有效的决策聚成褒义和贬义两类。精确率最低的一组实验也达[1]信息。在垃圾过滤和信息安全方面,将强烈支持不到78.08%。良观点的信息过滤掉。在其他研究领域,如自动文2003年TurneyandLittman采用计算基准词收稿日期:2006-07-13定稿日期:2006-10-08基金项目:国家自然科学基金资助项目(60373095,60673039)作者简介:徐琳宏(1979—),女,硕士生,研究方向为文本分类和文本倾向性识别。1期徐琳宏等:基于语义理解的文本倾向性识别机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。