前缀字母为特征在维吾尔语文本情感分类中的研究

前缀字母为特征在维吾尔语文本情感分类中的研究

ID:21972645

大小:52.00 KB

页数:10页

时间:2018-10-26

前缀字母为特征在维吾尔语文本情感分类中的研究_第1页
前缀字母为特征在维吾尔语文本情感分类中的研究_第2页
前缀字母为特征在维吾尔语文本情感分类中的研究_第3页
前缀字母为特征在维吾尔语文本情感分类中的研究_第4页
前缀字母为特征在维吾尔语文本情感分类中的研究_第5页
资源描述:

《前缀字母为特征在维吾尔语文本情感分类中的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、前缀字母为特征在维吾尔语文本情感分类中的研究摘要在构词法上,主要通过词根和词干上加上各种词缀而形成新的词语,属于黏着型语言。构词的词缀丰富,有名词词缀、动词词缀、形容词词缀、数词词缀等。词缀具有很强的专有性,其专有性在词缀上会有明显的表现,可用来做情感分类特征。本文提出了使用切词前缀的方式,研究了词缀在SVM-KNN分类器中的表现。关键词情感分类词缀SVM-KNN机器学习中图分类号:TP18文献标识码:ADOI:10.16400/j.cnki.kjdkz.2016.09.063AStudyontheCharacteristicsofPrefixLette

2、rinUyghurLanguageTextSentimentClassificationGAOYang[l],RANXingping[l],MuhtarErkinP]([1]DepartmentofComputerEngineering,ChangjiUniversity,Changji,Xinjiang831100;[2]CollegeofSoftware,UrumqiVocationalUniversity,Urumqi,Xinjiang830008)AbstractInwordformation,mainlythroughrootsandstems

3、withavarietyofaffixesandtheformationofnewwords,whichbelongstoagglutinativelanguage.Wordformationaffixesarerich,nounaffixes,verbaffixes,adjectiveaffixandaffixnumerals.Affixhasastrongspecificity,itsspecificityintheaffixwillhaveasignificantperformance,canbeusedtodothecharacteristics

4、ofemotionalclassification.Thispaperproposestousetheprefixsegmentationway,studiedtheaffixtoSVM-KNNclassifierperformance.Keywordssentimentclassification;affix;SVM-KNN;machinelearning1引言1.1文本情感分类研宄的现状文本情感分类,也称为意见挖掘,主要实现的是对带有强烈情感倾向的文本进行分类。在研宄对象容量大小差别,出现了基于词语、句子、篇章等级别的情感分类研宄;在研宄方法上,出现

5、了基于资源的和基于统计的情感分类研究。近些年来,对文本情感分类领域的研宄,主要的研究内容集中在以下几个方面:文本的情感极性分类、文本的主观性分析、词语的语义倾向性识别、观点提取等。具体的研宄工作分布在以下几个领域:词的极性分类、主客观分类、基于机器学习的文本情感分类方法、基于情感词标注的文本情感分类。1.2基于机器学习的文本情感分类方法下面将近年来国内外这方面的研究做简要的陈述。Pang等人最早使用基于统计的机器学习方法来研宄文本情感分类问题,使用SVM、最大熵、朴素贝叶斯等分类器,同时以不同的特征选择、特征降维方法对internet上的影评文本进行情感

6、分类研宄。Pang等人还实现了另外一项工作,构造了一个基于minimum-cut的分类器,从而把文本的极性分类问题转化成求取句子连接图的最小分割问题。Lin等人把分类问题的方法用于观点识别问题,通过基于统计的机器学习的分类算法解析词的用法获取文本的观点。Bruce、Wiebe等人使用Bayes对句子进行主客观分类。Whitelaw等人提取文本中带有形容词的词组和词组的修饰语作为特征,用向量空间文档表示,然后以SVM分类器进行分类,从而区分文档的褒贬情感倾向。在句子级别的文本情感分类领域,Yi等人以模式匹配的算法进行了深入的研究。Goldberg和Zhu提

7、出了一种新的基于图的半监督算法来解决电影评论的等级推定问题,与以前的多分类模型相比,性能大幅提高。Mei等人提出了一个新的Topic-SentimentMixture(TSM)概率模型,该模型能同时获得文本的情感信息和主题信息,在没有任何先验领域知识的情况下,也可以发现一个Weblog数据集所蕴含的潜在主题。Ni等人以信息增益(InformationGain)和卡方作为特征选择的方法,用NaveBayes、SVM和Rocchio,s算法对原来的情感文本作为二分类问题研宄。2基于句子级别的情感分类句子级别的情感分类,是指鉴别情感句的情感倾向后对其进行归类,

8、也可以说是一种特殊的情感文本分类。文本情感分类根据其所研究的载体的粒度可分为三类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。