文本情感分类预处理研究

文本情感分类预处理研究

ID:21452725

大小:60.50 KB

页数:6页

时间:2018-10-22

文本情感分类预处理研究 _第1页
文本情感分类预处理研究 _第2页
文本情感分类预处理研究 _第3页
文本情感分类预处理研究 _第4页
文本情感分类预处理研究 _第5页
资源描述:

《文本情感分类预处理研究 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文本情感分类预处理研究【关键词】情感分类预处理特征词情感词典一般的文本采集方法会使得最终得到的文本集合中含有大量的噪音,在这些噪音的影响下,进行文本情感分析会受到干扰,得到的结果准确性也会降低。因此在进行情感分析之前必须要对文本数据集进行一系列预处理工作。1文本分词、去停用词中文分词(ChineseARGIN:0cm0cm0pt;mso-layout-grid-align:none"class=MsoNormalalign=left>是指将完整的句子拆分成单个词语。现阶段常用的中文分词算法主要有三种:统计方法,

2、词典方法和规则方法。中文分词采用一般采用中科院中文分词系统(ICTCLAS)进行,可以实现中文分词、词性标注和命名实体识别,该系统对分词具有较好的效果。举例来说:原句:中央电视台主持人、了不起的挑战节目艺人撒贝宁在上海拍摄节目。以上句子用ICTCLAS分词后:中央电视台/n主持人/n、了不起的挑战/n节目/n艺人/n撒贝宁/n在/p上海/n拍摄/v节目/n。/0cm0pt;mso-layout-grid-align:none"class=MsoNormalalign=left>从__________上述分词实例

3、可以看出,ICTCLAS在分词时整体效果较为优秀,能够将名词动词等都正确分出。停用词指在中文文本中出现的语气助词、指代词、介词、感叹词、数量词、副词、连词等对文本分类没有直接影响的词语。这些停用词在中文文本中出现的频率非常高,使得对文本的特征选取方面出现一定程度的偏差。那么如何将停用词去除便成了文本分类的一个先决条件,去停用词的过程是:建立一文/郭璇文本是情感表达的重要方式,在挖掘文本包含的情感之前必须要进行预处理。本文对预处理的过程进行综述,包括文本分词、去停用词、特征选择、特征项加权、生成VSM模型、情感词

4、典建立等步骤。摘要个停用词词典,分词后,将每个词语放进停用词词典进行比对,如果相同则去除当前词语。需要我们注意的是,停用词的词典构建过程不可能一次完成,需要在平时的研究过程中不断积累和添加。如果能将文本集合中的词频做出统计,即可发现,词频数最大的几个词语通常是我们文本分类中无意义的停用词。2特征选择常用的文本特征选择基本思想:针对每一个特征词,计算出一个统计时使用的度量值,设定一个阈值,将计算出的统计度量值的结果与阈值做出比较,小于阈值的所有特征都去除,最后剩下的就是有效特征。具体方法有以下三种:文档频率(DF

5、):文档频率指某一个具体的特征词在其他文档中出现的次数。其主要思想是:对包含指定特征的文档在训练集中出现的频率进行统计,并预设一个相应的阈值。将特征项的DF值与设定好的阈值进行比较,若DF值小于阈值,则将此特征值删去,这样可以使得特征的选取更加具有代表性。信息增益(IG):信息增益主要凭借信息熵来衡量特征项对分类提供了多少信息。在进行特征选取时,根据该项特征存在与否时分别判断当前分类模型中的信息量大小,若该特征项存在时,分类模型提供较大的信息量,则将此特征项提取出来。互信息(MI):互信息主要是检测两个随机事件

6、之间的关联性。在特征选择这个关键步骤中,若类别与特征项这两者之间表现出的关联度越大,即互信息越大,则表示该特征值最能代表此类别。3特征项加权将每一篇训练文本集合在特征空间中的向量进行扫描和统计,采用TF--IDF的方法计算出向量中每一维的权重。TF-IDF权重,代表将词语频率和文本频率两种数据信息结合,进行利用表示将TF和IDF两种计算权重的方式进行组合并综合运用,其计算公式为:(1)式中TF代表排序为k的特征词出现在第i篇文本中的次数,N代表着当前训练集中的文本总数目,nk代表着包含排序为k的特征词的文本数目

7、,β为一个经验值,一般取0.01、0.1或者1。4文本生成VSM模型目前文本表示通常采用G.Salton等人提出的向量空间模型(VectorSpaceModel,VSM)。给定一个文本D(t1,0cm0pt;mso-layout-grid-align:none"class=MsoNormalalign=left>;tn,),D满足以下约定:(1)各个特征项tk(1≤k≤n)互异;(2)各个特征项tk没有顺序关系。采用向量空间模型的方式来表示文本,其主要的流程如下:(1)首先将样本数据集中的训练集表示成特征项序列

8、D={t1,t2,…,td},便于文本表示;(2)根据机器学习的算法所需要的文本表示形式,并基于第一步中排列出的文本的特征项序列,把包含在样本集中选择出的训练集和测试集中的所有文本分别进行特征赋值和规约化等操作,最终生成计算机能够识别的向量空间模型。5情感词典建立对文本的情感进行分类,必须要在分类器上对情感信息进行训练,这就需要建立一个情感词典来提供给机器学习。文本中包含的情感信息通常

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。