基于中文多标签分类特征选择探究

基于中文多标签分类特征选择探究

ID:6073815

大小:32.50 KB

页数:10页

时间:2018-01-02

基于中文多标签分类特征选择探究_第1页
基于中文多标签分类特征选择探究_第2页
基于中文多标签分类特征选择探究_第3页
基于中文多标签分类特征选择探究_第4页
基于中文多标签分类特征选择探究_第5页
资源描述:

《基于中文多标签分类特征选择探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于中文多标签分类特征选择探究  【摘要】在中文多标签文本分类中,面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。文本提出的特征选择方法相比于现有最常用的特征选择算法,更注重删除稀疏特征、保留更有区分度、有利于分类的特征。【关键词】特征选择;多标签分类;中文信息处理AStudyofFeatureSelectionforMulti-LabelTextClassificationZhouHaoLiXiangLiuGong-shen(SchoolofInformationSecurityEngineerin

2、g,ShanghaiJiaoTongUniversityShanghai200240)【Abstract】IntheChinesetextclassificationarea,themainproblemsarehowtolowthefeaturedimensionofthetext,andhowtomaintaintheaccuracyevenimprovetheprecision.ThispaperhasputforwardamethodfeaturedastheSingle-Labelclassificationresultwei

3、ghting,adaptivethresholdadjustment,relatedinformationnoting.【Keywords】multi-labelclassification;featureselcetion;adaptiveregressionrelatedinformation10noting1引言如今,寻找一种有效的特征选择方法,降低特征空间维数,提高分类精度和效率,是文本分类需要面对的重要问题。目前常用特征选择方法主要有文档频数DF、互信息MI、信息增益IG和CHI方法,期望交叉熵,文本证据权,优势率,基于词频覆

4、盖度等。这些方法的基本思想都是对每一个特征在这里是中文词,计算某种统计度量值,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即认为是有效特征。在文本分类中,特征在文档类中出现的频率越不均匀,即特征分布得越离散,往往特征对类别判定越重要,利用这一性质可以考查特征在分类中的重要程度。离散度通常可以用标准差或方差来计算,本文使用特征在文档类中的概率标准差对特征重要性进行定量描述,此特征概率标准差将作为特征的基本权重参与文本分类。2特征选择的工作基础2.1信息过滤过滤无用信息指的是去除文本中的一些无意义的文字内容及缺省符号,将有意义

5、的文本内容提取出来,以回车符作分隔符进行分隔。2.2汉语文本自动分词10文本的特征表示是文本分类面临的首要问题。2.3汉文粗降维粗降维指的是训练文本经分词后首先经过去掉停用词的处理,即为去掉一些没有实际分类意义的高频词、稀有词。本文中采用了建立停用词表,通过词表法去掉高频词和稀有词。2.4特征选择考虑一个特征(词条)对某类别的重要性时,该特征在该类中出现与不出现不应同等对待,该词条出现比不出现要重要。在正特征中,应该选择只在该类出现或者只在少数几个类别中出现的特征。具有强类别信息的特征应该不是高频词条。3特征选择方法3.1强类别纹理挖掘

6、算法强类别纹理指的是文本中的某些特征强烈代表了其属于某一类别,其覆盖了某各类中尽量多的文档数目;强类别纹理具有最强的区分类的能力。强类别纹理选择过程。(1)去掉泛滥纹理:对于每个类号,观察C-W链表中的每个W,如果W出现在每个类号中,则去掉这个W。(2)标记强纹理:对于C-W链中的每个W,如果出现在主类别的概率大于次类别概率Ω%,则标记为强纹理。(3)特征迭代。101)结束条件:对于每个类,被标记的强特征和所有D-W链的交集非空,则算法结束。2)去掉任意X篇奇异文档:如果D-W链表与所在类的C-W交集为空,说明该文档无分类代表性,去除该

7、文档。满足结束条件,则算法结束。在数据库中增加列:交际是否为空、是否被当作奇异文档或者增加了强特征。选择奇异文档或增加强特征的顺序:概念的权重、doccount、classcount等。3)根据任意Y篇文档增加强特征:从D-W和C-W交集为空的文档中提取新特征并加入到C-W中,同时标记为强类别纹理。满足结束条件,则算法结束。迭代结束时,给出去掉的奇异文档比例。最终得到的记为各个分类的强类别特征纹理。3.2改进的特征选择和加权方法采取文本特征选择的目的是除去那些不能表示信息或只可表示信息较弱的特征,以提高分类准确度和减少计算复杂度。特征簇

8、是特征集的一个子集,其对某一个类具有代表性。对某个类C具有代表性的特征簇称为类C的特征簇。类C的特征簇用符号SofC(C)表示。令T为经过特征选择后剩余的特征集合,则各个特征簇和T的关系为:T=10SofC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。