?文章提出"> ?文章提出" />
欢迎来到天天文库
浏览记录
ID:33503693
大小:1.20 MB
页数:5页
时间:2019-02-26
《基于支持向量机与主成分相结合的网页分类器》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第!"卷第!期浙江万里学院学报#$%&!"’$&*!""(年)月EFGHFIJK%L@8#9’8#H@M#@N%&O@$P*+,-.!""(+,-./0123456789:"5;<陆新根&浙江万里学院"宁波,!/!AA$=>?文章提出了一个新的新闻网页分类方法&’BC6$"采用主成分&BC<$和熵值相结合的特征选取支持向量机&;D6$的分类方法)首先把网页用特征项权重予以表示"使用主成分方法抽取最相关的一些特征"然后从每一类中选择在该类具有代表性的词并计算这些词的熵"把两种方法提取的特征合并之后作为支持向量机分
2、类器的输入"实验结果显示"该网页分类方法在体育类新闻中取得了良好的效果)@AB?支持向量机’文本分类’主成分分析’特片熵CD5;E?5B!2!FGHIJ?3、快检索速度"提高查询精度"因而受到了人们的广泛关注)*网页文本分类方法文本分类是一个特定的模式识别问题"在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果)如果说文本分类曾一度被看作信息检索问题"现在文本分类正越来越被作为模式识别的一个特例+!*,-+.-进行研究)大量经典的模式识别学习算法己经被应用于文本分类中"如"近邻分类法"贝叶斯决策法"决+/-+01-+2-策树"神经网络"支持向量机等)我们比较几种算法的准确性"以支持向量机为基础"进行了改进和扩展"建立了基于主成分3熵3支持向量机的分类方法#如4、图!$),网页处理我们知道""#$%%$上的大部分网页是4567文档"首先要做的是利用网页信息抽取网页的内容"例如"4567中的589"去除禁用词%词根还原等)再去掉与文本挖掘无关的内容"然后转换成统一格式"然后将5:5文件存放在文件夹中以备后续处理)本文主要采用;<;=5%>$?@#%&模块进行停词和分词处理&如图*$"经过停词和分词处理之后"把每个页面表示成词频率矩阵&!"#$!%&$’$"如表!所示!!"#$%&’()*DocjTF1TF2TFmDoc1245Doc2232Doc3231Docn137(")5、$是数据集中每一个页面"*+$’是单词,’文档(")$中出现的次数"这里’-.()/"对于每个词,’的+S-权重0$’计算权重"我们采用&5Q3"RQ$O8$HF#方法!"浙江万里学院学报!""#年$月(+%&"-$%&!*./&*./&H94@$%$’%./&(是数据集中文档数"./是整个数据库中含有0&的频率.!561678.’/01234.%特征提取本文采用了主成分和特征熵相结合的特征提取方法&!"#!"#$%&’(()特征抽取又被称为特征重构&由于自然语言中存在大量的多义词!同义词现象"特征集无法生成一个6、最优的特征空间对文本内容进行描述&特征抽取是将原始特征空间进行变换"重新生成一个维数更小!各维之间更独立的特征空间&常用的特征抽取方法可以分为三类#主成分分析!潜在语义标引和非负矩阵分解&本文主要采用主成分特征抽取&用主成分分析法的构建新指标的主要步骤&设#原始数据矩阵为!"$#$%&%’!("为了消除各项指标由于量纲单位不同或正负不同所带来的不可公度性"应将各项指标进行标准化处理&对于标准化之后的数据矩阵"主分析分析步骤如下#$’%计算相关矩阵)&$!%计算相关矩阵)的特征值和方差贡献率&)的特征值!’(!!(!$7、(!)"即第*成分的方差贡献率为lid=ipålkk=1$$%确定主成分数#选取前)个特征值大于’的主成分")为所选取主成分数&$%%为了方便解释每个主成分"将因子荷载矩阵实行方差最大旋转"以简化因子模型结构&!"$!"*+,%%-文本分类中"用于特征选择的统计量大致有#特征频度*+$*,-)+-,./,012%&文档频度3+$341/),05$!%,+-,./,012%"特征熵$*,-)605-472%"互信息$8/95:;0<4-)=5:40%"信息增益$;0<4-)=5:40>=:0%"+统计量"特征权$*,-8、)?5-,0@5A%"期望交叉熵$6B7,15,CD-4EE605-472%等&这些统计量从不同的角度度量特征对分类所起F’"G的作用&对这四种不同的方法进行了效果比较&结果表明四种特征选择方法对分类的结果几乎一样"所以全第!期陆新根!基于支持向量机与主成分相结合的网页分类器!"文采用了特征熵特征选择方法!在信息论中!熵是对不确定性的一种度量!
3、快检索速度"提高查询精度"因而受到了人们的广泛关注)*网页文本分类方法文本分类是一个特定的模式识别问题"在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果)如果说文本分类曾一度被看作信息检索问题"现在文本分类正越来越被作为模式识别的一个特例+!*,-+.-进行研究)大量经典的模式识别学习算法己经被应用于文本分类中"如"近邻分类法"贝叶斯决策法"决+/-+01-+2-策树"神经网络"支持向量机等)我们比较几种算法的准确性"以支持向量机为基础"进行了改进和扩展"建立了基于主成分3熵3支持向量机的分类方法#如
4、图!$),网页处理我们知道""#$%%$上的大部分网页是4567文档"首先要做的是利用网页信息抽取网页的内容"例如"4567中的589"去除禁用词%词根还原等)再去掉与文本挖掘无关的内容"然后转换成统一格式"然后将5:5文件存放在文件夹中以备后续处理)本文主要采用;<;=5%>$?@#%&模块进行停词和分词处理&如图*$"经过停词和分词处理之后"把每个页面表示成词频率矩阵&!"#$!%&$’$"如表!所示!!"#$%&’()*DocjTF1TF2TFmDoc1245Doc2232Doc3231Docn137(")
5、$是数据集中每一个页面"*+$’是单词,’文档(")$中出现的次数"这里’-.()/"对于每个词,’的+S-权重0$’计算权重"我们采用&5Q3"RQ$O8$HF#方法!"浙江万里学院学报!""#年$月(+%&"-$%&!*./&*./&H94@$%$’%./&(是数据集中文档数"./是整个数据库中含有0&的频率.!561678.’/01234.%特征提取本文采用了主成分和特征熵相结合的特征提取方法&!"#!"#$%&’(()特征抽取又被称为特征重构&由于自然语言中存在大量的多义词!同义词现象"特征集无法生成一个
6、最优的特征空间对文本内容进行描述&特征抽取是将原始特征空间进行变换"重新生成一个维数更小!各维之间更独立的特征空间&常用的特征抽取方法可以分为三类#主成分分析!潜在语义标引和非负矩阵分解&本文主要采用主成分特征抽取&用主成分分析法的构建新指标的主要步骤&设#原始数据矩阵为!"$#$%&%’!("为了消除各项指标由于量纲单位不同或正负不同所带来的不可公度性"应将各项指标进行标准化处理&对于标准化之后的数据矩阵"主分析分析步骤如下#$’%计算相关矩阵)&$!%计算相关矩阵)的特征值和方差贡献率&)的特征值!’(!!(!$
7、(!)"即第*成分的方差贡献率为lid=ipålkk=1$$%确定主成分数#选取前)个特征值大于’的主成分")为所选取主成分数&$%%为了方便解释每个主成分"将因子荷载矩阵实行方差最大旋转"以简化因子模型结构&!"$!"*+,%%-文本分类中"用于特征选择的统计量大致有#特征频度*+$*,-)+-,./,012%&文档频度3+$341/),05$!%,+-,./,012%"特征熵$*,-)605-472%"互信息$8/95:;0<4-)=5:40%"信息增益$;0<4-)=5:40>=:0%"+统计量"特征权$*,-
8、)?5-,0@5A%"期望交叉熵$6B7,15,CD-4EE605-472%等&这些统计量从不同的角度度量特征对分类所起F’"G的作用&对这四种不同的方法进行了效果比较&结果表明四种特征选择方法对分类的结果几乎一样"所以全第!期陆新根!基于支持向量机与主成分相结合的网页分类器!"文采用了特征熵特征选择方法!在信息论中!熵是对不确定性的一种度量!
此文档下载收益归作者所有