web文本挖掘中特征提取算法的分析及改进

web文本挖掘中特征提取算法的分析及改进

ID:4122233

大小:178.72 KB

页数:4页

时间:2017-11-29

web文本挖掘中特征提取算法的分析及改进_第1页
web文本挖掘中特征提取算法的分析及改进_第2页
web文本挖掘中特征提取算法的分析及改进_第3页
web文本挖掘中特征提取算法的分析及改进_第4页
资源描述:

《web文本挖掘中特征提取算法的分析及改进》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第32卷增刊福州大学学报(自然科学版)Vol.32Supp.2004年12月JournalofFuzhouUniversity(NaturalScience)Dec.2004文章编号:1000-2243(2004)增刊-0063-04Web文本挖掘中特征提取算法的分析及改进张脂平,林世平(福州大学数学与计算机科学学院,福建福州 350002)摘要:介绍Web文本挖掘的定义,描述几种特征提取方法及特点,并在主成分分析的基础上提出了SVD方法,进一步提高了Web文本的处理效率,为文本的分类、聚类以及其它处理提供了简练的特征表示方法.实验证明,该处理方法有效降低了文本特征矢量的维数.关键词:W

2、eb文本挖掘;特征提取;主成分分析;SVD中图分类号:TP393文献标识码:AAnalyseandimprovementforfeatureextractingfromWebtextminingZHANGZhi-ping,LINShi-ping(CollegeofMathematicsandComputerScience,FuzhouUniversity,Fuzhou,Fujian350002,China)Abstract:IntroducedthedefinitionrelatedtoWebtextmining,describedseveralfeatureextractionmeth

3、od,anddeducedtheSVDmethodbasedonprincipalcomponentanalysis,whichimprovedtheeffi2ciencyofdealingwithtext,gavemuchbetterwaytoclassify,clusterandotherprocessing.Theexperim2entsshowthemethodwellactiveinfeaturedimensionreduction.Keywords:Webtextmining;featureextraction;principalcomponentanalysis;SVD随着

4、Internet及其相关技术的快速发展,WWW已经成为最大的信息积聚地.在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,迅速、有效地从这些海量数据源(主要是异质、非结构化数据集[1]合)中发现有用的知识或者模式已经成为信息服务领域中的重要问题.Web挖掘就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,发现有效的、新颖的、有潜在价值的、并且最终可理[2]解的模式和规则.本研究描述了文本挖掘中较有代表性的几种特征提取方法,分析了每种方法的特点并提出了改进方法.1 文本特征项提取在目前所采用的文档表示方法中,存在一个共同的不合人意的地方是文档特征向量具有惊人的维数,使特征子集

5、的选取成为Web文本挖掘过程中必不可少的一个环节.特征提取即进行维数压缩的工作,这样做的目的主要有:①提高程序效率和运行速度;②提高分类精度,快速筛选出针对该类的特征项集合.特征提取主要有两大类方法:独立评估方法和综合评估方法.前者的基本思想是对特征集中的每个特征进行独立的评估.通过构造一个算法,对每个特征进行权值调整,然后按权值大小排序,根据权阀值或预定的特征数目选取最佳特征子集作为特征提取的结果;后者则是从高维的、彼此间不独立的原始特征集中找出较少的描述这些特征的综合指标.这些综合指标之间相互独立,并且可用得到的综合指标对特征集进行选择.收稿日期:2004-10-15作者简介:张脂平

6、(1980-),女,硕士研究生.基金项目:福建省自然科学基金资助项目(A0110009);福建省教育厅科研基金项目(JB03026);福州大学科技发展基金资助项目(2002-XQ-21)·64·福州大学学报(自然科学版)第32卷1.1 独立评估方法[3]基于词间关系相互独立的基本假设(正交假设),对特征进行权值调整有多种标准:互信息、期望[4][5]交叉熵、信息增益等.1)词和类别的互信息量.初始情况下,该特征项集合包含所有该类中出现的词.对于每个词,计算词和类别的互信息量:P(WCj)∑jp(Cj)logP(W)D1+N(W,di)∑i=1其中:P(WCj)=VD;P(WCj)为W在C

7、j中出现的比重;D为该类V+N(Ws,di)∑s=1∑i=1VD的训练文本数;N(W,di)为词W在di中的词频,V为总词数;N(Ws,di)为该类所有∑s=1∑i=1词的词频和.而P(W)同上面的计算公式相同,只是计算词在所有训练文本中的比重,其中D为全体训练文本数.2)期望交叉熵:logP(CiW)CrossEntryTxt(W)=I(C,W)=I(W,C)=P(W)∑P(CiW)iP(Ci)P(Ci)其中:P(Ci)为类Ci的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。