特征选择及其在文本信息处理中的应用

特征选择及其在文本信息处理中的应用

ID:32738350

大小:4.37 MB

页数:72页

时间:2019-02-15

特征选择及其在文本信息处理中的应用_第1页
特征选择及其在文本信息处理中的应用_第2页
特征选择及其在文本信息处理中的应用_第3页
特征选择及其在文本信息处理中的应用_第4页
特征选择及其在文本信息处理中的应用_第5页
资源描述:

《特征选择及其在文本信息处理中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要特征选择通常作势爨缎学习麓一个颈筵理搽作,它籍在从簸鲶散磊戆特征窆漏中选择一个最饶的特征子集,使得在原始特征空间上的操作可以很好地在该特征子集空间上的操作来表示。特钮E选择预楚毽过程可以获得一个精简丽高效的特征子集,籍此简化模式瀚表示和分类器的模型;同时较少舱特征数量霹以减轻嚣训练数据过少所弓l起舱过度拟会趣题(Over-fitting)。尽管特征选择很早就褥到了广泛的研究,但是特征选择理论和方法仍然面临高维数据的挑战(如文本分类等矮域包含高达数万维特,疰的数据),存在着效率上帮性麓上斡缺陷。为了获褥最优特征子集,大部分

2、的特征选择方法需要对特征子集进行完全搜索,并计算在给定的评价标准下特征子集的熬袭嚣,医戴搜索过程帮评蛰过程嚣要耗费大量熬计算辩闼,以嚣前翦计算蘸力在数万维特征空间进行完全特征子集搜索是不可行的。根据国内外最新研究状况以及不断涌现出来的具有赢维特征空翔新领域魏趋势,为了藤决文本信怠懿理中朗特征选择及其应用闯蹶,主要在以下凡个方丽等进行了摆关的研究。首先,从优化分类器模型韵基本假设的角度出发,文本分类的概率统计模烈通常假设特征之间是独立戆,比如信息检索中棠罔舱李}素贝l垮斯分类,爨时靳分类由于篱单、高效豁特性,应溺菲常普遍,常常

3、作为基准算法与其他分类方法相比较。然而,在大规模的文本中,由于把词条作为特征,字谲之阕篦较密揍翁语义关联导致了特征之阕存在~定瓣蔽赖关系,这在一定程度上违反了贝时耨假设,分类精确度受到影响。因此通过利用Chi2检验方法来度量特征的独立性和依赖性,以寻找最大纯满足基本镁设瓣特征予集为秘标,提取箨些与类最糯关、糯互依赖度最小豹特征子集,获得类别域上的最佳特征子集,从根本上改善分类爨的基本假设。其次,通过分祈特征之间存在着依赖关系,根据特征相关性理论将特征划分为四种类别:强相关、弱糖关、无关黧冗余特征,强摆关特征嚣部分弱楱芙特征是

4、特,薤选择的娶檬所在,嚣无关特摄、冗余特征以及部分弱相关特征是要剔除的。通过Chi2检验统计方法,建立了MarkOVBlanket理论和蒋薤挺关性之阕麓联系,理论上证骥了强柱关特征不存在MarkovBlanket。提凌了一辩基予蓠彝选择的近似MarkOVBlanket的特{芷选择算法,算法首先从构建一个包含强相关特征的目标特,馑子集开始,依次寻我蒸毽将铥是否在器标特铽予集中存在MarkovBlanket并剔除冗余特征,程寻找MarkovBlanket时,本文采用了启发式的近似方法,获得近似最优的特征予集。再次,对于大部分特征

5、选择方法蘩对特征迸行离散化暖后才能处理连续型数值特征的问题,提出“罗基予特征撼取送行特征选择的方法,对线性刿别分轿(LDA)方法箍搬特定的限截,将特征选择问题转换为LDA的优化问题。与LDA相同的是,提出的方法寻找~个具有最大化类间判别能力的祷镊子集,其计算复杂度璧线毪并且容易诗算帮理解;与LDA不藤翡是,本文方法不转换豉组合特征,也不需要计算散布矩阵的特征向量来获得最优判别向量,因此不要求散布矩阵的非奇异性质。最篮,www客户藕的缓冲反映了尉户瀚最近兴趣,黠WebCache的缓冲撬涮进行分析并对Web链搂结构做出分析假设,

6、充分利用Web更面的链接信息,将WWW客户端缓冲页面建模为豳模穗,同时对文本信息进行特征选择,提出了基于潮链接的兴趣链接聚类算法,获得阁户兴趣聚类。出于旦前的耀户兴趣刹像袭示方法无法实现搜索的查谗扩展,因此本文提出一种新熬瘸户兴趣副像特征表示一一关联规则组合的方法,关联规则考虑了词祭和词条间的语义关联关系,而关联组合克服了关联溉剃申麓无瘸趣掰,可以有效艟被剃耀来避行查巍扩餍,最后提感一个基于查谗扩展的个性化搜索系统搬架。关键词:文本分类、文本聚类、特征选择、特征赫取AbstractFeatureselectionisusua

7、llyasapre-processprocureofinducfionlearningalgorithm,whichselectalloptimalfeaturesubsetfromfeaturespaceoforiginaldata.Operationsintheoriginalfeaturesetcouldbesubsetcanbesubstitutedbyoperationsintheselectedsubset.Areducedandhighefficientfeaturesubsetthroughbyfeature

8、selectionmaysimplifytherepresentationofpatternsandmodelofclassifiers.Meanwhile,fewerfeaturesalsoavoiddeteriorationofover-fittingproblemowningtola

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。