审计1201曹洪数据挖掘中特征提取的分析与应用

审计1201曹洪数据挖掘中特征提取的分析与应用

ID:24625303

大小:76.50 KB

页数:4页

时间:2018-11-15

审计1201曹洪数据挖掘中特征提取的分析与应用_第1页
审计1201曹洪数据挖掘中特征提取的分析与应用_第2页
审计1201曹洪数据挖掘中特征提取的分析与应用_第3页
审计1201曹洪数据挖掘中特征提取的分析与应用_第4页
资源描述:

《审计1201曹洪数据挖掘中特征提取的分析与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘中特征提取与的应用和分析在这次的课题的讨论中,我想先介绍了解一下特征提収的定义和说明,然后继续引出的是一个web行为特征的分析与研究。特征提取:特征提取是模式识别屮的一个重要过程,如今,也在数据挖掘领域也有着广泛的应用。对于高维数据的数据挖掘,特征提取可以行效地对数据进行降维处理,从而降低算法的运算规模。相对于主成分分析,粗糙集等数据降维方法,特征提収更加系统化,也更加依赖与闷题的具体应用领域,提岀针对性的特征提取模型,得到的结果也更加具有参考价值。将支持向量机应用于特征提取中,可以结合两者的L<:处,优化特征提取的过程,是对特征提取方法的一种探索。特征提取是模式识别屮

2、的一个重要过程,也常常用于数据挖掘屮的数据处理过程屮。特征提取通常用于特征空间维数过高的数据,通过特征提取以降低特征空间的维数。特征提取的研宂始于20世纪60年代,进入20世纪90年代以来,随着大规模,高维度复杂数据的大量出现,特征提取的研究进入了一个新的阶段。目前主要的特征提取算法包括最优化方法,启发式算法以及随机搜索方法等。其屮,最优化方法也称暴力搜索算法,采用穷尽的方式寻找全局最优解。启发式算法包括序列前进算法以及序列后返算法。序列前进算法的主要思路是从一个空集或者包含一个或两个特征的属性集合开始,依据评价标准从特征候选集屮选择一个分类能力最强的特征加入该初始属性集,直到

3、满足预先设定的停止条件。序列后退算法与序列前进算法相反,其初始特征集合即为特征候选集,然后依据评价标准从中删除一个分类能力最弱的特征,直到满足预先设定的停止条件圆。木文屮即采用序列前进算法。随机搜索算法通常采用概率或者抽样处理的方法,遗传算法是其典型代表。特征提取中的子集评价方法也是特征提取的一个重要研宂方面。目前常用的评价方法有基于距离的方法,基于信息的方法以及基于独立性的方法等。其中,基于距离的方法主要采用欧氏距离,马氏距离以及巴氏距离等,基于信息的方法主要应用信息学屮信息熵的方法,而基于独立性的方法则主要通过验证两个特征之间的相关程度来实现。特征选取是一项复杂的复合性工作

4、,同时又与实际问题具有很高的相关性。特征选择的任务是从一组数量为M的特征巾选择出数量为N(N

5、术对于特征子集的选取标准是与采用的学习算法相关,以学习得到的分类器性能作为对特征子集的评价标准。学习算法往往需要在程序中反复执行,必然其时间复杂度会有所增加,但是得到的最优特征子集在特定的学习算法上有较优的性能。这里我要往web挖掘方面的特征分析和应用探讨一下。1.Web挖掘的概念web挖掘是对web文档的内容、web上可利用资源的使用情况以及资源之间的关系进行分析,从中发现有效的、新颖的、潜在有用的、并且最终可理解的模式。web挖掘的概念范围目前尚未明确定义,目前一种比较流行的分类方法是根据web挖掘的数据对象将web挖掘分为三类:web内容挖掘、web结构挖掘和web日志挖

6、掘,同时web挖掘分为四个子任务:1.资源搜索,检索所需要的web文档或web资源。2.信息选择和预处理,从搜索到的web资源中A动选择特定的信息,并对其进行预处理。3.模式发现,自动发现一个或多个站点的模式。4.模式分析,对于发现的规则进行有效性验证或解释。2.web挖掘的分类比较web内容挖掘是从文档的内容或描述屮抽取知识,目的是联机自动搜索---上的信息资源;web结构挖掘是从站点的页面结构推导出知识;web日志挖掘是从web服务器上的曰志中分析web站点的使用情况,发现用户的访问模式。在web挖掘过程中,有时为了提高web挖掘结果的兴趣性,将web贞ifif内界、web

7、站点绍构以及web日志这三类数据融合在一起进行模式的挖掘。对webP、j容挖抱!、web结构挖掘和web日忠挖中的数1R特征、表现形式、挖掘方法以及应用领域等方而进行了比较。3.web内界挖掘web内容挖掘是从web文档的内容或其描述中提取知识的过程。web内容挖掘可以协助用户搜索信息或者根据用户的配置文件为用户过滤无用的信息。基于web文档的文本挖掘是web内容挖掘的主要研究内容,这里把基于web的多媒体数裾挖掘也归为webP、j容挖掘。在文本挖掘屮,通常利用句:W:来表示文档,有很多方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。