数据挖掘中的特征选择

数据挖掘中的特征选择

ID:19901150

大小:372.50 KB

页数:40页

时间:2018-10-07

数据挖掘中的特征选择_第1页
数据挖掘中的特征选择_第2页
数据挖掘中的特征选择_第3页
数据挖掘中的特征选择_第4页
数据挖掘中的特征选择_第5页
资源描述:

《数据挖掘中的特征选择》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘中的数据归约问题*1数据挖掘中的特征选择为什么需要数据挖掘数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息数据爆炸但知识贫乏*2数据挖掘中的特征选择数据挖掘的作用数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术*3数据挖掘中的特征选择数据挖掘数据库越来越大有价值的知识海量的数据*4数据挖掘中的特征选

2、择数据挖掘的应用数据分析和决策支持市场分析和管理客户关系管理(CRM),市场占有量分析,交叉销售,目标市场风险分析和管理风险预测,客户保持,保险业的改良,质量控制,竞争分析欺骗检测和异常模式的监测(孤立点)其他的应用文本挖掘(新闻组,电子邮件,文档)和Web挖掘流数据挖掘DNA和生物数据分析*5数据挖掘中的特征选择数据挖掘:数据库中的知识挖掘(KDD)数据挖掘—知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估*6数据挖掘中的特征选择数据挖掘的步骤了解应用领域了解相

3、关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等*7数据挖掘中的特征选择选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识*8数据挖掘中的特征选择数据挖掘和商业智能支持商业决策的潜能不断增长最终用户商业分析家数据分析家DBA决策支持数据表示可视化技术数据挖掘信息发现数据探

4、索在线分析处理(OLAP),多维分析(MDA)统计分析,查询和报告数据仓库/数据市场数据源论文,文件,信息提供商,数据库系统,联机事务处理系统(OLTP)*9数据挖掘中的特征选择典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成*10数据挖掘中的特征选择数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化*11数据挖掘中的特征选择数据挖掘的分类预言(Predication):用历史预测未来描述(Description):了解数据

5、中潜在的规律*12数据挖掘中的特征选择数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(AssociationRule)回归(Regression)其他*13数据挖掘中的特征选择特征归约在数据挖掘中的作用因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成

6、千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(TheCurseofDimensionality)问题。*14数据挖掘中的特征选择特征选择和特征降维是两类特征归约方法。*15数据挖掘中的特征选择特征选择特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。*16数据挖掘中的特征选择特征选择的过程(M.DashandH

7、.Liu1997)*17数据挖掘中的特征选择特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random)3大类。*18数据挖掘中的特征选择完全搜索分为穷举搜索与非穷举搜索两类。(1)广度优先搜索(BFS)(2)分支限界搜索(BAB)(3)定向搜索(BS)(4)最优优先搜索(BestFirstSearch)*19数据挖掘中的特征选择启发式搜索(1)序列前向选择(SFS)(2)序列后

8、向选择(SBS)(3)双向搜索(BDS)(4)增L去R选择算法(LRS)(5)序列浮动选择(SequentialFloatingSelection)(6)决策树(DTM)*20数据挖掘中的特征选择随机算法(1)随机产生序列选择算法(RGSS)(2)模拟退火算法(SA)(3)遗传算法(GA)*21数据挖掘中的特征选择特征的评价函数特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。常用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。