欢迎来到天天文库
浏览记录
ID:34145146
大小:830.24 KB
页数:68页
时间:2019-03-04
《基于粗糙集的关联规则在高校人力资源管理中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第一章绪论第一章绪论1.1论文研究背景、目的和意义随着现代信息科学技术的发展,人们利用信息技术生产和搜集数据的能力大幅度提高,成千上万的数据库被用于商业管理、政府办公、科学研究和工程开发等,并且这一势头将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率?因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DataMiningandKnowledgeDiscovery
2、)[1]技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。目前,数据挖掘技术已被广泛应用于众多领域,发挥着特有的功效。银行业应用数据挖掘实现了信贷欺诈建模和预测、评估风险、分析资金走向;通过使用Clementine,IntergralSolutionsLimited开发了一个系统来预测BBC电视节目的收视率、收视时间及可能观众的特征;零售业则更多地利用数据挖掘来分析客户行为、判别客户特征,决定各类商品摆放位置,或更灵活、更有效地使用促销和优惠手段;制药公司通过挖掘大量对疾病产生重大影响的化学物质和基因数据库,
3、判断哪些物质可能对治疗某种疾病产生效果等等。数据挖掘技术的不断发展成熟,以及在各个领域中的成功运用,为其在人力资源管理中的应用提供了实现的可能与宝贵的借鉴经验。关联规则模式是数据挖掘知识模式中比较重要的一种,它既可以检验行业内长期形成的知识模式,又能发现隐藏的新规律。有效地发现、理解和运用关联规则,是完成数据挖掘任务的一个重要手段。然而,现在的关联规则挖掘方法存在着许多不足,例如算法效率低,产生了庞大的我们并不感兴趣的关联规则等。粗糙集理论是一种新的数据分析理论,能够支持知识获取的多个步骤,如数据预处理、数据约简、规
4、则生成和依赖关系获取等。它的主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来(近似)刻画。与其他处理不精确和不确定性问题理论的最显著区别是它无需提供问题所需处理的数据集合之外的任何先验信息。目前,粗糙集方法也已成为数据挖掘的主要方法之一。基于粗糙集的数据挖掘技术可以用来从大型数据库中挖掘出有用和用户感兴趣的知识,解决现代企业中数据多而有用信息少的问题。这种被挖掘出的规则是以判定规则的形式存在的,规则的生成是通过将数据库中的数据转换为二维表形式的知识表达系统,通过粗糙集的方法自动获取的。目前各高
5、校大都在人力资源管理方面积累了大量的数据资源,如何从现有的大量数据中发现潜在的关联和规则,以及根据现有的数据资源科学地预测成为未来的发展1第一章绪论趋势和方向。本文将基于粗糙集的数据挖掘应用到高校人力资源管理中来,以基于粗糙集的关联规则挖掘方法进行人力资源管理研究,从大量数据中提取出有用的规则,并将这些规则存入到知识库中来指导以后的决策。目的是以数据挖掘为基础,有效的识别人才、评价人才价值及其成长、改进人力资源管理、人才引进、人才培养和管理的政策等等,为高校管理者提供智力支持。1.2国内外研究现状1.2.1关联规则的
6、研究现状关联规则的概念由R.Agrawal等人于1993年在对市场购物篮(MarketBasket[2]Analysis)进行分析时首次提出,用来发现交易数据库中不同商品(项)之间的联系。这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,发现的规则可以指导商品货架设计、货存安排以及根据购买模式对用户进行分类。如今对关联规则的应用已经推广到许多领域,只要涉及到从大型的数据集中获取知识的问题,关联规则都可能成为有力的工具。概括起来,关联规则的应用领域也就是数据挖掘的应用领域包括:商业与金融、人口普查数据
7、分析、工程技术数据分析、医疗、财政、宏观决策支持、电子商务、网站设计、通信和互联网等。从大型数据库中以及从其它不同应用领域的数据中进行高效关联规则挖掘方法的研究一直很受重视,努力提高各种算法的准确性、可伸缩性等性能是各研究机构的核心课题。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率,对关联规则的应用进行推广等。主要有以下几个方面的工作:(1)基于Apriori框架和FP-增长方法进行各种改进算法许多改进算法都是以Apriori算法为核心,或是其变体或是其扩展。Aprior
8、i算法尽管自身进行了一定的优化,但一些固有的缺陷还是无法克服:①可能产生大量的候选集。当长度为1的频繁项集有10000个的时候,长度为2的候选集个数将会超过10M。另外,如果要生成一个很长的规则的时候,要产生的中间元素也是巨量的。②无法对稀有信息进行分析。由于频繁项集使用了参数min_sup,所以无法对小于min_sup的事件进行分析,而如果将
此文档下载收益归作者所有