关于数据挖掘中关联规则算法的相关问题研究

关于数据挖掘中关联规则算法的相关问题研究

ID:34110847

大小:57.53 KB

页数:4页

时间:2019-03-03

关于数据挖掘中关联规则算法的相关问题研究_第1页
关于数据挖掘中关联规则算法的相关问题研究_第2页
关于数据挖掘中关联规则算法的相关问题研究_第3页
关于数据挖掘中关联规则算法的相关问题研究_第4页
资源描述:

《关于数据挖掘中关联规则算法的相关问题研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、关于数据挖掘中关联规则算法的相关问题研究李艳内蒙古民族大学摘要:经济的发展带动了信息技术的发展,数据挖掘技术的应用愈加广泛,无论是生产还是生活都离不开这一技术的支持。关联规则算法是数据挖掘技术中应用最为活跃的一种算法,能够有效处理规模较大的信息与数据,并在数据库中挖掘价值较高的信息。文章将对数据挖掘技术的内容与表现进行阐述,分析关联规则算法的含义与相关内容,最后对关联规则算法中的Apriori算法进行探究与讨论。关键词:数据挖掘;关联规则算法;相关问题;研究;作者简介:李艳(1979,04-),女,内蒙古人,硕士,副教授,内蒙古民族大学,研究方向:数据挖掘。基金:2

2、017年度内蒙古自治区高等学校科学技术研究项目“蒙药治疗热症方剂数据挖掘技术研究”(编号:町ZY17199)互联网上涵盖的信息数量是巨大的,且信息的数量与规模呈现出了明显的上升趋势,如何在海量的数据中找到有用的信息是人们需要重点思考的问题。传统的数据搜索方法作用有限,只能将表层信息收集起来,但是深层次的信息却无法被挖掘岀来,这对信息的有效应用来说是极为不利的。为了提高数据的适应价值,数据挖掘技术产生并得到广泛应用。关联规则算法在数据挖掘方面显现出了极大的优势,对此展开探究有着重要的现实意义。1数据挖掘技术的内容与表现1.1内容数据挖掘技术属于重要的信息处理技术,其商

3、业价值极为明显,在该技术的帮助下,人们对技术的获取与了解将会从联机查询这种较为低层次的方式转化为较高层次的数据对策支持分析预测。根据知识类型的差异,数据挖掘技术可以分为:关联范围、预测范围、差异范围、广义范围这几种。使用较为广泛的数据挖掘方法有数据分析法、数据集成法、证据理论法、近似推理法以及元模式法等。而从对象的角度来分析,数据挖掘技术可以分为以下几类,即时态数据库、空间数据库、多媒体数据库、异质数据库、遗产数据库以及文本数据库等。1.2主要表现数据挖掘技术的主要表现有四种,第一是规则归纳,即统计数据,在这个过程中系统会对数据项中的某些属性以及集合予以反映,AQ算

4、法就是归纳算法的一种,利用数据挖掘技术,人们可以找出数据库中潜藏的某些位置信息。第二是支持向量机,它是一种结构风险,其建立基础为数学理论,在应用吋,它会利用处于高空多维空间的超平面隔离开两类不同的数据,以便于将最小分类错误率降到最低,显性问题是其显著的优势。第三是模糊集,在处理数据时,模糊集表现为两点,一是不完整数据,二是不确定数据,其针对性不强,应用模糊集对数据进行处理能够提高处理的简便性与有效性。第四是统计方法,即统计并分析事物数量,这样能够及吋找岀其中的规律,当发现数据线索后,就可以以此为基础展开假设,分析可行性,统计方法的优点在于精确性高。2关联规则算法的含

5、义与相关问题数据挖掘中的关联规则算法即指在数据集中找到相关关系或者特殊的关联,找到频繁项集(出现频率较高的属性值集),然后再依据频繁项集将关联规则描述出来的整个过程。其中涉及到的数据集具有较大的规模,涵盖的数据信息、属性较多,具有寻找的价值。在关联规则算法中,规则兴趣度的度量依据为置信度与支持度,这两个度量依据能够对规则所具有的简洁性、新颖性、确定性以及有用性予以准确的反映。在实际应用的过程中,信任度与支持度的门限通常用最小支持度与最小置信度来表示。数据挖掘中关联规则算法的相关问题可以归纳为两点,首先,要将不小于用户指定的支持度最小的存在于事务数据库中的数据项集全部

6、找出,即找出强项集。其次,要对最大数据项对应的关联规则予以利用,以用户所指定的置信度规则最小值的取舍情况为依据,获得最终需要的强关联规则。3Apriori算法研究3.1基本操作步骤Apriori算法为关联规则中的经典算法,具有重要的研究意义。Apriori算法认为若M属于频繁项目集,则M中包含的子集都在其中;相反,如果M不是频繁项目集,那么M的全部超集都在其中。为了将所有的频繁项集都找出来,Apriori算法会应用逐层迭代法搜集相关内容,即逐层扫描各集合。其具体操作步骤如下:首先要全面了解用户的实际需求,然后依次为依据确定最小支持度与最小置信度,并逐步找出频繁相;其

7、次要将最小支持度作为操作的参考依据,如候选集规模较大,那么就可以将其作为频繁项集合中的某一个项,当反复扫描频繁项集后,所需要的数据就可以被准确的挖掘出来。然后就可以根据实际情况执行算法,要先将数据项完整的录入到数据库当中,继而将关键项挖掘出来,再将集合与候选2项有效结合到一起。此时再次扫描数据库,并重复上述操作,最终挖掘出最高层次的频繁项集,使数据得到有效优化。3.2局限性虽然在以往的应用过程中,Apriori算法显现出了较为明显的优势,如应用便捷、结构简单等,但是在实际执行的过程中,Apriori算法仍然具有局限性。首先虽然其推导过程相对简便,但是却具有较高的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。