对大规模数据集高效数据挖掘算法的研究.pdf

对大规模数据集高效数据挖掘算法的研究.pdf

ID:52215701

大小:1.21 MB

页数:2页

时间:2020-03-25

对大规模数据集高效数据挖掘算法的研究.pdf_第1页
对大规模数据集高效数据挖掘算法的研究.pdf_第2页
资源描述:

《对大规模数据集高效数据挖掘算法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、对大规模数据集高效数据挖掘算法的研究孙亮对大规模数据集高效数据挖掘算法的研究孙亮(兰州文理学院数字媒体学院甘肃兰州,730000)摘要:随着我国信息技术的不断提高,数据信息技术应用范围也得到了有效拓展,为社会创造出极大的应用价值。单一模式已经无法满足当前大型数据集计算要求。因此我们必须充分运用数据挖掘法来实现更高一级数据统计及信息处理目标,促进我国社会经济效益的有效提升。关键词:高效数据挖掘算法;大规模数据集中;相关研究中图分类号:TP301文献标识码:ADOI编码:10.14016/j.cnki.1001-9227.2016.03.192Abstract:Withthecontinuo

2、usimprovementofinformationtechnology,data,informationtechnologyapplicationhasbeeneffectivelyexpandthecommunitytocreateagreatapplicationvalue.Singlemodelhasbeenunabletomeetthecurrentrequirementsoflargedatasetstocalculate.Therefore,wemustmakefulluseofdataminingmethodtoachieveahigherlevelofstatistic

3、aldataandinformationprocessingobjectivesandpromoteeffectivelyenhancethesocio-economicbenefitsinChina.Keywords:forefficientdataminingalgorithms;large-scaledataset;research好的特征以及分裂点作为当前节点的分类条件;CART:事实0引言上也是一种决策数算法,具有多个子树的多元分类,CART只数据挖掘是数据库知识发现中的一个步骤。数据挖掘一是分类两个子树,这样实现起来稍稍简便些;KNN:是Top-K般是指从大量的数据中通过算法

4、搜索隐藏于其中信息的过个训练样本出来,看这K个样本中哪个类别的多些,谁多跟程。数据挖掘通常与计算机科学有关,并通过统计、在线分析谁;NaiveBayes:aiveBayes认为各个特征是独立的,它们之间处理、情报检索、机器学习、专家系统和模式识别等诸多方法互不相关;SupportVectorMachine:支持向量机SVM,常用的工[1]来实现上述目标。随着数据信息技术的发展,它得到了广具包是LibSVM、SVMLight、MySVM;EM:EM又称为期望最大泛应用,并得到了全社会的关注。本文将对高效数据挖掘算化,其假设数据由几个高斯分布组成,期望得到最好的拟合;法在大规模数据集中的应用

5、效果进行研究,分别从:高效数据Apriori:主要作为关联规则使用,通过支持度和置信度两个量挖掘算法在大规模数据集中的实际应用、高效数据挖掘算法来工作;FP-Tree:采用一种紧缩的数据结构来存储查找频繁的发展趋势,两个部分进行阐述。项集所需要的全部信息;PageRank:PageRank又称网页级别,是一种根据网页之间相互的超链接计算的技术,经常被用来1高效数据挖掘算法相关研究评估网页优化的成效因素之一;HITS:一个连接分析算法,通数据挖掘分为广义与狭义概念,广义的数据挖掘是指从过反复通过权威度来求重要度,通过重要度来求权威度得到大量数据中发现隐藏的、有用的知识或信息的过程。狭义的最

6、后的权威度和重要度;K-Means:最经典也是使用最广泛的数据挖掘是指知识发现中的一个关键步骤,是一个建立模型聚类方法,现阶段应用率都相对较高;BIRCH:一种聚类算法,的重要环节。随着电子化时代的到来,大量信息数据呈现在该算法有两个阶段,一是扫描数据库,二是对叶节点进一步利人们眼前,面对浩如烟海的数据,人们该如何选择、提取、利用一个全局性的聚类算法,改进聚类质量;AdaBoost:一种方用,也成为当前人们最关注的问题。面对这种局面,数据挖掘法,因为它可以建立在任何一种分类算法上,其算法本身是通技术应运而生,并得到蓬勃发展。高效数据挖掘之所以会引过改变数据分布来实现;GSP:是一种序列挖

7、掘算法,又称为起极大关注,主要是其存在大量数据,并可以广泛使用,应用GeneralizedSequentialPattern,主要采用冗余候选模式和特殊范围包括:生产控制、市场分析、工程设计、科学探索、商务管数据结构-来实现候选模式的快速访存;PrefixSpan:类似理等方面。数据挖掘具备五种功能,分别是:分类、推算估计、Apriori的序列挖掘,可作为关联规则使用。预测、关联分析、聚类分析。分类:数据挖掘可以非对象属性的不同对其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。