欢迎来到天天文库
浏览记录
ID:52203126
大小:597.88 KB
页数:8页
时间:2020-03-24
《分布式集群环境下基于并行计算的图聚类信息高效处理方案.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机应用《自动化技术与应用》2016年第35卷第3期ComputerApplications分布式集群环境下基于并行计算的图聚类信息高效处理方案★张博(长沙师范学院电子与信息工程系,湖南长沙410100)摘要:针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,确保
2、能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。实验表明,改进方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。关键词:人工智能;数据挖掘;映射规约;图聚类;最小哈希算法中图分类号:TP391文献标识码:A文章编号:1o03—7241(2016)03—0029-08EficientGraphClusteringInformationProcessingScheme‘BasedOnDistributedClusterEnvironmentZHANGBo(ElectronicandI
3、nformationEngineering,ChangshaNormalUniversity,Changsha410100China)Abstract:Inordertotheproblemaboutgraphclusteringdataanalysisabilitycan’tadapttotheincreasinglycomplexdistributedclusterenvironmentinartificialintelligence,thisschemedesignesaneficientsparsificat
4、ionalgorithmbasedonparallel’computing.ThisalgorithmanalyzesandimprovesMinhashalgorithmbasedonMapReduceframeworktheory,andeficientlyprocessesandanalyzesthegraphclusteringdatainformationintheincreasinglycomplexdistributedclusterenvironment.Experimentshowesthatthe
5、algorithmnotonlyisfeasible,butalsocanquicklyprocessgraphclusteringsparsedata,andithasahigheficiency.Keywords:artificialintelligence;datamining;MapReduce;graphclustering;Minhash1引言伴随信息技术和网络的日益发展,尤其是Web3.0网络网络交互体系变得越来越复杂,将其建模成图模型的问世,各种虚拟网络应用产品在实践中得到普及,例是其必然的趋势I1】
6、。在这种图模型里面,各结点主要用如微博等,其图数据信息的处理量不断增加,形成了海来描述对象实体,而各边主要是描述对象实体的关系。量图数据信息,从而使图数据挖掘与分析应用能力面临例如社交网络体系即属于无向图模型结构的范畴,各结一系列非常严峻的挑战[3-5]0点所指代的内容为社交个体或群体,各边指代社交个体作为图数据挖掘与分析应用的重要作用之一,图聚或者群体间的关联,主要包括朋友、同事等拉J。现阶段,类主要根据聚簇对图模型中的各结点实施分类操作,同时增加同类聚簇图结点对象实体的关联性,减小异类的关联性。现阶段,图聚类在实
7、践中已经普及,如交通运·基金项目:湖南省自然科学基金项目(2015JJ6007)、湖南省教育厅输规划分析等。因此,伴随各种超大规模图数据信息与科学研究项目(13C1070)收稿日期:2015-03-19处理机制的问世,怎样科学合理的进行图聚类分析与处《自动化技术与应用》2016年第35卷第3期计算机应用ComputerApplications理,在此基础上,对其中潜在的有效数据进行挖掘,已信息逐渐增大,单一的计算环境无法充分适用数据分析经发展成为该领域的一个重要课题J。数据抽样属于与处理,同时导致图稀疏化处理机制不能
8、发挥作用。分其中非常有效的一个方式。其大致步骤为:抽取整体数布式框架理论体系是在超大规模、超大区域范围的数据据集合里面的局部样本,利用这种方式实施数据挖掘处集合分析与处理机制中应用。作为并行计算的一个重要理与分析,旨在实现时间和挖掘处理结果的高性能比。架构,MapReduce能够使相关人员在并行编程过程中,在分析过程中,应当先依次对图模型里面包
此文档下载收益归作者所有