欢迎来到天天文库
浏览记录
ID:36624733
大小:683.00 KB
页数:7页
时间:2019-05-13
《基于贝叶斯网络分布数据挖掘模型DDMB研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于贝叶斯网络的分布数据挖掘模型DDMB研究琚春华,男,1962年生,浙江工商大学,博士教授,博士生导师,研究方向为智能信息处理、电子商务。张捷,男,1982年生,浙江工商大学,管理科学与工程,硕士研究生。联系方式:juchunhua@hotmail.com电话:13905819716琚春华张捷(浙江工商大学计算机与信息工程学院杭州310012)摘要:本文针对分布环境的数据挖掘要求,提出了基于贝叶斯网络的分布数据挖掘模型DDMB。论文详细阐述了DDMB中属性多叉树的概念和通过属性多叉树来反映分布环境各数据集属性总体特征的思
2、想,介绍了基于移动Agent访问分布数据集来构建属性多叉树的方法,详细描述了由属性多叉树生成综合贝叶斯网络的算法,阐述了面向属性多叉树的贝叶斯网络结构学习和参数学习,以及属性间依赖系数最小阈值的确定方法。实验结果表明,该模型有效地解决原有分布环境贝叶斯网络学习负担重、存储开销大、执行效率低等问题。关键字:分布环境贝叶斯网络属性多叉树移动AgentDistributedDataMiningModelBasedonBayesianNetworkJuChunhuaZhangJie(ZhejiangGongshangUnivers
3、ity,Hangzhou310012)Abstract:Thepaperpresentsadistributeddata-miningmodelbasedonBayesianDDMB,itproposestheconceptofmulti-branchestreeofattributeandtheopinionthatusingmulti-branchestreeofattributetoreflectthecharacteristicofattributeinthedistributeddataset.Italsoint
4、roducedthewayofbuildingmulti-branchestreeofattributebasedonAgentstodistributeddatasets,thenexplainsthealgorithmofBayesiannetworkformulti-branchestreeofattribute,includingstructurelearningandparameterslearning.Finally,thepaperpresentsaprototypesystemP-DDMBofdistrib
5、utedBayesiannetworkonthebasisofBee-gent.TheexperimentalresultsshowedtheDDMBprovidinghighcapabilityandefficiencyofdistributedbusinessdataminingKeywords:distributeddatamining,Bayesiannetwork,multi-branchestreeofattribute,agent1引言随着企业网络化信息系统的应用和发展,形成了面向连锁经营的分布式数据库和海量
6、型数据源。通过对这类数据源的挖掘,可获得隐含、潜在和有价值的决策信息[2],发现企业经营的运行规律。目前,已有众多的数据挖掘算法,如关联规则挖掘、聚类、决策树等,用于商品关联度分析、客户分类、销售预测等[1]。特别是贝叶斯网络,由于其优良的性能,常被应用在各领域的数据预测、分类、推理等功能中。贝叶斯网络不仅能够充分利用领域知识和样本数据信息,将先验知识和样本信息巧妙地结合在一起,还能描述变量间的因果关系,具有语意清晰、可理解性强的特点,且还能利用概率测度来处理不完整数据。然而,贝叶斯网络算法是面向集中式数据处理,要求所被挖
7、掘的数据须存放于单一和集中的数据库中。即便在数据分布存储的情况下,也要求把这些数据重新汇集,然后再从汇总的数据集中训练出贝叶斯网络[3][4][6]。这种处理方法不仅会大量占用存储空间,增加网络负担,而且使响应时间变长,破坏数据的私有性和安全性。针对这些问题,本文提出了基于贝叶斯网络的分布数据挖掘模型。2贝叶斯网络与分布数据处理贝叶斯网络作为不确定性问题模拟和推理的一种有效工具,具有适应信息变化的能力,以及综合专家先验知识和实例数据的分布特征,其基本思想是:给定数据样本D,样本属性A={A1、A2…Ai、X},其中X为类标
8、号属性,X的可能取值{x1、x2…xi},通过对数据样本D的学习,确定属性A1、A2…Ai、X的贝叶斯网络B=。B=由两部分组成:①网络结构图G:一个有向无环图,图中各节点对应随机变量A1,…,An,有向边表示变量间的直接依赖关系。②局部概率分布Θ:是每个属性变量Ai的条件概率P(A
此文档下载收益归作者所有