欢迎来到天天文库
浏览记录
ID:56218221
大小:334.42 KB
页数:4页
时间:2020-06-21
《改进的贝叶斯矩阵修复方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofComputerApplicationsISSN1001.90812O14.06.3O计算机应用,2014,34(S1):127—130C0DENJYIIDUhttp://www.joca.cn文章编号:1001.9081(2014)S1.0127.04改进的贝叶斯矩阵修复方法王社会,杨俊安,一,尹海波,(1.电子工程学院404教研室,合肥230037;2.安徽省电子制约技术重点实验室,合肥230037)(·通信作者电子邮箱wangshehui257@126.com)摘要:海量数据在采集和传输过程中由于多种原因会不可避免地造成数据矩阵元素的缺失,对获得的残缺矩阵进行直
2、接分析可能会出现错误的结果,因此在数据分析之前需要对残缺矩阵进行修复。常用的贝叶斯修复方法假设属性间完全相关,朴素贝叶斯方法则假设各属性相互独立,因此在处理属性间关系并不完全相关或完全独立时往往无能为力。基于贝叶斯理论,提出了一种改进的矩阵修复方法,采用关联度系数来衡量数据之间关联性,综合考虑了数据中部分属性存在关联关系而部分属性又相互独立的复杂情况。实验结果表明该方法能有效提高残缺矩阵修复的正确率,且对时效性几乎没有影响。关键词:数据缺失;矩阵修复;贝叶斯理论;属性关联中图分类号:rP392文献标志码:AImprovedmatrixcompletionmethodbasedonBay
3、estheoryWANGShehui·.YANGJun,an一。YINHaibo·(1.404TeachingandResearchSeaion,EngineedngInstitute,HefeiAnhui230037,China;2.AnhuiKeyLaboratoryofElectronicRestriction,HefeiAnhui230037,China)Abstract:Massivedatamayinevitablymisssomeelementsintheprocessofacquisitionandtransmissionbecauseofvariousreasons.
4、Correctresultscouldnotbeachievedbybeinganalyzedtheseobtainedincompletematricesdirectly,SOtheseincompletedatasetsmustbecompletedbeforeanalyzingthem.ThegeneralBayesianmethodassumesthatallattributesofdatasetarerelevant,andthenaiveBayesianwayconsidersalltheattributesareabsolutelyindependent,SOtheway
5、scannotdealwiththedatasetwhoseattributesarenotabsolutelyrelevantorabsolutelyindependent.BasedonBayesiantheory,thispaperputforwardanewmethodtocompletemissingmatrix.Byadoptingthecorrelationcoeficienttocalculatethecorrelationbetweendata,thenewmethodreasonablyconsidersthecomphcatedconditionsonwhichp
6、artoftheattributesarerelevantandtheothersareindependent.Theexperimentalresultsindicatethatthismethodcanefectivelyimprovetheaccuracytorepairincompletematrices,andtimelinessishardlyafected.Keywords:datamissing;matrixcompletion;Bayesiantheory;attributescorrelation阵规模急剧变小,严重影响到数据矩阵中信息的客观性,导致0引言分析结果发
7、生偏离,从而引出错误的结论。不处理是指直接随着信息技术的飞速发展和获得数据途径的多样化,人在含有缺失属性的数据上进行数据挖掘,但是目前只有极少们积累的各种文本、图像、音频数据飞速增加,我们的生活逐数的方法能够直接处理不完备数据,而且效果不佳。对于渐淹没在数据信息里面,进入海量数据时代。这些大规模的含缺失元素的矩阵,最好的方法是能够最大限度地恢复出缺数据里面一般隐藏着非常多的有用信息,需要通过数据挖掘失数据,因此最近几年学者在这方面的研究方向是如
此文档下载收益归作者所有