资源描述:
《基于非时序观察数据的因果关系发现综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第40卷计算机学报Vol.402017年论文在线出版号No.6CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.6基于非时序观察数据的因果关系发现综述1)1)2)1)3)蔡瑞初陈薇张坤郝志峰1)(广东工业大学计算机学院,广州510006)2)(卡内基梅隆大学哲学系,匹兹堡市美国15213)3)(佛山科技技术学院数学与大数据学院,佛山广东528000)摘要探索和发现事物间的因果关系是数据科学的一个核心问题,其中蕴含着丰富的科学发现机会和巨大的商业价值。基于非时序观察数据的因果关系发现方法能够从被动
2、观察获得的数据中发现变量之间的因果关系,因而在各领域有广泛应用。这一类方法在过去三十年取得很大进展,已经成为因果关系发现的重要途径。本文从因果关系方向推断、高维数据上的误发现率控制和不完全观察数据上的隐变量检测这三个研究热点出发,对现有的因果关系模型与假设、基于约束的方法、基于因果函数模型的方法和混合型方法这三大类方法,验证与测评涉及的数据集及工具等方面进行了详尽的介绍与分析。基于约束的方法主要包括因果骨架学习和因果方向推断两个阶段:首先基于因果马尔科夫假设,采用条件独立性检验学习变量之间的因果骨架,然后基于奥卡姆剃刀准则利用V-结
3、构确定因果方向,典型的算法有Peter-Clark算法、InductiveCausation等,这类方法的主要不足是存在部分无法判断的因果关系方向,即存在Markov等价类难题。基于因果函数模型的方法则基于数据的因果产生机制假设,在构建变量之间的因果函数模型的基础之上,基于噪声的非高斯性、原因变量与噪声的独立性、原因变量分布与因果函数梯度的独立性等因果假设推断变量之间的因果关系方向,典型的算法有针对线性非高斯无环数据的LinearNon-GaussianAcyclicModel算法、针对后非线性数据的Post-NonLinear算法
4、、适用于非线性或离散数据的AdditiveNoiseModel等,这类方法的主要不足是需要较为严格的数据因果机制假设,且AdditiveNoiseModel等方法主要适用于低维数据场景。混合型方法则希望充分发挥基于约束的方法和基于因果函数类方法的优势,分别采用基于约束的方法进行全局结构学习和基于因果函数模型进行局部结构学习和方向推断,典型的算法有SADA、MCDSL等,理论分析较为不足是这类方法目前遇到的主要困难。最后,文中还基于研究现状分析讨论了因果方向推断、高维数据上的误发现率控制、隐变量发现、———————————————本课
5、题得到NSFC-广东联合基金(U1501254)、国家自然科学基金(61572143)、广东省杰出青年科学基金(2014A030306004)资助.蔡瑞初(通讯作者),男,1983年生,博士,教授,计算机学会(CCF)高级会员,主要研究领域为因果关系、机器学习等.陈薇,女,1993年生,硕士,计算机学会(CCF)会员,主要研究领域为因果关系.张坤,男,1980年生,博士,助理教授,否,主要研究领域为因果关系、机器学习等.郝志峰,男,1968年生,博士,教授,主要研究领域为机器学习、数据挖掘.2计算机学报2017年与机器学习的关系等未
6、来可能的研究方向。关键词因果关系;因果关系发现;观察数据;结构学习;加性噪声模型中图法分类号TP18论文引用格式:蔡瑞初,陈薇,张坤,郝志峰,基于非时序观察数据的因果关系发现综述,2017,Vol.40,在线出版号No.6CAIRui-Chu,CHENWei,ZHANGKun,HAOZhi-Feng,ASurveyonNon-TemporalSeriesObservationalDatabasedCausalDiscovery,2017,Vol.40,OnlinePublishingNo.6ASurveyonNon-Temporal
7、SeriesObservationalDatabasedCausalDiscovery1)1)2)1)3)CAIRui-ChuCHENWeiZHANGKunHAOZhi-Feng1)(SchoolofComputerScience,GuangdongUniversityofTechnology,Guangzhou51006)2)(DepartmentofPhilosophy,CarnegieMellonUniversity,Pittsburgh15213)3)(SchoolofMathematicsandBigDate,Foshan
8、University,Foshan528000)AbstractExploringanddetectingthecausalrelationsamongvariableshaveshownhugepracticalvaluesinre