资源描述:
《幻灯片1(26).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、并行环境下高效率交叉证认的研究和实现赵青国家天文台-天津大学天文信息技术联合实验室内容交叉证认在VO中的重要性及所面临的挑战PHIXmatch具体方法PHIXmatch实验结果及分析对比当前各国做法PHIXmatch后续研究计划内容交叉证认在VO中的重要性及所面临的挑战PHIXmatch具体方法PHIXmatch实验结果及分析对比当前各国做法PHIXmatch后续研究计划重要性&挑战符合VO的重要使命——使广泛分布的天文数字存档资源更加容易获得、更具可理解性和互操作性,以提高天文学家科学新发现的潜能——是科学家进行更加深入的数据挖掘的基础
2、根据位置信息交叉证认是基础(又称FuzzyJoin/GreatCircleJoin)挑战:dataavalanche——petabyte,next10-yearshigh-degreeddecentralizeddatadiversities:formats,namingschemas,datastructures,etc内容交叉证认在VO中的重要性及所面临的挑战PHIXmatch具体方法PHIXmatch实验结果及分析对比当前各国做法PHIXmatch后续研究计划OurFunction—PHIXmatchPHIXmatch——Paral
3、leledHealpix-IndexingXmatch实验任务:SDSS(1亿)2MASS(4.7亿)目标结果:一对一、一对多、一对无SDSS_IDTwomass_IDDistance58773151261727136402595905+00002005.243e-0558773151261727136502595905+00002006.55e-0558773151315407682802593768+00122193.2e-0558773151315407726902593768+00122190.0025043169复杂度:n*n
4、——unacceptable解决办法:画框(byGaoDan)并行化:消息传递型并行编程MPI建立高效索引,过滤范围:Healpix(HierarchicalEqualAreaisoLatitudePixelizationofasphere)针对索引方式,优化一些函数PHIXmatch程序流程HEALPIXHEALPix——HierarchicalEqualAreaisoLatitudePixelizationofasphere.功能强大,应用广泛,其中一个主要应用为CosmicMicrowaveBackground(CMB)的数据处理和
5、数值模拟Healpix编码方式方法一:Rings方法一:Nested为什么使用HEALPIX划分方式?嵌套的层次编号方式:临近块的ipnest只区别在低位,且ipnest(Q1)isaprefixofipnest(Q2)iffQ1containsQ2.适合D-tree索引,物理上相近的块其块号在数值上也连续或相近,自然地实现了临近区域的聚类,适合于一切SQL系统一次索引,可进行多级精度上的计算,便于选取最合适索引块和计算块的级数。不同密度、速度的星体可选择不同距离阈值等面积省去了对赤经的修正(spherical-polardistorti
6、onproblem),避免了复杂的球面坐标任务分配方式简单,容易实现负载平衡分块成网格状,拓扑形状上适合交叉证认,falsepositive较少,周边数据只有8块(HTM有12块)HEALPIX也适合ConeSearch等常用查询建索引速度快,与HTM对比,快一个数量级(byWimO'Mullaneetal)如何计算2MASS余边块索引号?Function1:使用Healpix库函数callneighbours()Function2:自己设计函数,根据情况执行位运算,效率高内容交叉证认在VO中的重要性及所面临的挑战PHIXmatch具体方
7、法PHIXmatch实验结果及分析对比当前各国做法PHIXmatch后续研究计划结果及性能评价数据量:SDSS100,106,811条记录2MASS470,992,970条记录索引级数:,块数,每块边长约为C语言+MPI+MySQL计算块数:,则每计算块包含块索引小块硬件设备:4核服务器一台(2G内存),4进程(3计算进程)结果及性能评价校验上一对一结果:2017万结果及性能评价方法A表数据来源A表数据量B表数据来源B表数据量证认耗时每秒完成证认数PHIXmatchfunctionSDSS100,106,8112MASS470,992,9
8、7032分钟52,139(按sdss统计)Dec-1d-indexingfunction无优化法SDSS100,106,8112MASS470,992,9703天左右386(按sdss统计)(