欢迎来到天天文库
浏览记录
ID:59084047
大小:1.90 MB
页数:26页
时间:2020-10-29
《应用AutoClass算法聚类分析SDSS巡天恒星数据.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、应用AutoClass算法聚类分析SDSS巡天的恒星数据严太生2008年11月于太原提纲恒星自动分类/聚类的背景AutoClass算法SDSS数字巡天及参数选取AutoClass分类结果及讨论结论1恒星自动分类/聚类的背景一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。随着从地面和空间观测设备获取大量的数据,构建大的完整的样本成为可能。为了提高分类/聚类的效率,我们需要依靠区别性很好的分类器。相关的恒星自动分类/聚类工作列举如下:A)Bazarghan(2008)运用神经网络对从O型星到M型星的5000个光谱分类成158个光谱类型。B)应用
2、GLIMPSE中红外巡天数据,Mercer(2005)运用自动检测算法在银河系星系盘中发现了一些新星团。C)使用支持矢量机算法,Wozniak(2004)从北天变星巡天数据中发现8678个慢变星。D)Froebrich(2008)通过分析恒星密度图和颜色-颜色/星等图,对银河系新的星团进行分类。E)Jaschek(1990)撰写了一本关于恒星分类的工具,方法和结果等综合小册子。2AutoClass算法介绍AutoClass是基于Bayesian理论的一种非监督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据,AutoClass应用高斯分布,而对
3、于离散型数据应用Bernoulli分布。AutoClass的几个关键特性如下:A)自动确定类别的数目;B)能使用实型的和离散型的混合数据;C)能够处理缺值数据;D)处理需要的时间与数据量成简单的线形关系;E)产生一个报告描述发现的类别,并且通过训练数据构建的分类器预测测试数据的类型。AutoClass被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。3SDSS数字巡天及参数选取A)SDSS数字巡天简介SDSS数字巡天是一个在天文上非常富有野心的重要的巡天。它已经观测了将近2亿个天体,对其中的67万5千个星系,9万个类星体和18万5千多个恒星拍摄了光谱;此外,它得到了超过1/4
4、天区的93万个星系和12万类星体在可见光五个波段的图象数据。B)分类参数选取我们选取SDSSDR6的恒星具有光谱的测光数据(即已经过光谱证认的测光数据),通过去缺值,得到140865条恒星测光数据。为了实现在多维空间中的恒星聚类,每条数据记录都包含有5个属性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五个波段的各自差值。4AutoClass分类结果及讨论A)AutoClass分类结果我们将恒星分类限制在两类(stars和non-stars,这里non-stars是指特殊恒星和非恒星天体),并且将AutoClass的模型参数设置为
5、Single_normal(没有缺值的实数特性模型)。通过运行search程序,我们获得分类结果是139874个stars和991个non-stars。Stars和Non-stars分布图i)星等-星等图StarsNon-starsii)颜色-星等图StarsNon-starsB)non-stars的证认我们已经应用AutoClass获得了分类结果并且选出了non-stars。下面的任务就是对这些non-stars进行证认。i)通过SIMBAD证认在SIMBAD中,将non-stars的坐标输入进去,将半径误差范围设置为2角秒,共获得25个non-stars的证认信息。以下是25个证认的no
6、n-stars的星等/颜色-星等图ii)通过NED证认在NED中,将non-stars的坐标输入进去,将半径误差范围设置为6角秒,共获得50个non-stars的证认信息。以下是50个证认的non-stars的星等/颜色-星等图iii)通过SDSSimage/spectra证认对于不能通过SIMBAD和NED证认的non-stars,通过检测它们的图象和光谱进行证认。随机挑选10个non-stars的数据,将它们的坐标输入进去,下表列出了10个天体的证认信息。(如果图象和光谱证认的信息不一致,以光谱分类为准)C)计算non-stars的分类正确率。下表列举出通过三种证认得到的百分率,得到通过
7、SIMBAD,NED和通过SDSSimage/spectra证认的正确率分别为76.0%,98.0%和80.0%,而总的正确率为89.4%。D)讨论存在一些因素影响分类的效率和结果:i)任何算法(包括监督和非监督)都要受到它处理的数据的限制。ii)由于缺少更多有用的信息,我们不能计算stars的分类正确率,也不能详细证认每个non-stars的类型。iii)AutoClass算法本身并不知道每个类型的具体意义
此文档下载收益归作者所有