应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

26
应应 应应 AutoClass AutoClass 应应应应应应 应应应应应应 SDSS SDSS 应应应应应应应 应应应应应应应 严严严 2008 应 11 应应应应

description

应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据. 严太生. 2008 年 11 月于太原. 提纲. 恒星自动分类 / 聚类的背景 AutoClass 算法 SDSS 数字巡天及参数选取 AutoClass 分类结果及讨论 结论. 1 恒星自动分类 / 聚类的背景. 一个完整详细的恒星样本不仅对于恒星的基本组成 , 演化历史 , 而且对于研究星系结构和演化都有很重要的意义。 随着从地面和空间观测设备获取大量的数据 , 构建大的完整的样本成为可能。 为了提高分类 / 聚类的效率,我们需要依靠区别性很好的分类器。. - PowerPoint PPT Presentation

Transcript of 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

Page 1: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

应用应用 AutoClassAutoClass 算法聚类分析算法聚类分析SDSSSDSS 巡天的恒星数据巡天的恒星数据

严太生

2008 年 11 月于太原

Page 2: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

提纲提纲 恒星自动分类恒星自动分类 // 聚类的背景聚类的背景 AutoClassAutoClass 算法算法 SDSSSDSS 数字巡天及参数选取数字巡天及参数选取 AutoClassAutoClass 分类结果及讨论分类结果及讨论 结论结论

Page 3: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

1 1 恒星自动分类恒星自动分类 // 聚类的背景聚类的背景

一个完整详细的恒星样本不仅对于恒星的基一个完整详细的恒星样本不仅对于恒星的基本组成本组成 ,, 演化历史演化历史 ,, 而且对于研究星系结构和而且对于研究星系结构和演化都有很重要的意义。演化都有很重要的意义。

随着从地面和空间观测设备获取大量的数据随着从地面和空间观测设备获取大量的数据 ,,构建大的完整的样本成为可能。构建大的完整的样本成为可能。

为了提高分类为了提高分类 // 聚类的效率,我们需要依靠聚类的效率,我们需要依靠区别性很好的分类器。区别性很好的分类器。

Page 4: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

相关的恒星自动分类相关的恒星自动分类 // 聚类工作列举如下:聚类工作列举如下: AA )) Bazarghan (2008) Bazarghan (2008) 运用神经网络对从运用神经网络对从 OO 型星到型星到 MM 型星型星

的的 50005000 个光谱分类成个光谱分类成 158158 个光谱类型。个光谱类型。 BB )应用)应用 GLIMPSEGLIMPSE 中红外巡天数据,中红外巡天数据, Mercer (2005) Mercer (2005) 运用运用

自动检测算法在银河系星系盘中发现了一些新星团。自动检测算法在银河系星系盘中发现了一些新星团。 CC )使用支持矢量机算法,)使用支持矢量机算法, Wozniak (2004) Wozniak (2004) 从北天变星巡从北天变星巡

天数据中发现天数据中发现 86788678 个慢变星。个慢变星。 DD )) Froebrich (2008) Froebrich (2008) 通过分析恒星密度图和颜色通过分析恒星密度图和颜色 -- 颜色颜色 //

星等图,对银河系新的星团进行分类。星等图,对银河系新的星团进行分类。 EE )) Jaschek (1990) Jaschek (1990) 撰写了一本关于恒星分类的工具撰写了一本关于恒星分类的工具 ,, 方法方法

和结果等综合小册子。和结果等综合小册子。

Page 5: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

2 AutoClass2 AutoClass 算法介绍算法介绍 AutoClassAutoClass 是基于是基于 BayesianBayesian 理论的一种非监理论的一种非监

督分类算法。它通过结合对实型的或者离散督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据, 自然分类。对于实型数据, AutoClassAutoClass 应用应用高斯分布,而对于离散型数据应用高斯分布,而对于离散型数据应用 BernoulliBernoulli分布。分布。

Page 6: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

AutoClassAutoClass 的几个关键特性如下:的几个关键特性如下: AA )自动确定类别的数目;)自动确定类别的数目; BB )能使用实型的和离散型的混合数据;)能使用实型的和离散型的混合数据; CC )能够处理缺值数据;)能够处理缺值数据; DD )处理需要的时间与数据量成简单的线形关系;)处理需要的时间与数据量成简单的线形关系; EE )产生一个报告描述发现的类别,并且通过训练)产生一个报告描述发现的类别,并且通过训练

数据构建的分类器预测测试数据的类型。数据构建的分类器预测测试数据的类型。

AutoClassAutoClass 被广泛应用于天文和其他的领域,有助被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。于发现一些未知的令人惊奇的类别。

Page 7: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

3 SDSS3 SDSS 数字巡天及参数选取数字巡天及参数选取 AA )) SDSSSDSS 数字巡天简介数字巡天简介 SDSSSDSS 数字巡天是一个在天文上非常富有野数字巡天是一个在天文上非常富有野

心的重要的巡天。它已经观测了将近心的重要的巡天。它已经观测了将近 22 亿个亿个天体,对其中的天体,对其中的 6767 万万 55 千个星系,千个星系, 99 万个类万个类星体和星体和 1818 万万 55 千多个恒星拍摄了光谱;此外,千多个恒星拍摄了光谱;此外,它得到了超过它得到了超过 1/41/4 天区的天区的 9393 万个星系和万个星系和 1212万类星体在可见光五个波段的图象数据。万类星体在可见光五个波段的图象数据。

Page 8: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

BB )分类参数选取)分类参数选取 我们选取我们选取 SDSS DR6SDSS DR6 的恒星具有光谱的测的恒星具有光谱的测

光数据(即已经过光谱证认的测光数据),光数据(即已经过光谱证认的测光数据),通过去缺值,得到通过去缺值,得到 140865140865 条恒星测光数据。条恒星测光数据。

为了实现在多维空间中的恒星聚类,每条数为了实现在多维空间中的恒星聚类,每条数据记录都包含有据记录都包含有 55 个属性(个属性( psf_u-u,psf_g-g,psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z)psf_r-r,psf_i-I,psf_z-z) ,即,即 PSFPSF 星等和模型星等和模型星等在五个波段的各自差值。星等在五个波段的各自差值。

Page 9: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

4 AutoClass4 AutoClass 分类结果及讨论分类结果及讨论

AA )) AutoClassAutoClass 分类结果分类结果我们将恒星分类限制在两类(我们将恒星分类限制在两类( starsstars 和和 non-stanon-sta

rsrs ,这里,这里 non-starsnon-stars 是指特殊恒星和非恒星是指特殊恒星和非恒星天体),并且将天体),并且将 AutoClassAutoClass 的模型参数设置的模型参数设置为为 Single_normalSingle_normal (没有缺值的实数特性模(没有缺值的实数特性模型)。通过运行型)。通过运行 searchsearch 程序,我们获得分类程序,我们获得分类结果是结果是 139874139874 个个 starsstars 和和 991991 个个 non-starsnon-stars 。。

Page 10: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

StarsStars 和和 Non-starsNon-stars 分布图分布图 ii )星等)星等 -- 星等图星等图

Stars

Non-stars

Page 11: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

iiii )颜色)颜色 -- 星等图星等图

Stars

Non-stars

Page 12: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

BB ) ) non-starsnon-stars 的证认的证认我们已经应用我们已经应用 AutoClassAutoClass 获得了分类结果并且获得了分类结果并且

选出了选出了 non-starsnon-stars 。下面的任务就是对这些。下面的任务就是对这些 nnon-starson-stars 进行证认。进行证认。

Page 13: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

ii )通过)通过 SIMBADSIMBAD 证认证认

Page 14: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

在在 SIMBADSIMBAD 中,将中,将 non-starsnon-stars 的坐标输入进去,的坐标输入进去,将半径误差范围设置为将半径误差范围设置为 22角秒,共获得角秒,共获得 2525 个个non-starsnon-stars 的证认信息。以下是的证认信息。以下是 2525 个证认的个证认的non-starsnon-stars 的星等的星等 // 颜色颜色 -- 星等图星等图

Page 15: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

iiii )通过)通过 NEDNED 证认证认

Page 16: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

在在 NEDNED 中,将中,将 non-starsnon-stars 的坐标输入进去,将的坐标输入进去,将半径误差范围设置为半径误差范围设置为 66角秒,共获得角秒,共获得 5050 个个 nnon-starson-stars 的证认信息。以下是的证认信息。以下是 5050 个证认的个证认的 nnon-starson-stars 的星等的星等 // 颜色颜色 -- 星等图星等图

Page 17: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

iiiiii )通过)通过 SDSS image/spectraSDSS image/spectra 证认证认

Page 18: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

对于不能通过对于不能通过 SIMBADSIMBAD 和和 NEDNED 证认的证认的 non-stanon-stars,rs,

通过检测它们的图象和光谱进行证认。随机挑通过检测它们的图象和光谱进行证认。随机挑选选 1010 个个 non-starsnon-stars 的数据,将它们的坐标输的数据,将它们的坐标输入进去,下表列出了入进去,下表列出了 1010 个天体的证认信息。个天体的证认信息。(如果图象和光谱证认的信息不一致,以光(如果图象和光谱证认的信息不一致,以光谱分类为准)谱分类为准)

Page 19: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

CC )计算)计算 non-starsnon-stars 的分类正确率。下表列举的分类正确率。下表列举出通过三种证认得到的百分率,得到通过出通过三种证认得到的百分率,得到通过 SISIMBADMBAD , , NEDNED 和通过和通过 SDSS image/spectraSDSS image/spectra证认的正确率分别为证认的正确率分别为 76.0%76.0% ,, 98.0%98.0% 和和 80.80.0%0% ,而总的正确率为,而总的正确率为 89.4%89.4% 。。

Page 20: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

DD )讨论)讨论存在一些因素影响分类的效率和结果:存在一些因素影响分类的效率和结果:ii )任何算法(包括监督和非监督)都要受到它)任何算法(包括监督和非监督)都要受到它

处理的数据的限制。处理的数据的限制。iiii )由于缺少更多有用的信息,我们不能计算)由于缺少更多有用的信息,我们不能计算 ss

tarstars 的分类正确率,也不能详细证认每个的分类正确率,也不能详细证认每个 nonon-starsn-stars 的类型。的类型。

iiiiii ) ) AutoClassAutoClass 算法本身并不知道每个类型的算法本身并不知道每个类型的具体意义。等等具体意义。等等

Page 21: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

但是根据系统差异和任务指标,我们能够建立一个良好的分但是根据系统差异和任务指标,我们能够建立一个良好的分类器来完成我们的分类,并获得了一些有意义的结论。类器来完成我们的分类,并获得了一些有意义的结论。

ii )我们在颜色星)我们在颜色星 -- 等图或星等等图或星等 -- 星等图中发现星等图中发现 starsstars 和和 non-snon-starstars 是几乎重叠在一起的, 是几乎重叠在一起的, non-starsnon-stars 并不一定分布在边并不一定分布在边缘区域。所以不能通过直观区分缘区域。所以不能通过直观区分 22 维空间上的离群数据维空间上的离群数据(即(即 non-starsnon-stars ),这也正是应用),这也正是应用 AutoClassAutoClass 的原因。的原因。

iiii )我们注意到在通过)我们注意到在通过 SIMBADSIMBAD 和和 NEDNED 证认的星等证认的星等 -- 星等图星等图中, 有趣的是中, 有趣的是 non-starsnon-stars 的分布几乎形成一条斜线,而在的分布几乎形成一条斜线,而在颜色颜色 -- 星等图中分布几乎形成一条水平线,或许其中暗含星等图中分布几乎形成一条水平线,或许其中暗含一些证认信息。一些证认信息。

iiiiii )从)从 NEDNED 证认的分布图中,我们可以发现同一类的证认的分布图中,我们可以发现同一类的 non-stnon-starsars 基本上是聚集在一个很小的区域。基本上是聚集在一个很小的区域。

Page 22: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

我们的工作是对恒星的聚类。另外,将来可我们的工作是对恒星的聚类。另外,将来可以通过调整输入参数看是否能提高它的分类以通过调整输入参数看是否能提高它的分类效率和性能;也可以进一步研究此算法是否效率和性能;也可以进一步研究此算法是否也适用于其他类型的数据处理。也适用于其他类型的数据处理。

Page 23: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

5 5 结论结论

AutoClassAutoClass 分类不需要先验知识 ,它仅仅根分类不需要先验知识 ,它仅仅根据观察数据本身来获得聚类信息。从我们的据观察数据本身来获得聚类信息。从我们的结果可以得出它可以用于结果可以得出它可以用于 SDSS SDSS 恒星测光数恒星测光数据的聚类分析,从而有助于建立一个纯的恒据的聚类分析,从而有助于建立一个纯的恒星样本。从分类的结果更能体现这个结论。星样本。从分类的结果更能体现这个结论。

Page 24: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

通过分析,可以得出如下的结论:通过分析,可以得出如下的结论:ii )分析证认的)分析证认的 non-starsnon-stars 结果,发现它们大部分是结果,发现它们大部分是 galaxy,galaxy,

HII,late-starHII,late-star 等等。等等。iiii )由)由 AutoClassAutoClass 构建的分类器可以用于预测没有经过光谱构建的分类器可以用于预测没有经过光谱

证认的恒星的测光数据的类型证认的恒星的测光数据的类型iiiiii )至于那些没有能够被证认的)至于那些没有能够被证认的 non-starsnon-stars ,可以用大望远,可以用大望远镜去跟踪观测,或许能发现稀有天体。镜去跟踪观测,或许能发现稀有天体。

iviv )分类的正确率约高达)分类的正确率约高达 90%90% ,, AutoClassAutoClass 可以有效的在可以有效的在大样本数据中发现特殊天体。大样本数据中发现特殊天体。

vv )仔细观察相同类的)仔细观察相同类的 non-starsnon-stars 的分布结果,发现它们往的分布结果,发现它们往往聚集成团。往聚集成团。

vivi )我们将通过大望远镜去观测那些不能被证认的)我们将通过大望远镜去观测那些不能被证认的 non-starnon-starss 的光谱。的光谱。

Page 25: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

随着获得更多有用信息和观测数据的增加,随着获得更多有用信息和观测数据的增加,我们有信心构建一个纯的恒星样本,发现一我们有信心构建一个纯的恒星样本,发现一些些 non-starsnon-stars 的分布规律。它们将对研究恒星的分布规律。它们将对研究恒星的结构和演化有帮助,并且能够揭示恒星的的结构和演化有帮助,并且能够揭示恒星的一些内在规律。一些内在规律。

Page 26: 应用 AutoClass 算法聚类分析 SDSS 巡天的恒星数据

谢谢大家!谢谢大家!