南通大学理学院 - ntu.edu.cn€¦ · 学生课外自主学习时有几点建议。 1. 在数学分析学习过程中要有一个较为明确的自我认识,对于自己的学习计划、学习目标、学
机学习在光谱分析中的应 - China-VO · 机学习研究的标: 是...
Transcript of 机学习在光谱分析中的应 - China-VO · 机学习研究的标: 是...
-
机器器学习在海海量量光谱分析中的应⽤用 罗阿理理 中国科学院国家天⽂文台
2018 CHINA-VO 中国虚拟天⽂台年会
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
报告内容(20分钟)
▸ 简述机器器学习研究的⽬目标(3分钟)
▸ 海海量量光谱分析的需求和挑战 (3分钟)
▸ 3个应⽤用例例⼦子(12分钟)
▸ 总结和展望(2分钟)
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
简述机器学习研究的⽬标
机器器学习是能够从数据中学习的算法
▸ 算法的泛化能⼒力力(训练集和测试集的统计同分布假设。⽋欠拟合:训练误差⼤大;过拟合:训练误差和测试误差差距过⼤大)要求算法模型的容量量(拟合各种函数的能⼒力力)适合所执⾏行行任务的复杂度
▸ 机器器学习研究的⽬目标:不不是找⼀一个通⽤用的学习算法或是绝对最好的学习算法,⽽而是理理解特定数据分布下学习算法的效果。(在所有可能的数据⽣生成分布上平均后,每个算法的错误率都是相同的,参⻅见:Wolpert,1996,Neural Computation,8,1341)
▸ 修改算法降低泛化误差提⾼高性能的⽅方法之⼀一:在代价函数中添加正则化项
▸ 监督学习(给定训练集学习如何关联输⼊入和输出,如ANN、SVM、DT等)与⾮非监督学习(只处理理特征不不操作监督信号,如PCA、K-Means)有时并⽆无明确的界限
▸ 深度学习:解决输⼊入的维度数⽬目远⼤大于训练样本数⽬目(维度灾难)的问题—— 传统机器器学习只能将待预测样本假设为和训练样本最接近的样本,忽略略某些维度上的差异,或者说是降维,因为维度太⾼高,变量量的可配置
数据⼏几何增加。深度学习具有统计可分离性质:是利利⽤用较多的隐含层中的不不同隐含单元进⾏行行特征学习,梯度下降能够在感兴趣的⽬目标函数上⾃自然地学习出光谱上有意义的特征,⽽而不不需要涵盖了了所有特征组合的训练数据。
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
海量光谱分析的需求和挑战
监督学习 ▸ 回归问题:许多问题都可以归结为回归问题。例例如分类、恒星参数测量量、星系光谱的星族分析、光谱双星的成分区分
▸ 检索问题:通过海海量量光谱搜索特定类型的天体。与模版匹配的异同?
▸ 特征学习:相对于较⼤大的特征,寻找具有某些特定物理理性质天体中不不明显的易易被忽略略的特征,增加寻找该类天体的判据。
⾮监督学习 ▸ 聚类和离群数据(略略)
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
▸ 问题:Empirical library 参数空间覆盖不不完备,需要借助于理理论模型光谱,但基于理理论⽹网格内插的光谱拟合⽅方法(各种⾮非线性⽅方法)在估计测量量误差时往往给的都是计算误差,偏⼩小。
▸ 思路路:不不先去⽣生成理理论光谱⽹网格,⽽而是在光谱拟合过程中由训练好的神经⽹网络每迭代⼀一次⽣生成⼀一条,借助于模特卡罗和⻉贝叶斯就可以在观测光谱拟合迭代过程中获得误差估计
▸ 需要:训练⼀一个输⼊入为参数,输出为光谱的神经⽹网络。
▸ 挑战:运算量量极⼤大(每条待测光谱5000次蒙特卡罗)
▸ 解决:并⾏行行化(SPARK)
▸ 应⽤用:LAMOST DR5, 可⽤用,数据增值星表http://paperdata.china-vo.org/GSN_parameters/GSN_parameters.csv
http://paperdata.china-vo.org/GSN_parameters/GSN_parameters.csvhttp://paperdata.china-vo.org/GSN_parameters/GSN_parameters.csv
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
▸ 训练集/验证集/测试集:⽤用PHOENIX Ver 16产⽣生的最新⾼高分辨理理论光谱库,Husser et al. (2013). 包含新的状态⽅方程和谱线表、64层球型⼤大⽓气模型,包含了了NLTE和LTE。共27700条光谱,降低到LAMOST分辨率(红蓝分别降),限制在LAMOST波段
▸⽹网络结构和训练⽅方式:5层⽹网络,每层节点数如下 4, 40, 400, 1000, 3641。⽹网络参数的训练采⽤用BP算法,⽤用auto-encoder 给出初始权值和正则化项,通过微调解决梯度问题,采⽤用early-stop⽅方式防⽌止过拟合。
▸应⽤用于DR5: 信噪⽐比⼤大于30的约530万光谱,计算了了Teff, logg, Teff, [alpha/Fe],按照HDFS格式化后,使⽤用了了由16台⼑刀⽚片组成的spark,运算时间40⼩小时。
▸误差:Teff~80K, logg~0.14dex, Teff~0.07dex, [alpha/Fe]~0.17dex
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例1:⽣成光谱⽹络(GSN)估计恒星参数
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例2:基于伪逆学习的多层⽹络在UNKNOWN光谱中搜索M DWARF
▸ 动机:M dwarfs 是研究银河系太阳邻域的重要天体,因为其数量量众多。然⽽而由于其光度低,在SDSS和LAMOST之前积累的光谱少,LAMOST DR5中已经发布超过55万M dwarfs 。但在UNKNOWN中(共64万)仍存在⼤大量量未被识别的M dwarfs。
▸ 现有⽅方法的问题:从pipeline未能识别的原因分析,有两种落⼊入UNKNOWN的主要原因:信噪⽐比低或部分坏像素光谱导致的卡⽅方不不够⼩小 or 两个或多个相似光谱模版。
▸ 思路路:典型的query问题,可以训练⼀一个泛化能⼒力力强的多层深度⽹网络,但是尽量量减少超参数的调节
▸ ⽅方案:将单隐层的多个3层⽹网络堆叠成为多层⽹网,采⽤用伪逆学习的⽅方法克服梯度下降法需要控制超参数的不不确定性
▸ 结果:在LAMOST DR5 UNKNOW中找到11,441条M型光谱(含巨星)http://paperdata.china-vo.org/Guoyx/2018/dr5_param_M_20180705.csv
http://paperdata.china-vo.org/Guoyx/2018/dr5_param_M_20180705.csv
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例2:基于伪逆学习的多层⽹络在UNKNOWN光谱中搜索M DWARF
* Θ *
Binary fingerprint BF
Threshold
Input data X
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例3:基于随机森林的A型⾦属线星的特征学习
▸ 动机:A型星中存在⼀一类Fe增丰Ca减丰的 Am恒星。在低分辨光谱中能够看到这些Fe族元素的线,但由于Fe线很弱,定量量区分是否Am存在⼀一定的不不确定性。需要学习出更更多的Am光谱的特征谱线。
▸ 问题:尽管已知低分辨率Am光谱的特征,但是那些特征起决定性不不能完全确定。
▸ 思路路:⼆二分类问题中选择特征,可以使⽤用随机森林林算法。由于⾜足够的随机化,特征的排序更更加客观。
▸ ⽅方案:决策树的数⽬目是RF最重要的参数,通过反复验证确定了了1800个树。以单像素流量量为基本特征进⾏行行迭代。在特征重要性排序的前300像素进⾏行行组合,最终获得光谱的谱线特征。
▸ 结果:获得了了15组Fe线特征,同时在LAMOST DR5 中证认了了10,530个Am星 http://paperdata.china-vo.org/Qinli/2018/dr5_Am.csv
http://paperdata.china-vo.org/Qinli/2018/dr5_Am.csv
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
应⽤例3:基于随机森林的A型⾦属线星的特征学习
特征像素重要性排序:红1-50,蓝50-100,绿100-300
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
展望
▸ 机器器学习在天⽂文学的应⽤用的重⼤大机遇
▸ China VO 是⼀一个桥梁梁和纽带
▸ 期望China VO 的数据⽀支撑成为国际品牌
-
虚拟天⽂台年会 (@景德镇 2018.11.21)
谢谢!