基因大数据分析入门 Slideshare
-
Upload
wu-hong-guang -
Category
Technology
-
view
187 -
download
0
Transcript of 基因大数据分析入门 Slideshare
![Page 1: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/1.jpg)
基因大数据分析入门 @5fei
周五 11 月 11
![Page 2: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/2.jpg)
议程1 :基因数据分析行业的现状:为什么 hadoop 没有被基因行业采用A1: SGE VS 阿里批量计算 VS ADAMA2: 安诺基因大数据路线图2 : ADAM 项目介绍: ADAM 为基因行业的分析带来什么好处3 :实验项目的整个架构和代码演示4 :实验项目 VS 原有程序5 :生信人员的工具使用: ADAM-SHELL ADAM-SUBMIT
6 :开发环境简单介绍: IDEA,JAVA,SCALA,SBT,SPARK,ADAM
![Page 3: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/3.jpg)
基因数据分析行业的现状1 :现在大多还是使用的 LSF/SGE
2 :科研机构多使用已经存在的服务器,而 AWS,GOOGLECLOUD 收费而且对其使用也不熟悉3 :处理 1 百万条的 VCF 用 24 个小时相对于测序是可以接受的 4 :科研人员倾向于优化算法,而对数据的处理技术放在次要考虑的位置5 : hadoop 对于基因处理的两个重要瓶颈:依赖网络传输数据和通过磁盘 IO 访问数据
![Page 4: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/4.jpg)
SGE VS 阿里批量计算 VS ADAM
![Page 5: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/5.jpg)
SGE
其本质是对生产环境物理服务器资源池化(开发环境也可以是虚机),它为任务的执行提供物理服务器保证缺点:提交的任务只能在一台服务器上执行,其并发能力的受限于服务器 cpu 数目(任务开发人员也可以自己做任务的拆分和汇总提高并发能力【重新发明轮子】,但开发难度大,代码复用率低,容易出错)
![Page 6: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/6.jpg)
阿里批量计算缺点:1: 集群的节点用户不能独立管理,连 ssh 访问都没有提供(所谓的节点其实是个容器?)2 :只能在经典网络创建, VPC 不支持3 :没有分布式文件系统的产品支持( OSSFS 不成熟,社区开发和维护不活跃)
![Page 7: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/7.jpg)
ADAM 基因数据分析平台其本质是分布式计算,以公有云和私有云作为运行环境,用户提交的任务会被基因数据分析平台自动切分并被投放到集群所有节点执行,并发能力只受限于集群的规模(执行时间和并发能力成反比),资源利用率迅速提高。优点:任务的开发代码里面只包含业务代码(即基因数据分析代码),而关于任务的切分,并发控制和同步由 ADAM 在后台完成,从而极大的降低了任务开发难度,而且和底层和系统调用松耦合,任务可以轻松的适配新的平台 , 产品从设计,开发到市场投放的周期大大的缩短,为公司在未来的竞争提供强大的技术支持缺点:1: 原有的代码需要做迁移改造
![Page 8: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/8.jpg)
安诺基因大数据路线图
![Page 9: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/9.jpg)
![Page 10: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/10.jpg)
ADAM 项目介绍ADAM 是专门用于基因数据的处理和存储格式:主要好处
1 :并行2 :存储空间小
Broad Institute‘s GATK 从 V4 版本开始支持 adam
![Page 11: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/11.jpg)
项目功能介绍$ samtools view sample.rmdup.bam | more
![Page 12: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/12.jpg)
![Page 13: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/13.jpg)
项目功能介绍$ cat win_100k.use_50mer | more
![Page 14: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/14.jpg)
![Page 15: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/15.jpg)
代码演示
![Page 16: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/16.jpg)
实验项目的概览
![Page 17: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/17.jpg)
实验项目 VS 原有程序实验项目目前使用的 scala 语言实现的 ( 也可用 java或 python或 R)
![Page 18: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/18.jpg)
原有程序代码片段
![Page 19: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/19.jpg)
![Page 20: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/20.jpg)
![Page 21: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/21.jpg)
![Page 22: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/22.jpg)
实验项目代码片段
![Page 23: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/23.jpg)
![Page 24: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/24.jpg)
![Page 25: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/25.jpg)
![Page 26: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/26.jpg)
生信人员的工具使用: ADAM-SHELL
$adam-shell
![Page 27: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/27.jpg)
![Page 28: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/28.jpg)
开发环境简单介绍
![Page 29: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/29.jpg)
![Page 30: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/30.jpg)
![Page 31: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/31.jpg)
参考● https://github.com/bigdatagenomics/adam
https://software.broadinstitute.org/gatk/
● https://www.biostars.org/
![Page 32: 基因大数据分析入门 Slideshare](https://reader033.fdocuments.net/reader033/viewer/2022061406/58ee90ad1a28ab22518b4683/html5/thumbnails/32.jpg)
THANK YOU