C-SWF 科学工作流引擎研究进展
-
Upload
amethyst-randall -
Category
Documents
-
view
164 -
download
10
description
Transcript of C-SWF 科学工作流引擎研究进展
![Page 1: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/1.jpg)
Wang fengKunming University of Science and [email protected]
This work was supported by Project “The Research of Scientific Workflow and Relational Key Technology in Virtual Observatory (10878009)” of NSFC-CAS joint fund of astronomy and Natural Science Foundation of Yunnan Province (2007F179M).
![Page 2: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/2.jpg)
什么是科学工作流? Scientific Workflow
与普通的业务工作流的区别? Business Workflow
![Page 3: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/3.jpg)
3
Goals: 对科学家的重复的数据管理与分析任务自动化 - automate a scientist’s repetitive data management and analysis tasks
典型的过程与阶段 : Data access, scheduling, generation,
transformation, aggregation, analysis, visualization
Design, test, share, deploy, execute, reuse SWF’s
![Page 4: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/4.jpg)
天文学家,以网络为平台,以 SWF 为核心与任务定制,摆脱工具与计算机技能的束缚,实现分布数据的自动计算与展现,直接进行科学研究。
Not Virtual Observatory. Should be Digital Observatory. Or Computing Observatory.
![Page 5: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/5.jpg)
源于网格计算,广泛用于生物信息学、经济学的处理。
天文需要有特殊的科学工作流引擎吗? Lots of data (although individual data items
might be bigger) Distributed data Chains of analyses MORE standards for data
formatting/exchange
![Page 6: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/6.jpg)
6
比业务流更多的数据流 需要“编程扩展” 需要抽象与嵌套工作流
![Page 7: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/7.jpg)
7
Rough classification: Control
Don’t know when data arrive (quick reaction) Time of arrival often matters more than value
Data Data arrive in regular streams (samples) Value matters most
![Page 8: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/8.jpg)
8
Specification, synthesis, and validation methods tend to emphasize…
控制相关 - For Control: 事件响应相关 应答时间 针对” deadline” 的实时调度 ) 事件和处理优先
![Page 9: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/9.jpg)
9
For Data: 基于 input 和 output 的功能依赖 内存 / 时间 有效性 针对有效的流水线思想的数据流调度 所有的事件与处理是平等的。
![Page 10: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/10.jpg)
10
Business Workflows 面向任务 : travel reservations, credit-approval,
etc. Tasks, documents, etc undergo modifications
(e.g., flight reservation from reserved to ticketed), but modified WF objects still identifiable throughout
Complex control flow, complex process composition
Dataflow and control-flow are often divorced
![Page 11: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/11.jpg)
11
Scientific Workflows Dataflow and data transformations Data problems: volume, complexity,
heterogeneity Grid aspects:
Distributed computation Distributed data
User-interactions/WF steering Data, tool, and analysis integration Dataflow and control-flow are often married
![Page 12: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/12.jpg)
SWF Data Driven
BWF Task Driven
![Page 13: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/13.jpg)
13
把云南的 Mushroom 和四川的花椒,丢到重庆小天鹅的汤中,再用中石化的天然气加热,结果给存到碗里去。
12 : 40 才吃中饭, 2 : 30 就开会,要坚持到 6:00 才可以奔向小天鹅打望。
![Page 14: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/14.jpg)
C-SWF is : 基于数据流模型的一个工作流语言 ; 基于图态的可编程环境 一个可以有效集成分布服务、数据,并可以有机执
行的任务调度系统。
![Page 15: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/15.jpg)
Data query
Soaplab
Workflow diagram
Tree view of workflow structure
Available services
![Page 16: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/16.jpg)
VO: 可计算的访问服务 C-SWF 必须集成所有可计算的访问服务 ,并
使之形成工作流。 一个服务的输出可以成为其它服务的输入,数
据需要支持分支、合并等。 处理 并行,线程,监控和服务发现
![Page 17: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/17.jpg)
服务发现 Free text search over ‘known’ services. 基于语义的检索,如何有效的快速地找到所需要的服务 .
科学家如何理解功能? 数据出处跟踪 - Provenance tracking
结果数据的全程跟踪,与恐怖的天文海量数据的矛盾 如何实现自动的、语义的数据与数据服务注释 . Possible as the workflow engine creates a
‘managed environment’ with an overview of all data movement.
![Page 18: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/18.jpg)
结果可视化展现 Result visualization Common renderers included in base
distribution include 3d structure, images, graph rendering 。但天文学家到底需要什么?
可扩展性 Extensibility New service classes New renderer types New UI elements
![Page 19: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/19.jpg)
友好人机界面 After all, not all astronomers are computer
scientists. CLI ???? GUI????
友好 Re-run 天文研究是探索过程,本质上无明确需求。 服务的暂停、重运行、参数调整
![Page 20: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/20.jpg)
1. 数据接口: 支持所有主流格式, (FITS, Excel, Plain
Text…) Distributed Data Format (VO-DAS) 2. 框架 Use Taverna(http://www.mygrid.org.uk)
as our reference model.
![Page 21: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/21.jpg)
FITS RAW IMAGE DB...
DATA
ComponentLibrary
Data Abstraction Access Model
Service Layer
Provenance Fault Tolerance HPC Schedule
Presentation and User Interface Layer
Data Access Layer
Design Management
GUI Interface
CLI Interface
Supervision
Adminstration
Parameter Maint.
Log
Workflow
SWF Engine
Archive
Scheduling
Business Logic Layer
Web Portal Web service Data Visualization
![Page 22: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/22.jpg)
3. 提供一定程度的命令行( CLI)与图形用户接口( GUI)
4. 实现了 Service 的调用,与数据接口。 5. 支持第三方开发,自定义 Plug-in 接口标准
![Page 23: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/23.jpg)
实现的目标 : SOAP based web services Soaplab wrapped command line tools Astrogrid and object constructors Inline interpreted scripting (Java based)
通过扩展,实现其它服务的整合。
![Page 24: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/24.jpg)
Document builders
Service invocation
(creates job)
Polling loop (check status, fail if not
ready)
Get results
•Add service to services list by pointing Taverna to Web Service Description Language (WSDL) document online
•Taverna inspects WSDL, extracts operations
•Add operations to workflow, right click to automatically add document builders and splitters for doc/literal style services
•Use nested workflow to define polling logic, sub-workflow fails, waits and retries if data is not ready
*SOAP is the Simple Object Access Protocol - http://www.w3.org/TR/soap/ & http://www.w3.org/TR/wsdl
![Page 25: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/25.jpg)
Soaplab server in services list
Individual tool within category
Soaplab services support rich descriptive metadata
•Soaplab 是 Web 服务生成器,提供了一个以编程方式访问远程计算机上应用。因为这样的应用,特别是在科学的环境,通常是分析数据, Soaplab 通常称为分析Web 服务http://www.ebi.ac.uk/Tools/webservices/soaplab/guide
![Page 26: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/26.jpg)
预计在 2010 年 3 -4月完成 Engine 的原型,并提供开源下载。
支持 Plug-in 模式,鼓励开源编程与协作 支持 Windows, Linux, Mac OS Written in JAVA (JDK 1.5 or up)
![Page 27: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/27.jpg)
1 、通用数据访问接口 2 、流程与服务调用 3 、引擎 4 、数据出处 5 、可编程的任务描述
![Page 28: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/28.jpg)
当前无可用天文服务可以调用。 迫切需要标准。 迫切需要天文数据处理服务。
标准天文可用处理模块、服务等的建设 可用服务部署
![Page 29: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/29.jpg)
目前,国内基本还没有对天文数据提供服务类借口,没有自定制服务。
与 Bioinformation 学科相比,基础差距较大。
![Page 30: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/30.jpg)
VO 的标准是什么? 如何在 China-VO 中,来明确支持可定义数据
接口、可定义的数据流描述。 服务的申明与基于语义的搜索模式 与天文学家的融合
![Page 31: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/31.jpg)
迫切需要在国内,构建开放的数据处理标准服务 (Web Service)
将传统的桌面科学数据处理软件功能网络化、网格化,特别是天文学家迫切需要的功能。
Plugin – Open source
![Page 32: C-SWF 科学工作流引擎研究进展](https://reader030.fdocuments.net/reader030/viewer/2022012305/5681377d550346895d9f18fa/html5/thumbnails/32.jpg)
Q&A