Panorama des réseaux et projets base de données G*E
description
Transcript of Panorama des réseaux et projets base de données G*E
A L I M E N T A T I O N
A G R I C U L T U R E
E N V I R O N N E M E N T
Panorama des réseaux et projets base de données G*E
1
Panorama
• Besoins et outils• Ontologies• Données brutes et élaborées• Exemple de Projets• Réseau d’outils.
2
Quels outils et quels besoins
• Outils d’acquisition de données• Outils de gestion de production de données• Outils d’intégration• Outils d’analyse
3
Paradigme
4
Parcelle
Bloc
…
Plante
Organe
Phenotype
Environnement
Itinéraire tech.
Outils d’acquisition
• Associés Base de données technique
Lemnatech Adonis …
• Fichiers bruts • Nettoyage• Validation• Spécifique • Besoins d’un format d’échange
générique (XML)?
5
Field, basic acquisition
Environment acquisition
Whole field phenotyping
Aerial imaging
Growth chambers Controlled environment
Outils de gestion de donnéesBesoins
• Outil local, quotidien• Utilisé par les équipes en charges
des expérimentations• Intégration depuis BD ou fichiers
de données brutes des outils d’acquisition
• Données phénotypes, environnement, ITK, …
• Analyse Validation Valorisation et production de
données élaborées
6
Environment acquisition
Controlled environment
Basic acquisition
Whole field phenotyping
Aerial imaging
Outils de gestion de donnéesBesoins Essais
• Plante annuelles Essais en conditions contrôlées Essais plein champs
• Plantes pérennes Essai multiannuel Réutilisation des mêmes plantes Cinétiques multi annuelles Contraintes forestières
7
Environment acquisition
Controlled environment
Basic acquisition
Whole field phenotyping
Aerial imaging
Outils de gestion de donnéesBesoins, Echelles
• Différentes échelles spatiales : Dispositifs champs Structure hétérogène
Parcelle, bloc, microparcelle, placette Parcelle, microparcelle, plante Parcelle, Plante
• Différentes échelles temporelles Mesure unique
Date de récolte
Mensuelle Série temporelle
Journalière Horaire Minute
Cinétiques
8
Environment acquisition
Controlled environment
Basic acquisition
Whole field phenotyping
Aerial imaging
Données Multi Echelles (P. Neveu)
Outils de gestion de donnéesBesoins SIG
• Phénotypage plein champs Pech Rouge Diaphen : Garic
Référence coordonnées spatiale Remplace plante/parcelle, …
• Forestier : EFPA / Plantacomp• CATI Ecoinformatique
(géomatique) Alain Benard Liste de diffusion
'géomatique'
9
Outils de gestion de donnéesSolutions
• LEPSE / MISTEA Phenodyn Phenopsys Cincalli Phenoarch Vigne : VitSeq, réutilisation des bases existantes Vinotech : orienté parcelle à Pech rouge
• Diaphen / Garic• SI environnementaux
Infosol Agroclim
Phenec (annuel)/ Phenoclim (pérenne) : impact changement climatique
10
Outils de gestion de donnéesSolutions
• PIC : Système de cultures (V. Cellier, R. Rau)• Phenomics Ontology Driven Data repository(PODD)
The Australian Plant Phenomics Facility En cours de dévelopement, open source Orienté projet Evalué dans le cadre de Phénome
Collaboration : Interopérabilité ou réutilisation.
11
Outils d’intégration
• Thalia Moulon, Phénotype + Génotype
• Intégration données phénotype et environnement Ephesis : intégration de plusieurs sources par
Centralisation de données Interrogation distribuées par Web Services
• Intégration données Génotypage, Expression et génétique
GnpIS Données parcellaire / lot données liées au génotype pour la
génétique
• Intégration passe par la capacité à gérer des données multiéchelles.
12
Ephesis
• Projet Communauté Genotype * Environnement Base de données intégrative / portail
• Attendus Pérennisation, archivage, organisation et tri Intégration par Insertion ou par Web Services Traçabilité génotype (RG), phénotype, environnement,
dispositif expérimental. Favoriser la visibilité nationale et internationale (Données et
Unités) Réorganisation dynamique et exportation des données pour
analyse Interopérabilité avec les outils d’analyses. Coopération avec les projets existants
13
Ephesis
• Périmètre Données plante/parcellaires dans un dispositif expérimental
Données génotype : autres projets GnpIS
Dispositif multigénotype. Données brutes et élaborées
Même structure technique Limite volume Données brutes ont besoin de métadonnées très fines pour être
exploitable ailleurs que sur le site de production.
• Pour qui INRA Partenaires académiques (EPST, universités, EPIC, …) Partenaires projets internationaux Privés
14
Ephesis• Beta publique disponible
http://urgi.versailles.inra.fr/ephesis
• Intégration d’essais• Prévisualisation et export.• Recherche multi essais
multicritères• Générique : Ontolgy Driven
Structures des dispositifs Variables
Environnementales Phénotypique
Itinéraires techniques
15
Ephesis
• Intégration multi essais Interrogation Export
• Réagencement : datamart, galaxy
16
Qu’est ce qu’une ontologie
• Biologiste Vocabulaire contrôlé
et structuré Définitions Hiérarchie Ordonnancement
• Informaticien modèle de données
représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts (Wikipedia)
Relations très riche Plus qu’une simple
hiérarchie
17
A quoi sert une ontologie
• Biologiste Qualité Exhaustif Eviter
les redondance de données
Les synonymes : plant height vs height of the plant
Permet le croisement et la cohérence des données
Dans un laboratoire Entre partenaires
Mapping entre vocabulaires
• Informaticien Base d’outils d’analyse
très puissants Raisonneurs Contrôle sémantique
des données
18
Ontologies, initiatives
• Plant ontology consortium Plant ontology, Trait ontology Très généraliste Basées sur riz, mais, arabidopsis Phenotype RCN
Ouverts Recommandent ontologies spécialisées liées aux leurs
• Projets DROPS, … Optimisées espèces et problématique
• Besoins INRA Vigne, … Construites en interne Optimisées espèces et problématique A partir référence internationale (OIV, …)
19
Ontologies, Perspectives
• Promouvoir les ajouts à l’existant• Promouvoir création de nouvelles ontologies
Groupes espèces Projets
• Promouvoir amélioration qualitative Xref vers des ontologies internationales Collaboration
Fusion et Réutilisation INRA Projets Européens ou plus
• Améliorer la visiblité des ontologies existantes à l’INRA Ontology lookup URGI : http://urgi.versailles.inra.fr/ontology-lookup/ …
20
Données pérenisables et/ou valorisables
• Données élaborées Élaborées pour une
question scientifique précise
A partir de données brutes Nettoyées Homogène ou hétérogène
normalisation (effet années)
Différents types Phénotypes Environnement …
Forte valeur ajoutée Analyse et croisement de
données Volumétrie raisonnable Partenariats
• Données brute hétérogènes
Alphanumériques Images …
Ré exploitable pour de nouveaux questionnement
Analysables Par le producteur et
partenaires Non producteur
Métadonnées Riches En fonction du type de
données brutes Images hyperspectrales
• IrremplaçablesPéreniser
21
Panorama Projets
• Collaborations Plantacomp URGI
• Ephesis• Projets Espèce
Breedwheat, Amazing Peamust, VitisNext, Sorgho, Rapsodyn (Colza), Aker,
Tournesol, Betterave
• Projets Plateforme Phenome Eve equipex vigne et changement climatique
• Metaprogramme Acaf changement climatique : projet acav vigne Selgen Sélection génomique
22
Phenotype and environment databases network
23
International DatabasesData interoperability exchange
Cross references exchangeInternational visibility
Environmental Information Systems
Climatic data Ground
Web interface
Analysis
GnpIS
MapsGnpMapGnpMap
Genomes ExpressionGnpArrayGnpArray
PhenotypesPhenotypesEphesisEphesis
Genotype GnpSNP, Siregal GnpSNP, Siregal
Data integration
Ontologies, Ontologies, GenotypeIDGenotypeID
Web Services and file exchange
DataMarts
Environment acquisition
Phenotyping and environment
Controlled environment
Basic acquisition
Whole field phenotyping
Aerial imaging