Qu’est -...
Transcript of Qu’est -...
� Qu’est-ce qu’une donnée ?
� Qu’est-ce qu’un jeu de données ?
� Que sont les métadonnées ? (voir sur le site du DRS)
� Qu’entend-t-on par gestion des données ?
« Les données, ou unités d’information, qui sont créées
au cours d’une recherche, subventionnée ou non, et qui
sont organisées ou formatées de telle sorte qu’ellessoient communicables, interprétables et adaptées à un
traitement souvent informatisé ».
Université de Bristol
« Les données de la recherche sont des enregistrements
factuels (chiffres, textes, images et sons) utilisés comme
sources principales pour la recherche scientifique et
généralement reconnus par la communauté scientifique
comme nécessaires à la validation des résultats de
recherche »
Organisation de Coopération et de Développement Économiques (OCDE)
« Les données de la recherche sont l’ensemble des
informations et matériaux produits et reçus par des
équipes de recherche et des chercheurs. Elles sont
collectées et documentées à des fins de recherche
scientifique. A ce titre, elles constituent une partie des
archives de la recherche. »
Association des archivistes français. Section « Aurore »
« 1) the data, including associated metadata (i.e. the
metadata describing the research data deposited), needed to
validate the results presented in scientific publications ;
2) other data (i.e. curated data not directly attributable to a
publication, or raw data), including associated metadata.»
Commission européenne pour Horizon 2020
« Les données de la recherche sont un ensemble
d’informations factuelles enregistrées sur des supports,
produites ou collectées, selon divers procédés au cours
d’un processus de recherche »
Définition du groupe de travail P5/P7
Le jeu de données
Selon le projet, un jeu de données peut recouvrir des réalités
différentes. Un ou plusieurs jeu(x) de données peuvent être
lié(s) au projet de recherche, et désigner :
i) un lot techniquement homogène,
ii) un lot intellectuellement cohérent même si celui-ci est
composé de lots techniquement hétérogènes.
Définition du groupe de travail P5/P7
BIG DATA Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.
Exemples de projets concernés : 9 séquençage haut débit9 observatoire virtuel en astronomie9 simulation en physique et énergie9 imagerie médicale9 données environnementales biotiques /abiotiques9 données économiques (e-commerce, systèmes
décisionnels)9 données sociales (réseaux sociaux, bibliothèques
numériques, patrimoines culturels)
2012 : lancement des appels à projets « Grandes masses de
données scientifiques » - MASTODONS
OPEN DATAMouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables.Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques. En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.• Directive 2003/98/CE• Ordonnance n°2005-650 du 6 juin 2005 • Directive 2013/37/UE
RESEARCH DATAEnregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.
Définition de l’OCDE
Data management Open dataVS.
Diffusion de manière structurée selon une méthode et une licence ouvertedes données pour leur libre accès et
leur réutilisation par tous, sans restriction technique, juridique ou financière.
Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement
les besoins de la recherche sur tout au long du cycle de vie des données
Début du projet Fin du projet
Enjeux juridiques, économiques, scientifiques …
Brevets, CNIL, secret défense, concurrences, droit d’auteurs …
Dépôt en archives ou entrepôts ouverts
Archivage auprès d’un organisme agréé
Données en appui des publications ou OK pour diffusion.
Autres données produites au cours du projet. Pas de diffusion.
Données publiées
Données retenues
Données traitées
Données produites
Données exploitées pour l’élaboration des résultats
Données analysées, agrégées, compilées, transformées
Données primaires produites ou collectées au cours de la recherche
Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne.
Perte d’information importante au cours du processus de publication
Publications fréquentes de résultats erronés dans degrandes revues à comité de lecture et fort facteurd’impact
� Affaire Hendrick Schön – Chimie de la matière condensée - 2001
� Affaire Diederik Stapel – Psychologie sociale – 2011� Affaire Yoshiki Sasai (cellule STAP) – 2014� Les corrélation abusives etc.
Le libre accès aux publications et aux données associées facilite :
9 Une vérification des résultats obtenus grâce à la possibilité de rejouer les données
9 Un meilleur recensement par les logiciels de détection anti-plagiat type Compilatio (utilisé pour les thèses à Paris Descartes)
9 Une meilleure diffusion auprès des pairs par une visibilité accrue auprès des moteurs de recherche
Lancement d’un Open research data pilot : 1) Produire un plan de gestion des données, 2) Déposer les données et métadonnées dans un entrepôt de données. Pour les ERC : recommandations
“Open research data represents a revolution in the way research is conducted and LERU both notes and endorses this development. […] Universities need to note the move to data- driven research and take appropriate actions”
Motion adoptée par la CP2U du 1er Octobre 2015 : La CPU tient à réaffirmer que […] les données de la science doivent être érigées en données d’intérêt général. […] science ouverte se fonde sur l’accès ouvert aux publications (open access), l’accès ouvert aux données de la recherche (open data) et à la libre réutilisation des publications et des données à des fins de recherche.
Plan d’action 2016 de l’ANR et appels à projet génériqueLes chercheurs sont encouragés à tirer parti, lorsque cela est possible, des infrastructures et des grandes bases de données existantes, et de promouvoir leurs résultats en « open access »
SHERPA / JULIET : Research funders' open access policies
SHERPA/FACT : Funders and authors compliance tool
Financement public de la
recherche (locaux, crédits,
bourses, matériels etc.)
Jeux de données
Université
ROI négatif ROI positif
Chercheur(se)
Editeurs commerciaux
Archives ouvertes
1x
2x
2x
Développement et revente de produits et services commerciaux à partir de données évaluées et mises à disposition gratuitement ou à leur frais par les chercheurs et leurs institutions.
• Concevoir de nouvelles infrastructures et de nouvelles méthodes de traitement
• Obtenir les financements
• Disposer des espaces de stockage à moyen terme
• Garantir l’archivage à long terme (sélection)
• Développer des outils de visualisation
• Identifier les besoins de formations et les nouvelles compétences
• Gérer les données personnelles et les questions juridiques associées
• décrire le cycle de gestion et de vie des données produites,collectées ou générées tout au long du projet de recherche.
• anticiper les questions de gestion qui surviennent au cours d’unerecherche et les conditions d’une conservation et diffusion futuredes données.
Un plan de gestion de données est un document formelprécisant la manière dont seront produites, traitées, décrites,diffuser et conserver les données au cours et à l’issue du projet.
Il permet de :
Section 1 : Informations relatives au projet
Section 2 : Responsabilité des données : répartition des rôles
Section 3 : Ressources nécessaires à la mise en œuvre du PGD
Section 4 : Jeux de données
4.1 Description du jeu de données4.2 Stockage, accès et sécurité des données – au cours du projet4.3 Métadonnées : documentation et organisation des données4.4 Dissémination des jeux de données – à l’issue du projet
Section 5 : Sélection et archivage – obligatoire que les données soient diffusées ou non
Valable pour
l’ensemble du projet
Valable
pour
l’ensemble du projet
Propre à
chaque jeu
de données
Un jeu de données est un ensemble de données techniquement homogènes ou intellectuellement cohérentes.
Le DMP est un document
prospectif et évolutif destiné à
être enrichi à mesure de
l'avancement du projet.
17
Fo
rma
tio
n a
ux
corr
esp
on
da
nts
Eu
rop
e -
SP
C
Téléchargerle guide
S’inscrireS’inscrire
Télécharger
le template
Le DMP, un livrable pour les projets pilote H2020 :
• attendu dans les 6 premiers mois de la vie du projet (des améliorations du DMP peuvent également faire l’objet de livrables subséquents) ;
• obligatoire dans les projets inscrit au pilote Open ResearchData
• pas contenu dans la proposition de projet soumise et ne fait pas partie de l’évaluation.
En revanche, dans les actions de recherche et d’innovation (RIA) et et les actions d’innovation (IA) le "template proposal" inclut une section management des données de recherches, évaluée sous le critère "impact".
• Coordination (projet collaboratif)
• Analyse et gestion des risques (informatique, juridique, économique, scientifique, humain etc.)
• Prise en compte du cycle de vie de la donnée
• Anticipation et optimisation des coûts (éligibilité)
• Monitoring des besoins et activités
Plannifier
Produire/ Collecter
Stocker
Décrire Préserver / Archiver
Intégrer
Analyser
Rédaction d’un DMP
Mise en place d’espaces serveur sécurisés pour accéder au document. Ajout des métadonnées de gestion
Documenter les données pour permettre leur réutilisation. Ajout des métadonnées descriptives (diffusion) normées et structurées
Recherche de données , procédés semblables ou complémentaires. Métadonnées d’observation
Archiver pour garantir la pérennité de l’accès et de la compréhension des données. Ajout de métadonnées de préservation
Réutilisation
Diffusion
Idée de la recherche
Demande de financement
Projet financé
Données de la recherche
Publications scientifiques
Rapport final
� Identifiant pérenne (DOI, Handle) � Indexées
� En ligne sur le web� Gratuites
� Validées� Décrites , documentées� Normalisées (ontologie)
� Entrepôts ouverts� Protocoles moissonnables
� Licence libres� Formats non propriétaires� Archivage pérenne
Métadonnées
Jérémy Lasbleiz. Utilisation des ontologies dans le contexte de l'Imagerie par Résonance Magnétique. Ingénierie biomédicale. Université Rennes 1, 2013. Français. <NNT : 2013REN1B017>. <tel-00950357>
(appariable à SNOMED-CT et DICOM)
Un ontologie est un ensemble structuré des termes et concepts représentant le sens d'un champd'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domainede connaissances. Les ontologies sont employées dans Web sémantique, le génie logiciel,l'informatique biomédicale ou encore l'architecture de l'information comme une forme dereprésentation normalisée de la connaissance au sujet d'un monde ou d'une certaine partie de cemonde.
Types de données Définitions Valeur et spécificité Exemples
Données d’observation (Observational datas)
Données obtenues en
temps réel
Souvent uniques et
irremplaçables
Données
atmosphériques,
d’enquêtes, échantillons,
neuro-image
Données expérimentales(Experimental datas)
Données obtenues en
laboratoire à partir
d’équipements spécifiques
Reproductibles mais à des
coûts dissuasifs
Séquence de génome,
chromatographie,
spectres RMN
Données de simulation(Simulation datas)
Données générées à
partir de modèles test
Métadonnées et modèles
ont une valeur supérieure
aux résultats
Modèles climatiques,
modèles économiques
Données dérivées ou compilées(Derived or compiled data)
Données obtenues par
compilations ou
traitement des données
brutes
Reproductibles mais à des
coûts dissuasifs
Texte et data mining,
bases de données
compilées, modèles 3D
Données de référence ou données canoniques(Reference or canonical
datas)
Collections statiques ou
organiques de jeux de
données validées
Données publiées ou qui
ont fait l’objet d’une curation
Banque de données sur
le génome, structures
chimiques, portail de
données spatiales
Pratiques disciplinaires
Organismes de financement
Établissements de recherche
Éditeurs
Partage des données inscrit dans les
pratiques de recherche dans certaines
disciplines (ex. : astronomie, génétique,
environnement)
Financements conditionnés par le
respect de certaines règles relatives à la gestion et au partage des données
Politiques institutionnelles définissant
les conditions dans lesquelles doivent
être conservées et rendues accessibles
les données
Obligation de dépôt dans une archive
ouverte des données sur lesquelles reposent les conclusions d’un article +
data journals
ChercheursInitiatives personnelles de mise à
disposition de la communauté
scientifique de ses données (site web,
page perso, réseaux socio.)
Motivations Exemples d’entrepôts
Au
stralia
nN
atio
na
l Da
ta S
erv
ice
Scientific Data
(Nature)• to expose datasets
• fulfil funder requirements to make research data outputs publically
available
• provide accessible, resolvable and permanent access to research data
• provide citable references to data outputs that can be added to your
professional profile including CVs
• enable the generation of citation metrics for research data by services
such as the recently established Thomson Reuters Data Citation Index
Titre journal Éditeur Référencement
Bealllist
OA Coût APC
Date début
Journal of Physical and Chemical Research Data
AIP WoS non - - 1972-
Genomics Data Elsevier WoS non OA €448.6
2013-
Journal of Open Psychology Data
Ubiquity Press
- non OA € 130 2013-
Scientific Data Nature PubMed non OA € 1 050
2014-
Geoscience Data Journal
Wiley WoS non OA € 1 200
2014-
Research Data Journal for the Humanities and Social Sciences
Brill - non OA - 2016-
Instructions aux auteurs
� thèmes / langage(s) / longueur / style de références
� liste d’entrepôts recommandés
Titre, résumé, mots-clé, références
Texte :
�Contexte de la recherche
�Méthode : échantillon, materiel, procédures, contrôle qualité,
questions éthiques
�Description du/des jeu(x) de données
�Bibliographie
Article : texte + un lien vers le jeu de données décrit + matériaux
supplémentaires (illustrations, tableaux , vidéos, sons , etc.)
Un identifiant unique et pérenne est mécanisme d'identification de ressourcesayant vocation à faciliter la gestion numérique sur le long terme de toute chose enassociant des métadonnées. Les métadonnées peuvent évoluer au cours dutemps, mais l'identifiant reste invariant.
Depuis 2012, le système d'identifiant numérique d'objet a été normalisé sous laforme de la norme ISO 26324.Ex. : URI, Handle, ARK etc.
Point de contact France
INIST-CNRS
Irino, T; Tada, R (2009): Chemical and mineral compositions of sedimentsfrom ODP Site 127‐797. Geological Institute, University of Tokyo.http://dx.doi.org/10.1594/PANGAEA.726855
Geofon operator (2009): GEFON event gfz2009kciu (NW Balkan Region). GeoForschungsZentrum Potsdam (GFZ).http://dx.doi.org/10.1594/GFZ.GEOFON.gfz2009kciu
Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF‐Ensemble runby DWD for the MAP D‐PHASE project. World Data Center for Climate.http://dx.doi.org/10.1594/WDCC/dphase_mpeps
Consortium international opérant comme
agence d’enregistrement de DOI. Objectifs� Promouvoir des normes et bonnes
pratiques relatives à la citation des
données
� Soutenir l’archivage de données pour rendre possible le contrôle des résultats de
la recherche et leur réutilisation.
L’Inist-CNRS est l’institution membre de DataCite pour la France.
Garantir la récupération, l’intégrité et la compréhension des données préservées.
Documenter autant que possible la démarche de recherche, le contexte de production des données et leur mode de traitement. Cela implique de préserver également les :
- Outils de mesure, paramétrage - Algorithmes de traitement, modélisation etc. - Formats des données- Programme et outils de visualisation- Ontologie et éléments de vocabulaire ou d’indexation
http://esante.gouv.fr/services/referentiels/securite/hebergeurs-agrees
Code de la santé publique : articles L1111-8, R1111-9 à R1111-15-1 et R1111-16 (relatifs àl’hébergement des données de santé à caractère personnel par des personnes physiques oumorales agréées à cet effet). Arrêté ministériel du 4 décembre 2009 précisant les normes relativesaux prestations en archivage et gestion externalisée.
Données papier
En application de l’article R.1111-16 du Code de la santé publique, lesprestataires agréés par le ministère de la culture pour la conservationd'archives publiques courantes et intermédiaires sur support papier le sontégalement, ipso facto, pour l'hébergement de données de santé à caractèrepersonnel sur support papier (et ce quel que soit le statut des archives sursupport papier, publiques ou privées, qui contiennent ces données de santé àcaractère personnel).
Données numériques
En revanche, l’hébergement de données de santé à caractère personnel sursupport informatique nécessite un autre agrément, accordé par le ministre dela santé (articles L.1111-8 et R.1111-9 à R.1111-15-1 du Code de la santépublique) – pour tout renseignement à ce sujet, on consultera le site del’Agence des systèmes d’information partagés de santé (ASIP Santé).
Libérer ses données ne signifie pas renoncer à toute forme de droit, de contrôle ou de protection sur les données.
Les licences
- Creative Commons : publications.- Licence ouverte Etalab (Open Licence) : données et publications.- Open Database Licence (ODbl) : base de données. - Open Data Commons Attribution License (ODC –By) : données et bases
de données.- GNU General Public License : logiciels et programmes informatiques
L’embargo
L’embargo est une protection temporaire permettant de remettre à un délai ultérieur lalibre diffusion et/ou réutilisation des données ou des publications. Sous réserved’obligation extérieure, le choix et les durée de l’embargo reviennent à l’auteur. Ex:les subventions H2020 impose un délai maximum de 6 mois d’embargo pour lespublications en sciences et 12 mois pour les SHS.
12/09/2014 Formation aux correspondants Europe SPC45
� Penser un projet structurant sur le long terme
� Susciter une dynamique de coopération en s’appuyant sur les compétences existantes
� Intégrer la gestion des données de la production à la mise à disposition
� Renforcer l’identité numérique de la ComUE à travers la valorisation des données de recherche
Planifier
Gérer & analyser
Disséminer
Découvrir & mesurer
Préserver & réutiliser
DMP
PLATEFORMENUMERIQUE
DATA REPOSRITORY
DISCOVERYALTMETRICS
PORTAIL
CINESPRESTATAIRE
Calculs intensifs traitement de
données chaudes
Signalement indexation et mesures
Données administrativesDonnées descriptives
Données juridiquesDonnées de gestion etc.
Dépôt des jeux de donnéesEnrichissement des métadonnées
Plateforme d’accès
Exposition des métadonnées Répertoire de données Exposition des données
Enrichissement
Dépôt des articlesGestion des accès
donnéesmétadonnées
Préservation des donnéesAccès ponctuel
Comment initier une réflexion institutionnelle en l’absence d’infrastructures et de volonté politique soutenue ?
Propositions
� Privilégier une approche pragmatique par projets
� Concevoir une approche collaborative
� Consolider, documenter et communiquer sur les initiatives de réflexion
Aurore CARTIERUniversité Paris Descartes Service commun de la [email protected]
51
Mentions légales :
http://fr.creativecommons.org/contrats.htm
Un exemple de plan de gestion de données
Présentation du projet : depuis mars 2011, le Centre de données socio-
politiques (CDSP) est fortement impliqué dans la mise en place de
l'équipement d'excellence DIME‐SHS, lauréat de l'appel à projets 2010 des
"investissements d'avenir". Cet équipement vise à doter la France d'une
nouvelle structure en matière de collecte, d’enrichissement et de diffusion
des données quantitatives, qualitatives et web. En particulier, il s’agit de
mettre en place le panel internet ELIPSS (Étude longitudinale par internet
pour les sciences sociales) constitué à partir d’un échantillon aléatoire de la
population résidant en France. Les propositions d'enquête se font lors
d’appels à projets. Ce sont les membres du Comité scientifique et
technique (CST) qui sont chargés de sélectionner les enquêtes administrées
aux panélistes.
projet « ELIPSS »
� Définition : Open Data / Data
management / Big Data
� Le DMP : qu’est ce que c’est / à quoi ça sert. Les questions à se
poser.
� Documenter / Préserver /
Disséminer
� Qu’est ce que peuvent vous apportez le BU et les archives :
� Signaler l’existence de votre projet � Préparer la préservation de ces données
(versement CINES)
� Disséminer les données : penser à la
licence