Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive...

26
Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS [email protected]

Transcript of Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive...

Page 1: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 1

Communication scientifiqueArchives ouvertesArchives institutionnelles

L’archive du CNRS

[email protected]

Page 2: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 2

L’IST au CNRS

La communication scientifique est rattachée directement à la direction de la stratégie du CNRS

Création de la DIS Fédérations des acteurs (INIST, CCSD, CENS, …)

Communiqués de presse, mars 2005 Vers un accès libre aux résultats de la recherche…

Le CNRS, l’INSERM, l’INRA et l’INRIA tirent parti de leurs spécificités respectives et créent des archives institutionnelles pour les chercheurs

Announcement: INRIA launches its Open Archive in April 2005 INRIA’s Open Archive is part of the HAL Open Archive, produced by

the CCSD

Page 3: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 3

ArXiv, le modèle depuis plus de 10 ans

Initiative de Paul Ginsparg à Los Alamos (xxx) 4 000 manuscrits déposés par mois 500 000 manuscrits déposés à ce jour 300 000 consultations journalières Des sites miroirs dans le monde entier

Australie, Brésil, Chine, Allemagne, Inde, IsraëlItalie, Japon, Russie, Afrique du Sud, FranceCorée du Sud, Espagne, Taiwan, Angleterre,…

Page 4: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 4

Les missions du CCSD

Une initiative du CNRS pour des archives scientifiques ouvertes

Une approche internationale : Ne pas construire une archive nationale, mais s’intégrer dans le

mouvement « open archives »

Une approche essentiellement « chercheur » Des archives alimentées directement par les chercheurs avec, comme

vocation première, la réalisation d’un outil scientifique offrant l’accès au document intégral

Un outil administratif indirect grâce à la collecte « au passage » de méta données suffisantes

Une mission d’archivage à long terme

Page 5: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 5

Les services du CCSD Bientôt sur une plate-forme unique

HAL - Hyper Articles en Ligne interconnecté avec ArXiv HALSHS (Sciences de l’Homme et de la société) Tématice (SHS, MSH de Paris) Démocrite 3 (IN2P3) Etc.

TEL – Thèses en Ligne (en cours d’intégration dans HAL)

Quelques serveurs spécifiques (en cours de migration vers HAL) Jean Nicod (sciences cognitives) ArchiveSIC (sciences de l’information) Cours en ligne, Codes informatiques en ligne, MemSIC …

Les miroirs ArXiv PhysNet

Page 6: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 6

Collaborations, partenaires

ArXiv Cornell University (Paul Ginsparg)

INRIA (accord cadre)

MathDoc, l’UJF, l’IMAG

L’INIST (HAL, memSIC, etc.)

La MSH de Paris et HESS

Les EPST : INRA(IRD, IFREMER), INSERM, IRSN, etc.

Des projets sont en cours de discussion avec les universités (CPU), la sous direction des bibliothèques, la direction de la recherche, les EPST pour un futur statut de HAL et du CCSD Co-pilotage, comité stratégique

Page 7: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 7

Un frontal pour tous les domaines scientifiques d’ArXiv

Tous les documents déposés sur Hal le sont simultanément sur ArXiv si le domaine existe Mêmes règles, mêmes formats, davantage de méta données

Un serveur multi-disciplinaire ArXiv et non ArXiv

Des méta données plus riches

Des vues sélectives ou privées : les collections, fondées sur un système de tampon (épi journaux, congrès)

Trois types d’objets : articles, articles « anciens », et notices

Ouvert depuis septembre 2002 (accroissement 200 articles/mois)

Page 8: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 8

Respect des standards OAI-PMH (entrepôt de données) RSS (Cite seer, utilisateurs) REDIF (REPEC)

Indexable Structure permettant l’indexation par les moteurs de recherche publiques

Google, Google scholar

Interconnectable API (XML)

Moissonneur / intégrateur (2006)

Page 9: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 9

Un système souple permettant, en plus de la version «généraliste», des environnements personnalisés

Exemple Tématice en SHS : Plus de méta données, règles de dépôt différentes (autoarchivage et

enrichissement de la notice par des documentalistes)

Démocrite@hal à l’IN2P3 Système orienté « documentaliste »

HAL-SHS Dédié au Sciences de l’Homme et de la Société

Etc.

Page 10: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 10

TEL – Thèses En Ligne Un serveur de thèses multi-disciplinaire

Une collaboration MathDoc CCSD

Ouvert depuis juillet 2001

Plus de 4000 thèses à ce jour (accroissement ~200 thèses/mois)

Alimenté par les auteurs ou les laboratoires… …ou automatiquement (IMAG, IN2P3,etc.)

Tris Par universités, laboratoires ….

Un modérateur par domaine vérifie l’existence réelle de la thèse

Page 11: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 11

Formats des documents

Encouragement au dépôt des documents « source » Pérennité de l’archivage et conservation à long terme

TeX, LaTeX recommandés en sciences dures (ArXiv)

Formats visualisables (PDF essentiellement)

Autres formats possibles (selon les serveurs et les domaines) HTML, PS, RTF, DOC, audio …

Migrations

Quid de XML ? Difficulté à utiliser dans les domaines de physique et de mathématiques

(formules, mathML ???)

Page 12: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 12

Règles de dépôt

Dépôt par l’auteur préalablement identifié Obtention libre d’un compte (« examen » du 1er dépôt d’un auteur) Modération « technique » avant publication Le document est examiné du point de vue de son niveau scientifique et de

la pertinence de son classement thèmatique

Collections Un ou plusieurs « tampons » sont attribués à toute instance qui en fait la

demande (université, société savante, journal, epst, laboratoire, etc.) . Des « vues » sélectives peuvent ainsi être proposées affichant seulement les articles « tamponnés »

Versions L’auteur peut proposer plusieurs versions du même document (le tampon

est dispensé par version)

Page 13: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 13

Futur

Continuer à étendre la couverture disciplinaire (en particulier, vers les sciences humaines et sociales, les sciences de la vie,…)

Faire un travail de rétroconversion, à la fois des thèses et des articles

Articuler mieux avec les revues scientifiques « classiques » (liens croisés, ajout de références pour tout le matériau publié) EPJ, …

Favoriser l’émergence de revues scientifiques « nouvelles » (« épi-journaux »), constituées de tables des matières et de liens pointant vers une archive générale et universelle

Mettre tout le dispositif sous contrôle international pour assurer sa pérennité à très long terme (UNESCO)

Page 14: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 14

Structure de HAL

Page 15: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 15

Les objectifs recherchés 1

Archive multidisciplinaire orientée « texte intégral » Une seule base de données pour l’ensemble des disciplines Dépôt du texte intégral mais aussi de notices et de rétro dépôts

Orientée « chercheurs » Autoarchivage, mais possibilité d’enrichissement des méta données par des

professionnels

Centralisée mais …

… Multi interfaces Préservation de l’identité Méta données « variables » au-delà de la DTD minimum Environnements de dépôt et de consultation personnalisés

Internationale Interconnectée avec les autres systèmes de références

ArXiv en physique / mathématiques / informatique / biologie / … PubMed Central en médecine et biologie (2006)

Page 16: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 16

Les objectifs recherchés 2

Mesurabilité de la production scientifique Des laboratoires, des institutions et plus globalement, de toutes les tutelles À disposition des déposants mais aussi des institutions

Génération des listes de publications dans tous formats (XML, TeX, DOC/RTF, PDF, …)

Transferts vers les bases « administratives » Alimentation de CRAC (fiche chercheur CNRS) Alimentation de Labintel publications

Pérennité Archivage à long terme Stabilité des URLs

Page 17: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 17

Texte intégralTexte intégral

Noticebibliographique

Noticebibliographique

PubMed Central(2006)

PubMed Central(2006)

ArXivArXiv

OAI

HALHALIN2P3IN2P3 SHS/TICESHS/TICE

AUTRESAUTRESINRAINRA

INRIAINRIA

Méta données obligatoires

Méta données spécifiques

Méta données spécifiques

haLEXPORTSIMPORTS

Page 18: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 18

OAI

HALHALIN2P3IN2P3 SHS/TICESHS/TICE

AUTRESAUTRESINRAINRA

INRIAINRIA

?

? ? ?

Réponse

haLEXPORTSIMPORTS

Page 19: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 19

OAI

Méta donnéesMéta données

HALHALIN2P3IN2P3 SHS/TICESHS/TICE

AUTRESAUTRESINRAINRA

INRIAINRIA

?

RéponseIN2P3

haLEXPORTSIMPORTS

Page 20: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 20

Texte intégralTexte intégral

Noticebibliographique

Noticebibliographique

OAI

HALHALIN2P3IN2P3 TICETICE

AUTRESAUTRESINRAINRA

INRIAINRIATELTEL

2005

haLEXPORTSIMPORTS

PubMed Central(2006)

PubMed Central(2006)

ArXivArXiv

Page 21: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 21

Dépôt

Simplification 4 étapes

1. Méta données2. Auteurs, laboratoires, tutelles et association3. [téléchargement du document]4. Récapitulation contrôle, dépôt Retour en arrière possible

2

auteursmétadonnées récapitulationfichiers

Page 22: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 22

Dépôt

Choix des étapes L’ordre des étapes peut être paramétré au niveau d’une interface particulière

Par exemple, on peut décider de commencer par le téléchargement du fichier, afin d’en extraire automatiquement … …La liste d’auteurs …Le résumé …Les références bibliographiques …Etc.

Ces possibles automatismes dépendent fortement du niveau de structuration du document source, (donc de la discipline ?)

ExtractionautomatiqueExtraction

automatique

auteursfichiers récapitulationméta données

Page 23: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 23

URL’S

http://ccsd.cnrs.fr

http://hal.ccsd.cnrs.frhttp://tel.ccsd.cnrs.fr http://halshs.ccsd.cnrs.fr http://democrite.in2p3.fr http://archive-edutice.ccsd.cnrs.fr http://hal.inria.fr/ http://artxiker.ccsd.cnrs.fr/ http://etol.ccsd.cnrs.fr http://cel.ccsd.cnrs.fr

Page 24: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 24

Questions ? Questions ?

http://ccsd.cnrs.fr

[email protected]

Page 25: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 25

Etat des lieux en juillet 2005

Activité en forte progression HAL – toute instance

20 dépôts « fulltext » / jour 1500 transferts d’articles / jour 2900 comptes utilisateurs

TEL 4 dépôts de thèses / jour 900 transferts de thèses / jour

Documents 6500 articles « fulltext » sur HAL 3300 thèses 1550 articles (autre serveur)

Contributeur 2500 (HAL)+ 2000 (TEL)

Page 26: Septembre 2005 1 Communication scientifique Archives ouvertes Archives institutionnelles L’archive du CNRS daniel.charnay@ccsd.cnrs.fr.

Septembre 2005 26

Dépôts