Questionner le texte scientifique pour caractériser la science et l'innovation

58
Questionner le texte scientifique pour caractériser la science et l’innovation Guillaume Cabanac [email protected] 9 mars 2017 TERRE-ISTEX http://bit.ly/istexCabanac2017 Thème 2 : Indexation et Recherche d’Informations Équipe IRIS : Information Retrieval & Information Synthesis

Transcript of Questionner le texte scientifique pour caractériser la science et l'innovation

Page 1: Questionner le texte scientifique pour caractériser la science et l'innovation

Questionner le texte scientifique pour caractériser la science

et l’innovation

Guillaume [email protected]

9 mars 2017TERRE-ISTEX

http://bit.ly/istexCabanac2017

Thème 2 : Indexation et Recherche d’Informations

Équipe IRIS : Information Retrieval & Information Synthesis

Page 2: Questionner le texte scientifique pour caractériser la science et l'innovation

2

Interroger le texte scientifique ?Prélude : programme de recherche

Page 3: Questionner le texte scientifique pour caractériser la science et l'innovation

3

Interroger le texte scientifique ?Prélude : programme de recherche

Requêterrecherche d’information

Questionnerscientométrie

Page 4: Questionner le texte scientifique pour caractériser la science et l'innovation

4

Prélude : programme de recherche

Page 5: Questionner le texte scientifique pour caractériser la science et l'innovation

Dans ma boîte à outils

5

MertonPrice

Tukey

Hartley Hubert Milard

Prélude : programme de recherche

Page 6: Questionner le texte scientifique pour caractériser la science et l'innovation

6

Prospection sur textes scientifiques

La matière première

1. Notice bibliographiquea. Nature des collaborationsb. Positions dans le champ

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Page 7: Questionner le texte scientifique pour caractériser la science et l'innovation

7Cabanac, G., Hubert, G., & Milard, B. (2015). Academic careers in Computer Science: continuance and transience

of lifetime co-authorships. Scientometrics, 102, 1, 135–150.

.

1a — Nature des collaborations scientifiques

Page 8: Questionner le texte scientifique pour caractériser la science et l'innovation

8

Source: https://projects.groept.be/~emedia

La population(N = 1 870 054)

L’échantillon des« quinquas »

(N = 209 377)

1a — Nature des collaborations scientifiques

Page 9: Questionner le texte scientifique pour caractériser la science et l'innovation

9

Collaborations entretenues versus éphémères 1a — Nature des collaborations scientifiques

Page 10: Questionner le texte scientifique pour caractériser la science et l'innovation

10

Renouvellement1a — Nature des collaborations scientifiques

Page 11: Questionner le texte scientifique pour caractériser la science et l'innovation

11

Effet Matthieu et homophilie1a — Nature des collaborations scientifiques

Page 12: Questionner le texte scientifique pour caractériser la science et l'innovation

12

Positions dans le champ

1b — Positions des élites dans le champ de l’informatique

Page 13: Questionner le texte scientifique pour caractériser la science et l'innovation

13

La matière première

1. Notice bibliographique

2. Plein textea. Éponymie et panthéonb. Équilibre travail-loisirsc. Écriture scientifique : collectifs et genre

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Page 14: Questionner le texte scientifique pour caractériser la science et l'innovation

Uncitedness III : l’importance de ne pas être cité

14

“Eponyms remind us that science and scholarship are the work of dedicated people.” (p. 393)

“mnemonic and commemorative device” (p. 121)Merton, R. K. (1942). Science and technology in a democratic order.Journal of Legal and Political Sociology, 1(1), 115–126.

“the practice of affixing the name of the scientist to all or part of what he has found, as with the Copernican system, Hooke’s law, Planck’s constant, or Halley’s comet” (p. 643)Merton, R. K. (1957). Priorities in scientific discovery: A chapter in the sociology of science. American Sociological Review, 22(6), 635–659.

Cabanac, G. (2014). Extracting and quantifying eponyms in full-text articles. Scientometrics, 98, 3, 1631–1645.

2a — Éponymie et panthéon scientifique

Page 15: Questionner le texte scientifique pour caractériser la science et l'innovation

15

Théories The Reward System of Science (Merton, 1942, 1957) Obliteration by Incorporation (Merton, 1988; McCain, 2011, 2012) Non-indexed Eponymal Citedness (Száva-Kováts, 1994)

Extraire et quantifier les éponymes en plein texte Connaître les savants les plus influents d’un champ donné Amender un dictionnaire d’éponymes Identifier les tendances et l’incorporation de méthodes

Appréciation implicite via les éponymes2a — Éponymie et panthéon scientifique

Page 16: Questionner le texte scientifique pour caractériser la science et l'innovation

16

Moissonnage d’éponymes en plein texte2a — Éponymie et panthéon scientifique

Page 17: Questionner le texte scientifique pour caractériser la science et l'innovation

17

Révélation du panthéon scientifique implicite2a — Éponymie et panthéon scientifique

Page 18: Questionner le texte scientifique pour caractériser la science et l'innovation

Work-life Balance

18Cabanac, G., & Hartley, J. (2013). Issues of work-life balance among JASIST

authors and editors. JASIST, 64, 10, 2182–2186.

2b — Équilibre travail-loisirs

Page 19: Questionner le texte scientifique pour caractériser la science et l'innovation

Fragrances du Publish or Perish ?

19

2b — Équilibre travail-loisirs

Page 20: Questionner le texte scientifique pour caractériser la science et l'innovation

20

Faire parler les « séquelles » de la peer review

Sunday!

2b — Équilibre travail-loisirs

Page 21: Questionner le texte scientifique pour caractériser la science et l'innovation

21

Ce que les traces révèlent...

Authors

Editors

2b — Équilibre travail-loisirs

Page 22: Questionner le texte scientifique pour caractériser la science et l'innovation

22

Travailler dans sa bulle le week-end ?

[…]

2b — Équilibre travail-loisirs

Page 23: Questionner le texte scientifique pour caractériser la science et l'innovation

23

Écriture et genre de l’auteur 1/3

Théorie et observations en psychologie dans les années 1960 Men are more spatially and mathematically oriented than women Women are more verbally oriented than men

http:

//w

ww

.kah

eel7

.com

/eng

/imag

es/s

torie

s/2(

5).jp

g

2c — Écriture scientifique : collectifs et genre

Hartley, J. & Cabanac, G. (2014). Do men and women differ in their use of tables and graphs in academic publications?Scientometrics, 98, 2, 1161-1172.

Page 24: Questionner le texte scientifique pour caractériser la science et l'innovation

24

Résultats sur 1 403 articles mono-signés en STM Les hommes emploient 26 % plus de figures que les femmes (p < 0.001) Les hommes emploient 11% plus de tableaux que les femmes (p = 0.102)

… cependant, cette différence se voit-elle en pratique ?

2c — Écriture scientifique : collectifs et genre

Écriture et genre de l’auteur 2/3

Page 25: Questionner le texte scientifique pour caractériser la science et l'innovation

25

Hypothèse Il est plus difficile de s’accorder sur du texte que sur des figures/graphes Davantage de figures et graphes dans les article co-signés

2c — Écriture scientifique : collectifs et genre

Cabanac, G., Hubert, G., & Hartley, J. (2014). Solo versus collaborative writing: Discrepancies in the use of tables and graphin academic articles. Journal of the American Society for Information Science and Technology, 65, 4, 812–820.

Écriture et collectifs d’auteurs 3/3

Page 26: Questionner le texte scientifique pour caractériser la science et l'innovation

26

Davantage de tableaux dans les articles co-signés vs. mono-signés

2c — Écriture scientifique : collectifs et genre

Écriture et collectifs d’auteurs 1/2

Page 27: Questionner le texte scientifique pour caractériser la science et l'innovation

27

Davantage de figures dans les articles co-signés vs. mono-signés

2c — Écriture scientifique : collectifs et genre

Écriture et collectifs d’auteurs 2/2

Page 28: Questionner le texte scientifique pour caractériser la science et l'innovation

28

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’éditiona. Effets d’ordonnancement sur l’évaluation par les pairsb. Panorama d’un champ

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Page 29: Questionner le texte scientifique pour caractériser la science et l'innovation

29

Différences entre champs disciplinaires : les confs3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 30: Questionner le texte scientifique pour caractériser la science et l'innovation

30

Conférences : et si la date de soumission importait ? Évaluation par les pairs

Cabanac, G., & Preuss, T. (2013). Capitalizing on order effects in the bids of peer-reviewed conferences to securereviews by expert referees. JASIST, 64, 2, 405–415.

3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 31: Questionner le texte scientifique pour caractériser la science et l'innovation

31

3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 32: Questionner le texte scientifique pour caractériser la science et l'innovation

32

Le biais de la date de soumission Données de ConfMaster : 42 conférences en informatique

3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 33: Questionner le texte scientifique pour caractériser la science et l'innovation

33

Biais de la date de soumission Influence sur les enchères (bids)

3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 34: Questionner le texte scientifique pour caractériser la science et l'innovation

34

Faites évaluer par ceux qui le veulent !3a — Effets d’ordonnancement sur l’évaluation par les pairs

Page 35: Questionner le texte scientifique pour caractériser la science et l'innovation

35

Les gardiens de l’évaluation par les pairs : gatekeepers

(Braun, 2009)

Cabanac, G. (2012). Shaping the landscape of research in information systems from the perspective of editorial boards:A scientometric study of 77 leading journals. JASIST, 63, 5, 977–996.

3b — Panorama de la recherche en systèmes d’information

Page 36: Questionner le texte scientifique pour caractériser la science et l'innovation

36

77 revues « cœur » en IS selon une autorité : le WoS3b — Panorama de la recherche en systèmes d’information

Page 37: Questionner le texte scientifique pour caractériser la science et l'innovation

37

Analyse exploratoire des données recueillies 77 revues 2 846 gatekeepers

3b — Panorama de la recherche en systèmes d’information

Page 38: Questionner le texte scientifique pour caractériser la science et l'innovation

38

3b — Panorama de la recherche en systèmes d’information

Analyse exploratoire des données recueillies

Page 39: Questionner le texte scientifique pour caractériser la science et l'innovation

39

Graphe thématique des 77 revues référencées en SI3b — Panorama de la recherche en systèmes d’information

Page 40: Questionner le texte scientifique pour caractériser la science et l'innovation

40

Influence, pouvoir, verrouillage...

(198

4)

3b — Panorama de la recherche en systèmes d’information

Page 41: Questionner le texte scientifique pour caractériser la science et l'innovation

41

Un siège à la table des négociations ?3b — Panorama de la recherche en systèmes d’information

Page 42: Questionner le texte scientifique pour caractériser la science et l'innovation

42

(Manque de) Diversité géographique et de genre3b — Panorama de la recherche en systèmes d’information

Page 43: Questionner le texte scientifique pour caractériser la science et l'innovation

43

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partagea. Marché noir de l’édition scientifique

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Page 44: Questionner le texte scientifique pour caractériser la science et l'innovation

Émergence de l’Open Access gris/clandestin

44

Domaines Science de l’information Sociologie des sciences

Contexte : (non)-accès à l’IST 8 millions de chercheurs + des amateurs (sciences participatives) + grand public 114 millions de documents scientifiques en ligne

mais seulement 24 % accessibles librement

Défi : dévoiler rouages et contenu des bibliothèques clandestines Library Genesis (23M d’articles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar

Contribution : article JASIST accepté en octobre 2014 Alimentation : biblioleaks + crowdsourcing Contenu : distribution des éditeurs, disciplines, langues…

@ric

kypo

Cabanac, G. (2016). Bibliogifts in LibGen? A study of a text-sharing platform driven by biblioleaks and crowdsourcing. Journal of the Association for Information Science and Technology, 67, 4, 874–884.

4a — Le marché noir de l’édition scientifique

Page 45: Questionner le texte scientifique pour caractériser la science et l'innovation

Étudier l’Open Access clandestin : les enjeux

45

4a — Le marché noir de l’édition scientifique

Page 46: Questionner le texte scientifique pour caractériser la science et l'innovation

46

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnellea. Collaborations et thématiques d’un laboratoire

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Page 47: Questionner le texte scientifique pour caractériser la science et l'innovation

Que fait ce labo multi-site de 686 personnes ?

47

5a — Collaborations et thématiques d’un laboratoire

Page 48: Questionner le texte scientifique pour caractériser la science et l'innovation

Que fait ce labo de 686 personnes ?

48

http://www.irit.fr/IMG/pdf/ORGANIGRAMME_IRIT_RECHERCHE_MAI_2015.pdf

5a — Collaborations et thématiques d’un laboratoire

Page 49: Questionner le texte scientifique pour caractériser la science et l'innovation

Que fait ce labo de 686 personnes ?

49

https://websecu.irit.fr/IMG/pdf/Rapport_Web_HCERES_IRIT.pdf

5a — Collaborations et thématiques d’un laboratoire

Page 50: Questionner le texte scientifique pour caractériser la science et l'innovation

Des données publiques…

50

5a — Collaborations et thématiques d’un laboratoire

Page 51: Questionner le texte scientifique pour caractériser la science et l'innovation

Analyse scientométrique

Contexte : l’évaluation de l’IRIT (octobre 2014)

Question : qu’apprend-t-on de l’analyse des publications ? Source : le site web de l’IRIT (données publiques)

ex : http://dbweb.irit.fr/publi/recherche.list_crit_avance?theme=0&crit1=2&op1=5&texte1=2009&crit2=2&op2=6&texte2=2014&typpub=5

Critères d’échantillonage Revues et conférences à comité de lecture (RICL, RNCL, CICL et CNCL) Année ≥ 2009 (certaines publications étaient à paraître) Auteurs listés parmi les « membres permanents » des équipes

Statistiques 260 auteurs 3 860 publications dont 82 % en international

Avertissement : étude exploratoire à consolider.

51

5a — Collaborations et thématiques d’un laboratoire

Page 52: Questionner le texte scientifique pour caractériser la science et l'innovation

Méthodo : les collaborations inter-thèmes Graphe des collaborations

Un sommet = un membre de l’IRIT Couleur : son thème IRIT Taille : nombre de publications normalisé

S 1/N Modélise un « effort » : effort d’écrire à 2 > effort d’écrire à 10

(en supposant une répartition uniforme du travail)

Une arrête = une collaboration Couleur : mélange des couleurs des sommets reliés Taille : nombre de coauteurs par co-publication normalisé

S 1 / ((N × (N – 1)) / 2) Modélise la force du lien interpersonnel : collaborer à 2 > collaborer à 10

52

5a — Collaborations et thématiques d’un laboratoire

Page 53: Questionner le texte scientifique pour caractériser la science et l'innovation

53

T2

T1

T3

T4

T5

T7

T6

Preuve de concept : IRIT

Données :

• 2009-2014

• RICL, RNCL, CICL, CNCL

• 260 auteurs

• 3 860 articles (82 % internat.)

Interprétation :

• Collaboration inter-thèmes

• Force des liens faibles

Attention :

• Variabilité des pratiques de publication selon les domaines : fréquence, travail ± collaboratif…

Réalisé avec Gephi

Caractérisation des collaborations inter-thème5a — Collaborations et thématiques d’un laboratoire

Page 54: Questionner le texte scientifique pour caractériser la science et l'innovation

Méthodo : les thématiques Analyse lexicométrique

Un titre de publication = un document Focus sur les RICL et CICL pour ne pas mélanger les langues Élimination des mots non discriminants (stop-list + manuelle)

Deux résultats Classification en 7 classes (paramètres fixé) avec la méthode Reinert Extraction des mots-clés

54

5a — Collaborations et thématiques d’un laboratoire

Page 55: Questionner le texte scientifique pour caractériser la science et l'innovation

55Réalisé avec Iramuteq

Caractérisation des thématiques 1/2

5a — Collaborations et thématiques d’un laboratoire

Page 56: Questionner le texte scientifique pour caractériser la science et l'innovation

56

Interprétation :

• 4 objets principaux

• Des pétales à explorer

NB : le nombre de mots représentés peut être paramétré pour ajuster le niveau de détail.

Réalisé avec Iramuteq

Caractérisation des thématiques 2/2

5a — Collaborations et thématiques d’un laboratoire

Page 57: Questionner le texte scientifique pour caractériser la science et l'innovation

57

Conclusion et perspectives générales

Reconnaître les structures d’opportunités

Question de recherche : - captivante - originale / inattendue - importante

Revue de la littérature : - interdisciplinaire - sur le temps long

Données et méthodes : - données originales en libre accès, de préférence - méthode mixte : quanti + quali

Page 58: Questionner le texte scientifique pour caractériser la science et l'innovation

Merci

http://www.irit.fr/~Guillaume.Cabanac

@gcabanac