Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations
sur les interactions génétiques ou moléculaires à partir de publications
Ambroise Ingold (LIPN Université Paris 13)
Le 28 mars 2002
2
PlanPlan
MotivationsIdentification des gènes dans MedlineExtraction d’information sur les
interactionsInterface de la base de donnéesPerspectives
3
La circulation de l’informationLa circulation de l’information
Publications
BdD BibliographiquesMedline
Encyclopédies en ligneFlybase
Données d’expériences
Banque de résultats d’expériencesSwissprot, Genbank
Recherche
4
Investigation dans les BdDInvestigation dans les BdDReprésentation des connaissances
BdD Bibliographique Encyclopédies en ligne
Banques de résultats d’expériences
Indexation
Réf. Biblio.
Réf. rés. exp.
Réf. rés. exp.Réf. Biblio.
Indexation
GED, informatique documentaire
Bio-informatique
5
Medline (exemple)Medline (exemple)Regulation of scute function by extramacrochaete in vitro and in vivo.The pattern of adult sensilla in Drosophila is established by the dosage-sensitive interaction of two antagonistic groups of genes. Sensilla development is promoted by members of the achaete-scute complex and the daughterless gene whereas it is suppressed by whereas extramacrochaete (emc) and hairy. All these genes encode helix-loop-helix proteins. The products of the achaete-scute complex and daughterless interact to form heterodimers able to activate transcription. In this report, we show that (1) extra-macrochaete forms heterodimers with the achaete, scute, lethal of scute and daughterless products; (2) extramacrochaete inhibits DNA-binding of Achaete, Scute and Lethal of Scute/Daughterless heterodimers and Daughterless homodimers and (3) extramacrochaete inhibits transcription activation by heterodimers in a yeast assay system. In addition, we have studied the expression patterns of scute in wild-type and extramacrochaete mutant imaginal discs. Expression of scute RNA during imaginal development occurs in groups of cells, but high levels of protein accumulate in the nuclei of only a subset of the RNA-expressing cells. The pattern is dynamic and results in a small number of protein-containing cells that correspond to sensillum precursors. extramacrochaete loss-of-function alleles develop extra sensilla and correspondingly display a larger number of cells with scute protein. These cells appear to arise from those that in the wild type already express scute RNA; hence, extramacrochaete is a repressor of scute function whose action may take place post-transcriptionally.
MeSH Terms :•Amino Acid Sequence •Animal •Drosophila/genetics* •Drosophila/embryology •Epitope Mapping •Gene Expression •Gene Expression Regulation, Developmental* •Genes, Insect* •Helix-Loop-Helix Motifs/genetics •Immunohistochemistry •In Situ Hybridization •In Vitro •Molecular Sequence Data •Morphogenesis/genetics •Sense Organs/embryology* •Support, Non-U.S. Gov't
Gene Symbols :•da•emc •AS-C
?
6
Exemple de lien de Flybase vers MedlineExemple de lien de Flybase vers Medline
Flybase (Gène Wg) Genetic analysis demonstrates that wg is dispensable for efficient homeotic gene expression in the visceral mesoderm. (Tremml and Bienz, 1989)
MedlineTremml G, Bienz M. EMBO J 1989 Sep;8(9):2687-93An essential role of even-skipped for homeotic gene expression in the Drosophila visceral mesoderm.
7
BdD bibliographiques BdD bibliographiques vsvs BdD BdD factuellesfactuelles BdD
bibliographique– Redondantes,
non-ordonnées– À jour, détaillées– Fidèles, nuancées,
contextualisées
BdD factuelles– Organisées,
calculables– Parcellaires,
incomplètes– Simplificatrices, hors
contexte
8
Exemple de couplage Exemple de couplage factuel/textuelfactuel/textuelDomaine d’application
– Gènes– Relations entre les gènes (interaction)
Medline Flybase
BdD interactions
Identification des gènes
Reconnaissance des interactions
9
ArgumentaireArgumentaire
Pas d’indexation des gènes dans Medline (ou très incomplète)
Les références bibliographiques dans Flybase sont incomplètes
Pas de BdD des interactions génétiques
10
RéalisationRéalisation
Système d’identification des gènesSystème d’extraction d’information sur
les interactions
Première partiePremière partie
Identification des gènes
12
Identification des gènes (schéma)Identification des gènes (schéma)
Grandes étapes
Flybase Dictionnaire des gènes
Medline
109 résumés 50 résumés
Mise au point Test
IdentificationConfrontation
Modifications•Manuelles•Automatiques
13
Identification des gènes (plan)Identification des gènes (plan)
Le dictionnaire des gènes issu de FlybaseMéthode d’identification des gènesL’amélioration du dictionnaire des gènesLes résultats
14
Le dictionnaire des gènes issu de Le dictionnaire des gènes issu de FlybaseFlybase Exemple de gène
• Nom complet : wingless
• Symbole : wg
• Synonymes : Spd, spade, fg, flag, Sp, Sternopleural, Br, Bristled, int-1, Dint-1, Dm-1et l(2)wg
Terminologie• Label : la chaîne de caractère
• Gène : l’entité biologique
• Définition : la relation entre le gène et le label
15
Identification : Indexation et Identification : Indexation et interprétation des labelsinterprétation des labelsInitially, eve expression in individual stripes is established by different regulatory elements, each of which responds to nonperiodic spatial cues provided, at least in part, by the gap genes
even skipped (eve)
stripes (str)
16
Élimination des sous-chaînesÉlimination des sous-chaînes
These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.
Reconnaissance bloquée
17
Algorithme d’interprétation des Algorithme d’interprétation des labelslabels
Confirmation de l’interprétation ?
Ambiguïté du label?
Plusieurs interprétations ?
Non
Non
Interprétation confirmée
Défaut de confirmation
Interprétation multiple
Interprétation simple
Oui
Oui
Oui
Non
18
Confirmation des labels ambigusConfirmation des labels ambigus
The different thoracic muscles of Drosophila are affected specifically in the mutants: stripe (sr), erect wing (ewg), vertical wings (vtw), and nonjumper (nj). We have tested the extent of this specificity by means of a genetic analysis of these loci, multiple mutant combinations, and gene dosage experiments. […] The locus stripe seems to have a polar organization where different allelic combinations show quantitative specificity in the muscle affected.
stripe (sr)
« bande »
Interprétation confirmée
19
Confirmation des labels ambigus Confirmation des labels ambigus (algorithme)(algorithme) Confirmation de
l’interprétation ?Oui Interprétation
confirmée
20
We demonstrate that posterior stripe boundaries are established by gap protein repressors unique to each stripe: h stripe 5 is repressed by the giant (gt) protein on its posterior border and h stripe 6 is repressed by the hunchback (hb) protein on its posterior border.
stripe (sr)
Label ambigü non confirméLabel ambigü non confirmé
« bande »
Défaut de confirmation
21
Confirmation de l’interprétation ?Non
Défaut de confirmation
Oui Ambiguïté du label ?
Défaut de confirmation des labels Défaut de confirmation des labels ambigus (algorithme)ambigus (algorithme)
22
Localization of the maternally synthesized nanos (nos) RNA to the posterior pole of the Drosophila embryo provides the source for a posterior-to- anterior gradient of Nos protein. Correct spatial regulation of nos activity is essential for normal pattern formation.
Nitric oxide synthase (Nos)
nanos (nos)
Interprétation multipleInterprétation multiple
Identification multiple
23
Confirmation de l’interprétation ?
Ambiguïté du label ?
Plusieurs interprétations ?
Non
Non Interprétation
multiple
Interprétation multiple Interprétation multiple (algorithme)(algorithme)
Oui
24
Amélioration du dictionnaire des Amélioration du dictionnaire des gènesgènesNettoyage des donnéesAjout de labels, de définitions et de gènes
ou objet assimilé manquantCaractérisation de l’ambiguïté des labels
25
Performance (identification des Performance (identification des gènes)gènes)88 % des identifications sont exactes.Le programme trouve 86 % des
identifications faite par l’annotateur.
26
Améliorations possiblesAméliorations possibles
Type d’erreur - % + % T %Variation orthographique
35 59 12 26 47 45
Manque du dictionnaire
20 34 20 19
Label ambigu 18 39 18 17Confusion entre entités
13 28 13 12
Divers 4 7 3 7 7 7Total 59 10
046 10
0105
100
Deuxième partieDeuxième partie
Reconnaissance des interactions
28
Grandes étapes (reconnaissance Grandes étapes (reconnaissance des interactions)des interactions)
Phrases Phrases annotées manuellement
Liste d’interactions
Phrases annotées automatiquement
Liste d’interactions
Comparaison
Comparaison
29
Calcul de l’IVICalcul de l’IVI
Phrase :We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus
Terme Positif Fréquence Spécificitésignalling 36 49 0,73activity 36 66 0,55directly 35 44 0,80responsible 3 10 0,30accumulation 8 10 0,80proteins 65 127 0,51encoded 8 22 0,36locus 22 45 0,49Moyenne 0.57
30
Extraction des interactionsExtraction des interactions
Phrase :We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus
Notch Enhancer of split
31
Performance de la Performance de la reconnaissance des interactionsreconnaissance des interactions
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
0% 20% 40% 60% 80% 100%
Rappel
Préc
isio
n
2RDG Linéaire (2RDG)
32
Comparaison 2G et nGComparaison 2G et nG
0%
20%
40%
60%
80%
100%
0% 20% 40% 60% 80% 100%
Rappel
Préc
isio
n
nG 2G Linéaire (nG) Linéaire (2G)
Troisième partieTroisième partie
Interface de la base de données
34
Formulaire d’annotationFormulaire d’annotation(graphiques synthétiques)(graphiques synthétiques)
35
Formulaire d’annotationFormulaire d’annotation(comparaison des annotations)(comparaison des annotations)
36
Formulaire d’annotationFormulaire d’annotation(autres informations)(autres informations)
37
Conclusion (Bilan)Conclusion (Bilan) Le couplage factuel-textuel Identification des gènes Flybase dans Medline
– Confrontation encyclopédie/texte– Méthode d’identification automatique des gènes– Étude usage
Reconnaissance interactions– Cooccurrence– Indice de pertinence– Simplicité, robustesse
38
Conclusion (perspective)Conclusion (perspective)
Autres domaines d’applicationsCouplage avec des résultats
d’expériencesInterface Homme-Machine / Recherche
documentaire
Top Related