Objectifs poursuivis
description
Transcript of Objectifs poursuivis
![Page 1: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/1.jpg)
Alignement de séquences Alignement de séquences biologiquesbiologiques
Laurent DuretLaurent Duret
Pôle Bioinformatique LyonnaisPôle Bioinformatique Lyonnais
htt://pbil.univ-lyon1.fr/alignment.htmlhtt://pbil.univ-lyon1.fr/alignment.html
![Page 2: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/2.jpg)
Objectifs poursuivisObjectifs poursuivis
Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :
Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble
de gènes ou de protéines. Prédiction de fonction Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin) Reconstitution des relations évolutives entre séquences
(phylogénie) (Cf Gouy). Choix d'amorces PCR ...
![Page 3: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/3.jpg)
Alignement: représentationAlignement: représentation
Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences.
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * * Mutations :
Substitution (mismatch) Insertion Délétion
Insertions ou délétions : indels (gap).
![Page 4: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/4.jpg)
Quel est le bon alignement ?Quel est le bon alignement ?G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * * *
OU
G T T A C - G A
G T T - - G G A
* * * * *
Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
![Page 5: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/5.jpg)
Fonction de score de similaritéFonction de score de similarité
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * *
Score =
Exemple: identité = 1 mismatch = 0 gap = -1
Score = 10 - 4 = 6
pondération_ substitution− pénalité_gapdébut
fin
∑début
fin
∑
![Page 6: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/6.jpg)
Modèle d'évolution (ADN) Modèle d'évolution (ADN)
Transition: A <-> G T <-> C Transversions : autres substitutions p(transition) > p(transversion)
G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * . * *
ACGT
![Page 7: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/7.jpg)
Modèle d'évolution (protéines) Modèle d'évolution (protéines) Code génétique
Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation Asp (GAC, GAU) Cys (UGC, UGU) : 2 mutations Asp (GAC, GAU) Trp (UGG) : 3 mutations
Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.)
Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues
PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs)
ValIleHCCOOHHCCH3CH3NH2HCCOOHHCCH3CH2NH2CH3
Substitutions Substitutions conservatricesconservatrices
![Page 8: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/8.jpg)
Pondération des gapsPondération des gaps
TGATATCGCCA TGATATCGCCA
TGAT---TCCA TGAT-T--CCA
**** *** **** * ***
Gap de longueur k: Pénalités linéaires: w = o + e k o : pénalité pour l'ouverture d'un gap
e : pénalité pour l'extension d'un gap
0
10
20
30
40
50
0 5 10 15 20k
![Page 9: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/9.jpg)
Pondération des gaps (plus réaliste)Pondération des gaps (plus réaliste) Estimation des paramètres sur des alignements "vrais" (par exemple basés sur
l'alignement de structures connues) Gap de longueur k:
Pénalités logarithmiques: w = o + e log(k)
w = f(log(k), log(PAM), résidus, structure)– PAM: la probabilité d'un gap augmente avec la distance évolutive– Résidus, structure: la probabilité d'un gap est plus forte dans une boucle
(hydrophile) que dans le cœur hydrophobe des protéines
0
10
20
30
40
0 5 10 15 20k
![Page 10: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/10.jpg)
Similarité globale, locale Similarité globale, locale
ARNmgènedomaineprotéine Aprotéine Bprotéine Aprotéine Bsimilarité globalesimilarité locale
![Page 11: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/11.jpg)
Similarité, homologie Similarité, homologie
Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun
30% d'identité entre deux protéines => homologie, sauf si Fragment similaire court (< 100 aa)
Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)
![Page 12: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/12.jpg)
Algorithmes d'alignement de deux Algorithmes d'alignement de deux séquencesséquences
Algorithme de programmation dynamique : Alignement global: Needleman & Wunsh Alignement local: Smith & Waterman
Heuristiques : FASTA BLAST
![Page 13: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/13.jpg)
Alignement multiple: programmation dynamiqueAlignement multiple: programmation dynamique
La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique.
Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1.
On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences.
Utilisation de méthodes heuristiques.
Alignement de deuxséquences : trois choix
Alignement de troisséquences : sept choix
![Page 14: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/14.jpg)
Alignement progressifAlignement progressif
Approche consistant à construire itérativement l’alignement multiple en groupant des alignements de paires de séquences.
Ce genre de méthodes comporte trois étapes : L’alignement des paires de séquences. Le groupement des séquences. Le groupement des alignements (alignement progressif).
CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche.
MULTALIN, PILEUP, T-Coffee
![Page 15: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/15.jpg)
![Page 16: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/16.jpg)
Pénalités en fonction de la positionPénalités en fonction de la position CLUSTAL introduit des pondérations qui sont dépendantes de la
position des gaps.
Diminution de la pénalité à l’emplacement de gaps préexistants. Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. Réduction de la pénalité au niveau de régions contenant des suites
d’acides aminés hydrophiles (≥ 5 résidus). Modification spécifiques en fonction des acides aminés présents
(e.g., la pénalité est plus faible avec Gly, Asn, Pro).
Ces pondérations sont prises en compte au moment du groupement des alignements.
![Page 17: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/17.jpg)
Alignement progressif: pas toujours Alignement progressif: pas toujours optimaloptimal
Un seul des ces trois alignements est optimal
Alignement de trois séquences
x ...ACTTA...y ...AGTA...z ...ACGTA...
Arbre guide
Etape 1: alignement xy
x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TA
Etape 2: alignement xyz
x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TAz ACGTA z ACGTA z ACGTA
xyz
![Page 18: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/18.jpg)
T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205
SeqA GARFIELD THE LAST FAT CAT
SeqB GARFIELD THE FAST CAT
SeqC GARFIELD THE VERY FAST CAT
SeqD THE FAT CAT
SeqA GARFIELD THE LAST FA-T CATSeqB GARFIELD THE FAST CA-T ---SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT
SeqA GARFIELD THE LAST FAT CATSeqB GARFIELD THE FAST CAT ---
SeqA GARFIELD THE LAST FA-T CATSeqC GARFIELD THE VERY FAST CAT
SeqA GARFIELD THE LAST FAT CATSeqD ---------THE ---- FAT CAT
SeqB GARFIELD THE ---- FAST CAT SeqC GARFIELD THE VERY FAST CAT
SeqB GARFIELD THE FAST CATSeqD ---------THE FA-T CAT
SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT
Alignements par paireAlignement progressif
![Page 19: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/19.jpg)
T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205
http://igs-server.cnrs-mrs.fr/~cnotred/http://igs-server.cnrs-mrs.fr/~cnotred/
Alignement progressif Lors des alignements intermédiaire, prise en compte de
tous les alignements deux à deux (globaux et locaux) Possibilité d'incorporer d'autres informations (structure,
etc.)
![Page 20: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/20.jpg)
Alignements globaux, Alignements globaux, alignements par blocalignements par bloc
1234 5123 51234 5134 5 123 123 123 123a) b)
![Page 21: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/21.jpg)
DialignDialignMorgenstern et al. 1996 PNAS 93:12098Morgenstern et al. 1996 PNAS 93:12098
Recherche de blocs similaires (≠ exact) sans gap entre les séquences
Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997)
Alignement ancré sur les blocs Plus lent que alignement progressif, mais meilleur alignement quand
les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables
A G A G T C A C T A G T C AA G T G T C A C A T A A T C A A T C A C A T A A T C A A C G T A A C T G A A T C A G A G T
Exact blockUniform block
![Page 22: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/22.jpg)
Alignements locauxAlignements locaux
MEME MATCH-BOX PIMA
1341234122241234
![Page 23: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/23.jpg)
BilanBilan
ClustalW
Dialign T-coffee
MEME
1234 5123 51234 5134 5 123 123 123 1231341234122241234
![Page 24: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/24.jpg)
Éditeur d ’alignement multipleÉditeur d ’alignement multiple
![Page 25: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/25.jpg)
Cas particuliersCas particuliers Alignement de séquences ADN codantes
L F L F
CTT TTC CTT TTC
CTC --- --- CTC
L - - L
alignement des séquences protéiques traduction-inverse de l'alignement protéique en alignement
nucléique
Alignement cDNA / génomique: SIM4 Alignement protéine / génomique: WISE2
![Page 26: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/26.jpg)
Limitation des comparaisons deux à deux (BLAST, Limitation des comparaisons deux à deux (BLAST, FASTA, ...)FASTA, ...)
Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC
:: : ::: :: : :
Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN
::: : : : :: : :
Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA
Comparaisons 2 à 2:
Insuline / Seq A : 25% d'identité
Insuline / Seq B : 25% d'identité
![Page 27: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/27.jpg)
Alignement de séquences de la famille des insulinesAlignement de séquences de la famille des insulines
B-chain A-chain
INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT
INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY
RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC
BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC
BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG
BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI
BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC
LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR
MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP
MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY
MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC
MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY
MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC
ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS
INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN
IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK
IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA
*. .* ** * . *
![Page 28: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/28.jpg)
Représentation d ’un motif par une Représentation d ’un motif par une matrice de matrice de fréquences (exemple)fréquences (exemple)
Site donneur d ’épissage (vertébrés)
Matrice de fréquence (pourcentage):
Base Position
-3 -2 -1 +1 +2 +3 +4 +5 +6
A 33 60 8 0 0 49 71 6 15
C 37 13 4 0 0 3 7 5 19
G 18 14 81 100 0 45 12 84 20
T 12 13 7 0 100 3 9 5 46
Cons. M A G G T R A G T
![Page 29: Objectifs poursuivis](https://reader036.fdocuments.net/reader036/viewer/2022081513/568150f1550346895dbf0a6f/html5/thumbnails/29.jpg)
PSI-BLASTPSI-BLAST
Position-Specific Iterated BLAST 1-recherche BLAST classique 2-construction d'une matrice de pondération (profil) avec les séquences
similaires détectées 3-recherche BLAST à partir de ce nouveau profil 4-itération des étapes 2-3 jusqu'à convergence
plus sensible que Smith-Waterman 40 fois plus rapide