Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements...
-
Upload
andree-puech -
Category
Documents
-
view
104 -
download
1
Transcript of Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements...
Page 1
TPAlignements de séquences par
paires
Page 2
Objectifs poursuivis• Les alignements permettent de comparer des séquences
biologiques. Cette comparaison est nécessaire dans différents types d’études :– Identification de gènes homologues
– Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines.
– Prédiction de fonction, Prédiction de structure (ARN, protéine) (
– ...
Page 3
Applications des alignements
Approches qui utilisent des alignements
• Alignments multiples
• Profiles et HMM(pour rechercher les familles de protéineset les domaines)
• Prédiction structure/fonction
• Structures 3D
• Analyses Phylogénétiques
• Construction de matrices de substitutions
• Recherche par similarité (BLAST par exemple)
Page 4
Quelques définitionsIdentité
Proportion de paires de résidus identiques entre 2 séquences.
Généralement exprimée sous forme de pourcentage.
Cette valeur dépend énormément de l'algorithme d'alignement.
Similarité Proportion de paires de résidus similaires entre 2 séquences.
Une matrice de substitution permet de décrire qui est similaire à qui.
Cette valeur dépend énormément de l'algorithme d'alignement et de la matrice de similarité utilisée.
Homologie Deux séquences sont homologues seulement si elles ont un ancêtre commun.
IL N'Y A PAS DE POURCENTAGE D'HOMOLOGIE : les séquences sont homologues ou elles ne le sont pas.
• Des séquences homologues ont souvent mais pas toujours la même fonction...
• ... Elles ne sont pas forcément non plus très similaires : la structure est conservées plus que la séquence.
Page 55
L’alignement de séquences3 situations sont possibles pour une position donnée d’un alignement:
– les caractères sont les mêmes: Identité– les caractères ne sont pas les mêmes: Substitution– l’une des positions est un espace :Insertion / Délétion(gaps)
Seq A GARTVARH--TSTH
Seq B GARHLDTHTTP--HIdentité
SubstitutionInsertion
Délétion
Page 6
Similarité globale, locale
Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de taille égale..Les alignements locaux sont plus souvent utilisés quand deux séquences dissemblables sont soupçonnées de posséder des motifs semblables malgré l'environnement. Des méthodes hybrides, des méthodes semi-locales, s'avèrent parfois utiles
ARNm
gène
domaine
protéine A
protéine B
protéine A
protéine B
similarité globale
similarité locale
Page 7
Quel est le bon alignement ?G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * * *
OU
G T T A C - G A
G T T - - G G A
* * * * *
Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
Page 8
Fonction de score de similarité
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * *
Score =
Exemple: identité = 1 mismatch = 0 gap = -1
Score = 10 - 4 = 6
fin
début
fin
début
gappénalitéonsubstitutinpondératio __
Page 9
Alignements
Nombre d'alignements• Il existe de nombreuses façons d'aligner deux séquences• Exemple de deux alignements alternatifs
Ou bien :
CGATGCAGACGTCA ||||||||CGATGCAAGACGTCA
CGATGCAGACGTCA||||||||CGATGCAAGACGTCA
Le nombre possibles d'alignements de 2 sequences de longueur 1000 :
plus de 10600 alignements avec indels
(Avogadro 1024, nombre d'atomes dans l'univers : 1080)
Page 10
Qu'est ce qu'un bon alignement ?• Il faut pouvoir évaluer la signification biologique d'un alignement
• Intuitivement nous savons que cet alignement:
Est meilleur que celui ci :
CGAGGCACAACGTCA||| ||| ||||||CGATGCAAGACGTCA
ATTGGACAGCAATCAGG| || | |ACGATGCAAGACGTCAG
• Nous pouvons formaliser cela en utilisant un système de score.
Page 11
Le calcul du score brut
TPEA¦| |APGA
Score d'alignment.Les matrices de substitutions des acides aminés.
• Exemple : PAM250• Généralement utilisée : Blosum62
1
• Un alignement moyen sur une grande longueur peut donner un meilleur score qu'un alignement très bon sur une courte longueur, et INVERSEMENT !
• Pour comparer différents alignements il faut • avoir utiliser le même système de score et • utiliser une fonction de score normalisée (p-value, e-value).
+ 6 + 0 + 2 = 9
Page 12
Gaps : indelsInsertions or délétions
• Les protéines (et encore plus des molécules comme les ARNr) contiennent souvent des régions dans lesquelles des résidus ont été ajoutés ou perdus.
• Ceci peut correspondre à :• Des domaines peu fonctionnels.• Des mutations à effet phénotypique.
Exemple
GCATGCATGCAACTGCAT|||||||||GCATGCATGGGCAACTGCAT
L'alignement est grandement amélioré par insertion d'un indel.
GCATGCATG--CAACTGCAT||||||||| |||||||||GCATGCATGGGCAACTGCAT
Page 13
13
Fonction Constante pour pénaliser les gaps
Fonction affine pour pénaliser les gaps
• attribuer des coûts différents(Gap open et Gap extended) pour ouvrir un gap et pour étendre un gap existant
NextGextNoGopengapsP )(
GARFIELDTHE----CATGARFIELGHPELASTCAT
GAPOuverture de gap Extension gap
Modèles de Gap
NbrKgapsP )( K: coût de l’insertion d’un gaps
Nbr: le nombre de gaps
Page 14
Exemples de calcul de score.Exemple
• Bonus pour un match : 1 • Malus pour un mismatch : 0• Malus d'ouverture d'indel : 10 • Malus d'extension d'indel : 1
CGATGCAGCAGCAGCATCG|||||| |||||||CGATGC------AGCATCG
CGATGCAGCAGCAGCATCG|| || |||| || || |CG-TG-AGCA-CA--AT-G
ouverture
13 x 1 - 10 - 6 x 1 = -3
extension
13 x 1 - 5 x 10 - 6 x 1 = -43
Page 15
Obtenir un alignement
Algorithmes d'alignement• Un tel programme calcule l'alignement qui produit le meilleur score après avoir choisi un
système de score.• (Comme par exemple on cherche le meilleur chemin dans la matrice précdente).
Les modes d'alignement• Global : On aligne complètement une séquence 1 avec une séquence 2• Local : On cherche des alignements optimaux entre des sous séquences de 1 et des sous
séquences de 2
Implémentation (Algorithmes)• Programmation dynamique• Global Needleman-Wunsch• Local Smith-Waterman• + phylogenie : Clustall
Page 16
Les algorithmes exactsSimple example (Needleman-Wunsch)
• Système de socre Match : 2 Mismatch : -1 Gap penalty: -2
Note• Il faut conserver la trace des scores pour chaque élément de la matrice.• L'alignement est trouvé quand la matrice complète a été calculée. • Le temps de calcul est proportionnel au produit des longeurs des séquencs.
G A T T A
0 -2 -4 -6 -8 -10
G -2
A -4
A -6
T -8
T -10
C -12
G A T T A
0 -2 -4 -6 -8 -10
G -2 2 0 -2 -4 -6
A -4 0 4
A -6
T -8
T -10
C -12
0 - 2
0 - 2
2 + 2
G A T T A
0 -2 -4 -6 -8 -10
G -2 2 0 -2 -4 -6
A -4 0 4 2 0 -2
A -6 -2 2 3 1 2
T -8 -4 0 4 5 3
T -10 -6 -2 2 6 4
C -12 -8 -4 0 4 5
F(i-1,j) F(i,j)
s(xi,yj)
F(i-1,j-1)
-d
F(i,j-1)
-d
F(i,j): score à la position i, js(xi,yj): match ou mismatch (matrice de substitution ) pour les residus xi et yj
d: malus pour gap (valeur positive)
GA-TTA|| ||GAATTC
Page 17
17
Exemple:Alignement de protéines avec de longues insertion/délétion.>Proteine1
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEIKKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLRKDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERAIQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNAFLVGEAFMRATEPGESLREFFIT>Proteine2MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACAIRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMAGAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENVFDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA>Proteine3MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPSKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQPILCKDFIIDPYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKVVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALMAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVMAAAPLQYVGVFRNHDIADSVDKAKVLSLVAVQLHGNEEQLYIDTLREALPAHVAIWKALSVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTGCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
Page 18
18
Exemple:Alignement de protéines avec de longues insertion/délétion.
1. Proteine1 : une protéine de Xylella fastidiosa• Elle a une seule fonction enzymatique: indole-3-glycerol
phosphate synthase (IGPS). • Cette fonction a pour numéro EC : 4.1.1.48. 2. Proteine2 : Une protéine de Xylella fastidiosa • Elle a une seule fonction enzymatique: N-(5'-phosphoribosyl)
anthranilate isomérase, de la famille des trpF. • Cette fonction porte le numéro EC : 5.3.1.24. 3. Proteine3 : Une protéine de Escherichia coli• Elle a deux fonctions enzymatiques. Ces deux fonctions sont
celles portées individuellement par les deux protéines de Xylella fastidiosa.
• La partie N-terminal porte la fonction EC 4.1.1.48• La partie C-terminal porte la fonction EC 5.3.1.24.
Page 19
19
Résultat trouvé par CLUSTAL