Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements...

19
Page 1 TP Alignements de séquences par paires

Transcript of Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements...

Page 1: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 1

TPAlignements de séquences par

paires

Page 2: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 2

Objectifs poursuivis• Les alignements permettent de comparer des séquences

biologiques. Cette comparaison est nécessaire dans différents types d’études :– Identification de gènes homologues

– Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines.

– Prédiction de fonction, Prédiction de structure (ARN, protéine) (

– ...

Page 3: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 3

Applications des alignements

Approches qui utilisent des alignements

• Alignments multiples

• Profiles et HMM(pour rechercher les familles de protéineset les domaines)

• Prédiction structure/fonction

• Structures 3D

• Analyses Phylogénétiques

• Construction de matrices de substitutions

• Recherche par similarité (BLAST par exemple)

Page 4: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 4

Quelques définitionsIdentité

Proportion de paires de résidus identiques entre 2 séquences.

Généralement exprimée sous forme de pourcentage.

Cette valeur dépend énormément de l'algorithme d'alignement.

Similarité Proportion de paires de résidus similaires entre 2 séquences.

Une matrice de substitution permet de décrire qui est similaire à qui.

Cette valeur dépend énormément de l'algorithme d'alignement et de la matrice de similarité utilisée.

Homologie Deux séquences sont homologues seulement si elles ont un ancêtre commun.

IL N'Y A PAS DE POURCENTAGE D'HOMOLOGIE : les séquences sont homologues ou elles ne le sont pas.

• Des séquences homologues ont souvent mais pas toujours la même fonction...

• ... Elles ne sont pas forcément non plus très similaires : la structure est conservées plus que la séquence.

Page 5: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 55

L’alignement de séquences3 situations sont possibles pour une position donnée d’un alignement:

– les caractères sont les mêmes: Identité– les caractères ne sont pas les mêmes: Substitution– l’une des positions est un espace :Insertion / Délétion(gaps)

Seq A GARTVARH--TSTH

Seq B GARHLDTHTTP--HIdentité

SubstitutionInsertion

Délétion

Page 6: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 6

Similarité globale, locale

Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de taille égale..Les alignements locaux sont plus souvent utilisés quand deux séquences dissemblables sont soupçonnées de posséder des motifs semblables malgré l'environnement. Des méthodes hybrides, des méthodes semi-locales, s'avèrent parfois utiles

ARNm

gène

domaine

protéine A

protéine B

protéine A

protéine B

similarité globale

similarité locale

Page 7: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 7

Quel est le bon alignement ?G T T A C G A G T T A C G A

G T T - G G A G T T G - G A

* * * * * * * * * *

OU

G T T A C - G A

G T T - - G G A

* * * * *

Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable

Page 8: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 8

Fonction de score de similarité

G T T A A G G C G – G G A A A

G T T – – – G C G A G G A C A

* * * * * * * * * *

Score =

Exemple: identité = 1 mismatch = 0 gap = -1

Score = 10 - 4 = 6

fin

début

fin

début

gappénalitéonsubstitutinpondératio __

Page 9: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 9

Alignements

Nombre d'alignements• Il existe de nombreuses façons d'aligner deux séquences• Exemple de deux alignements alternatifs

Ou bien :

CGATGCAGACGTCA ||||||||CGATGCAAGACGTCA

CGATGCAGACGTCA||||||||CGATGCAAGACGTCA

Le nombre possibles d'alignements de 2 sequences de longueur 1000 :

plus de 10600 alignements avec indels

(Avogadro 1024, nombre d'atomes dans l'univers : 1080)

Page 10: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 10

Qu'est ce qu'un bon alignement ?• Il faut pouvoir évaluer la signification biologique d'un alignement

• Intuitivement nous savons que cet alignement:

Est meilleur que celui ci :

CGAGGCACAACGTCA||| ||| ||||||CGATGCAAGACGTCA

ATTGGACAGCAATCAGG| || | |ACGATGCAAGACGTCAG

• Nous pouvons formaliser cela en utilisant un système de score.

Page 11: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 11

Le calcul du score brut

TPEA¦| |APGA

Score d'alignment.Les matrices de substitutions des acides aminés.

• Exemple : PAM250• Généralement utilisée : Blosum62

1

• Un alignement moyen sur une grande longueur peut donner un meilleur score qu'un alignement très bon sur une courte longueur, et INVERSEMENT !

• Pour comparer différents alignements il faut • avoir utiliser le même système de score et • utiliser une fonction de score normalisée (p-value, e-value).

+ 6 + 0 + 2 = 9

Page 12: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 12

Gaps : indelsInsertions or délétions

• Les protéines (et encore plus des molécules comme les ARNr) contiennent souvent des régions dans lesquelles des résidus ont été ajoutés ou perdus.

• Ceci peut correspondre à :• Des domaines peu fonctionnels.• Des mutations à effet phénotypique.

Exemple

GCATGCATGCAACTGCAT|||||||||GCATGCATGGGCAACTGCAT

L'alignement est grandement amélioré par insertion d'un indel.

GCATGCATG--CAACTGCAT||||||||| |||||||||GCATGCATGGGCAACTGCAT

Page 13: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 13

13

Fonction Constante pour pénaliser les gaps

Fonction affine pour pénaliser les gaps

• attribuer des coûts différents(Gap open et Gap extended) pour ouvrir un gap et pour étendre un gap existant

NextGextNoGopengapsP )(

GARFIELDTHE----CATGARFIELGHPELASTCAT

GAPOuverture de gap Extension gap

Modèles de Gap

NbrKgapsP )( K: coût de l’insertion d’un gaps

Nbr: le nombre de gaps

Page 14: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 14

Exemples de calcul de score.Exemple

• Bonus pour un match : 1 • Malus pour un mismatch : 0• Malus d'ouverture d'indel : 10 • Malus d'extension d'indel : 1

CGATGCAGCAGCAGCATCG|||||| |||||||CGATGC------AGCATCG

CGATGCAGCAGCAGCATCG|| || |||| || || |CG-TG-AGCA-CA--AT-G

ouverture

13 x 1 - 10 - 6 x 1 = -3

extension

13 x 1 - 5 x 10 - 6 x 1 = -43

Page 15: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 15

Obtenir un alignement

Algorithmes d'alignement• Un tel programme calcule l'alignement qui produit le meilleur score après avoir choisi un

système de score.• (Comme par exemple on cherche le meilleur chemin dans la matrice précdente).

Les modes d'alignement• Global : On aligne complètement une séquence 1 avec une séquence 2• Local : On cherche des alignements optimaux entre des sous séquences de 1 et des sous

séquences de 2

Implémentation (Algorithmes)• Programmation dynamique• Global Needleman-Wunsch• Local Smith-Waterman• + phylogenie : Clustall

Page 16: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 16

Les algorithmes exactsSimple example (Needleman-Wunsch)

• Système de socre Match : 2 Mismatch : -1 Gap penalty: -2

Note• Il faut conserver la trace des scores pour chaque élément de la matrice.• L'alignement est trouvé quand la matrice complète a été calculée. • Le temps de calcul est proportionnel au produit des longeurs des séquencs.

G A T T A

0 -2 -4 -6 -8 -10

G -2

A -4

A -6

T -8

T -10

C -12

G A T T A

0 -2 -4 -6 -8 -10

G -2 2 0 -2 -4 -6

A -4 0 4

A -6

T -8

T -10

C -12

0 - 2

0 - 2

2 + 2

G A T T A

0 -2 -4 -6 -8 -10

G -2 2 0 -2 -4 -6

A -4 0 4 2 0 -2

A -6 -2 2 3 1 2

T -8 -4 0 4 5 3

T -10 -6 -2 2 6 4

C -12 -8 -4 0 4 5

F(i-1,j) F(i,j)

s(xi,yj)

F(i-1,j-1)

-d

F(i,j-1)

-d

F(i,j): score à la position i, js(xi,yj): match ou mismatch (matrice de substitution ) pour les residus xi et yj

d: malus pour gap (valeur positive)

GA-TTA|| ||GAATTC

Page 17: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 17

17

Exemple:Alignement de protéines avec de longues insertion/délétion.>Proteine1

MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEIKKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLRKDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERAIQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNAFLVGEAFMRATEPGESLREFFIT>Proteine2MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACAIRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMAGAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENVFDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA>Proteine3MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPSKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQPILCKDFIIDPYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKVVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALMAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVMAAAPLQYVGVFRNHDIADSVDKAKVLSLVAVQLHGNEEQLYIDTLREALPAHVAIWKALSVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTGCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

Page 18: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 18

18

Exemple:Alignement de protéines avec de longues insertion/délétion.

1. Proteine1 : une protéine de Xylella fastidiosa• Elle a une seule fonction enzymatique: indole-3-glycerol

phosphate synthase (IGPS). • Cette fonction a pour numéro EC : 4.1.1.48. 2. Proteine2 : Une protéine de Xylella fastidiosa • Elle a une seule fonction enzymatique: N-(5'-phosphoribosyl)

anthranilate isomérase, de la famille des trpF. • Cette fonction porte le numéro EC : 5.3.1.24. 3. Proteine3 : Une protéine de Escherichia coli• Elle a deux fonctions enzymatiques. Ces deux fonctions sont

celles portées individuellement par les deux protéines de Xylella fastidiosa.

• La partie N-terminal porte la fonction EC 4.1.1.48• La partie C-terminal porte la fonction EC 5.3.1.24.

Page 19: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison.

Page 19

19

Résultat trouvé par CLUSTAL