ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Post on 08-Jan-2016

50 views 14 download

description

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός. Παντελής Μπάγκος. Δυναμικός Προγραμματισμός. Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές. Στοίχιση. Ολική Τοπική Ειδικές περιπτώσεις. Δυναμικός προγραμματισμός. - PowerPoint PPT Presentation

Transcript of ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ

Δυναμικός Προγραμματισμός

Παντελής Μπάγκος

Δυναμικός Προγραμματισμός

• Στοίχιση (τοπική-ολική)

• RNA secondary structure prediction

• Διαμεμβρανικά τμήματα

• Hidden Markov Models

• Άλλες εφαρμογές

Στοίχιση

• Ολική

• Τοπική

• Ειδικές περιπτώσεις

Δυναμικός προγραμματισμός

Δυο περιπτώσεις στοιχίσεων

( 1, 1) ( , ),

( , ) max ( 1, ) ,

( , 1)

i jF i j s x y

F i j F i j d

F i j d

F(i,0)=-id,F(0,j)=-jd

( 1, 1) ( , ),

( 1, ) ,( , ) max

( , 1) ,

0

i jF i j s x y

F i j dF i j

F i j d

F(i,0)=0,F(0,j)=0

Ποινές για τα κενά (gap penalties)

gdg )(

egdg )1()(

Απλή ποινή για τα κενά:

Σύνθετη ποινή για τα κενά:

Παράδειγμα

CAGTATCGCAyAAGTTAGCAGx

ii

ii

ii yx

yxyxs

αν ,1

αν ,1),(

d=1

A A G T – T A G C A GC A G T A T C G C A -

Έστω δυο ακολουθίες:

Αν έχουμε για τα κενά:

Τότε η καλύτερη ολική στοίχιση θα είναι:

Ολική στοίχιση…

A A G T – T A G C A GC A G T A T C G C A -

Τοπική στοίχιση…

A G T – T A G C A A G T A T C G C A

Άλλοι αλγόριθμοι

• Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή)

• Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερηΈστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία:

και η αλληλουχία του υποκινητή είναι

GCCCGGAAGCATGATAGCTCGCGGTATGx

TATAATy

συνέχεια…

( 1, 1) ( , ),

( , ) max ( 1, ) ,

( , 1)

i jF i j s x y

F i j F i j d

F i j d

F(i,0)=-id F(0,j)=0.

C A T G A T

Και η ακολουθία του πιθανού υποκινητή είναι:

RNA secondary structure prediction

Nussinov

Διαμεμβρανικά τμήματα

N

C

C

N

IN

OUT

IN

OUT

Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ...

Εκτίμηση• Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας

ακολουθίας συμβόλων. P(x|θ)Αποκωδικοποίηση • Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την

οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων.

Εκπαίδευση • Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να

μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών

θML=argmaxP(x|θ)

),(maxarg*

xP

... και οι απαντήσεις τους

Εκτίμηση• Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που

υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων).

Αποκωδικοποίηση • Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω

αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST).

Εκπαίδευση • Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική

περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

Αλγόριθμος Forward

Αλγόριθμος Viterbi

Αποκωδικοποίηση forward

“Εκ των υστέρων” αποκωδικοποίηση)|( xkP i Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα:

δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση

Κάνοντας χρήση των Forward και Backward:

Πλεονεκτήματα:

• στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες.

• όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ.

Μειονεκτήματα:

• Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

Συνοπτικά ο αλγόριθμος

• Υπολογισμός των Α και Ε

• Υπολογισμός των ΕΜΠ

• Επανάληψη μέχρι να συγκλίνει

Ένα παράδειγμα...

συνέχεια...

Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::

1 1 000.0.9090 0. 0.10100.10 0.900.10 0.90

Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::

ΑΑ ΤΤ G C G C0.0.7700 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525

1

0

1

0

συνέχεια...

AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA00000000000000001111111111111100000000000000000011111111111111

Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο:

συνέχεια...

συνέχεια...

Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν:

Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::

1 1 000.0.9898 0. 0.02020.0.0303 0.9 0.977

Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::

ΑΑ ΤΤ G C G C0.0.6060 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525

10

10

συνέχεια...

Posterior-Viterbi decodingΟρίζονται οι επιτρεπτές μεταβάσεις:

Optimal Accuracy Posterior Decoding

Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι:

Συνολικά:

Άλλες εφαρμογές

• Fold recognition

• Threading

• Domain recognition

Fold recognition

Threading• Protein threading is the problem of aligning a protein sequence whose structure we

want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

Domain recognition

Transformational Grammars

“Colourless green ideas sleep furiously”

Chomsky

A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form:

a→b,

where a and b are both strings of symbols.

i.e.: C → cN, C → E

There are two types of symbols:

-abstract nonterminal symbols

-terminal (observable) symbols)

Production rules• Regular grammars: only productions of the form W →aW or

W →a• Context-free grammars: productions of the form W →β.

Left: just one non-terminal, right: any string• Context-sensitive grammars: productions of the form

α1Wα2 →a1βa2

• Unrestricted grammars: any production of the form α1Wα2 →γ

W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null

stringβ: any string of nonterminals and/or terminals not including null

string

Regular Expressions

[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Ισοδυναμία…

S → rW1|kW1

W1 → gW2

W2 → [afilmnqrstvwy]W3

W3 → [agsci]W4

W4 → fW5|yW5

W5 → lW6|iW6|vW6|aW6

W6 → [acdefghiklmnpqrstvwy]W7

W7 → f|y|m

[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Stochastic Grammars?…the notion “probability of a sentence” is an entirely

useless one, under any known interpretation of this term.

— Noam Chomsky

(famed linguist)

Every time I fire a linguist, the performance of the

recognizer improves.

— Fred Jelinek

(former head of IBM speech recognition group)

HMMs and Regular grammars

Modeling (allowed) transitions explicitly:

B → L | F | E

L → L | F | E

L → L | F | E

In the notation of the grammars, these are the nonterminal symbols

Modeling emission explicitly (no probab. here):

in state F: a | c | g | t

in state L: a | c | g | t

In the notation of the grammars, these are the terminal symbols

Όλα μαζί…

Together: Modelling each combination of state and transition explicitly:B → aL | cL | gL | tL | aF | cF | gF | tF | EL → aL | cL | gL | tL | aF | cF | gF | tF | EF → aL | cL | gL | tL | aF | cF | gF | tF | E

P( B → aL ) = P(B) * P(a|L)P( L → aF ) = P(F| L) *P(a|F)These are the – so called – rewriting rules

That‘s all we need to define a stochastic regular grammar !

• Finite alphabet of terminal symbols

(a,c,g,t)

• Finite set of nonterminal symbols

(B,L,F,E)

• A set of rewriting rules

(B -> aF, L -> cF, ...)

• Probabilities

P(B->aL) …

Hidden states Non-terminals

Transition matrix Rewriting rules

Emission matrix Terminals

Probabilities Probabilities

Example: possible regular grammar

N → aF | cF | gF | tF | aL | cL | gL | tL | E

0,1 0,1 0,3 ...

B → aF | cF | gF | tF | aL | cL | gL | tL | E

0,2 0,1 0,2 ...

C → aF | cF | gF | tF | aL | cL | gL | tL | E

0,1 0,3 0,2 ...

An example derivation from the above grammar is:

B → aF → aaL → aacL → aactF → aactE

Finite State Automata: Meale, Moore

Αδυναμίες των Regular Grammars

• Regular language

a b a a a b

• Palindrome language

a a b b a a

• Copy language

a a b a a b

•“ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.”

•“Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.”

•RNA secondary structureaggccuaaauagaucuag...

((()))...(((())))....

Παλίνδρομες Γλώσσες

Context-free grammars

• Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal

• S →aSa|bSb|aa|bb• S aSa aaSaa aabSbaa aabaabaa⇒ ⇒ ⇒ ⇒• To parsing γίνεται με τα Push-down

automata

Context-free grammars for RNA

Chomsky Normal form

• W1→W2W3 or W1→a

• Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή

• Ιδιαίτερα χρήσιμη για τους αλγορίθμους

Stochastic Context-free grammars (SCFGs)

• Σε κάθε κανόνα ανατίθεται μια πιθανότητα• Βασικό πλεονέκτημα, η προφανής

επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ)

• Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A

Τα βασικά ερωτήματα σε ένα SCFG

1. Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment-parsing problem)

2. Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem)

3. Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)

Οι απαντήσεις τους

1. Cocke-Younger-Kasami (CYK) algorithm ⇒Αντίστοιχος του Viterbi στα ΗΜΜ

2. Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward)

3. Inside-Outside algorithm ⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)

Αντιστοιχίες…

Στόχος ΗΜΜ SCFG

Βέλτιστη στοίχιση Viterbi CYK

P(x|θ) Forward Inside

EM algorithm Baum-Welch Inside-Outside

Memory complexity

O(LM) O(L2M)

Time complexity O(LM2) O(L3M3)

Άλλες προσεγγίσεις

• Nusinov algorithm

Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων

• Zuker algorithm

Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα

Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG

Ειδικές περιπτώσεις

Περιπτώσεις pseudoknots

Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG

Επεκτάσεις

• ΗΜΜ→profile HMM

• SCFG→Covariance Model (CM)

Eddy and Durbin, 1994

Τι γίνεται με τις πρωτεΐνες?

Παραλλαγές

• Ranked Node Rewriting Grammar (RNRG)

• Multi-Tape S-Attributed Grammars (MTSAG)

Ranked Node Rewriting Grammar (RNRG)

Ranked Node Rewriting Grammar (RNRG)

Multi-Tape S-Attributed Grammars (MTSAG)

Αποτελέσματα

Prediction of Bacteriorhodopsin (1AP9)

QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD

.......TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT..

.........MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP........PPMPPMPPMPPMPPMMPPMPPMPP...

.........PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP........PPMPPMPPMPPMPPMPPMMPMMPP...

QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF

HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH

PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP..........PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM

PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP..........PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM

MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS

HHHHHHHTHHHHTTTT........................

MPPMPPMMPMMPMMPP........................

MMMMMMMMMMMMMMMM........................

P residues brought into conctact by the helix pairing

Mresidues exposed to the membrane environment

Software • INFERNAL

http://infernal.wustl.edu/

• RNACAD http://www.cse.ucsc.edu/~mpbrown/rnacad/

• CONUShttp://www.genetics.wustl.edu/eddy/people/robin/conus/

• PKNOTSftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz

• mtsag2chttp://bioweb.pasteur.fr/docs/doc-gensoft/mtsag2c/

• RNAUIhttp://www.uga.edu/RNA-Informatics/software/rnaui0_2.tar