בנית עצים פילוגנטיים מיון- Taxonomy ( , 18 th century Linnaeus (
description
Transcript of בנית עצים פילוגנטיים מיון- Taxonomy ( , 18 th century Linnaeus (
בנית עצים פילוגנטיים
)Taxonomy (, 18th century Linnaeusמיון- Haeckel, 19thובנית עצים פילוגנטיים
century,הם עיסוקים ביולוגיים עתיקי יומין.
הנושא קיבל תנופה חדשה כאשר נוצרה היכולת לגשת לרצפים ביולוגיים DNA).ו חלבונים( ולבצע את המיון ובנית העצים לפי הרצפים
בנית עצים פילוגנטיים
אינטואיטיבית כאשר נתונים רצפים אפשר לשחזר אתה"היסטוריה" שלהם.
STASPLSWAMPLSWASPVSWASPLCWASPL
STASPL SWAMPL
SWASPL
CWASPL SWASPV
בנית עצים פילוגנטיים
בדרך כלל יש לנו רק את הרצפים ה"נוכחים" , הרצפים ה"קדומים" לא ידועים
נניח שמדובר בתהליך שבו קרו רק פיצולים לשניים, כלומר מדובר בבניית עץבינארי.
ATGGAAGGGACCGTCTCGTC
ATGGA AGGGA CCGTC TCGTC
ACGGA ACGTC
ACGTA
שינויים6סך הכל
1 1 1 1
1 1
בנית העץ הפילוגנטי ה"אמיתי"
הגדרה בלתי אפשרית. אפשר לדבר על בנית העץ הפילוגנטי האופטימלי
)למעשה "הסביר ביותר"(
מדובר בבעיה קשה הן מבחינה ההגדרה מהו עץ אופטימלי והן בהנתן הגדרה, איך לחשב את העץ
האופטימלי
: ::::קיימות שלוש שיטות עיקריות )ועשרות תוכניות שממשות אותן( :
בנית העץ הפילוגנטי האופטימלי
Distance methods Maximum Parsimony
Maximal Likelihood
A
שיטות מרחקים
אנחנו רוצים לבנות עץ שהמרחק לאורך העץ בין
העלים המייצגים את הרצפים )כלומר סכום
המשקל של הענפים המחברים ביניהם( ישקף את מרחק העריכה בין הרצפים.
B CD E
10 10
10 12 95
4 6
בדרך כלל בלתי אפשרי לבנות עץ עם מרחקים שישחזר את מרחקי העריכה )כמו למשל עבור
הטבלה המוצגת(
אבל השאיפה היא לנסות לבנות עץ שיהיה קרובככל האפשר
A B C D
A -- 8 10 12
B -- 3 2
C -- 4
D --
Fitch-Margoliashשיטות מרחק :שיטת
ניתן לסדר כך a,b,c,dבנסיבות מסוימות: כאשר מתקיים שכל ארבעה רצפים
Dab+Dcd ≤ Dac+Dbd = Dad+Dbcש
F G
22 +18 < 39 + 41 = 41 + 39
ניתן לבנות באלגוריתם יעיל עץ שסכום אורך
הקשתות בין כל שני רצפים למרחק בינהםזהה יהיה
מתחילים מזוג כלשהו
מוסיפים צומת נוספת ופותרים מערכת של שלושה נעלמים
C ו B ונחשב שוב את המרחקים יחסית לקו בין Dנוסיף את
והפעם ניתקל בבעיהB ל A לקו בין Eננסה להוסיף את
פתרון זה מחייב פיצול בנקודה פיצול קיימת, כלומר עץ לא בינארי שאינו חוקי
והפעם אין בבעיהC ל B לקו בין Eולכן ננסה להוסיף את
קיבלנו עץ שעומד בכל התנאים
למרבה הצער, תנאי ה אדיטיביות כמעטתמיד איננו מתקיים. בכל אופן שיטות
המרחק מנסות לבנות עץ שהמרחקים עליויהיו דומים למרחק זוגות הרצפים
Neighbor-Joiningשיטות מרחק : UPGMA: Unweighted Pair Group Method with Arithmetic Mean
3.54.25
6.17
יתרונות: פשוט ומהיר ( Fixed Molecular Clockחסרונות: לא מדויק, בין השאר מניח קצב שינוי קבוע )
PARSIMONY "חסכנות" :
מצא את העץ שמספר השינויים שהוא מייצג ע"מ להסביר את כל הרצפים הוא מינימלי
כרגיל מורכב משתי בעיות:
קל בהינתן עץ מצא את "מחירו" כלומר מספר )וסוג( השינויים –
מאד קשה מצא את העץ עם המחיר המינימלי --
למשל מספר העצים:
על מנת למצוא את העץ "החסכני" ביותר
בצע התאמת מרובת רצפים: INFORMATIVE)הנח שהעמדות בלתי תלויות: חפש את העמדות המשמעותיות )
למשל: עמדות לא משמעותיות: כל האותיות זהות, כל האותיות שונות, רק אות אחת שונה
התחל מעץ ראשוני וחשב את מחירו )סכום מספר השינויים שהעץ משרה בכל עמדה(
( על מנת BRANCH AND BOUNDהשתמש באלגוריתם חיפוש יעיל )למשל
למצוא את העץ החסכני ביותר
יתרונות: זמן חישוב סביר חסרונות: מחייב התאמה מרובת רצפים ומתבסס עליה
מניח אי-תלות בין עמדות מניח "שעון מולקולרי" קבוע
דוגמא: נבצע התאמה מרובת מחרוזות ונסתכל בעמודות האינפורמטיביות
4 5 6
מספר השינויים
הנדרש בכל עץ
Aולכן נבחר בעץ
Maximal Likelihoodסבירות מקסימלית
אבל בוחרים לא בעץ עם מספר השינויים המינימלי אלא Parsimonyשיטה די דומה ל את העץ עם הסבירות המקסימלית.
כלומר לא מניחים שמלכתחילה כל העצים אפשריים בהסתברות שווה,אלא מעריכים מהי ההסתברות א-פריורית לכל עץ, ולאור זאת בוחרים את העץ הסביר
ביותר.
יתרונות: נחשב למדויק ואמין יותר מורכב ויקר לחישוב חסרונות:
חישוב הנראות מבוצע באופן הבא: L = 0.3 x 1x1x1x 0.1x 0.2 x1 = 0.006 1א L = 0.2 x 0.1 x1x1x1x1x 0.2 = 0.004 2א
…… …… ……. .
ונסכם L = 0.006 + 0.004 = 0.01
Human
Chimp
Gorilla
Orangutan
Gibbon
Traditional
Human
Chimp
Gorilla
Orangutan
Gibbon
Molecular