Biyoinformatik 6

download Biyoinformatik 6

of 19

description

Biyoinformatik, Veri tabanı, ncbi, science direct, inter science, springer, blast, blastn, blastx, benzerlik, Needleman, Wunsch, Smith, Waterman, global, lokal, hizalama, alignment, dizi, karşılaştırma

Transcript of Biyoinformatik 6

Biyoinformatik ve Dizi KarlatrmalarBLAST

Neden benzerlik aratrmas? Benzerlik korunmu fonksiyonlar gsterir Dizi baznda insan ve fare genleri % 80 den fazla oranda benzerdir Ama bu genler tm genomun kk bir blmn oluturur Genomdaki dizilerin ounluu benzer deildir Dizilerin karlatrlmas bize: Yeni geninizi daha iyi anlamak iin benzer genleri baka trlerde lokalize etme konusunda fayda salar. Bir nevi Rosetta ta

Gz nne alnmas gerekenler Boluklar ile baa kmak Hizalama esnasnda boluklarn olmasn istemeyiz ok saydaki kk boluun ve az saydaki byk boluun dezavantajlar nedir?

Uyar: Benzerlik geili deildir! Eer 1, 2 ye benzer ise ve 3 de ikiye benzer ise bu durumda1 de 3 e benzemek sorunda mdr? Kesinlikle zorunlu deildir. AAAAAABBBBBB hem AAAAAA hem de BBBBBB dizisine benzerdir Ancak AAAAAA dizisi BBBBBB ye benzemez.

diziler tam olarak stste akmad srece geililik durumu yoktur.

Neden biyolojik diziler birbirine benzerler? Benzer olarak balarlar ancak farkl yollar izlerler.

Zaman iinde dizilerin nasl ve neden deitiinin bilinmesi aralarndaki benzerlik ve farkllklar belirlemenize yardm eder.

BLAST Basic Local Alignment Search Tool Belirli bir diziyi veritabanndaki dier diziler ile karlatrmak zere hazrlanm bir algoritm dir. ki dizi arasndaki eleme tam bir hizalamadr. Bir ok BLAST veritaban ve bu konu ile ilgili web servisleri bulunmaktadr.

BLAST ile sorulan sorulara rnekler Hangi bakteri trnde amino asit dizisini bildiim proteine benzer bir protein retiliyor olabilir? Dizisin elde ettiim DNA nereden geliyor?

Yapsn yeni belirlediim proteine benzer proteinleri kodlayan baka genler var m?

Benzerlii Belirleme Dizileri kyaslamak iin kullanlabilecek algoritmalar: Needleman-Wunsch Smith Waterman BLAST

1. Needleman-Wunsch Global hizalama algoritmasdr rnek: COELACANTH ve PELICAN kelimelerini karlatralm Saym emas: Eer harfler e ise +1 e olmayanlar ya da eksik olanlar iin ise, -1 verilir.Bu esnada sralamann balangc noktas nemlidir. COELACANTH COELACANTH P-ELICAN--PELICAN--

Needleman-Wunsch Detaylar ki boyutlu matriks ki harf eletiinde diyagonal Harfler boluklara denk geldiinde yatay gidilir C O E L A C A N T H PC P O E E L L A I C C A A N N T H -

EL I C A

N

2. Smith-Waterman Needleman-Wunsch ynteminin modifikasyonudur. Daha lokaldir. Temel algoritma hesaplamalarda baz farkllklar bulunmaktadr.Maksimum sayda eleme aranr. Bu deiiklikler algoritmay nasl etkiler??

Global vs. Lokal Global her iki dizi de olanca uzunluklar boyunca eletirilir. Local Dizi ierisinde en iyi eleen blgeler bulunur. ki genomik dizi arasndaki global elemede ekzonlar hizalamayabilir. Lokal hizalama yntemi maksimum saydaki ekzonu da kapsamaya yneliktir.

3. BLAST statistiksel olarak anlaml benzerlikleri bulabilmek iin dizi veritabanlarn aratran bir seri programlar setidir. Karmaktr-oklu admlara ve birok parametreye ihtiya vardr. En yaygn bulunan 5 BLAST program1. BLASTN nkleotidler iindir 2. BLASTSP, 3.BLASTX, 4.TBLASTN, 5. TBLASTX proteinler iindir.

BLAST Algoritmas Bir dizinin X dier dizinin Y ekseni boyunca dizildii bir grafik dnn. Eleen her harf bir puana e deerdir. Buradaki hizalama eleen harflerin dizisinden olumaktadr.

Gzlemler Smith-Waterman ynteminde iki dizi arasndaki maksimum eleme saysnn bulunduunu hatrlaynz. Ancak pratikte sadece birka iyi eleme bulunabilir ya da hibir eleme bulunmayabilir. Bizim BLAST ile temel olarak aradmz olay gerek anlamda bir istatistiksel olarak anlaml bir hizalamadr.

Tm veritabanlarnn ve dizilerin aranmas pahal ve uzun bir sretir. BLAST daha kk boyutlu alanlar tarayabilir ve elemeleri bulabilir.

Bedel: Sonu hzl gelir ancak baz elemeler karlabilir.

BLAST Analizinin Aamalar Temel olarak aama vardr: ekim, uzatma, ve deerlendirme. Ekim Elemeye nerden balanacann belirlenmesi. Uzatma Ekim noktasndan itibaren elemenin uzatlarak ilerlemesi. Deerlendirme Hangi elemelerin istatistiksel olarak anlaml olduunun belirlenmesi.

BLAST Analizindeki Snrlamalar Yalnzca bir tek sorgu iin analiz yapabilir. (rnein. TTGGACAGGATCGA dizisine benzer tm genleri bul) Daha kompleks sorgulamalar?? nsan genomunda ve karacierde eksprese edilen tm genler ierisinde TTGGACAGGATCGA dizisi bulunan(1-2 hata payl) ve bunu takip eden genin upstream blgesinde GCCGCG dizisi ieren blgeleri tara!

BLAST Tarama rnei - NCBIGTGCGGGCGGGTTGAGCAGTGCGAGGTTTTGGCGGCCATGGCTCCCAACGTGCCTGCGGCCGA ACCGGTCCCGGAGTCTCCTAAAGGCGTCCGGGCCGTGCTCTTAGGGCCGCCCGGAGCCGGCAA GGGTACCCAGGCACCCAAATTGGCTAAAAACTTCTGTGTCTGCCATTTGGCTACCGGAGACATG CTGAGGGCCATGGTGGCTTCCGGCTCAGAGCTGGGAAAGAAGCTGAAGGCGACTATGGATGCC GGGAAGCTGGTGAGTGATGAAATGGTCTTGGAGCTCATTGAAAAGAATTTGGAGACCCCTCCAT GCAAAAATGGTTTTCTTCTGGATGGCTTCCCTCGGACCGTGAGGCAGGCAGAAATGCTTGATGAC CTCATGGAGAAGAGGAAAGAGAAGCTTGATTCTGTGATTGAATTCAGCATCCCAGACTCTCTGCT CATCCGGAGAATCACAGGAAGACTGATTCACCCCCAGAGTGGCCGCTCCTACCACGAGGAGTTC AATCCCCCAAAGGAACCCATGAAAGATGATATCACTGGGGAACCGTTGATCCGCCGATCAGATG ATAATAAGAAGGCCTTGAAAATCCGCCTGGAAGCCTACCACACTCAAACCACCCCGCTGGTGGA GTACTACAGTAAACGGGGGATCCACTCCGCCATCGATGCGTCCCAGACCCCTGACGTCGTGTTT GCAAGCATCCTAGCAGCATTCTCCAAAGCCACATCCTAGTAACAGAAGGCCAGGCGGGACTGCA CCACTACTCATCACCCCACGGCATGATCCCTGCTCTTAGGTGCTGGGCAGAGGGAGGGGCGGT CAGGGTAAGGATGGGGACAGAGGAGCGGTGAGGGCCCAAGCGGGGGAGAGGAGCTGTGTTGC CATGAAGCAGTTTCATTTACGTGGAGTAGAACTCTTAAAAGCATAAGCAAAGGGGAAAATTAATTT TTTAAAACACTTGATTGGAGGGTATAAATAGAAACAAGGAGATGCAATATTATTTCTAAGGAATCA TGCTTTCATTTACTTTGGACTGGTGACAACTGGACAGGTCTCAGTGCCCTGAGACCTCAGCTTTG ATCAGAACCTCATGCCAGCCCAGGAATGCGGGAAATCACACTGTTGTCCTGTCTGACCCATAGCT TGGAACAGGGCAGGAGTTGATTACTAATCCTGGTTACCCATACCATGAAATCAGAACGTCATCTC CCCACGTGCAATAGACATGGAATGTGTTCCTGGGGGCGGCGTCTCAACAAATCCGGCTTACTGG AGTCATGGGGCAGGCTGGTGTCCCTCCCTTCCATACTCACCACTGATTTACCAGCCCACCTGCC CTCACGGGTGAGCCCTCGGCAGCCACCCAGCATACGCCACAGTCCTGTGCTCTTGCCTTCCTCC ATCCACATCATGTGAAAGGACTCTTTTTAATCAATGAGCAAGTGTCCTAAGCAACATTATCCAAAG ACTGTCCTTTCCATCCTCAAATCCTATGACTGGGATCAGTCTACAACACTGTGATGTATTATTTTCA ATGAGGTGCCTTTCTTAACTGTCCAAATGCTGCCTTGTTTGGCCCTTAAATAAAGTGTGTTAAAAG TT