PENGKONSTRUKSIAN BIDIRECTED OVERLAP GRAPH … · metode untuk menyambungkan reads. Yang pertama...
Transcript of PENGKONSTRUKSIAN BIDIRECTED OVERLAP GRAPH … · metode untuk menyambungkan reads. Yang pertama...
PENGKONSTRUKSIAN BIDIRECTED OVERLAP GRAPH UNTUK DNA SEQUENCE ASSEMBLY
ALBERT ADRIANUS
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengkonstruksian
Bidirected Overlap Graph Untuk DNA Sequence Assembly adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Februari 2014
Albert Adrianus
NIM G64090109
ABSTRAK
ALBERT ADRIANUS. Pengkonstruksian Bidirected Overlap Graph Untuk DNA
Sequence Assembly. Dibimbing oleh WISNU ANANTA KUSUMA.
DNA sequencing technologies dapat digunakan untuk memecah gen bakteri
menjadi jutaan potongan kecil yang disebut reads. Namun demikian, reads
tersebut perlu disambung menjadi contigs agar dapat digunakan. Terdapat 2
metode untuk menyambungkan reads. Yang pertama dengan menggunakan
overlap layout consensus (OLC) dan yang lainnya dengan menggunakan de
Bruijn graph. Hal penting dalam metode OLC adalah bagian overlap dari masing-
masing reads. Pada penelitian ini dikembangkan sebuah sistem untuk membuat
bidirected overlap graph yang nantinya akan menghitung berapa jumlah reads
yang saling overlap satu sama lain. Suffix array digunakan untuk menentukan
fase/bagian overlap dari setiap reads dengan mengindeks setiap suffix dari reads.
Waktu adalah parameter penting dalam DNA assembly karena DNA assembly
membutuhkan banyak waktu. Untuk mengurangi waktu dilakukan perubahan dari
masing-masing suffix dan prefix menjadi suatu nilai tertentu yang bersifat tunggal
dan mencari overlap dengan membandingkan setiap reads. Cara ini memberikan
dampak positif daripada perbandingan dengan menggunakan string. Perbandingan
waktu yang diperlukan antara perbandingan angka dan perbandingan string cukup
signifikan. Untuk 2000 dan 5000 reads, sistem dapat memberikan hasil 100%
akurat untuk jumlah node dan edge.
Kata kunci: bidirected overlap graph, DNA assembly, overlap layout consensus
ABSTRACT
ALBERT ADRIANUS. Bidirected Overlap Graph Construction For DNA
Sequence Assembly. Supervised by WISNU ANANTA KUSUMA.
High-throughput DNA sequencing technologies can be used to decipher a
bacterial genome to millions of fragments called reads. However, reads must be
assembled to contigs before it can be used. There are two methods to assemble
reads. The first one is using overlap layout consensus (OLC) methods and the
other one by using de Bruijn graph. The main thing in the OLC is the overlapping
phase. In this project, we will develop a system to build bidirected overlap graph
for counting how many reads overlapping each other. Suffix array is used to
determine overlapping phase from each reads by indexing every reads’s suffix.
Time is an important parameter for DNA assembly. To reduce time, we convert
every suffix and prefix to a unique number and search for an overlap by
comparing each reads. The method gives a positive result than the string method.
The different of time consumed by the first method and the second method is fairly
significant. For 2000 and 5000 reads, the system can give a 100% accuracy for
the total numbers of node and edge.
Keywords: bidirected overlap graph, DNA assembly, overlap layout consensus
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
PENGKONSTRUKSIAN BIDIRECTED OVERLAP GRAPH UNTUK DNA SEQUENCE ASSEMBLY
ALBERT ADRIANUS
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1 Irman Hermadi, SKom MS PhD
2 Mushthofa, SKom MSc
Judul Skripsi : Pengkonstruksian Bidirected Overlap Graph Untuk Dna Sequence
Assembly
Nama : Albert Adrianus
NIM : G64090109
Disetujui oleh
Dr Wisnu Ananta Kusuma, MT ST
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Pertama, penulis ingin mengucapkan syukur kepada Tuhan Yang Maha Esa
atas selesainya penelitian dan tugas skripsi yang berjudul Pengkonstruksian
Bidirected Overlap Graph Untuk DNA Sequence Assembly.
Penulis juga ingin berterima kasih kepada Bapak Wisnu Ananta Kusuma
selaku pembimbing skripsi yang telah membimbing dengan sabar dan senantiasa
memberi saran ketika penulis membutuhkan pertolongan. Selain itu, penulis juga
ingin berterima kasih kepada orangtua yang selalu mendukung penulis dalam
studi dan kepada saudari Nesya Nova Febriane yang membantu dalam proses
pengumpulan data. Penulis berharap agar hasil karya ini dapat bermanfaat bagi
orang lain.
Bogor, Februari 2014
Albert Adrianus
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 2
Tujuan Penelitian 2
Ruang Lingkup Penelitian 2
TINJAUAN PUSTAKA 2
DNA sequencing 2
Sequence assembly 3
OLC (Overlap Layout Consensus) 3
EDENA 4
Bidirected overlap graph 5
METODE 5
Pengumpulan data DNA sequence dan analisis kebutuhan 5
Penganalisisan Data 6
Pengevaluasian jumlah node dan edge serta waktu eksekusi 11
HASIL DAN PEMBAHASAN 13
Hasil 13
Pembahasan 15
SIMPULAN DAN SARAN 18
Simpulan 18
Saran 18
DAFTAR PUSTAKA 19
DAFTAR TABEL
1 Contoh-contoh assembler untuk setiap metode 3
2 Nilai masing-masing basa nitrogen 10
3 Proses pencarian overlap 11
4 Matriks untuk perhitungan jumlah node dan edge 13
5 Perbandingan jumlah node dan edge untuk 5000 reads (angka dan string) 13
DAFTAR GAMBAR
1 Metode overlap layout consensus 4
2 Contoh bidirected overlap graph 5
3 Contoh hasil simulasi metasim 6
4 Alur kerja sistem 7
5 Pengindeksan suffix array 9
6 Suffix array setelah diurutkan 9
7 Kode pemberian nilai suffix/prefix 12
8 Kode pemberian nilai jumlah karakter suffix/prefix 12
9 Perbandingan jumlah edge 2000 input dan 14
10 Perbandingan waktu eksekusi 2000 input dan 14
11 Perbandingan waktu eksekusi metode perbandingan angka 14
1
PENDAHULUAN
Latar Belakang
Teknologi DNA sequence assembly telah berkembang pesat dan
mempunyai peran penting dalam pembelajaran mengenai genome. Teknik DNA
sequence assembly muncul karena hingga saat ini belum ada teknologi yang dapat
memecah/menguraikan DNA suatu organisme yang menghasilkan whole genome
dalam satu kali percobaan. Sebelumnya teknologi yang digunakan untuk
memecah DNA adalah teknologi Sanger. Dengan Sanger, dihasilkan potongan-
potongan reads dengan panjang 400-800 base pairs (bp) namun membutuhkan
waktu yang agak lama. Seiring berjalannya waktu, ditemukan suatu teknologi
yaitu high throughput sequencing technologies. Dengan teknologi tersebut, gen
bakteri dimungkinkan untuk diuraikan hanya dalam satu eksperimen dan dengan
biaya yang tidak tinggi (Brenner et al. 2000). Hasil dari penguraian ini berupa
jutaan potongan reads dengan panjang 35-50 bp. Namun demikian, potongan
reads tersebut baru dapat digunakan dengan menyambung reads tersebut menjadi
potongan-potongan yang lebih panjang (contigs). Karena itu diperlukan metode
untuk menyambung (assemble) reads yang ada. Secara garis besar metode yang
digunakan untuk menyambung reads ada dua yaitu metode overlap layout
consensus (OLC) dan dengan menggunakan graf de Bruijn (Kusuma et al. 2011).
Pada penelitian ini yang digunakan adalah metode OLC.
Sampai saat ini, pengembangan software untuk melakukan penyambungan
reads terus dilakukan. Salah satu software yang menggunakan metode OLC untuk
menyambung reads adalah Edena. Pada Edena, data input yang berupa potongan-
potongan short reads akan diproses menjadi output yang berupa potongan-
potongan contigs serta jumlah node dan edge yang terbentuk dari proses-proses
yang digunakan di dalam metode OLC. Proses-proses tersebut terdiri atas proses
penghilangan data reads yang redundan, pembuatan bidirected overlap graph,
penghilangan transitive edges, serta pembersihan graph (Hernandez et al. 2008).
Semua proses tersebut harus dilakukan secara berurutan.
Proses penghilangan data reads yang redundan dilakukan untuk membuat
proses selanjutnya menjadi lebih simple. Hal ini dikarenakan apabila jumlah reads
semakin banyak akan membuat overlap graph menjadi semakin kompleks. Hal ini
diperparah apabila ada reads yang sama karena dapat menyebabkan cycle.
Selanjutnya proses yang menjadi bahasan utama dalam penelitian ini yaitu
pembuatan bidirected overlap graph. Proses ini digunakan untuk mendeteksi
overlap dari masing-masing reads. Proses penghilangan transitive edges dan
pembersihan graph secara garis besar digunakan untuk membuat graph yang
sudah ada menjadi lebih simple.
Penelitian ini dilakukan dengan tujuan untuk mengkonstruksi bidirected
overlap graph yang merupakan salah satu proses dalam metode OLC. Proses
pembentukan bidirected overlap graph itu sendiri terdiri atas beberapa tahap.
Tahapan-tahapan tersebut adalah pengindeksan masing-masing reads dengan
menggunakan suffix array, pencarian bagian overlap dari masing-masing reads,
dan perhitungan node serta edge sebagai hasil keluaran dari penelitian ini. Pada
penelitian ini dicoba beberapa pengembangan terkait indexing dan pengenalan
2
overlap dari masing-masing reads. Adapun input yang digunakan adalah
potongan-potongan reads dengan panjang yang sama dan output yang dihasilkan
adalah jumlah node dan edge yang dihasilkan dari proses yang ada.
Perumusan Masalah
Perumusan masalah pada penelitian ini adalah untuk melihat apakah metode
yang digunakan dapat membuat bidirected overlap graph dengan ketepatan tinggi
dan memiliki waktu eksekusi yang cepat. Data keluaran dan waktu eksekusi akan
dibandingkan dengan data keluaran dan waktu eksekusi yang dihasilkan dengan
metode perbandingan string. Diharapkan dengan metode yang dipakai dapat
menghasilkan keluaran dengan ketepatan tinggi dan waktu eksekusi yang lebih
cepat.
Tujuan Penelitian
Penelitian ini bertujuan untuk mengkonstruksi bidirected overlap graph
untuk DNA sequence assembly.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah:
1 Penelitian ini hanya sampai tahap pengkonstruksian bidirected overlap graph.
2 Data read yang dipakai adalah potongan Acidiphilium multivorum AIU301
plasmid pACMV4 DNA dengan panjang sama yaitu 35 bp.
3 Jumlah read yang dipakai adalah 2000 buah dan 5000 buah.
4 Data yang dipakai berekstensi txt dan data output dari software MetaSim.
5 Data read yang dipakai error free.
6 Jumlah minimum overlap yang digunakan adalah 20, 25, dan 30
TINJAUAN PUSTAKA
DNA Sequencing
Teknologi DNA sequencing/penguraian DNA telah lama berkembang. DNA
sequencing itu sendiri merupakan suatu proses penguraian/pemotongan DNA dari
suatu organisme secara acak menjadi potongan-potongan kecil berupa reads.
Pertama kali terdapat sebuah teknik penguraian DNA yang dikenal dengan teknik
sanger. Dengan teknik ini, organisme dapat diuraikan menjadi potongan-potongan
reads dengan panjang 400-800 bp. Base pairs merupakan satuan untuk satu
panjang basa nitrogen. Hasil dari teknologi Sanger dikategorikan sebagai long
reads. Kemudian tedapat teknologi yang lebih baru dan berkembang daripada
sanger yang dikenal sebagai next generation sequencer. Dengan teknologi
tersebut, DNA dapat diuraikan/dipotong menjadi reads dengan panjang yang lebih
pendek yaitu 20-400 bp dan dikategorikan sebagai short reads (Abegunde 2010).
3
Namun demikian, Sanger sequencer menghasilkan potongan/fragmen yang lebih
sedikit daripada next generation sequencer (Kusuma et al. 2011) sehingga next
generation sequencer lebih banyak digunakan dalam penelitian. Teknik DNA
sequencing secara garis besar terbagi menjadi 2 yaitu shotgun sequencing dan
map-based sequencing. Teknik shotgun sequencing lebih banyak digunakan
dalam penelitian mengenai DNA sequence (Chaisson et al. 2004). Teknik shotgun
sequencing terdiri atas Sanger sequencing, 454 sequencing, dan Illumina
sequencing (Abegunde 2010).
Sequence Assembly
DNA sequence assembly merupakan proses penyatuan/perakitan potongan-
potongan reads untuk menentukan whole DNA suatu organisme. Teknik
penyatuan DNA sequence secara garis besar terbagi atas metode OLC, Eulerian
path, dan align-layout consensus. Pada metode align layout consensus, sequence
hanya dibandingkan dengan hasil sequence assembly yang sudah ada dan paling
dekat dengan sequence yang dipakai. Saat ini terdapat banyak assembler yang
dikembangkan dari metode-metode tersebut. Beberapa assembler dapat dilihat
pada Tabel 1. Namun demikian, setiap assembler walaupun dikembangkan dari
metode yang sama, tetap mempunyai pendekatan masing-masing yang berbeda
satu dengan yang lain. Selain pendekatan yang berbeda, penggunaan dari masing-
masing assembler pun juga berbeda. Sebagai contoh Phrap assembler digunakan
untuk proses penyatuan dengan input berupa long reads. Berbeda halnya dengan
Edena yang digunakan untuk proses penyatuan short reads.
Tabel 1 Contoh-contoh assembler untuk setiap metode
Jenis metode Assembler
OLC Phrap, TIGR, Edena
Eulerian Path Velvet, Euler
Align-layout consensus AMOS, Mosaik
OLC
OLC merupakan salah satu metode yang digunakan untuk proses penyatuan
potongan-potongan reads DNA. OLC mendeskripsikan sequence assembly
sebagai suatu Hamiltonian path problem (Abegunde 2010). OLC sendiri terbagi
menjadi beberapa tahap yaitu tahap overlap, layout dan consensus. Pada tahap
overlap, dibentuk suatu overlap graph dengan setiap node dari graph tersebut
merepresentasikan reads dan edge dari graph tersebut merepresentasikan bagian
overlap dari node-node yang ada. Tahap selanjutnya adalah tahap layout. Pada
tahap ini dipilih overlap mana mana saja yang akan digunakan untuk disatukan
satu sama lain. Pada tahap ini reads-reads akan disatukan menjadi potongan yang
lebih panjang yaitu contigs. Tahap terakhir adalah tahap consensus. Pada tahap ini
dilakukan penyatuan terakhir dari contigs-contigs yang ada. Selain itu juga
dilakukan proses pengkoreksian potongan DNA yang error. Secara singkat
metode OLC dapat dilihat pada Gambar 1. Beberapa assembler yang digunakan
untuk proses penyatuan reads telah disebutkan sebelumnya. Salah satu assembler
4
yang dapat digunakan adalah Edena. Edena digunakan untuk menyatukan reads-
reads yang termasuk ke dalam short reads.
Jadi secara garis besar urutan metode OLC dapat diringkas sebagai berikut.
Pertama reads dimasukan sebagai input. Lalu overlapping region akan
diidentifikasi. Setelah itu akan dilakukan pembentukan suatu graph dengan
overlap direpresentasikan sebagai edge yang menghubungkan 2 node. Kemudian
akan dicari path terbaik dari graph yang terbentuk dengan Hamiltonian path.
Proses ini dilakukan secara terus menerus dan sequence yang ada digabungkan
untuk menghasilkan final consensus sequence yang merepresentasikan whole
genome suatu organisme (Commins et al. 2009).
Edena
Edena merupakan suatu assembler yang digunakan untuk menyatukan
potongan reads yang termasuk ke dalam short reads dengan pendekatan overlap
layout consensus. Secara sederhana, tahapan penting dalam Edena dapat dibagi
menjadi beberapa tahapan. Tahapan pertama adalah tahap penghilangan reads
yang redundan. Tahapan kedua adalah tahapan pembentukan suatu bidirected
overlap graph. Overlap graph tersebut terdiri dari node yang berupa potongan-
potongan reads dan edge yang berupa overlap dari masing-masing reads yang ada.
Namun demikian overlap yang didata hanya overlap yang melebihi panjang
minimum overlap yang telah diberlakukan. Tahap ketiga adalah tahap
pembersihan graph yang dilakukan dengan penghilangan transitive edge dan
pembersihan bubbles. Tahap terakhir adalah proses penyatuan contigs sebagai
output (Hernandez et al. 2008).
Gambar 1 Metode overlap layout consensus (Commins et al. 2009)
5
Bidirected Overlap Graph
Bidirected overlap graph merupakan suatu graph dengan node dan edge
yang ada merepresentasikan reads yang saling overlap satu sama lain. Setiap edge
dalam bidirected overlap graph mempunyai tanda panah di kedua ujung dari edge
tersebut. Karena itu, terdapat 4 cara untuk menghubungkan dua node berdasarkan
perpaduan dari tanda panah di kedua ujung edge (Hernandez et al. 2008). Contoh
bidirected overlap graph dapat dilihat pada Gambar 2.
METODE
Pada penelitian ini akan dilakukan beberapa tahap yang akan dilakukan.
Tahap-tahapan tersebut antara lain pengumpulan data DNA sequence dan analisis
kebutuhan, penganalisisan data, dan pengevaluasian jumlah node dan edge pada
graph yang dihasilkan serta waktu eksekusi yang diperlukan.
Pengumpulan Data DNA Sequence dan Analisis Kebutuhan
Data yang digunakan merupakan potongan-potongan reads dengan panjang
35 bp berjumlah 2000 dan 5000 reads yang diambil dari simulasi dengan software
MetaSim. Setiap reads merupakan kombinasi dari basa-basa nitrogen yang terdiri
dari Adenine, Cytosine, Guanine dan Thymine. Data yang diperlukan merupakan
data yang bebas dari redundan. Organisme yang dipakai pada penelitian ini adalah
Acidiphilium multivorum AIU301 plasmid pACMV4 DNA dengan panjang
sequence asli 40 588 bp.
Dalam simulasi menggunakan MetaSim, digunakan error model dengan
pilihan exact. Hal tersebut dilakukan agar data yang dihasilkan nantinya
merupakan data yang bebas kesalahan (error free). Data yang error free itu
sendiri merupakan data dimana setiap basa-basa nitrogen dalam fragmen-fragmen
hasil tidak digantikan oleh basa nitrogen lainnya sehingga hasil akhirnya
Gambar 2 Contoh bidirected overlap graph (Kundeti et al. 2010)
6
merupakan potongan-potongan yang sama dengan organisme aslinya. Namun
demikian hasil simulasi dari software MetaSim masih memungkinkan memiliki
data yang redundan. Data redundan yang dimaksud adalah adanya reads yang
sama persis satu dengan yang lain. Pada penelitian ini data masukan yang
dibutuhkan merupakan data yang tidak redundan. Hal tersebut diperlukan agar
graph yang akan dibentuk tidak kompleks. Contoh hasil dari simulasi dengan
menggunakan software MetaSim dapat dilihat pada Gambar 3.
Gambar 3 Contoh hasil simulasi MetaSim
Data yang akan diambil hanyalah bagian reads saja. Bagian keterangan
tidak akan dibaca oleh sistem. Contoh bagian data reads yang akan dibaca oleh
sistem adalah “ATCCTCGACGAACAGCCAGTCGCGCAGGTTGGAGC”. Data
yang digunakan nantinya bukan saja reads yang merupakan input, namun
demikian juga reverse complement dari setiap reads yang ada. Reverse
complement itu sendiri merupakan reade yang urutannya dibalik lalu ditukar
dengan komplemennya. Dalam hal ini basa nitrogen A diganti dengan basa
nitrogen T, basa nitrogen T diganti dengan basa nitrogen A, basa nitrogen C
diganti basa nitrogen G, dan basa nitrogen G diganti dengan basa nitrogen C.
Akhirnya data yang digunakan oleh sistem adalah reads yang tidak redundan dan
reverse complement dari setiap reads yang tidak redundan itu.
Dari hasil analis yang telah dilakukan, diperoleh kebutuhan perangkat lunak
yang digunakan dalam pengembangan sistem. Perangkat lunak yang digunakan
untuk mengembangkan sistem ini adalah Dev-C++ 5.4.1. Sedangkan perangkat
keras yang digunakan untuk mengembangkan sistem ini adalah notebook bertipe
Asus A42J series, CPU Intel Core i3-380M 2.53 GHz dengan memori 4 GB.
Penganalisisan Data
Penganalisisan data dilakukan dengan beberapa tahapan dan proses. Proses
tersebut terdiri atas pembacaan reads, pembersihan reads yang redundan,
7
pembuatan reverse complement, pengindeksan dengan menggunakan suffix array,
pencarian overlap antar reads dan reverse complement, serta perhitungan node
dan edge sebagai hasil keluaran dari sistem. Alur kerja sistem secara ringkas dapat
dilihat pada Gambar 4.
Pembacaan input reads
Pertama-tama sistem akan membaca data masukan yang berupa potongan-
potongan reads hasil simulasi dari software MetaSim. Data yang akan dibaca oleh
sistem hanyalah data input yang merupakan potogan dari DNA, sedangkan data
yang berupa keterangan tidak dibaca oleh sistem. Potongan-potongan reads
tersebut mempunyai panjang 35 bp. Data yang digunakan sebanyak 2000 dan
5000 buah.
Pembersihan input reads redundan
Reads yang telah dibaca oleh sistem akan diperiksa satu persatu. Apabila
ada reads identik yang berjumlah lebih dari satu maka sistem hanya akan
mengambil salah satu reads. Hal ini agar data input yang akan digunakan untuk
proses selanjutnya bebas dari data yang redundan. Data yang bebas redundan
tersebut kemudian akan dimasukan ke dalam sebuah vector untuk digunakan pada
proses selanjutnya.
Pembuatan reverse complement Setelah itu sistem akan membuat reverse complement dari masing-masing
reads yang menjadi masukan. Reverse complement itu sendiri merupakan reads
yang isinya ditukar menurut pasangan basa nitrogennya (A menjadi T, C menjadi
G, G menjadi C, dan T menjadi A) dan setelah itu urutan dari basa-basa nitrogen
tersebut diurutkan terbalik. Hal ini dikarenakan high throughput sequencing
technologies menguraikan DNA dari 2 sisi, dari sisi kiri dan sisi kanan. Karena itu,
hasil potongan-potongan reads tidak diketahui apakah merupakan potongan dari
rantai primer atau merupakan bagian dari rantai sekunder.
Gambar 4 Alur kerja sistem
8
Penentuan jumlah minimum overlap
Poin penting dalam penelitian ini adalah jumlah minimum overlap, karena
akan menentukan banyaknya jumlah reads overlap satu sama lain (node) dan
jumlah overlap secara keseluruhan (edge). Hal ini juga dikarenakan apabila
jumlah minimum overlap terlalu sedikit akan membuat graph yang dibentuk
menjadi semakin kompleks. Graph yang terbentuk semakin kompleks karena
semakin kecil jumlah minimum overlap maka jumlah reads yang saling overlap
satu sama lain akan semakin banyak. Hal tersebut akan membuat jumlah node dan
edge yang dihasilkan akan semakin banyak. Sedangkan apabila jumlah minimum
overlap terlalu besar, maka akan menyebabkan semakin sedikit reads yang saling
overlap. Hal tersebut akan menyebabkan terjadinya dead end path pada graph
ketika proses penyambungan kumpulan reads yang saling overlap. Karena jumlah
minimum overlap menjadi penting maka selanjutnya sistem akan meminta jumlah
minimum overlap yang diharapkan oleh user. Jumlah minimum overlap yang
digunakan dalam rentang 20 sampai 30.
Pengindeksan dengan suffix array
Tahap selanjutnya yaitu masing-masing reads akan diindeks dengan
menggunakan suffix array. Suffix array merupakan perkembangan dari suffix tree.
Suffix array adalah sebuah list terurut dari semua suffix suatu kata (Manber dan
Myers 1993). Misalkan terdapat sebuah string “abracadabra”. Hal pertama yang
akan dilakukan adalah proses pemasangan indeks ke masing-masing karakter dari
string tersebut. Sebagai contoh pada string “abracadabra”, a akan diberi indeks 1,
b diberi indeks 2, r diberi indeks 3, a diberi indeks 4, c diberi indeks 5, a diberi
indeks 6, d diberi indeks 7, a diberi indeks 8, b diberi indeks 9, r diberi indeks 10,
dan a diberi indeks 11. Setelah pemasangan indeks terhadap masing-masing
karakter dari string tersebut kemudian dibuat suffix dari string tersebut sesuai
dengan indeks yang diberikan. Dalam kasus dengan string “abracadabra” maka
akan terdapat 11 suffix sesuai indeks yang ada yaitu “abracadabra”, “bracadabra”,
“racadabra”, “acadabra”, “cadabra”, “adabra”, “dabra”, “abra”, “bra”, “ra”, dan
“a”. Untuk lebih jelasnya dapat dilihat pada Gambar 5. Setelah didapatkan indeks
seperti di atas maka kemudian akan diurutkan secara lexicographical atau
berdasarkan abjad seperti pada Gambar 6.
Karena itu suffix array untuk string “abracadabra” adalah {10 7 0 3 5 8 1 4
6 9 2}. Pada penelitian ini, suffix array digunakan untuk mendata overlap dari
masing-masing reads menurut nilai jumlah minimum overlap yang telah
ditetapkan oleh user sebelumnya. Bagian suffix yang tidak memenuhi jumlah
minimum overlap akan langsung dihilangkan agar tidak terproses ke tahap
selanjutnya. Selain itu dilakukan juga hal yang sama pada setiap reverse
complement dari masing-masing reads. Pada tahap yang sama juga dilakukan
pengindeksan prefix dari masing-masing reads dan reverse complement yang ada.
Sehingga pada akhirnya didapat prefix dan suffix dari masing-masing reads dan
reverse complement untuk diproses pada tahap selanjutnya.
9
Pembuatan prefix
Pada tahap ini akan dicari prefix dari setiap reads dan reverse complement
yang ada. Prefix yang dicari juga mempunyai ketentuan tertentu. Prefix akan
didata apabila memiliki jumlah karakter lebih besar dari jumlah minimum overlap
yang dimasukan oleh user sebelumnya. Proses yang dilakukan sebenarnya sama
dengan proses pencarian suffix, namun demikian bedanya pada tahap ini yang
dicari adalah bagian prefix.
Pemberian nilai pada suffix dan prefix
Setelah masing-masing reads dan reverse complement telah memiliki prefix
dan suffix, maka setiap prefix dan suffix diubah menjadi angka. Adapun
pengubahan ini dilakukan untuk membuat waktu yang dibutuhkan pada proses
Gambar 5 Pengindeksan suffix array
Gambar 6 Suffix array setelah diurutkan
10
selanjutnya menjadi lebih singkat. Proses pengubahan dari string menjadi double
dilakukan dengan ketetapan tertentu. Aturan pertama adalah dengan cara
membuat angka tertentu bagi masing-masing huruf dari basa nitrogen yang ada.
Penentuan nilai bagi masing-masing basa nitrogen dapat dilihat pada Tabel 2.
Tabel 2 Nilai masing-masing basa nitrogen
Basa nitrogen Nilai
A 1.000000
T 0.110000
G 0.111100
C 0.111111
Setelah itu dari masing-masing nilai dari huruf basa nitrogen yang ada
dikalikan dengan posisinya dan dengan suatu nilai tertentu. Lalu semua nilai
tersebut dijumlahkan hingga menjadi sebuah nilai tunggal yang merepresentasikan
suffix dan prefix dari masing-masing reads dan reverse complement yang ada
(aturan pertama). Nilai hasil tersebut memungkinkan adanya suatu collision yang
yaitu keadaan dimana ada dua suffix/prefix yang memiliki nilai yang sama namun
bentuk fisik yang berbeda, karena itulah diperlukan nilai kedua yaitu nilai jumlah
karakter suatu suffix/prefix (aturan kedua). Nilai suatu suffix/prefix (nilai suatu
overlap) dapat dicari dengan formula seperti berikut:
Basa nitrogen “A”:
Nilai suatu suffix/prefix = i • a • 0.11maxi=1
Basa nitrogen “T”:
Nilai suatu suffix/prefix = i • a • 0.1111maxi=1
Basa nitrogen “G”:
Nilai suatu suffix/prefix = i • a • 0.111111 maxi=1
Basa nitrogen “C”:
Nilai suatu suffix/prefix = i • a • 0.11111111 maxi=1
Keterangan:
i : posisi suatu variabel
a : nilai variabel pada posisi i
max : jumlah maksimal variabel suatu suffix atau prefix
Aturan kedua digunakan untuk mengetahui jumlah tiap basa nitrogen pada
masing-masing suffix dan prefix. Pencarian nilai tiap jenis basa nitrogen berbeda.
Setiap basa nitrogen “A” akan menambah nilai sebesar 1, basa nitrogen “T” akan
menambah nilai jumlah karakter suffix/prefix sebelumnya sebesar 0.11, basa
nitrogen “G” akan menambah nilai jumlah karakter suffix/prefix sebelumnya
sebesar 0.1111, dan basa nitrogen “C” akan menambah nilai jumlah karakter
suffix/prefix sebelumnya sebesar 0.111111. Secara ringkas dapat dilihat pada
formula- formula berikut :
11
Nilai jumlah karakter suffix/prefix = amax
i=1
Keterangan:
a : nilai variabel pada posisi i
max : jumlah maksimal variabel suatu suffix atau prefix
Cuplikan kode program untuk pemberian nilai suatu suffix/prefix dan nilai
jumlah karakter suffix dan prefix dapat dilihat pada Gambar 7 dan Gambar 8.
Pencarian bagian overlap
Setelah didapatkan nilai dari tiap prefix dan suffix menurut aturan pertama
dan kedua, maka akan dilakukan proses pencarian overlap. Proses pencarian
overlap dilakukan dengan membandingkan nilai dari masing-masing prefix dan
suffix dari reads serta reverse complement satu sama lain.
Proses perbandingan dilakukan dengan mengurangkan nilai dari masing-
masing suffix yang ada dengan nilai dari masing-masing prefix yang ada. Suffix
yang digunakan bukan hanya berasal dari bagian reads saja tetapi juga dari bagian
reverse complement. Demikian juga prefix yang digunakan merupakan prefix dari
bagian reads dan bagian reverse complement. Hal ini menyebabkan adanya 4
proses perbandingan yang dilakukan oleh sistem untuk menemukan bagian
overlap dari masing-masing reads. Dalam hal ini, apabila nilai aturan pertama dan
aturan kedua bernilai 0 maka reads/reverse complement dengan suffix tersebut
memiliki overlap dengan reads/reverse complement dengan prefix yang
bersangkutan. Untuk lebih jelasnya dapat dilihat pada Tabel 3.
Tabel 3 Proses pencarian overlap
Jenis Keterangan
S reads - P
reads
Nilai suffix dari masing-masing read dikurangkan dengan nilai
prefix dari masing-masing reads
S reads - P
RC
Nilai suffix dari masing-masing read dikurangkan dengan nilai
prefix dari masing-masing reverse complement
S RC - P
reads
Nilai suffix dari masing-masing reverse complement dikurangkan
dengan nilai prefix dari masing-masing reads
S RC - P
RC
Nilai suffix dari masing-masing reverse complement dikurangkan
dengan nilai prefix dari masing-masing reverse complement
Pengevaluasian jumlah node dan edge serta waktu eksekusi
Pada tahap ini dilakukan proses evaluasi pada jumlah node dan edge yang
dihasilkan oleh sistem serta waktu yang dibutuhkan untuk memprosesnya. Setelah
semua reads (termasuk reverse complement) yang saling overlap telah terdata,
maka dilakukan proses selanjutnya yaitu proses perhitungan node dan edge yang
merupakan output dari sistem ini. Node merupakan perwakilan dari jumlah reads
yang saling overlap satu sama lain sedangkan edge merupakan perwakilan dari
jumlah overlap yang ada.
12
Setelah proses pencarian overlap dilakukan maka setiap reads yang saling
overlap akan dimasukan ke dalam suatu matriks yang mempunyai ukuran n × n.
Huruf n merupakan perwakilan dari jumlah reads keseluruhan. Pada sistem ini
digunakan 2 matriks. Matriks pertama digunakan untuk menandai bagian overlap
pada reads dan matriks kedua digunakan untuk menampung bagian overlap dari
reverse complement. Pada matriks 1, apabila reads i overlap dengan reads j maka
matriks 1 baris i dan kolom j akan berisi nilai integer 1. Apabila reads i overlap
dengan reverse complement j maka matriks 1 baris i dan kolom j akan berisi nilai
integer 1. Sedangkan apabila reads i overlap dengan reads j dan reverse
complement j maka nilainya akan menjadi 3. Hal yang sama juga diberlakukan
pada matriks 2. Apabila reverse complement i overlap dengan reads j maka
matriks 2 baris i dan kolom j akan berisi nilai integer 1. Apabila apabila reverse
complement i overlap dengan reverse complement j maka matriks 2 baris i dan
kolom j akan berisi nilai integer 1. Sedangkan apabila reverse complement i
overlap dengan reads j dan reverse complement j maka nilainya akan menjadi 3.
Setelah semua matriks terisi maka dicari jumlah node dan edge dari kedua matriks
tersebut. Secara ringkas dapat dilihat pada Tabel 4.
Gambar 7 Kode pemberian nilai suffix/prefix
Gambar 8 Kode pemberian nilai jumlah karakter suffix/prefix
13
Selain jumlah node dan edge, salah satu hal yang diperhatikan dalam
penelitian ini adalah waktu eksekusi yang diperlukan oleh metode perbandingan
angka dan metode perbandingan string untuk jumlah input yang sama. Waktu
eksekusi dihitung setelah user memasukan input berupa nilai panjang minimum
overlap yang diinginkan. Waktu ekseskusi digunakan untuk membandingkan
antara metode perbandingan angka dan metode perbandingan string. Satuan waktu
yang digunakan adalah detik (s).
Tabel 4 Matriks untuk perhitungan jumlah node dan edge
Matriks Baris i Kolom j Keterangan
overlap Nilai
Matriks 1 reads i reads j ya 1
reads i reverse
complement j
ya 2
reads i reads j dan
reverse
complement j
ya 3
Matriks 2 reverse
complement i
reads j ya 1
reverse
complement i
reverse
complement j
ya 2
reverse
complement i
reads j dan
reverse
complement j
ya 3
HASIL DAN PEMBAHASAN
Hasil
Pada penelitian ini jumlah minimum overlap yang digunakan adalah 20, 25,
dan 30. Hasil penelitian yang dicari adalah jumlah node dan edge dan waktu
eksekusi yang dibutuhkan. Perbandingan jumlah node dan edge antara
penggunaan metode perbandingan angka dan metode perbandingan string dapat
dilihat pada Tabel 5.
Tabel 5 Perbandingan jumlah node dan edge untuk 5000 reads (angka dan string)
Perbandingan angka Perbandingan string
Minimum
overlap Jumlah node Jumlah edge
Minimum
overlap Jumlah node
Jumlah
edge
20 4 704 19 872 20 4 704 19 872
25 4 436 13 234 25 4 436 13 234
30 3 469 6 606 30 3 469 6 606
Perbandingan hasil jumlah edge antara input 2000 dan 5000 reads dapat
dilihat pada Gambar 9. Warna abu-abu mewakili jumlah input 5000 dan warna
14
hitam mewakili jumlah input 2000. Garis vertikal merupakan jumlah edge
sedangkan garis horizontal merupakan jumlah minimum overlap yang digunakan
yaitu 20, 25, dan 30.
Pembahasan
Perbandingan waktu eksekusi antara 2000 dan 5000 reads untuk metode
perbandingan angka dapat dilihat pada Gambar 10. Sedangkan perbandingan
waktu eksekusi antara metode perbandingan angka dan metode perbandingan
Gambar 9 Perbandingan jumlah edge 2000 input dan
5000 input
3372 2356 1222
19872
13234
6606
0
5000
10000
15000
20000
25000
20 25 30
Series1 Series2
2000 input
5000 input
Gambar 10 Perbandingan waktu eksekusi 2000 input dan
5000 input
3 2 1
18
12
6
0
5
10
15
20
20 25 30
Series1 Series2
2000 input
5000 input
Gambar 11 Perbandingan waktu eksekusi metode perbandingan angka
dan perbandingan string untuk 5000 input reads
1812
6
114
67
30
0
20
40
60
80
100
120
20 25 30
Series1 Series2
Perbandingan angka
Perbandingan string
Minimum overlap
Minimum overlap
Minimum overlap
Jum
lah e
dge
Wak
tu (
s)
Wak
tu (
s)
15
string untuk 5000 reads dapat dilihat pada Gambar 11. Perhitungan waktu dimulai
ketika user telah memasukan nilai jumlah minimum overlap sebagai input yang
dibutuhkan oleh sistem.
Pembahasan
Beberapa hal yang akan dibahas adalah mengenai jumlah node, edge, dan
waktu. Pada pembahasan ini akan dicoba untuk menjawab apakah metode yang
dipakai mempunyai ketepatan yang baik dan waktu eksekusi yang lebih cepat dari
metode perbandingan string.
Ketepatan hasil node dan edge
Hasil node dan edge yang dihasilkan oleh sistem akan dibandingkan dengan
hasil node dan edge yang dihasilkan dengan metode perbandingan string.
Perbandingan dilakukan dengan jumlah reads 5000 buah. Dapat dilihat pada
Tabel 5, perbandingan antara jumlah node dan edge dari metode perbandingan
angka (metode sistem) dan metode perbandingan string. Dari hasil yang didapat,
hasil sistem mempunyai ketepatan 100% dibandingkan dengan metode
perbandingan string untuk jumlah reads 5000 buah. Hal ini menyatakan bahwa
metode yang digunakan pada sistem (perbandingan angka) berhasil memberikan
hasil yang maksimal. Ketepatan dari sistem ini tak lepas dari nilai suatu
suffix/prefix dan nilai jumlah karakter overlap yang digunakan. Nilai dari suatu
suffix/prefix diharapkan mempunyai nilai yang unik. Unik yang dimaksud adalah
bahwa nilai suatu suffix/prefix dari suatu suffix atau prefix sama satu sama lain
apabila suffix dan prefix tersebut mempunyai karakter yang terdiri dari basa-basa
nitrogen dengan jumlah yang sama dan dengan urutan yang sama. Namun
demikian karena hasil suffix dan prefix yang dihasilkan dari reads dan reverse
complement sangat banyak maka dapat menyebabkan ada beberapa nilai yang
tidak unik. Maksud tidak unik disini adalah bahwa ada suffix atau prefix yang
mempunyai nilai suatu suffix/prefix yang sama tetapi sebenarnya mempunyai
karakter penyusun yang berbeda baik urutan maupun jumlahnya. Karena itulah
nilai kedua digunakan. Nilai kedua (nilai jumlah karakter overlap) digunakan
ketika sistem menemukan dua nilai suatu suffix/prefix yang sama. Jadi setiap
suffix dan prefix dibandingkan dengan menggunakan 2 nilai dengan harapan
bahwa hasil yang didapat maksimal. Untuk jumlah reads input 5000 buah, sistem
dapat memberikan ketepatan 100%.
Jumlah edge antara input 2000 dan 5000 reads
Hal kedua yang akan dibahas adalah jumlah edge yang dihasilkan sistem
dengan jumlah input yang berbeda. Dari Gambar 9 dapat dilihat jumlah edge yang
dihasilkan oleh sistem untuk input 2000 buah dengan jumlah minimum 20, 25,
dan 30 dan jumlah edge yang dihasilkan oleh sistem untuk input 5000 buah
dengan jumlah minimum yang sama. Dari hasil terdapat perbedaan yang sangat
mencolok antara keduanya. Jumlah edge pada input 5000 jauh lebih banyak
daripada jumlah edge dengan input 2000. Hal tersebut dikarenakan semakin
banyak input yang dimasukan ke dalam sistem maka jumlah reads dan reverse
complement juga akan semakin banyak. Hal ini kemudian akan berdampak pada
semakin banyaknya kemungkinan overlap antara satu reads dengan reads yang
16
lain. Karena edge merupakan perwakilan dari jumlah overlap maka dengan
semakin banyaknya input maka akan membuat jumlah edge semakin banyak.
Karena itulah semakin banyak jumlah input yang dimasukan maka akan membuat
jumlah edge dan node semakin banyak yang akhirnya akan berdampak pada
kekompleksan dari graph yang terbentuk dan waktu eksekusi yang diperlukan
lebih lama.
Namun demikian terdapat sebuah hal penting yang perlu diperhatikan dalam
penggunaan data dari MetaSim yaitu pemilihan organisme, jumlah reads, serta
panjang reads. Misalnya dipilih suatu organisme dengan panjang 2000 bp maka
apabila dipilih panjang potongan reads 35 dengan jumlah 2000 buah, akan
membuat graph yang dihasilkan menjadi sangat kompleks. Hal ini dikarenakan
setiap reads akan saling overlap satu sama lain, tidak ada satupun reads yang
tidak overlap. Sehingga diperlukan pemilihan yang benar untuk panjang reads
dan jumlah hasil agar tidak membuat graph menjadi kompleks.
Evaluasi waktu
Waktu merupakan esensi penting dalam penelitian ini. Hal ini dikarenakan
metode perbandingan angka diharapkan selain memiliki ketepatan tinggi tetapi
juga memberikan waktu eksekusi yang lebih cepat daripada perbandingan string.
Waktu eksekusi mulai dihitung tepat saat user telah memasukan nilai jumlah
minimum overlap yang diharapkan. Sebelumnya akan dibahas perbedaan waktu
eksekusi antara pemprosesan input 2000 dan 5000 buah. Dari Gambar 10 dapat
dilihat perbedaan waktu eksekusi dengan jumlah input berbeda yaitu 2000 dan
5000 buah. Waktu eksekusi untuk input dengan jumlah data yang lebih kecil
(2000 buah) lebih cepat daripada waktu eksekusi untuk jumlah data yang lebih
besar (5000 buah). Hal ini dikarenakan semakin banyaknya jumlah input data
maka proses pengindeksan dan pencarian overlap akan semakin lama. Jumlah
suffix dan prefix yang dibuat semakin banyak sehingga akan menambah waktu
untuk perbandingan suffix dan prefix. Selain itu nilai jumlah minimum overlap
yang dipilih juga menentukan waktu eksekusi yang diperlukan. Semakin besar
nilai jumlah minimum overlap maka jumlah suffix dan prefix yang dihasilkan
dalam pengindeksan akan semakin sedikit dan juga sebaliknya apabila nilai
jumlah minimum overlap semakin kecil maka jumlah suffix dan prefix yang
dihasilkan akan semakin banyak. Hal ini dikarenakan suffix akan diindeks mulai
dari panjang reads (35 bp) – 1 sampai dengan nilai jumlah minimum overlap yang
dimasukan oleh user. Sebagai contoh antara nilai jumlah minimum overlap 25 dan
30. Ketika user memasukan nilai jumlah minimum overlap 25 maka suffix dan
prefix yang terbentuk akan memiliki panjang dari 34, 33, 32, … , 27, 26, 25
sehingga setiap 1 reads akan menghasilkan 10 suffix dan 10 prefix. Beda halnya
dengan ketika user memasukan nilai minimum overlap 30. Ketika user
memasukan nilai minimum overlap 30 maka panjang suffix dan prefix yang
dihasilkan akan memiliki panjang mulai dari 34 sampai 30. Dengan demikian 1
reads hanya akan menghasilkan 5 suffix dan 5 prefix. Semakin banyaknya jumlah
suffix dan prefix akan membuat waktu eksekusi semakin lama sehingga jumlah
minimum overlap 30 akan memiliki waktu eksekusi yang lebih cepat daripada
nilai minimum overlap 25.
Selain perbedaan waktu eksekusi untuk perbedaan jumlah reads dan
perbedaan jumlah minimum overlap, hal penting mengenai evaluasi waktu adalah
17
perbandingan waktu eksekusi antara kedua metode (metode perbandingan angka
dan metode perbandingan string). Untuk perbedaan waktu eksekusi akan dipakai
jumlah input 5000 buah yang diproses oleh kedua metode yang ada. Dari Gambar
11 dapat dilihat perbedaan yang signifikan antara waktu eksekusi yang diperlukan
antara kedua metode. Waktu eksekusi yang digunakan untuk metode
perbandingan angka secara keseluruhan jauh lebih cepat daripada waktu eksekusi
metode perbandingan string. Bahkan dapat dilihat secara keseluruhan waktu yang
digunakan metode perbandingan string 5 kali lipat daripada waktu eksekusi
dengan metode perbandingan angka. Hal ini dapat terjadi karena metode proses
perbandingan angka menggunakan proses pengurangan sedangkan metode
perbandingan string menggunakan proses penyamaan karakter dari masing-
masing prefix dan suffix. Proses pengurangan membutuhkan waktu yang lebih
cepat daripada proses penyamaan masing-masing string suffix-prefix dan hal itu
telah dibuktikan dari hasil yang telah didapat dari penelitian ini. Hal tersebut
kemudian memberikan hasil positif pada penelitian ini karena dapat membentuk
bidirected overlap graph dengan waktu yang lebih cepat dan ketepatan 100%.
Metode perbandingan angka menghasilkan output lebih cepat daripada
perbandingan string dikarenakan untuk membandingkan 2 buah string, komputer
akan merubahnya dahulu menjadi angka yang kemudian akan dibandingkan satu
sama lain. Dengan metode perbandingan angka, waktu yang diperlukan untuk
mengubah string menjadi angka dapat dihemat. Sistem ini mempunyai
kompleksitas O(n2). Hal tersebut dikarenakan sistem menggunakan nested loop
sebanyak 2.
Pembuktian ketepatan metode perbandingan angka
Metode perbandingan angka merupakan ide dari penulis. Karena itu perlu
dibuktikan apakah metode ini dapat menghasilkan ketepatan yang sama ataukah
justru menghasilkan hasil yang salah. Karena itu metode ini dibuktikan secara
empiris. Dengan input data berjumlah 1000 buah, metode ini dapat menghasilkan
ketepatan jumlah node dan edge yang saling overlap hingga 100%. Data hasil
dapat dilihat pada lampiran. Namun demikian dengan semakin banyaknya data
input yang digunakan dapat menyebabkan suatu collision. Pada penelitian ini akan
dicari error collision rate sebagai acuan sampai jumlah data input berapakah
metode ini dapat digunakan dan tetap menghasilkan output dengan ketepatan yang
tinggi. Error collision rate ini dicari dengan membandingkan antara jumlah edge
yang dihasilkan oleh metode perbandingan angka dan jumlah edge yang
dihasilkan oleh metode perbandingan string. Untuk itu dilakukan pengujian untuk
nilai ketepatan metode perbandingan angka sampai dengan jumlah input/masukan
80 000 reads dengan panjang setiap string yang dibandingkan satu sama lain
memiliki panjang maksimum 34 bp dan panjang minimum adalah 30 bp. Hal ini
dikarenakan untuk pengujian yang dilakukan digunakan panjang minimum
overlap 30 bp. Jumlah input yang dimasukkan berjumlah 80 000 buah, namun
demikian sistem menemukan bahwa jumlah reads yang tidak redundan berjumlah
69 936 buah. Karena setiap reads akan memiliki suffix berjumlah 5 yaitu dengan
panjang 34, 33, 32, 31, dan 30 bp, maka secara keseluruhan jumlah string dari
reads berjumlah 349 680 buah. Sedangkan karena sistem juga memakai reverse
complement yang memiliki jumlah yang sama dengan jumlah reads uniqe yang
ada sehingga jumlah string total yang dibandingkan satu sama lain berjumlah 699
18
360 buah. Untuk jumlah masukan tersebut, metode perbandingan angka
menghasilkan jumlah edge yang sama persis dengan metode perbandingan string
yaitu berjumlah 336 414 buah. Sehingga, sampai dengan jumlah input 80 000,
metode perbandingan angka yang digunakan mempunyai nilai ketepatan 100%
dan nilai error collision rate sampai dengan jumlah input 80 000 adalah 0%.
SIMPULAN DAN SARAN
Simpulan
Penelitian ini telah berhasil menghasilkan suatu sistem yang dapat
membentuk bidirected overlap graph. Dari hasil dan pembahasan dapat
disimpulkan bahwa semakin banyak jumlah input yang dimasukan maka waktu
eksekusi akan semakin banyak. Demikian pula dengan semakin kecilnya nilai
jumlah overlap yang dimasukan maka akan membuat waktu eksekusi semakin
lama. Namun demikian dari penelitian ini didapatkan suatu sistem yang dapat
menghemat waktu eksekusi yang diperlukan dengan ketepatan hasil 100% pada
jumlah input 5000 buah. Hal ini dikarenakan metode yang digunakan dalam
sistem adalah metode perbandingan angka yang ternyata memerlukan waktu yang
lebih cepat daripada perbandingan string dalam pencarian overlap.
Saran
Namun demikian setiap sistem mempunyai kekurangan. Karena itu untuk ke
depannya, sistem ini dapat dikembangkan lagi. Beberapa saran yang dapat
diberikan oleh penulis:
1 Menambah ragam organisme yang dipakai sebagai input dari sistem
2 Menambah jumlah input reads yang digunakan sehingga dapat melihat sejauh
mana metode perbandingan angka dapat digunakan.
3 Menambah atau mengembangkan aturan-aturan yang digunakan dalam
perbandingan angka sehingga ketepatan yang dihasilkan oleh sistem tetap
mencapai 100% walaupun jumlah input yang digunakan semakin banyak.
19
DAFTAR PUSTAKA
Abegunde T. 2010. Comparison of DNA sequence assembly algorithms using
mixed data sources [tesis]. Saskatoon (CA): University of Saskatchewan.
Brenner S, Johnson M, Bridgham J, Golda G, Lloyd DH, Johnson D, Luo SJ,
McCurdy S, Foy M, Ewan M, et al. 2000. Gene expression analysis by
massively parallel signature sequencing (MPPS) on microbead arrays. Nat
Biotechnol. 18:630-634.
Chaisson M, Pevzner P, Tang H. 2004. Fragment assembly with short reads.
Bioinformatics. 20(13):2067-2074.
Commins J, Toft C, Fares MA. 2009. Computational biology methods and their
application to the comparative genomics of endocellular symbiotic bacteria
of insects. Biol Proced Online. 11:52-78. doi: 10.1007/s12575-009-9004-1.
Hernandez D, François P, Farinelli, Østerås M, Schrenzel J. 2008. De novo
bacterial genome sequencing: millions of very short reads assembled on a
desktop computer. Genome Res. 18(5):802-9. doi: 10.1101/gr.072033.107.
Kundeti VK, Rajasekaran S, Dinh H, Vaughn M, Thapar V. 2010. Efficient
parallel and out of core algorithms for constructing large bi-directed de
Bruijn graphs. BMC Bioinformatics. 11:560. doi: 10.1186/1471-2105-11-
560.
Kusuma WA, Ishida T, Akiyama Y. 2011. A combined approach for de novo
DNA sequence assembly of very short reads. IPSJ Transaction on
Bioinformatics. 3(10):21-33. doi: 10.2197/ipsjtbio.4.21.
Manber U, Myers EW. 1993. Suffix arrays: a new method for on-line string
searches. SICOMP. 22(5):935-948.
20
Lampiran 1 Pembuktian empiris untuk 1000 reads dengan minimum overlap 30
Read 1 Read 2 Overlap CCTGGCGGAATTGCGTCA
GCGCCTTGCTGCGGGCG
GCGGAATTGCGTCAGCGC
CTTGCTGCGGGCGATGT
GCGGAATTGCGTCAGCG
CCTTGCTGCGGGCG
GCGCCGGAAAGAGCACAT
CCGCCGTCATCCTTGCC
CGCCGGAAAGAGCACATC
CGCCGTCATCCTTGCCA
CGCCGGAAAGAGCACAT
CCGCCGTCATCCTTGCC
TGTCGCCAATCTTGTCGCG
CTCGGGGCGCACCATC
GTCGCCAATCTTGTCGCG
CTCGGGGCGCACCATCC
GTCGCCAATCTTGTCGCG
CTCGGGGCGCACCATC
CTGTCTCACGCGTTAACCT
CCCCTCGATTTCGGCG
TGTCTCACGCGTTAACCT
CCCCTCGATTTCGGCGA
TGTCTCACGCGTTAACCT
CCCCTCGATTTCGGCG
TGGGTGATCGTGATGTAT
GTGCCAGCAGCTATATT
GTGATCGTGATGTATGTG
CCAGCAGCTATATTCGT
GTGATCGTGATGTATGTG
CCAGCAGCTATATT
GCTCCAGTCGTCGGTAAC
GATCAGCGATCCGGGAG
TCCAGTCGTCGGTAACGA
TCAGCGATCCGGGAGCA
TCCAGTCGTCGGTAACGA
TCAGCGATCCGGGAG
CTCCCGGATCGCTGATCG
TTACCGACGACTGGAGC
CGGATCGCTGATCGTTAC
CGACGACTGGAGCGGCT
CGGATCGCTGATCGTTAC
CGACGACTGGAGC
CGTCTGTGGTCCCGACGATCCGTCCCGCAGTCCCG
TCTGTGGTCCCGACGATCCGTCCCGCAGTCCCGGC
TCTGTGGTCCCGACGATCCGTCCCGCAGTCCCG
AGTAGAGAGATCGCGAAC
GCATCAATGAGCCAGAG
GAGAGATCGCGAACGCAT
CAATGAGCCAGAGCAAG
GAGAGATCGCGAACGCA
TCAATGAGCCAGAG
AGTAGAGAGATCGCGAAC
GCATCAATGAGCCAGAG
GTAGAGAGATCGCGAACG
CATCAATGAGCCAGAGC
GTAGAGAGATCGCGAAC
GCATCAATGAGCCAGAG
GCGGCACCAACTTTATAG
GCGCTGCAAGCCAGCCT
CACCAACTTTATAGGCGC
TGCAAGCCAGCCTGTGC
CACCAACTTTATAGGCGC
TGCAAGCCAGCCT
TCTTGATCTGGGGGTATC
GCAGACCAAGGCGCTGA
GATCTGGGGGTATCGCAG
ACCAAGGCGCTGAACCG
GATCTGGGGGTATCGCA
GACCAAGGCGCTGA
CCCTGACAGCAGGAGTGC
CACCCATGACCATCACC
CTGACAGCAGGAGTGCCA
CCCATGACCATCACCAC
CTGACAGCAGGAGTGCC
ACCCATGACCATCACC
GGTGATGGTCATGGGTGG
CACTCCTGCTGTCAGGG
TGATGGTCATGGGTGGCA
CTCCTGCTGTCAGGGGC
TGATGGTCATGGGTGGC
ACTCCTGCTGTCAGGG
TGCGCTGTCAGTGGACAT
CCGGGGGCGGGTGGAGC
CTGTCAGTGGACATCCGG
GGGCGGGTGGAGCAGCG
CTGTCAGTGGACATCCGG
GGGCGGGTGGAGC
AGGACGAAGGTGCCGGTG
ATGTTGGTGTCGATGAA
GAAGGTGCCGGTGATGTT
GGTGTCGATGAAATCGC
GAAGGTGCCGGTGATGT
TGGTGTCGATGAA
GCCGGGACTGCGGGACGG
ATCGTCGGGACCACAGA
CGGGACTGCGGGACGGAT
CGTCGGGACCACAGACG
CGGGACTGCGGGACGGA
TCGTCGGGACCACAGA
TCGTGCCCAAGGGATTAC
AGCTATCGCAAACATTT
TGCCCAAGGGATTACAGC
TATCGCAAACATTTCTG
TGCCCAAGGGATTACAG
CTATCGCAAACATTT
CTGAGAACGGCGTTCACGTTCTCAAGACACGTCTT
AACGGCGTTCACGTTCTCAAGACACGTCTTCATGA
AACGGCGTTCACGTTCTCAAGACACGTCTT
CAGAAATGTTTGCGATAG
CTGTAATCCCTTGGGCA
AAATGTTTGCGATAGCTG
TAATCCCTTGGGCACGA
AAATGTTTGCGATAGCTG
TAATCCCTTGGGCA
CGCATACACCACCATTTTT
TGGTGTTGCACGCTGG
TACACCACCATTTTTTGGT
GTTGCACGCTGGACCG
TACACCACCATTTTTTGG
TGTTGCACGCTGG
GCACCCTCTAGCGGAACG
GTTTCTGTGCCCACACT
CCCTCTAGCGGAACGGTT
TCTGTGCCCACACTGTT
CCCTCTAGCGGAACGGTT
TCTGTGCCCACACT
CGAAGCGATCTGCGCGCG
CTATCTCGACAGTCCGT
AGCGATCTGCGCGCGCTA
TCTCGACAGTCCGTATG
AGCGATCTGCGCGCGCT
ATCTCGACAGTCCGT
CACCCCCTACGACCCGCG
CAGCCCCTATGCCGCCA
CCCCCTACGACCCGCGCA
GCCCCTATGCCGCCAGC
CCCCCTACGACCCGCGCA
GCCCCTATGCCGCCA
CTATCTCGAAAGCGCCCG
CTGGAATGGAGGGTTCG
TCGAAAGCGCCCGCTGGA
ATGGAGGGTTCGCCTGC
TCGAAAGCGCCCGCTGG
AATGGAGGGTTCG
CGAACCCTCCATTCCAGC
GGGCGCTTTCGAGATAG
ACCCTCCATTCCAGCGGG
CGCTTTCGAGATAGGCG
ACCCTCCATTCCAGCGGG
CGCTTTCGAGATAG
21
Lampiran 1 Lanjutan
TTTGTTCCATCGAAAAAA
TTCCTAAATTATTTAAA
TTCCATCGAAAAAATTCC
TAAATTATTTAAAAATA
TTCCATCGAAAAAATTCC
TAAATTATTTAAA
GTGGTGATGGTCATGGGT
GGCACTCCTGCTGTCAG
GGTGATGGTCATGGGTGG
CACTCCTGCTGTCAGGG
GGTGATGGTCATGGGTG
GCACTCCTGCTGTCAG
GTGGTGATGGTCATGGGT
GGCACTCCTGCTGTCAG
TGATGGTCATGGGTGGCA
CTCCTGCTGTCAGGGGC
TGATGGTCATGGGTGGC
ACTCCTGCTGTCAG
GGCGGGATCGAAGACGGA
GACGGTGCGGGTTTCGT
GGATCGAAGACGGAGAC
GGTGCGGGTTTCGTCACG
GGATCGAAGACGGAGAC
GGTGCGGGTTTCGT
GGCGGGATCGAAGACGGAGACGGTGCGGGTTTCGT
GCGGGATCGAAGACGGAGACGGTGCGGGTTTCGTC
GCGGGATCGAAGACGGAGACGGTGCGGGTTTCGT
GGCAGCCGCGATTACCAG
GCGTTCGAGACCTATCT
CAGCCGCGATTACCAGGC
GTTCGAGACCTATCTGC
CAGCCGCGATTACCAGG
CGTTCGAGACCTATCT
GGCAGCCGCGATTACCAG
GCGTTCGAGACCTATCT
CAGCCGCGATTACCAGGC
GTTCGAGACCTATCTGC
CAGCCGCGATTACCAGG
CGTTCGAGACCTATCT
CCCAGAACCAAGTCGACA
GCGGCGTGTGACTGCGT
CAGAACCAAGTCGACAGC
GGCGTGTGACTGCGTTC
CAGAACCAAGTCGACAG
CGGCGTGTGACTGCGT
CATGCCGTGCTCACCGCG
ATCGCTCTCGACCTGTC
CCGTGCTCACCGCGATCG
CTCTCGACCTGTCGGCC
CCGTGCTCACCGCGATCG
CTCTCGACCTGTC
CCTATCCGGTTGTTACCCA
CACCCACTAAATGTAG
ATCCGGTTGTTACCCACA
CCCACTAAATGTAGGGT
ATCCGGTTGTTACCCACA
CCCACTAAATGTAG
GGTGATGCCATCAACGCC
ATCCTTGCCGGCGCCGG
ATGCCATCAACGCCATCC
TTGCCGGCGCCGGCCAC
ATGCCATCAACGCCATCC
TTGCCGGCGCCGG
CCGGCGCCGGCAAGGATG
GCGTTGATGGCATCACC
GCCGGCAAGGATGGCGTT
GATGGCATCACCGTCGA
GCCGGCAAGGATGGCGT
TGATGGCATCACC
GACGTCGACCTGTGCGGC
GACGAACGCGACCAGGG
CGTCGACCTGTGCGGCGA
CGAACGCGACCAGGGCA
CGTCGACCTGTGCGGCG
ACGAACGCGACCAGGG
TGCTCCCGGATCGCTGAT
CGTTACCGACGACTGGA
CTCCCGGATCGCTGATCG
TTACCGACGACTGGAGC
CTCCCGGATCGCTGATCG
TTACCGACGACTGGA
TCGAAAATCAGAGCTTCCGGGCCTCCGGGCTCAGT
AAATCAGAGCTTCCGGGCCTCCGGGCTCAGTCTCA
AAATCAGAGCTTCCGGGCCTCCGGGCTCAGT
AAGCGCACACCGCGCGCC
TTGGCTGCTATCCTGCC
CACACCGCGCGCCTTGGC
TGCTATCCTGCCAGTGC
CACACCGCGCGCCTTGGC
TGCTATCCTGCC
GGCAGGATAGCAGCCAAG
GCGCGCGGTGTGCGCTT
GATAGCAGCCAAGGCGCG
CGGTGTGCGCTTTGGGC
GATAGCAGCCAAGGCGC
GCGGTGTGCGCTT
GACGAGGTCAGTAGCAAA
GGCAGGTTTCAGAGTCG
ACGAGGTCAGTAGCAAAG
GCAGGTTTCAGAGTCGC
ACGAGGTCAGTAGCAAA
GGCAGGTTTCAGAGTCG
CCCGACGAATAGCTCCTC
ACTGGCAAATCGAGGAA
CGACGAATAGCTCCTCAC
TGGCAAATCGAGGAACT
CGACGAATAGCTCCTCAC
TGGCAAATCGAGGAA
TCCCGGTTTCCGGTGGCG
CACCTCCACGGCACAGG
GTTTCCGGTGGCGCACCT
CCACGGCACAGGCGACG
GTTTCCGGTGGCGCACCT
CCACGGCACAGG
GAGCATGCAGAGATTATT
CTCCCCAATGACACCGT
ATGCAGAGATTATTCTCC
CCAATGACACCGTAGCG
ATGCAGAGATTATTCTCC
CCAATGACACCGT
AGTTCCTCGATTTGCCAGT
GAGGAGCTATTCGTCG
TTCCTCGATTTGCCAGTG
AGGAGCTATTCGTCGGG
TTCCTCGATTTGCCAGTG
AGGAGCTATTCGTCG
AGGTGGTGATAGCTGAGA
CCGCGCGAGGCGTCCGC
TGGTGATAGCTGAGACCG
CGCGAGGCGTCCGCCAT
TGGTGATAGCTGAGACC
GCGCGAGGCGTCCGC
CCGATGGTAGGATATCAT
GGAACAGAACGTGAGCG
TGGTAGGATATCATGGAA
CAGAACGTGAGCGATAT
TGGTAGGATATCATGGA
ACAGAACGTGAGCG
CGCTCACGTTCTGTTCCAT
GATATCCTACCATCGG
TCACGTTCTGTTCCATGAT
ATCCTACCATCGGCAC
TCACGTTCTGTTCCATGA
TATCCTACCATCGG
CCGCGGTCGCGGGATCCTTCTACCTCCCCCGGCGC
CGCGGTCGCGGGATCCTTCTACCTCCCCCGGCGCG
CGCGGTCGCGGGATCCTTCTACCTCCCCCGGCGC
GATGGCTATTGCCGAGTG
GGATTACCTTGTCTGGA
CTATTGCCGAGTGGGATT
ACCTTGTCTGGAGGGAT
CTATTGCCGAGTGGGATT
ACCTTGTCTGGA
22
Lampiran 1 Lanjutan
CTCACCCGGGACCGCCTT
TCAATTGAAAAAAGCTA
CCGGGACCGCCTTTCAAT
TGAAAAAAGCTATCAGC
CCGGGACCGCCTTTCAAT
TGAAAAAAGCTA
CCGCTTTGTCGGTGACGG
GGTTACCGGTGCGCAGA
CGCTTTGTCGGTGACGGG
GTTACCGGTGCGCAGAT
CGCTTTGTCGGTGACGGG
GTTACCGGTGCGCAGA
CCGGCATGACTGCGCTGG
CGCAGAGCGGGATCGGA
GCATGACTGCGCTGGCGC
AGAGCGGGATCGGACAG
GCATGACTGCGCTGGCG
CAGAGCGGGATCGGA
TGGAACGGTGCTGCGGAT
CACACCGGACGAGCTAG
AACGGTGCTGCGGATCAC
ACCGGACGAGCTAGTGC
AACGGTGCTGCGGATCA
CACCGGACGAGCTAG
CAAGGACCATACCAAGCACTTAATACCCCGCTGAG
GGACCATACCAAGCACTTAATACCCCGCTGAGCGG
GGACCATACCAAGCACTTAATACCCCGCTGAG
CATACGGACTGTCGAGAT
AGCGCGCGCAGATCGCT
ACGGACTGTCGAGATAGC
GCGCGCAGATCGCTTCG
ACGGACTGTCGAGATAG
CGCGCGCAGATCGCT
AAGCGTTGTCTTTCCCGA
ACCGTTCGAACCAATCA
GCGTTGTCTTTCCCGAAC
CGTTCGAACCAATCAAT
GCGTTGTCTTTCCCGAAC
CGTTCGAACCAATCA
ACCATCGCCGAGAAGGGC
GCCGAGTTCAGATCCCT
ATCGCCGAGAAGGGCGCC
GAGTTCAGATCCCTCGG
ATCGCCGAGAAGGGCGC
CGAGTTCAGATCCCT
GCCTCACCATCGATGCCG
GTGGCCGCACCCGCCCC
ACCATCGATGCCGGTGGC
CGCACCCGCCCCGGCCG
ACCATCGATGCCGGTGG
CCGCACCCGCCCC
AGCCGCTCCAGTCGTCGG
TAACGATCAGCGATCCG
GCTCCAGTCGTCGGTAAC
GATCAGCGATCCGGGAG
GCTCCAGTCGTCGGTAAC
GATCAGCGATCCG
ACCGTCCGCCGCAAGGCG
TTCGGCATCGTCGCCGA
GTCCGCCGCAAGGCGTTC
GGCATCGTCGCCGATCC
GTCCGCCGCAAGGCGTTC
GGCATCGTCGCCGA
ACCGTCCGCCGCAAGGCG
TTCGGCATCGTCGCCGA
GTCCGCCGCAAGGCGTTC
GGCATCGTCGCCGATCC
GTCCGCCGCAAGGCGTTC
GGCATCGTCGCCGA
ATTCCCCGGAATAAAGCT
CGTCAAAGGTTGGTGCG
TTCCCCGGAATAAAGCTC
GTCAAAGGTTGGTGCGG
TTCCCCGGAATAAAGCTC
GTCAAAGGTTGGTGCG
CGCTGCTCCACCCGCCCC
CGGATGTCCACTGACAG
GCTCCACCCGCCCCCGGA
TGTCCACTGACAGCGCA
GCTCCACCCGCCCCCGGA
TGTCCACTGACAG
ATTCCCGACCGGCGGGATTTGGGATTCTTGGGAAG
CCGACCGGCGGGATTTGGGATTCTTGGGAAGGCAA
CCGACCGGCGGGATTTGGGATTCTTGGGAAG
ATATCGCTCACGTTCTGTT
CCATGATATCCTACCA
CGCTCACGTTCTGTTCCAT
GATATCCTACCATCGG
CGCTCACGTTCTGTTCCA
TGATATCCTACCA
TGCAGGCTTCCGCCATCC
GGGTCAGGCCGAGATTG
GCTTCCGCCATCCGGGTC
AGGCCGAGATTGAGGCC
GCTTCCGCCATCCGGGTC
AGGCCGAGATTG
GCGAGCGGAACGCGTTGA
AGGGATAGAGGCGCCGG
GCGGAACGCGTTGAAGGG
ATAGAGGCGCCGGTTGA
GCGGAACGCGTTGAAGG
GATAGAGGCGCCGG
CCGGCGCCTCTATCCCTTC
AACGCGTTCCGCTCGC
GCGCCTCTATCCCTTCAA
CGCGTTCCGCTCGCTGC
GCGCCTCTATCCCTTCAA
CGCGTTCCGCTCGC
AGTTGAATTTCGACAACA
CCAATAAACAGGGGCAG
GTTGAATTTCGACAACAC
CAATAAACAGGGGCAGT
GTTGAATTTCGACAACAC
CAATAAACAGGGGCAG
ACGAATATAGCTGCTGGC
ACATACATCACGATCAC
AATATAGCTGCTGGCACA
TACATCACGATCACCCA
AATATAGCTGCTGGCAC
ATACATCACGATCAC
GCAGATGGCAGAGACCGA
AGACATGATCGGTCGCG
CAGATGGCAGAGACCGA
AGACATGATCGGTCGCGC
CAGATGGCAGAGACCGA
AGACATGATCGGTCGCG
GCGGCCCAAAGCGCACAC
CGCGCGCCTTGGCTGCT
GCCCAAAGCGCACACCGC
GCGCCTTGGCTGCTATC
GCCCAAAGCGCACACCG
CGCGCCTTGGCTGCT
GCCTGGCGCAGCGCGAGC
GAGAGATGATCGGCGTG
CCTGGCGCAGCGCGAGCG
AGAGATGATCGGCGTGG
CCTGGCGCAGCGCGAGC
GAGAGATGATCGGCGTG
CGGTCCAGCGTGCAACAC
CAAAAAATGGTGGTGTA
CCAGCGTGCAACACCAAA
AAATGGTGGTGTATGCG
CCAGCGTGCAACACCAA
AAAATGGTGGTGTA
TTCCTCGGGGCAGCCGACGAGCTGTCCCTGGCGAG
TCGGGGCAGCCGACGAGCTGTCCCTGGCGAGCCTG
TCGGGGCAGCCGACGAGCTGTCCCTGGCGAG
TGGAAATGCGTCTCGCCG
CAGAATGCCTGGACATA
GAAATGCGTCTCGCCGCA
GAATGCCTGGACATACG
GAAATGCGTCTCGCCGC
AGAATGCCTGGACATA
23
Lampiran 1 Lanjutan
AATCGTCACCCGCCGGCG
CAACTGGCGAACCGCCT
TCACCCGCCGGCGCAACT
GGCGAACCGCCTCACGC
TCACCCGCCGGCGCAACT
GGCGAACCGCCT
GCGATTTCATCGACACCA
ACATCACCGGCACCTTC
TTCATCGACACCAACATC
ACCGGCACCTTCGTCCT
TTCATCGACACCAACATC
ACCGGCACCTTC
GAAGGTGCCGGTGATGTT
GGTGTCGATGAAATCGC
AGGTGCCGGTGATGTTGG
TGTCGATGAAATCGCGC
AGGTGCCGGTGATGTTG
GTGTCGATGAAATCGC
GGGAACAGTGTGGGCACA
GAAACCGTTCCGCTAGA
AACAGTGTGGGCACAGAA
ACCGTTCCGCTAGAGGG
AACAGTGTGGGCACAGA
AACCGTTCCGCTAGA
GCCGAGCATTATACCGATACCGCCGGCGCGACCGA
CCGAGCATTATACCGATACCGCCGGCGCGACCGAT
CCGAGCATTATACCGATACCGCCGGCGCGACCGA
GCAATAATAGCATTCTGA
CAGTTTATGTTGAAATC
AATAGCATTCTGACAGTT
TATGTTGAAATCTTCTT
AATAGCATTCTGACAGTT
TATGTTGAAATC
GCTCCTGCGCTAGCGCCG
CCCGCTCCTCAGCAAGG
TCCTGCGCTAGCGCCGCC
CGCTCCTCAGCAAGGCC
TCCTGCGCTAGCGCCGCC
CGCTCCTCAGCAAGG
CCGGTAATCGTGAAATCA
TCGATCGTATCACCGGT
GTAATCGTGAAATCATCG
ATCGTATCACCGGTCGT
GTAATCGTGAAATCATCG
ATCGTATCACCGGT
CCGGTAATCGTGAAATCA
TCGATCGTATCACCGGT
TAATCGTGAAATCATCGA
TCGTATCACCGGTCGTG
TAATCGTGAAATCATCGA
TCGTATCACCGGT
CTTGCTCTGGCTCATTGAT
GCGTTCGCGATCTCTC
CTCTGGCTCATTGATGCG
TTCGCGATCTCTCTACT
CTCTGGCTCATTGATGCG
TTCGCGATCTCTC
CTTGCTCTGGCTCATTGAT
GCGTTCGCGATCTCTC
GCTCTGGCTCATTGATGC
GTTCGCGATCTCTCTAC
GCTCTGGCTCATTGATGC
GTTCGCGATCTCTC
CGCTTCTTCAAATAGGCG
GATAGGCGGAATCGATC
GCTTCTTCAAATAGGCGG
ATAGGCGGAATCGATCT
GCTTCTTCAAATAGGCGG
ATAGGCGGAATCGATC
CCGGCTCGGCCGGTCGCT
GCCGCATCTTCTGGAGA
TCGGCCGGTCGCTGCCGC
ATCTTCTGGAGACGGTG
TCGGCCGGTCGCTGCCGC
ATCTTCTGGAGA
ATTCCAGCGGGCGCTTTC
GAGATAGGCGGCACAGG
AGCGGGCGCTTTCGAGAT
AGGCGGCACAGGCCGCG
AGCGGGCGCTTTCGAGA
TAGGCGGCACAGG
CGGTTCAGCGCCTTGGTCTGCGATACCCCCAGATC
TCAGCGCCTTGGTCTGCGATACCCCCAGATCAAGA
TCAGCGCCTTGGTCTGCGATACCCCCAGATC
AACGTTCCCACTTTGTCCG
CTTATGCTACAGCGCA
CGTTCCCACTTTGTCCGCT
TATGCTACAGCGCAGG
CGTTCCCACTTTGTCCGC
TTATGCTACAGCGCA
GCTGGCGGCATAGGGGCT
GCGCGGGTCGTAGGGGG
TGGCGGCATAGGGGCTGC
GCGGGTCGTAGGGGGTG
TGGCGGCATAGGGGCTG
CGCGGGTCGTAGGGGG
GCCCCGTCTGACAGTCCG
GTGAAACCTTCCGCGGT
CCCGTCTGACAGTCCGGT
GAAACCTTCCGCGGTCC
CCCGTCTGACAGTCCGGT
GAAACCTTCCGCGGT
ATGCCCGTGCGATCGCCG
ATGAACTCATTACCCGC
CGTGCGATCGCCGATGAA
CTCATTACCCGCGGTGT
CGTGCGATCGCCGATGA
ACTCATTACCCGC
CGCTACGGTGTCATTGGG
GAGAATAATCTCTGCAT
ACGGTGTCATTGGGGAGA
ATAATCTCTGCATGCTC
ACGGTGTCATTGGGGAG
AATAATCTCTGCAT
CACGGCCGCCCAGCCGAC
GCGGACGGGCTGTCCAT
CGGCCGCCCAGCCGACGC
GGACGGGCTGTCCATCG
CGGCCGCCCAGCCGACG
CGGACGGGCTGTCCAT
TGAGACTGAGCCCGGAGG
CCCGGAAGCTCTGATTT
ACTGAGCCCGGAGGCCCG
GAAGCTCTGATTTTCGA
ACTGAGCCCGGAGGCCC
GGAAGCTCTGATTT
ACGACCGGTGATACGATC
GATGATTTCACGATTAC
ACCGGTGATACGATCGAT
GATTTCACGATTACCGG
ACCGGTGATACGATCGA
TGATTTCACGATTAC
GTAATCGTGAAATCATCG
ATCGTATCACCGGTCGT
TAATCGTGAAATCATCGA
TCGTATCACCGGTCGTG
TAATCGTGAAATCATCGA
TCGTATCACCGGTCGT
GCTGATAGCTTTTTTCAAT
TGAAAGGCGGTCCCGG
TAGCTTTTTTCAATTGAAA
GGCGGTCCCGGGTGAG
TAGCTTTTTTCAATTGAA
AGGCGGTCCCGG
CCGCTCAGCGGGGTATTAAGTGCTTGGTATGGTCC
CTCAGCGGGGTATTAAGTGCTTGGTATGGTCCTTG
CTCAGCGGGGTATTAAGTGCTTGGTATGGTCC
CATCGCGCTCGGCATAGG
CGCGCAAACCCTCCTCT
ATCGCGCTCGGCATAGGC
GCGCAAACCCTCCTCTG
ATCGCGCTCGGCATAGG
CGCGCAAACCCTCCTCT
24
Lampiran 1 Lanjutan
GCCCCTGACAGCAGGAGT
GCCACCCATGACCATCA
CCCTGACAGCAGGAGTGC
CACCCATGACCATCACC
CCCTGACAGCAGGAGTG
CCACCCATGACCATCA
GCCCCTGACAGCAGGAGT
GCCACCCATGACCATCA
CTGACAGCAGGAGTGCCA
CCCATGACCATCACCAC
CTGACAGCAGGAGTGCC
ACCCATGACCATCA
AGGGTTGTTGAGGAAGAA
TCGAAGGATCTCCCGTG
GGGTTGTTGAGGAAGAAT
CGAAGGATCTCCCGTGA
GGGTTGTTGAGGAAGAA
TCGAAGGATCTCCCGTG
GGCGGCTGATCCGACTCT
GGTCGGTGGGGCGCGGG
GGCTGATCCGACTCTGGT
CGGTGGGGCGCGGGCGG
GGCTGATCCGACTCTGGT
CGGTGGGGCGCGGG
CACCGTCTCCAGAAGATGCGGCAGCGACCGGCCGA
TCTCCAGAAGATGCGGCAGCGACCGGCCGAGCCGG
TCTCCAGAAGATGCGGCAGCGACCGGCCGA
TATAAAATGTCAATATTTT
TAAATAATTTAGGAAT
AAAATGTCAATATTTTTA
AATAATTTAGGAATTTT
AAAATGTCAATATTTTTA
AATAATTTAGGAAT
AGACGATCGCCGCCACCC
TCGCCGCCACCGATCCC
ACGATCGCCGCCACCCTC
GCCGCCACCGATCCCGC
ACGATCGCCGCCACCCTC
GCCGCCACCGATCCC
CACGACCGGTGATACGAT
CGATGATTTCACGATTA
ACCGGTGATACGATCGAT
GATTTCACGATTACCGG
ACCGGTGATACGATCGA
TGATTTCACGATTA
CACGACCGGTGATACGAT
CGATGATTTCACGATTA
ACGACCGGTGATACGATC
GATGATTTCACGATTAC
ACGACCGGTGATACGAT
CGATGATTTCACGATTA
CCGAGGGATCTGAACTCG
GCGCCCTTCTCGGCGAT
AGGGATCTGAACTCGGCG
CCCTTCTCGGCGATGGT
AGGGATCTGAACTCGGC
GCCCTTCTCGGCGAT
GTGGCCGGCGCCGGCAAG
GATGGCGTTGATGGCAT
CCGGCGCCGGCAAGGATG
GCGTTGATGGCATCACC
CCGGCGCCGGCAAGGAT
GGCGTTGATGGCAT
GCGCGATTTCATCGACAC
CAACATCACCGGCACCT
GCGATTTCATCGACACCA
ACATCACCGGCACCTTC
GCGATTTCATCGACACCA
ACATCACCGGCACCT
GGTAGGCTGTGTCCATCG
TCGTGTTTCTTCTTCTC
GGCTGTGTCCATCGTCGT
GTTTCTTCTTCTCCGCT
GGCTGTGTCCATCGTCGT
GTTTCTTCTTCTC
CGGCCGGGGCGGGTGCGG
CCACCGGCATCGATGGT
GGGGCGGGTGCGGCCACC
GGCATCGATGGTGAGGC
GGGGCGGGTGCGGCCAC
CGGCATCGATGGT
GACACACCCTACATTTAGTGGGTGTGGGTAACAAC
ACCCTACATTTAGTGGGTGTGGGTAACAACCGGAT
ACCCTACATTTAGTGGGTGTGGGTAACAAC
GGGAACAGTGTGGGCACA
GAAACCGTTCCGCTAGA
AACAGTGTGGGCACAGAA
ACCGTTCCGCTAGAGGG
AACAGTGTGGGCACAGA
AACCGTTCCGCTAGA
GCCAGCCTGAAGGCGGTT
GCTGGTGCGCAAAACTG
CAGCCTGAAGGCGGTTGC
TGGTGCGCAAAACTGCC
CAGCCTGAAGGCGGTTG
CTGGTGCGCAAAACTG
AGCGGAGAAGAAGAAAC
ACGACGATGGACACAGCC
GAGAAGAAGAAACACGA
CGATGGACACAGCCTACC
GAGAAGAAGAAACACGA
CGATGGACACAGCC
CCGGAAGCATCCAGCACC
CGGCGGCTCGGGTTCAT
AAGCATCCAGCACCCGGC
GGCTCGGGTTCATGGCC
AAGCATCCAGCACCCGG
CGGCTCGGGTTCAT
CGCGCCGGGGGAGGTAGA
AGGATCCCGCGACCGCG
GCGCCGGGGGAGGTAGA
AGGATCCCGCGACCGCGG
GCGCCGGGGGAGGTAGA
AGGATCCCGCGACCGCG
AACAGTGTGGGCACAGAA
ACCGTTCCGCTAGAGGG
AGTGTGGGCACAGAAACC
GTTCCGCTAGAGGGTGC
AGTGTGGGCACAGAAAC
CGTTCCGCTAGAGGG
CCCTCTAGCGGAACGGTT
TCTGTGCCCACACTGTT
TCTAGCGGAACGGTTTCT
GTGCCCACACTGTTCCC
TCTAGCGGAACGGTTTCT
GTGCCCACACTGTT
CCCTCTAGCGGAACGGTT
TCTGTGCCCACACTGTT
TCTAGCGGAACGGTTTCT
GTGCCCACACTGTTCCC
TCTAGCGGAACGGTTTCT
GTGCCCACACTGTT
GGCCATGAACCCGAGCCG
CCGGGTGCTGGATGCTT
ATGAACCCGAGCCGCCGG
GTGCTGGATGCTTCCGG
ATGAACCCGAGCCGCCG
GGTGCTGGATGCTT
CGTATGTCCAGGCATTCT
GCGGCGAGACGCATTTC
TATGTCCAGGCATTCTGC
GGCGAGACGCATTTCCA
TATGTCCAGGCATTCTGC
GGCGAGACGCATTTC
GCACTGCGACCGGAGCCACGGGCCACAGGCTTCAT
ACTGCGACCGGAGCCACGGGCCACAGGCTTCATGC
ACTGCGACCGGAGCCACGGGCCACAGGCTTCAT
CCGCACCAACCTTTGACG
AGCTTTATTCCGGGGAA
CGCACCAACCTTTGACGA
GCTTTATTCCGGGGAAT
CGCACCAACCTTTGACGA
GCTTTATTCCGGGGAA
25
Lampiran 1 Lanjutan
TGGATCCGGTCAGTGCTT
CGCCGCGGGCCTCTCCT
TCCGGTCAGTGCTTCGCC
GCGGGCCTCTCCTGGAA
TCCGGTCAGTGCTTCGCC
GCGGGCCTCTCCT
CGCTTTCGAGATAGGCGG
CACAGGCCGCGTCGTTC
CTTTCGAGATAGGCGGCA
CAGGCCGCGTCGTTCGG
CTTTCGAGATAGGCGGC
ACAGGCCGCGTCGTTC
CGCTTTCGAGATAGGCGG
CACAGGCCGCGTCGTTC
TTTCGAGATAGGCGGCAC
AGGCCGCGTCGTTCGGG
TTTCGAGATAGGCGGCA
CAGGCCGCGTCGTTC
GGACCGCGGAAGGTTTCA
CCGGACTGTCAGACGGG
ACCGCGGAAGGTTTCACC
GGACTGTCAGACGGGGC
ACCGCGGAAGGTTTCAC
CGGACTGTCAGACGGG
GGAGGTGTTTGAGTCCGGCGAGAGCTGCGCGGTAG
AGGTGTTTGAGTCCGGCGAGAGCTGCGCGGTAGCG
AGGTGTTTGAGTCCGGCGAGAGCTGCGCGGTAG
ACCCTACATTTAGTGGGT
GTGGGTAACAACCGGAT
CTACATTTAGTGGGTGTG
GGTAACAACCGGATAGG
CTACATTTAGTGGGTGTG
GGTAACAACCGGAT
ATCCGGTTGTTACCCACA
CCCACTAAATGTAGGGT
GTTGTTACCCACACCCAC
TAAATGTAGGGTGTGTC
GTTGTTACCCACACCCAC
TAAATGTAGGGT
TACAGCGCAGGCCGTTTC
GTTACTTCAGGCCTTCT
CAGCGCAGGCCGTTTCGT
TACTTCAGGCCTTCTAG
CAGCGCAGGCCGTTTCGT
TACTTCAGGCCTTCT
GCGCTGCCCTAGCGGCAA
CATTGTTAAGGGCGGCG
CGCTGCCCTAGCGGCAAC
ATTGTTAAGGGCGGCGT
CGCTGCCCTAGCGGCAA
CATTGTTAAGGGCGGCG
CGCCGCCCTTAACAATGT
TGCCGCTAGGGCAGCGC
GCCGCCCTTAACAATGTT
GCCGCTAGGGCAGCGCG
GCCGCCCTTAACAATGTT
GCCGCTAGGGCAGCGC
TCAACCGGCGCCTCTATC
CCTTCAACGCGTTCCGC
CCGGCGCCTCTATCCCTTC
AACGCGTTCCGCTCGC
CCGGCGCCTCTATCCCTT
CAACGCGTTCCGC
GGATGGTGCGCCCCGAGC
GCGACAAGATTGGCGAC
GATGGTGCGCCCCGAGCG
CGACAAGATTGGCGACA
GATGGTGCGCCCCGAGC
GCGACAAGATTGGCGAC
TCTCGTCGCCTGTGCCGTG
GAGGTGCGCCACCGGA
CGTCGCCTGTGCCGTGGA
GGTGCGCCACCGGAAAC
CGTCGCCTGTGCCGTGGA
GGTGCGCCACCGGA
TCATGAAGACGTGTCTTG
AGAACGTGAACGCCGTT
AAGACGTGTCTTGAGAAC
GTGAACGCCGTTCTCAG
AAGACGTGTCTTGAGAA
CGTGAACGCCGTT
GGATCGGCGACGATGCCGAACGCCTTGCGGCGGAC
TCGGCGACGATGCCGAACGCCTTGCGGCGGACGGT
TCGGCGACGATGCCGAACGCCTTGCGGCGGAC
TGCTGGCGCACCGCAACG
CGGACGTGCGGGACCTC
CTGGCGCACCGCAACGCG
GACGTGCGGGACCTCAA
CTGGCGCACCGCAACGC
GGACGTGCGGGACCTC
TGACGGTCGCGCGGATCT
GATGCGTGTTGCGCAGT
CGGTCGCGCGGATCTGAT
GCGTGTTGCGCAGTTCC
CGGTCGCGCGGATCTGAT
GCGTGTTGCGCAGT
ACTGCGCAACACGCATCA
GATCCGCGCGACCGTCA
CGCAACACGCATCAGATC
CGCGCGACCGTCAAACA
CGCAACACGCATCAGAT
CCGCGCGACCGTCA
GTTCGATTTCCGAAAATCT
TCAATTACGGAACGTC
TCGATTTCCGAAAATCTT
CAATTACGGAACGTCGC
TCGATTTCCGAAAATCTT
CAATTACGGAACGTC
TTACGGCGGGTGTCTCTG
GCACGATCCTGCTTTGC
ACGGCGGGTGTCTCTGGC
ACGATCCTGCTTTGCCA
ACGGCGGGTGTCTCTGGC
ACGATCCTGCTTTGC
GACGCTAGACATGTTCAA
TCTCCAAACCTTGCCTA
ACGCTAGACATGTTCAAT
CTCCAAACCTTGCCTAT
ACGCTAGACATGTTCAAT
CTCCAAACCTTGCCTA
TCGTATATATTATCATTCA
GGGTATATAAACAAAG
ATATATTATCATTCAGGG
TATATAAACAAAGAATA
ATATATTATCATTCAGGG
TATATAAACAAAG
ACGCCGCCCTTAACAATG
TTGCCGCTAGGGCAGCG
CGCCGCCCTTAACAATGT
TGCCGCTAGGGCAGCGC
CGCCGCCCTTAACAATGT
TGCCGCTAGGGCAGCG
ACGCCGCCCTTAACAATG
TTGCCGCTAGGGCAGCG
GCCGCCCTTAACAATGTT
GCCGCTAGGGCAGCGCG
GCCGCCCTTAACAATGTT
GCCGCTAGGGCAGCG
ATTGCATAGGGCACCATC
CGGGATGCCGTCCCCTC
TTGCATAGGGCACCATCC
GGGATGCCGTCCCCTCC
TTGCATAGGGCACCATCC
GGGATGCCGTCCCCTC
CGCGCTGCCCTAGCGGCAACATTGTTAAGGGCGGC
GCGCTGCCCTAGCGGCAACATTGTTAAGGGCGGCG
GCGCTGCCCTAGCGGCAACATTGTTAAGGGCGGC
CGCGCTGCCCTAGCGGCA
ACATTGTTAAGGGCGGC
CGCTGCCCTAGCGGCAAC
ATTGTTAAGGGCGGCGT
CGCTGCCCTAGCGGCAA
CATTGTTAAGGGCGGC
26
Lampiran 1 Lanjutan
GGCCTCAATCTCGGCCTG
ACCCGGATGGCGGAAGC
CAATCTCGGCCTGACCCG
GATGGCGGAAGCCTGCA
CAATCTCGGCCTGACCCG
GATGGCGGAAGC
GGATCGGCGACGATGCCG
AACGCCTTGCGGCGGAC
TCGGCGACGATGCCGAAC
GCCTTGCGGCGGACGGT
TCGGCGACGATGCCGAA
CGCCTTGCGGCGGAC
CAGCCGACTCTTTCGGGT
GAAGAAATGTCGGCCAG
GCCGACTCTTTCGGGTGA
AGAAATGTCGGCCAGAG
GCCGACTCTTTCGGGTGA
AGAAATGTCGGCCAG
TTGAGGTCCCGCACGTCC
GCGTTGCGGTGCGCCAG
GAGGTCCCGCACGTCCGC
GTTGCGGTGCGCCAGCA
GAGGTCCCGCACGTCCG
CGTTGCGGTGCGCCAG
GACAGCAATCTTCTGCGGCGTAGTGTCGAAACCAC
GCAATCTTCTGCGGCGTAGTGTCGAAACCACGGGT
GCAATCTTCTGCGGCGTAGTGTCGAAACCAC
GGCGCTGCTCGCCGAACT
GGGCATCGCCAAGGACA
CGCTGCTCGCCGAACTGG
GCATCGCCAAGGACACA
CGCTGCTCGCCGAACTGG
GCATCGCCAAGGACA
ACATCGCCCGCAGCAAGG
CGCTGACGCAATTCCGC
CGCCCGCAGCAAGGCGCT
GACGCAATTCCGCCAGG
CGCCCGCAGCAAGGCGC
TGACGCAATTCCGC
TCGACGGTGATGCCATCA
ACGCCATCCTTGCCGGC
GGTGATGCCATCAACGCC
ATCCTTGCCGGCGCCGG
GGTGATGCCATCAACGC
CATCCTTGCCGGC
CGAACGCGATATGGCGAT
TAGCGCCGATCGCATGG
ACGCGATATGGCGATTAG
CGCCGATCGCATGGCCC
ACGCGATATGGCGATTA
GCGCCGATCGCATGG
TCGAGACACACCTGAAAA
GGACTGCCGCGAAAGCG
AGACACACCTGAAAAGG
ACTGCCGCGAAAGCGCGT
AGACACACCTGAAAAGG
ACTGCCGCGAAAGCG
TGCTCGATCTGGCCGGCC
AGGGTGTGGCCGTCATA
GCTCGATCTGGCCGGCCA
GGGTGTGGCCGTCATAG
GCTCGATCTGGCCGGCCA
GGGTGTGGCCGTCATA
ATCGGTCGCGCCGGCGGT
ATCGGTATAATGCTCGG
TCGGTCGCGCCGGCGGTA
TCGGTATAATGCTCGGC
TCGGTCGCGCCGGCGGT
ATCGGTATAATGCTCGG
GCGACGTTCCGTAATTGA
AGATTTTCGGAAATCGA
GACGTTCCGTAATTGAAG
ATTTTCGGAAATCGAAC
GACGTTCCGTAATTGAAG
ATTTTCGGAAATCGA
TCGAGCCGGGTTACGCCA
AAGGCGAGGACATCGGA
CCGGGTTACGCCAAAGGC
GAGGACATCGGATCTCT
CCGGGTTACGCCAAAGG
CGAGGACATCGGA
GCACTGGCAGGATAGCAGCCAAGGCGCGCGGTGTG
GGCAGGATAGCAGCCAAGGCGCGCGGTGTGCGCTT
GGCAGGATAGCAGCCAAGGCGCGCGGTGTG
ATGGCATGACCATCGTGA
CCCGCAACGTCGCGGAC
GGCATGACCATCGTGACC
CGCAACGTCGCGGACTT
GGCATGACCATCGTGAC
CCGCAACGTCGCGGAC
AAGTCCGCGACGTTGCGG
GTCACGATGGTCATGCC
GTCCGCGACGTTGCGGGT
CACGATGGTCATGCCAT
GTCCGCGACGTTGCGGGT
CACGATGGTCATGCC
GCCCAAAGCGCACACCGC
GCGCCTTGGCTGCTATC
AAGCGCACACCGCGCGCC
TTGGCTGCTATCCTGCC
AAGCGCACACCGCGCGC
CTTGGCTGCTATC
GATAGCAGCCAAGGCGCG
CGGTGTGCGCTTTGGGC
AGCAGCCAAGGCGCGCG
GTGTGCGCTTTGGGCCGC
AGCAGCCAAGGCGCGCG
GTGTGCGCTTTGGGC
CTCTGGCCGACATTTCTTC
ACCCGAAAGAGTCGGC
CTGGCCGACATTTCTTCA
CCCGAAAGAGTCGGCTG
CTGGCCGACATTTCTTCA
CCCGAAAGAGTCGGC
TCCCGGTTTCCGGTGGCG
CACCTCCACGGCACAGG
GTTTCCGGTGGCGCACCT
CCACGGCACAGGCGACG
GTTTCCGGTGGCGCACCT
CCACGGCACAGG
ATAGGCAAGGTTTGGAGA
TTGAACATGTCTAGCGT
TAGGCAAGGTTTGGAGAT
TGAACATGTCTAGCGTC
TAGGCAAGGTTTGGAGA
TTGAACATGTCTAGCGT
CCGCCCGCGCCCCACCGA
CCAGAGTCGGATCAGCC
CCCGCGCCCCACCGACCA
GAGTCGGATCAGCCGCC
CCCGCGCCCCACCGACC
AGAGTCGGATCAGCC
GGGCCATGCGATCGGCGC
TAATCGCCATATCGCGT
CCATGCGATCGGCGCTAA
TCGCCATATCGCGTTCG
CCATGCGATCGGCGCTA
ATCGCCATATCGCGT
AGATCGATTCCGCCTATC
CGCCTATTTGAAGAAGC
GATCGATTCCGCCTATCC
GCCTATTTGAAGAAGCG
GATCGATTCCGCCTATCC
GCCTATTTGAAGAAGC
CGCGGCCTGTGCCGCCTATCTCGAAAGCGCCCGCT
CCTGTGCCGCCTATCTCGAAAGCGCCCGCTGGAAT
CCTGTGCCGCCTATCTCGAAAGCGCCCGCT
TTCCAGGAGAGGCCCGCG
GCGAAGCACTGACCGGA
AGGAGAGGCCCGCGGCG
AAGCACTGACCGGATCCA
AGGAGAGGCCCGCGGCG
AAGCACTGACCGGA
27
Lampiran 1 Lanjutan
GCACTAGCTCGTCCGGTG
TGATCCGCAGCACCGTT
CTAGCTCGTCCGGTGTGA
TCCGCAGCACCGTTCCA
CTAGCTCGTCCGGTGTGA
TCCGCAGCACCGTT
TGCCCTGGTCGCGTTCGTC
GCCGCACAGGTCGACG
CCCTGGTCGCGTTCGTCG
CCGCACAGGTCGACGTC
CCCTGGTCGCGTTCGTCG
CCGCACAGGTCGACG
GGAACTGCGCAACACGCA
TCAGATCCGCGCGACCG
ACTGCGCAACACGCATCA
GATCCGCGCGACCGTCA
ACTGCGCAACACGCATC
AGATCCGCGCGACCG
CGACGGTCAGGGCCACGA
TCCACCCCAGCAGCCGC
GTCAGGGCCACGATCCAC
CCCAGCAGCCGCCAGCT
GTCAGGGCCACGATCCA
CCCCAGCAGCCGC
AAAATTCCTAAATTATTTAAAAATATTGACATTTT
ATTCCTAAATTATTTAAAAATATTGACATTTTATA
ATTCCTAAATTATTTAAAAATATTGACATTTT
AAGAAGATTTCAACATAA
ACTGTCAGAATGCTATT
GATTTCAACATAAACTGT
CAGAATGCTATTATTGC
GATTTCAACATAAACTGT
CAGAATGCTATT
GGCAGTTTTGCGCACCAG
CAACCGCCTTCAGGCTG
CAGTTTTGCGCACCAGCA
ACCGCCTTCAGGCTGGC
CAGTTTTGCGCACCAGCA
ACCGCCTTCAGGCTG
ATCAAACCTTGCCTATCC
GGTTGACTCCCATACCT
ACCTTGCCTATCCGGTTG
ACTCCCATACCTACTAG
ACCTTGCCTATCCGGTTG
ACTCCCATACCT
CGATGGACAGCCCGTCCG
CGTCGGCTGGGCGGCCG
ATGGACAGCCCGTCCGCG
TCGGCTGGGCGGCCGTG
ATGGACAGCCCGTCCGC
GTCGGCTGGGCGGCCG
TGAGCCGCGAGGATCACG
GGTCGCGTTACGTCCCG
CCGCGAGGATCACGGGTC
GCGTTACGTCCCGCAGC
CCGCGAGGATCACGGGT
CGCGTTACGTCCCG
TTTCCGACTATCTCGGATA
ATACGTATCCGACCAC
GACTATCTCGGATAATAC
GTATCCGACCACTTGCT
GACTATCTCGGATAATAC
GTATCCGACCAC
CTGTCCGATCCCGCTCTGC
GCCAGCGCAGTCATGC
TCCGATCCCGCTCTGCGC
CAGCGCAGTCATGCCGG
TCCGATCCCGCTCTGCGC
CAGCGCAGTCATGC
GCAGATAGGTCTCGAACG
CCTGGTAATCGCGGCTG
AGATAGGTCTCGAACGCC
TGGTAATCGCGGCTGCC
AGATAGGTCTCGAACGC
CTGGTAATCGCGGCTG
GGCCGACAGGTCGAGAGC
GATCGCGGTGAGCACGG
GACAGGTCGAGAGCGATC
GCGGTGAGCACGGCATG
GACAGGTCGAGAGCGAT
CGCGGTGAGCACGG
GACCGTAGCGCCAATTCGCTCTGCGGATTCGTCGA
CCGTAGCGCCAATTCGCTCTGCGGATTCGTCGAAA
CCGTAGCGCCAATTCGCTCTGCGGATTCGTCGA
TATTCTTTGTTTATATACC
CTGAATGATAATATAT
CTTTGTTTATATACCCTGA
ATGATAATATATACGA
CTTTGTTTATATACCCTG
AATGATAATATAT
TTGGATTGATTGGTTCGA
ACGGTTCGGGAAAGACA
ATTGATTGGTTCGAACGG
TTCGGGAAAGACAACGC
ATTGATTGGTTCGAACGG
TTCGGGAAAGACA
AACATCACCGGCACCTTC
GTCCTGCTCGAGGCCGC
TCACCGGCACCTTCGTCC
TGCTCGAGGCCGCCCGC
TCACCGGCACCTTCGTCC
TGCTCGAGGCCGC
CAGAGGAGGGTTTGCGCG
CCTATGCCGAGCGCGAT
AGAGGAGGGTTTGCGCGC
CTATGCCGAGCGCGATG
AGAGGAGGGTTTGCGCG
CCTATGCCGAGCGCGAT
TCCACATCTTTCTGTGCCA
TTCCCCGCCTATCGGC
CCACATCTTTCTGTGCCAT
TCCCCGCCTATCGGCG
CCACATCTTTCTGTGCCA
TTCCCCGCCTATCGGC
CCGAACGACGCGGCCTGT
GCCGCCTATCTCGAAAG
GAACGACGCGGCCTGTGC
CGCCTATCTCGAAAGCG
GAACGACGCGGCCTGTG
CCGCCTATCTCGAAAG
CTTTCGAGATAGGCGGCA
CAGGCCGCGTCGTTCGG
TTTCGAGATAGGCGGCAC
AGGCCGCGTCGTTCGGG
TTTCGAGATAGGCGGCA
CAGGCCGCGTCGTTCGG
AGCAAGTGGTCGGATACG
TATTATCCGAGATAGTC
GTGGTCGGATACGTATTA
TCCGAGATAGTCGGAAA
GTGGTCGGATACGTATTA
TCCGAGATAGTC
TCGGTCGGTGTCGGTCTC
GATGGCGGATTATGCTG
GTCGGTGTCGGTCTCGAT
GGCGGATTATGCTGCCG
GTCGGTGTCGGTCTCGAT
GGCGGATTATGCTG
GTCTGAACTCTTGGAGCG
GCGTGAAGCAATTCGTC
TCTGAACTCTTGGAGCGG
CGTGAAGCAATTCGTCG
TCTGAACTCTTGGAGCGG
CGTGAAGCAATTCGTC
CTCCCTTTGATGTCGAACATCATGCGTTTGGCGTG
CCCTTTGATGTCGAACATCATGCGTTTGGCGTGGA
CCCTTTGATGTCGAACATCATGCGTTTGGCGTG
ATCTGCGCACCGGTAACC
CCGTCACCGACAAAGCG
TCTGCGCACCGGTAACCC
CGTCACCGACAAAGCGG
TCTGCGCACCGGTAACCC
CGTCACCGACAAAGCG
28
Lampiran 1 Lanjutan
CGACGAATTGCTTCACGC
CGCTCCAAGAGTTCAGA
GACGAATTGCTTCACGCC
GCTCCAAGAGTTCAGAC
GACGAATTGCTTCACGCC
GCTCCAAGAGTTCAGA
TGGCAAAGCAGGATCGTG
CCAGAGACACCCGCCGT
GCAAAGCAGGATCGTGCC
AGAGACACCCGCCGTAA
GCAAAGCAGGATCGTGC
CAGAGACACCCGCCGT
CGCTCGGCAATATCCAGC
AGATCGCGGGTGGAGCG
CTCGGCAATATCCAGCAG
ATCGCGGGTGGAGCGGG
CTCGGCAATATCCAGCA
GATCGCGGGTGGAGCG
CGCTCCACCCGCGATCTG
CTGGATATTGCCGAGCG
GCTCCACCCGCGATCTGC
TGGATATTGCCGAGCGG
GCTCCACCCGCGATCTGC
TGGATATTGCCGAGCG
CCTACCAGGTGCGCGATCCCGAGCGCTACGGCGTC
CTACCAGGTGCGCGATCCCGAGCGCTACGGCGTCG
CTACCAGGTGCGCGATCCCGAGCGCTACGGCGTC
GCGGGCGGCCTCGAGCAG
GACGAAGGTGCCGGTGA
GCGGCCTCGAGCAGGACG
AAGGTGCCGGTGATGTT
GCGGCCTCGAGCAGGAC
GAAGGTGCCGGTGA
CGCTACCGCGCAGCTCTC
GCCGGACTCAAACACCT
CTACCGCGCAGCTCTCGC
CGGACTCAAACACCTCC
CTACCGCGCAGCTCTCGC
CGGACTCAAACACCT
GCGCGACCGATCATGTCT
TCGGTCTCTGCCATCTG
CGCGACCGATCATGTCTT
CGGTCTCTGCCATCTGC
CGCGACCGATCATGTCTT
CGGTCTCTGCCATCTG
CAGGCTCGCCAGGGACAG
CTCGTCGGCTGCCCCGA
CTCGCCAGGGACAGCTCG
TCGGCTGCCCCGAGGAA
CTCGCCAGGGACAGCTC
GTCGGCTGCCCCGA
CGTCGCCTGTGCCGTGGA
GGTGCGCCACCGGAAAC
CCTGTGCCGTGGAGGTGC
GCCACCGGAAACCGGGA
CCTGTGCCGTGGAGGTGC
GCCACCGGAAAC
GTTTCCGGTGGCGCACCT
CCACGGCACAGGCGACG
TCCGGTGGCGCACCTCCA
CGGCACAGGCGACGAGA
TCCGGTGGCGCACCTCCA
CGGCACAGGCGACG
CGTCGCCTGTGCCGTGGA
GGTGCGCCACCGGAAAC
CCTGTGCCGTGGAGGTGC
GCCACCGGAAACCGGGA
CCTGTGCCGTGGAGGTGC
GCCACCGGAAAC
GACGAACGCGTCCCGCGT
AGCGACCGTCTTTCCGA
GAACGCGTCCCGCGTAGC
GACCGTCTTTCCGATTG
GAACGCGTCCCGCGTAG
CGACCGTCTTTCCGA
TCGCCTGTGATGAGCGTC
AGCACCTGATCCGGCCG
CGCCTGTGATGAGCGTCA
GCACCTGATCCGGCCGC
CGCCTGTGATGAGCGTCA
GCACCTGATCCGGCCG
TCGCCTGTGATGAGCGTCAGCACCTGATCCGGCCG
CTGTGATGAGCGTCAGCACCTGATCCGGCCGCTCC
CTGTGATGAGCGTCAGCACCTGATCCGGCCG
CCCGCTCCACCCGCGATC
TGCTGGATATTGCCGAG
CGCTCCACCCGCGATCTG
CTGGATATTGCCGAGCG
CGCTCCACCCGCGATCTG
CTGGATATTGCCGAG
CCCGCTCCACCCGCGATC
TGCTGGATATTGCCGAG
GCTCCACCCGCGATCTGC
TGGATATTGCCGAGCGG
GCTCCACCCGCGATCTGC
TGGATATTGCCGAG
GCTGCGGGACGTAACGCG
ACCCGTGATCCTCGCGG
CGGGACGTAACGCGACCC
GTGATCCTCGCGGCTCA
CGGGACGTAACGCGACC
CGTGATCCTCGCGG
CCGCGAGGATCACGGGTC
GCGTTACGTCCCGCAGC
GAGGATCACGGGTCGCGT
TACGTCCCGCAGCGTGA
GAGGATCACGGGTCGCG
TTACGTCCCGCAGC
GTGGAGTTGGGAACACAC
AATGGTGTGTCCTATGC
AGTTGGGAACACACAATG
GTGTGTCCTATGCTGCA
AGTTGGGAACACACAAT
GGTGTGTCCTATGC
ATTGATTGGTTCGAACGG
TTCGGGAAAGACAACGC
TGATTGGTTCGAACGGTT
CGGGAAAGACAACGCTT
TGATTGGTTCGAACGGTT
CGGGAAAGACAACGC
GCGTTGTCTTTCCCGAACC
GTTCGAACCAATCAAT
TGTCTTTCCCGAACCGTTC
GAACCAATCAATCCAA
TGTCTTTCCCGAACCGTT
CGAACCAATCAAT
CAATCGGAAAGACGGTCG
CTACGCGGGACGCGTTC
TCGGAAAGACGGTCGCTA
CGCGGGACGCGTTCGTC
TCGGAAAGACGGTCGCT
ACGCGGGACGCGTTC
CTAGTAGGTATGGGAGTC
AACCGGATAGGCAAGGT
AGGTATGGGAGTCAACCG
GATAGGCAAGGTTTGAT
AGGTATGGGAGTCAACC
GGATAGGCAAGGT
TCGCCGAAATCGAGGGGA
GGTTAACGCGTGAGACA
CGCCGAAATCGAGGGGA
GGTTAACGCGTGAGACAG
CGCCGAAATCGAGGGGA
GGTTAACGCGTGAGACA
TGGCAAGGATGACGGCGGATGTGCTCTTTCCGGCG
GGCAAGGATGACGGCGGATGTGCTCTTTCCGGCGC
GGCAAGGATGACGGCGGATGTGCTCTTTCCGGCG
GCAGATAGGTCTCGAACG
CCTGGTAATCGCGGCTG
AGATAGGTCTCGAACGCC
TGGTAATCGCGGCTGCC
AGATAGGTCTCGAACGC
CTGGTAATCGCGGCTG
29
Lampiran 1 Lanjutan
CTATGACGGCCACACCCT
GGCCGGCCAGATCGAGC
TATGACGGCCACACCCTG
GCCGGCCAGATCGAGCA
TATGACGGCCACACCCTG
GCCGGCCAGATCGAGC
GGATTCTTGGGAAGGCAA
CCGATTCGGAGGTTGTC
TTCTTGGGAAGGCAACCG
ATTCGGAGGTTGTCATG
TTCTTGGGAAGGCAACC
GATTCGGAGGTTGTC
CTAGAAGGCCTGAAGTAA
CGAAACGGCCTGCGCTG
AGAAGGCCTGAAGTAACG
AAACGGCCTGCGCTGTA
AGAAGGCCTGAAGTAAC
GAAACGGCCTGCGCTG
AGCTGGCGGCTGCTGGGG
TGGATCGTGGCCCTGAC
GCGGCTGCTGGGGTGGAT
CGTGGCCCTGACCGTCG
GCGGCTGCTGGGGTGGA
TCGTGGCCCTGAC
GTGTGTCCTATGCTGCATTCTGCGACGCAGTATTA
GTCCTATGCTGCATTCTGCGACGCAGTATTACGTG
GTCCTATGCTGCATTCTGCGACGCAGTATTA
TTGCCTTCCCAAGAATCCC
AAATCCCGCCGGTCGG
CTTCCCAAGAATCCCAAA
TCCCGCCGGTCGGGAAT
CTTCCCAAGAATCCCAAA
TCCCGCCGGTCGG
GCGGCCGGATCAGGTGCT
GACGCTCATCACAGGCG
CGGCCGGATCAGGTGCTG
ACGCTCATCACAGGCGA
CGGCCGGATCAGGTGCT
GACGCTCATCACAGGCG
CGCCTGTGATGAGCGTCA
GCACCTGATCCGGCCGC
CTGTGATGAGCGTCAGCA
CCTGATCCGGCCGCTCC
CTGTGATGAGCGTCAGC
ACCTGATCCGGCCGC
TCTCGCCGATCGGCTGGG
AGCATGTGAACCTGACC
CCGATCGGCTGGGAGCAT
GTGAACCTGACCGGCGA
CCGATCGGCTGGGAGCA
TGTGAACCTGACC
GCAGCGAGCGGAACGCGT
TGAAGGGATAGAGGCGC
GCGAGCGGAACGCGTTGA
AGGGATAGAGGCGCCGG
GCGAGCGGAACGCGTTG
AAGGGATAGAGGCGC
GGAGCGGCCGGATCAGGT
GCTGACGCTCATCACAG
CGGCCGGATCAGGTGCTG
ACGCTCATCACAGGCGA
CGGCCGGATCAGGTGCT
GACGCTCATCACAG
GGAGCGGCCGGATCAGGT
GCTGACGCTCATCACAG
GCGGCCGGATCAGGTGCT
GACGCTCATCACAGGCG
GCGGCCGGATCAGGTGC
TGACGCTCATCACAG
TCCGCCCGCCCCTTCTCCG
CCACAGCCCGGAATTC
CCGCCCCTTCTCCGCCAC
AGCCCGGAATTCCTCGA
CCGCCCCTTCTCCGCCAC
AGCCCGGAATTC
GCGACTCTGAAACCTGCC
TTTGCTACTGACCTCGT
CGACTCTGAAACCTGCCT
TTGCTACTGACCTCGTC
CGACTCTGAAACCTGCCT
TTGCTACTGACCTCGT
CGTGACGAAACCCGCACCGTCTCCGTCTTCGATCC
ACGAAACCCGCACCGTCTCCGTCTTCGATCCCGCC
ACGAAACCCGCACCGTCTCCGTCTTCGATCC
CGTGACGAAACCCGCACC
GTCTCCGTCTTCGATCC
GACGAAACCCGCACCGTC
TCCGTCTTCGATCCCGC
GACGAAACCCGCACCGT
CTCCGTCTTCGATCC
TGAAATTGGACGGCCGAC
ATTCCGGGCGTCTGGCT
ATTGGACGGCCGACATTC
CGGGCGTCTGGCTGGCG
ATTGGACGGCCGACATTC
CGGGCGTCTGGCT
AATGCTCGGGAGCGTTAT
ACGCGAAGCGTGAATGA
ATGCTCGGGAGCGTTATA
CGCGAAGCGTGAATGAC
ATGCTCGGGAGCGTTATA
CGCGAAGCGTGAATGA
GCAGGCGAACCCTCCATT
CCAGCGGGCGCTTTCGA
CGAACCCTCCATTCCAGC
GGGCGCTTTCGAGATAG
CGAACCCTCCATTCCAGC
GGGCGCTTTCGA
TCGAAAGCGCCCGCTGGA
ATGGAGGGTTCGCCTGC
AGCGCCCGCTGGAATGGA
GGGTTCGCCTGCCCAAG
AGCGCCCGCTGGAATGG
AGGGTTCGCCTGC
CGCCTATCTCGAAAGCGC
CCGCTGGAATGGAGGGT
CTATCTCGAAAGCGCCCG
CTGGAATGGAGGGTTCG
CTATCTCGAAAGCGCCCG
CTGGAATGGAGGGT
TGTGTCCTTGGCGATGCCC
AGTTCGGCGAGCAGCG
TGTCCTTGGCGATGCCCA
GTTCGGCGAGCAGCGCC
TGTCCTTGGCGATGCCCA
GTTCGGCGAGCAGCG
TTTCGACGAATCCGCAGA
GCGAATTGGCGCTACGG
TCGACGAATCCGCAGAGC
GAATTGGCGCTACGGTC
TCGACGAATCCGCAGAG
CGAATTGGCGCTACGG
ACCTGAAGACCTGGATCA
ACGGCATCCATCACGGG
GAAGACCTGGATCAACGG
CATCCATCACGGGGTCA
GAAGACCTGGATCAACG
GCATCCATCACGGG
GACGAAACCCGCACCGTC
TCCGTCTTCGATCCCGC
ACGAAACCCGCACCGTCT
CCGTCTTCGATCCCGCC
ACGAAACCCGCACCGTC
TCCGTCTTCGATCCCGC
GCGGGATCGAAGACGGAGACGGTGCGGGTTTCGTC
GGATCGAAGACGGAGACGGTGCGGGTTTCGTCACG
GGATCGAAGACGGAGACGGTGCGGGTTTCGTC
CGACGCCGTAGCGCTCGG
GATCGCGCACCTGGTAG
GACGCCGTAGCGCTCGGG
ATCGCGCACCTGGTAGG
GACGCCGTAGCGCTCGG
GATCGCGCACCTGGTAG
30
Lampiran 1 Lanjutan
ACTGCCCCTGTTTATTGGT
GTTGTCGAAATTCAAC
CTGCCCCTGTTTATTGGTG
TTGTCGAAATTCAACT
CTGCCCCTGTTTATTGGT
GTTGTCGAAATTCAAC
CTTGGGCAGGCGAACCCT
CCATTCCAGCGGGCGCT
GCAGGCGAACCCTCCATT
CCAGCGGGCGCTTTCGA
GCAGGCGAACCCTCCATT
CCAGCGGGCGCT
TTATTTTCAAGATGGTTCT
ATTGATCTTCTTCACA
TATTTTCAAGATGGTTCTA
TTGATCTTCTTCACAT
TATTTTCAAGATGGTTCT
ATTGATCTTCTTCACA
TGCAGCATAGGACACACC
ATTGTGTGTTCCCAACT
GCATAGGACACACCATTG
TGTGTTCCCAACTCCAC
GCATAGGACACACCATT
GTGTGTTCCCAACT
TCCACGCCAAACGCATGATGTTCGACATCAAAGGG
CACGCCAAACGCATGATGTTCGACATCAAAGGGAG
CACGCCAAACGCATGATGTTCGACATCAAAGGG
TCGAGGAATTCCGGGCTG
TGGCGGAGAAGGGGCGG
GAATTCCGGGCTGTGGCG
GAGAAGGGGCGGGCGGA
GAATTCCGGGCTGTGGC
GGAGAAGGGGCGG
ACGCGCTTTCGCGGCAGT
CCTTTTCAGGTGTGTCT
CGCTTTCGCGGCAGTCCT
TTTCAGGTGTGTCTCGA
CGCTTTCGCGGCAGTCCT
TTTCAGGTGTGTCT
GCATGAAGCCTGTGGCCC
GTGGCTCCGGTCGCAGT
ATGAAGCCTGTGGCCCGT
GGCTCCGGTCGCAGTGC
ATGAAGCCTGTGGCCCGT
GGCTCCGGTCGCAGT
ATGGCGGACGCCTCGCGC
GGTCTCAGCTATCACCA
GCGGACGCCTCGCGCGGT
CTCAGCTATCACCACCT
GCGGACGCCTCGCGCGG
TCTCAGCTATCACCA
CGCCGATAGGCGGGGAAT
GGCACAGAAAGATGTGG
GCCGATAGGCGGGGAATG
GCACAGAAAGATGTGGA
GCCGATAGGCGGGGAAT
GGCACAGAAAGATGTGG
TCGCCGGTCAGGTTCACA
TGCTCCCAGCCGATCGG
GGTCAGGTTCACATGCTC
CCAGCCGATCGGCGAGA
GGTCAGGTTCACATGCTC
CCAGCCGATCGG
CCTGCGCTGTAGCATAAG
CGGACAAAGTGGGAACG
TGCGCTGTAGCATAAGCG
GACAAAGTGGGAACGTT
TGCGCTGTAGCATAAGC
GGACAAAGTGGGAACG
GGAGGGGACGGCATCCCG
GATGGTGCCCTATGCAA
GAGGGGACGGCATCCCGG
ATGGTGCCCTATGCAAT
GAGGGGACGGCATCCCG
GATGGTGCCCTATGCAA
CACGTAATACTGCGTCGC
AGAATGCAGCATAGGAC
TAATACTGCGTCGCAGAA
TGCAGCATAGGACACAC
TAATACTGCGTCGCAGA
ATGCAGCATAGGAC
CGCCAGCCAGACGCCCGGAATGTCGGCCGTCCAAT
AGCCAGACGCCCGGAATGTCGGCCGTCCAATTTCA
AGCCAGACGCCCGGAATGTCGGCCGTCCAAT
GCCCGGCAAGGCGGGCTT
TTGCATGTCTAGGCGGA
CCGGCAAGGCGGGCTTTT
GCATGTCTAGGCGGATT
CCGGCAAGGCGGGCTTTT
GCATGTCTAGGCGGA
TGTTTGACGGTCGCGCGG
ATCTGATGCGTGTTGCG
TGACGGTCGCGCGGATCT
GATGCGTGTTGCGCAGT
TGACGGTCGCGCGGATCT
GATGCGTGTTGCG
CCGCTCGGCAATATCCAG
CAGATCGCGGGTGGAGC
CGCTCGGCAATATCCAGC
AGATCGCGGGTGGAGCG
CGCTCGGCAATATCCAGC
AGATCGCGGGTGGAGC
CCGCTCGGCAATATCCAG
CAGATCGCGGGTGGAGC
CTCGGCAATATCCAGCAG
ATCGCGGGTGGAGCGGG
CTCGGCAATATCCAGCA
GATCGCGGGTGGAGC
TGACCCCGTGATGGATGC
CGTTGATCCAGGTCTTC
CCCGTGATGGATGCCGTT
GATCCAGGTCTTCAGGT
CCCGTGATGGATGCCGTT
GATCCAGGTCTTC
GCGTGAGGCGGTTCGCCA
GTTGCGCCGGCGGGTGA
AGGCGGTTCGCCAGTTGC
GCCGGCGGGTGACGATT
AGGCGGTTCGCCAGTTGC
GCCGGCGGGTGA
GTCATTCACGCTTCGCGTA
TAACGCTCCCGAGCAT
TCATTCACGCTTCGCGTAT
AACGCTCCCGAGCATT
TCATTCACGCTTCGCGTA
TAACGCTCCCGAGCAT
TCACGGGAGATCCTTCGA
TTCTTCCTCAACAACCC
CACGGGAGATCCTTCGAT
TCTTCCTCAACAACCCT
CACGGGAGATCCTTCGAT
TCTTCCTCAACAACCC
CGGCAGCATAATCCGCCA
TCGAGACCGACACCGAC
CAGCATAATCCGCCATCG
AGACCGACACCGACCGA
CAGCATAATCCGCCATCG
AGACCGACACCGAC
GCGGGATCGGTGGCGGCG
AGGGTGGCGGCGATCGT
GGGATCGGTGGCGGCGAG
GGTGGCGGCGATCGTCT
GGGATCGGTGGCGGCGA
GGGTGGCGGCGATCGT
GCTCTGGCTCATTGATGCGTTCGCGATCTCTCTAC
CTCTGGCTCATTGATGCGTTCGCGATCTCTCTACT
CTCTGGCTCATTGATGCGTTCGCGATCTCTCTAC
GTAGAGAGATCGCGAACG
CATCAATGAGCCAGAGC
GAGAGATCGCGAACGCAT
CAATGAGCCAGAGCAAG
GAGAGATCGCGAACGCA
TCAATGAGCCAGAGC
31
Lampiran 1 Lanjutan
AATCCGCCTAGACATGCA
AAAGCCCGCCTTGCCGG
TCCGCCTAGACATGCAAA
AGCCCGCCTTGCCGGGC
TCCGCCTAGACATGCAA
AAGCCCGCCTTGCCGG
ACACCGCGGGTAATGAGT
TCATCGGCGATCGCACG
GCGGGTAATGAGTTCATC
GGCGATCGCACGGGCAT
GCGGGTAATGAGTTCATC
GGCGATCGCACG
ACCCGTGGTTTCGACACT
ACGCCGCAGAAGATTGC
GTGGTTTCGACACTACGC
CGCAGAAGATTGCTGTC
GTGGTTTCGACACTACGC
CGCAGAAGATTGC
GTGCCGATGGTAGGATAT
CATGGAACAGAACGTGA
CCGATGGTAGGATATCAT
GGAACAGAACGTGAGCG
CCGATGGTAGGATATCAT
GGAACAGAACGTGA
GCACAGGCTGGCTTGCAGCGCCTATAAAGTTGGTG
AGGCTGGCTTGCAGCGCCTATAAAGTTGGTGCCGC
AGGCTGGCTTGCAGCGCCTATAAAGTTGGTG
TATTTTTAAATAATTTAGG
AATTTTTTCGATGGAA
TTTAAATAATTTAGGAAT
TTTTTCGATGGAACAAA
TTTAAATAATTTAGGAAT
TTTTTCGATGGAA
TCACGCTGCGGGACGTAA
CGCGACCCGTGATCCTC
GCTGCGGGACGTAACGCG
ACCCGTGATCCTCGCGG
GCTGCGGGACGTAACGC
GACCCGTGATCCTC
CATGACAACCTCCGAATC
GGTTGCCTTCCCAAGAA
GACAACCTCCGAATCGGT
TGCCTTCCCAAGAATCC
GACAACCTCCGAATCGG
TTGCCTTCCCAAGAA
CCACGCCGATCATCTCTC
GCTCGCGCTGCGCCAGG
CACGCCGATCATCTCTCG
CTCGCGCTGCGCCAGGC
CACGCCGATCATCTCTCG
CTCGCGCTGCGCCAGG
GAACGCAGTCACACGCCG
CTGTCGACTTGGTTCTG
ACGCAGTCACACGCCGCT
GTCGACTTGGTTCTGGG
ACGCAGTCACACGCCGC
TGTCGACTTGGTTCTG
ATCCCTCCAGACAAGGTA
ATCCCACTCGGCAATAG
TCCAGACAAGGTAATCCC
ACTCGGCAATAGCCATC
TCCAGACAAGGTAATCC
CACTCGGCAATAG
GGCCTTGCTGAGGAGCGG
GCGGCGCTAGCGCAGGA
CCTTGCTGAGGAGCGGGC
GGCGCTAGCGCAGGAGC
CCTTGCTGAGGAGCGGG
CGGCGCTAGCGCAGGA
ATGTGAAGAAGATCAATA
GAACCATCTTGAAAATA
TGTGAAGAAGATCAATAG
AACCATCTTGAAAATAA
TGTGAAGAAGATCAATA
GAACCATCTTGAAAATA
CCCGAACGACGCGGCCTG
TGCCGCCTATCTCGAAA
GAACGACGCGGCCTGTGC
CGCCTATCTCGAAAGCG
GAACGACGCGGCCTGTG
CCGCCTATCTCGAAA
CCCGAACGACGCGGCCTGTGCCGCCTATCTCGAAA
CCGAACGACGCGGCCTGTGCCGCCTATCTCGAAAG
CCGAACGACGCGGCCTGTGCCGCCTATCTCGAAA
AGAGATCCGATGTCCTCG
CCTTTGGCGTAACCCGG
TCCGATGTCCTCGCCTTTG
GCGTAACCCGGCTCGA
TCCGATGTCCTCGCCTTT
GGCGTAACCCGG
32
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 27 Oktober 1990 dari ayah
Michel Kamaludin dan ibu Heniati Sugiarto. Penulis merupakan putra pertama
dari dua bersaudara. Pada tahun 2009 penulis lulus dari SMA Regina Pacis
Jakarta dan pada tahun yang sama penulis masuk ke Institut Pertanian Bogor
melalui jalur SNMPTN dan diterima di Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam.
Selama mengikuti perkuliahan, penulis mengikuti beberapa kegiatan
kepanitian dengan skala departemen maupun kegiatan kepanitian terkait dengan
UKM. Beberapa kegiatan yang diikuti oleh penulis adalah sebagai panitia dalam
kegiatan perkenalan kampus dengan peserta mahasiswa ilmu komputer angkatan
47. Selain itu penulis juga menjadi asisten perkuliahan agama Katolik mulai dari
tahun 2010. Pada tahun ajaran 2010/2011 penulis menjadi ketua kegiatan Retreat
mahasiswa angkatan 47.