Ý ôY RNA-Sequence äQpearl.cs.pusan.ac.kr/~wiki/images/8/86/TR13-05-kdg.pdf · 2015-01-18 · Ý<...

생물정보학 및 RNA-Sequence 매핑 도구 소개

Introduction of Bioinformatics &RNA-Sequence Mapping Tools

권대건

부산대학교 컴퓨터공학과

[email protected]

Abstract

Frederick Sanger에 의해서 시퀀싱 기술이 개발 된 이후 오래동안 시퀀싱과 관련된 연구가 계속되었고 2003년 에는 13년간의 연구 끝에 한 성인 남성 한명의 genome을 분석하기도하였다. 이후 2007년 유전자 서열을 분석하는 NGS(Next Genaration Sequencing)분야가 생기고꾸준히발달하게되면서유전자서열을분석하기위한수많은기술이발달하였다. NGS분야의 발달로 DNA, RNA 염기서열 데이터가 증가하게되었고, 늘어난 데이터를 분석하기위해 유전자 서열 분석에 관한 수많은 연구가 진행되었다. 현재 컴퓨터를 이용한 수많은염기 서열 분석 방법에 대한 연구가 활발히 진행되었으나 아직 염기서열의 많은 부분이

미지의 영역으로 남아 있으며 염기서열에 대한 새로 발견되는 부분과, 미지의 부분으로남아있는 염기서열을 분석하기 위한 도구의 개발은 여전히 필요하다. 본 보고서에서는 앞서 언급한 NGS분야에 대해 설명하고 현재 발표된 분석도구에서 가장 기본이 되는 부분인BWT(Burrows Wheeler Transform)알고리즘을 응용한 방법과 해시 테이블을 이용한 매핑방법을 BWT기반의 분석도구인 Bowtie와 해시 태이블 기반의 분석도구인 mrFast의 예를통해 설명하고 이후 연구방향에 대해 논의하고자 한다.

Keywords: Burrows-Wheeler Transform, Hash Table, Next Generation Sequencing

1 Next Generatrion Sequencing 소개

NGS(Next Generation Sequencing)는 2007년 유전자 서열을 분석하는 대표적인 회사인 Sanger

사와 Illumina사가 합병되면서 사용되기 시작한 용어이다. 세계적으로 큰 관심을 불러일으켰

던 2004년인간게놈프로젝트(Human Genome Project)의종료선언이후개인의유전자정보를

얻기위한연구는계속되었으며 Sanger방법을이용하여 2007년에처음으로개인의유전지도정

보를얻을수있었다.이후 2008년에는 FLX 454를이용하여 2007년에발표한개인유전자지도의

1%의 비용으로 염기서열을 분석이 가능해졌다. 이후에도 저비용으로 염기서열지도를 생성하

는 방법에 대한 연구는 계속되었고 현재에는 인터넷을 통해 대량의 유전자 정보를 쉽게 접할

수있게되었다.염기서열정보량이급증하고대량의데이터로부터기존에알수없던여러가지

1

염기서열의 특징을 발견하게되면서 NGS에서는 쏟아지는 데이터를 분석하기위한 도구가 필

요하게되었다. SNP(Single Nucleotide Polymorphism), MNP(Multi Nucleotide Polymorphism),

Indel(Insertion and Deletion)등과같은수많은유전체변이를발견하였고이러한유전적변이를

분석하기 위해 많은 연구가 진행되고 있다. 하지만 염기서열을 장치로부터 읽어들이는 과정에

서오류가발생할수있으며,앞에서언급한변이현상에대한연구도부족한부분이존재하므로

염기서열을 읽고 분석하는데에는 많은 연구가 필요하다. 본 보고서에서는 이러한 분석도구의

연구에 앞서 분석도구에 사용되는 대표적인 알고리즘인 BWT와 해시 테이블 기반 알고리즘에

대해 현재 발표된 도구를 예로들어 기존에 발표된 알고리즘에 대해 소개한다. 이후 BWT와

해시 테이블 기반 알고리즘으로 동작하는 여러 매핑도구를 비교 분석 하도록 한다.

2 매핑 알고리즘

2.1 Burrows-Wheeler Transform 기반 알고리즘

BWT(Burrows-Wheeler Transform)[1]알고리즘은 1994년 Burrows와Wheeler가처음제안한방

법으로 BWT를 이용하여 BW Matrix을 생성성하고 BW Matrix를 SuffixArray, FM-indexing과

같이 응용하여 리드와 매칭이 되는지 확인한다. Bowtie, BWA, Bowtie2와 같은 가장 대표적인

분석도구 역시 이러한 BWT 알고리즘을 이용한 도구이다. 본 논문에서는 BWT 기반의 매핑도

구인 Bowtie매핑도구를예로들어 BWT알고리즘과 Bowtie[2]에서 BWT를활용한매핑과정을

설명한다.

2.1.1 BW Matrix

0 BWT를 수행하기 위해서는 원본서열을 이용하여 정렬된 rotation Matrix을 만들어야 한다.

본 논문에서는 이를 BW Matrix이라고 정의한다. BW Matrix을 만드는 과정은 아래와 같이

진행된다.

1) 그림 1의 a에서 처럼 먼저 Suffixes Matrix을 만든다. 시작과 끝을 구분하기위해 맨 앞에

원본 서열 맨 앞에 $기호를 표시하고 모든 접미사 서열을 만든다. 이때 접미사 서열은 접미사

를 쓰고 뒤에 원본서열에서 남은 부분을 쓰도록 한다. 이렇게 만들어진 접미사 서열은 Matrix

형태로 저장한다.

2) 접미사 Matrix에서 첫번째 행을 기준으로 오름차순으로 Sorting 한다. 만약 첫글자가 같

은경우 짧은 접미사를 가지는 경우에 우선순위를 둔다. 이렇게 만들어진 Matrix를 BW Matrix

이라고 한다.

3) BW Matrix을저장할때에는 BW Matrix의처음행과끝행만저장한다.처음행과끝행만

가지고 있으면 전체 원본 서열을 복구 할 수 있다.

2

그림 1: BWT(Burrows Wheeler Transform)에서 BW Matrix 생성 과정

이렇게만들어진 BW Matrix은특이한성질을가지고있는데 BW Matrix마지막행에서 i번

째로등장하는문자는 BW Matrix의첫번째행에서 i번째로등장하는문자와동일한문자이다.

즉 그림 1의 b에서 4열 마지막행의 G는 마지막 행에서 2번째로 등장하는 문자이므로 첫행에서

두번째로 나타나는 G인 6열의 G와 동일하다는 점이다. 이러한 BW Matrix의 특징 때문에 맨

처음행과 맨 마지막행 정보만 가지고 있어도 전체 Sequence를 추출할 수 있으며, 이론적으로

O(n)의 시간 안에 검색이 가능하다.

2.1.2 Burrows-Wheeler Transform 매칭 - bowtie

그림 2은 BWT의 가장 대표적인 도구인 Bowtie에서 사용되는 매칭 방법을 나타낸 것으로 저장

된 BW Matrix를 이용하여 원본 서열인 ”AGCTCAT”에서 리드 조각인 ”TCA”를 찾는 과정을

보여준다. 매칭방법은 다음과 같이 진행된다.

1) 리드 서열의 맨 마지막 글자 ”A”로 시작하는 열을 찾는다.

2) 찾은 열의 맨 마지막 행의 글자가 n-1번째 글자 즉 C 인지 확인한다.

3) 확인이 완료되면, 첫번째 행에서 n-1번째 글자 와 동일한 글자를 찾는다.

4) 모든 글자에 대해 매칭이 완료될 때 까지 위 1 3과정을 반복한다.

모든글자에매칭될때까지위과정을반복함으로써정확하게매칭이됨을확인할수있다.

3

그림 2: Bowtie에서 BW Matrix를 이용한 매칭 과정

실제 Bowtie도구에서는 BW Matrix에각행에참조서열에대한위치정보를추가하여어느곳에

정확히 매핑되는지도 확인 가능하다.

2.1.3 에러율을 고려한 매칭

리드는 리드 서열을 읽는 과정에서 오류가 발생하거나, mRNA 생성과정에서 자연적으로 변

이가 일어 날 수 있으므로 리드에는 약간의 오류가 존재한다. 이럴경우 mRNA로부터 읽어온

리드임에도 참조서열에 매칭되지 않는 경우가 발생하기도 한다. 이렇기 때문에 Bowtie를 포함

안여러매핑도구는사용자가필요한경우입력한값에따라리드를매핑할때약간의오류율의

고려하여 수행 할 수 있어야 한다.

Bowtie에서는 여러가지 에러들 중 Subtitution(치환)에 대해서만 고려하여 수행된다. 매핑

수행도중 정확히 매칭되는 서열이 없는 경우가 발생하면 Bowtie는 해당 리드의 각각의 글자에

대해 스코어를 계산하여 가장 낮은 스코어를 가지는 글자를 남은 세개의 글자로 변환하면서

매칭되는 문자열이 있는지 확인한다. 만약 하나를 치환하였을때 매칭이 된다면 이를 ”1-error

match” 라고 한다. Bowtie이외에 BWT기반 도구 중에는 에러의 가능성이 있는 리드를 매핑할

때 Subtitution이외에도 Indel,Gap을 고려하는 도구들도 있다.

2.2 해시 기반 알고리즘

해시기반알고리즘은참조서열을 k-mer과같이분할한후해시테이블에분할한서열을키값으

로 하여 해당 서열의 위치를 저장한다. 이후 매핑과정을 수행할 때에 리드역시 k-mer로 나누어

해시테이블을 통해 비교한다. 해시 기반 도구의 경우 이론적으로는 한번 해시 테이블을 생성

하고 나면 이후에는 O(1)의 수행시간만에 리드를 매핑하는 것이 가능하지만 실제 도구에서는

4

Collision과리드의에러율에대해고려해야하므로 O(1)의시간내에수행하기는것은약간어렵

다.그러므로해시기반도구는앞의두가지문제점을해결하는방법에따라알고리즘과도구의

성능에서차이가발생한다.본논문에서는여러해시기반도구중 mrFast[3]의알고리즘에대해

분석한다.

2.2.1 해시 기반 알고리즘 - mrFast

mrFast에서는참조서열과리드를 k-mer로분할하여매칭을수행한다. mrFast에서는매핑과정

을 수행하기에 앞서 참조서열을 읽어 그림3에서와 같이 해시테이블을 생성한다. 해시테이블의

키값은 k-mer에서나올수있는모든경우의수를키로설정하며,값에는키에해당되는염기서

열조각의참조서열에서의위치를저장한다.리드의크기는적게는 100pb부터많게는 1kbp까지

매우 다양한 길이의 리드가 나타나는데,Collison을 방지하기 위해 매우 긴 길이의 키값을 가지

도록해시테이블을구성하기에는현재하드웨어의메모리의한계로인해해시테이블이제대로

생성할수없다.이러한점때문에 mrFast에서는작은길이의키를설정되어있으며어쩔수없이

많은 Collision이 생기게된다. mrFast에서는 그림3에서 처럼 list형태로 값을 저장하여 Collision

이 발생하는 문제를 해결하였다.

2.2.2 매핑 과정

리드서열을 매핑하기 위해 다음과 같은 과정을 거친다.

1) 리드서열을 해시테이블의 키값의 길이만큼 k-mer로 나눈다.

2) 나누어진 서열을 해시테이블에 대입하여 입력한 리드조각에 대해 매핑 가능성이 있는

후보 위치 리스트들을 받아 온다.

3) 후보 리스트에 있는 위치가 올바른 위치인지 seed-and-extend 방식을 이용하여 검증하고

검증에 통과한 위치 정보를 매핑 결과로 출력한다.

다시 말해서 리드들을 k-mer로 자른후 해시테이블에 대입하여 대략적인 위치 정보 리스트

를 받는다. 이후 seed-and-extend를 통해 해당 위치의 앞뒤의 염기서열들이 리드와 일치하는지

확인하고일치한다면매핑결과로출력하게된다.이때후보위치들이많아검증시간이매우길

어지기 때문에 mrFast에서는 AF를 이용하여 검증전에 전처리작업을 통해 가능성이 없는 후보

위치들을 제거함으로써 속도를 향상 시켰다.

5

그림 3: 해시 테이블 을 이용한 mrFast Indexing

2.2.3 Adjacency Filtering

AF는 ”리드에서 자른 리드조각들은 참조 서열에도 가까이 있을 것이다”라는 가정하에 가능

성이 낮은 리드조각을 사전에 제거하는 방법이다. 그림 4의 a에서 처럼 리드를 조각으로 나누

게되면 이 조각들이 참조서열에서도 비슷한 곳에 위치하게된다. k=12 일때 324, 459, 535 와

같이 떨어진 경우 같은 리드라고 보기는 어렵다. mrFast에서는 AF필터링을 통해 위와 같이

검증하기전에 미리 제거 가능한 부분을 제거하여 도구의 성능을 증가시켰다.

2.2.4 에러율을 고려한 매핑

해시 태이블 기반 알고리즘의 경우 시퀀스중 한개의 에러만 발생하더라도 해시값이 전혀 다른

값으로 출력되기 때문에 error를 찾기 힘들다. mrFast에서는 허용가능한 edit distance e를 두고

e+1개의 리드조각에 대해 seed-and-extend방식을 이용하여 검증함으로써 매핑되는 위치를 찾

는다.만약하나의리드에 2개의 e를허용한다고할때 3개의리드조각에대해서검증하면 2개의

리드조각이에러를가지고있더라도나머지하나는원래매핑되어야할위치에매핑된다.이때

CKS(Cheep K-mer Selection)알고리즘[4]을 이용하여 에러가 발생한 경우에 대한 검증 과정을

최소화 하였다. 그림 4의 b에서 보면 e = 1일때 최소 2개의 리드조각에 대해 검증해야 하는데,

이때 1,3번째리드를검증하게되면 1004번의검증을거쳐야하지만가장저비용이드는 1,2번째

리드조각을검색하면 6번만검증과정을거치면된다.즉상대적으로적게매핑된리드조각을선

정하여 수행함으로써 보다 빠르게 매핑이 가능하다. mrFast에서는 앞에서 설명한 것처럼 CKS

알고리즘을 이용하여 도구의 성능을 증가시켰다.

6

그림 4: (a)AF(Adjacency Filtering 에서 인접 서열 선택 과정과 (b)CKS(Cheep K-merSelection)에서 Cheep K-mer를 찾기위한 과정

3 Burrows-Wheeler Transform과 해시테이블을 이용한 매핑도구

위에서 언급한 Bowtie, mrFast 이외에도 표1과 같이 BWT와 해시 테이블을 이용한 많은 매핑

도구가존재한다.앞에서언급하지못한다른도구들을간단히소개하고이도구들의장단점을

분석하고 자한다.

3.1 Burrows-Wheeler Transform을 이용한 매핑 도구

3.1.1 BWA

BWA[5]는 BWT와 접미사 배열을 이용하여 정렬을 수행하는 알고리즘이다. BWT변환에 의해

생성된 BW-Matrix의접미사가 SA(Surffix Array)의어느구간에해당하는지알면, BW-Matrix

의매핑결과로 SA구간을찾음으로써원본서열에서의위치를알수있다. BWA는 subtitutioin

뿐만 아니라 indel에 대해서도 mismatch를 수행 한다. 백트래킹을 통해 mismatch를 수행하는

데, 이론적으로는 BWA를 이용하여 모든 k-mismatch를 찾을수 있으나 비용이 매우 커지므로

제한된 범위 내에서 k-mismatch를 수행한다.

3.1.2 SOAP2

SOAP2[6]는 매핑속도에 중점을 둔 BWT기반 도구이다. 전체적인 진행과정은 BWA와 유사

하지만, 속도를 올리기 위해 최대 2개의 mismath만 허용한다. 즉 탐색 도중 더이상 탐색이

불가능한 구간에 도달하면 그위치의 문자를 다른 문자로 subtitution하여 수행한다. SOPA2는

매우 빠른속도를 보이지만, mismatch수가 제한적이며 error가 많을경우 속도가 저하된다.

7

표 1: 알고리즘별 매핑 도구 특징 정리

기반 알고리즘 매핑 도구 특징

BWT

BowtieBW행렬과 LP mapping 법칙을 이용하는 알고리즘. Subti-tution에 대해 수행한다.

BWA접미사배열과 BWT를이용하여 SA구간을계산하여정렬을수행. Subtitution, Indel 전부 수행

SOAP2BWA와 동일한 구조, 속도 증가를 위해 Subtitution에 대해서만 수행.

해시 테이블

mrFASTk-mer로 나올수 있는 모든 시퀀스에 대해 해싱한 후 참조서열의 주소를 해시 테이블에 저장. 리드를 kbp 단위로 k-mer로 나누어 수행.

MAQ여러개의 탬플릿 쌍을 이용하여 리드를 해싱한 뒤 참조 서

열을 정렬.

Stampy참조 서열을 k-mer로 해싱하고 리드에서 mismatch를 허용하는 범위 안의 모든 k-mer를 생성한 후 비교.

3.2 해시 테이블을 이용한 매핑 도구

3.2.1 Stampy

mrFAst에서 적은 길이의 k-mer를 이용하여 k-mer로 나오는 시퀀스 전체를 해시테이블로 사

용한것과 달리 Stampy[7]는 참조서열을 k-mer로 나누어 해시 태이블로 생성한다. 이렇게 해시

테이블을 만들게 될 경우 메모리 비용이 매우 커지게 될 수 있으므로 몇개의 bp씩만 겹치게하

여 해시테이블의 크기를 줄이게 한다. 또한 과도하게 반복되는 k-mer의 경우 일정 수가 넘어갈

경우에는 반복 시퀀스로 간주하고 더이상 해시테이블에 저장하지 않는다. 해시 테이블이 생성

되고 나면 리드에서 가능한 모든 k-mer을 생성하여 해시테이블과 비교한다. 이때 최대 한개의

불일치 까지 허용된다. Stampy는 리드로부터 최대한 많은 k-mer를 생성하여 비교하기 때문에

높은 정확도를 보이나, 계산량이 많아 속도가 느려지는 단점이 있다.

3.2.2 MAQ

MAQ[8]는템플릿을이용하여리드서열로부터여러개의해시값(템플릿쌍)을만들어해시테이

블을구축한후,참조서열에비교하여리드의위치를찾는다.이후하나의탬플릿쌍을선택하여

전체참조서열을확인하며템플릿쌍에매칭되는지비교하고다음템플릿쌍으로이를반복한다.

MAQ는 k개 이하의 모든 mismatch쌍을 비교 할 수 있으나 mismatch수가 증가할수록 템플릿

수가 증가하며 템플릿 수만큼 전체서열을 비교해야 한다. 또한 매번 리드를 수행 할 때마다

해시 테이블을 생성해야하는 단점이 있다.

8

4 결론 및 향후 연구과제

현재 NGS 기술의 발달로 대량의 유전자 정보를 얻을 수 있게 되면서, 이전에는 알지 못했던

새로운 DNA, RNA와 관련된 현상들이 발견되고 있다. 기존에는 알지못했던 많은양의 정보가

들어 오게 되면서 유전자를 분석을 하기위한 도구에 대한 연구도 매우 중요해졌다.본논문에는

Bowtie와 mrFast 도구를 예로들어 BWT와 해시기반 매핑 방법에 대해 자세히 알아보고 BWT

와 mrFast를이용하는다른도구들을확인하였다. BWT기반의알고리즘은해시테이블기반도

구보다 유전적 변이와 오류에 대해 강인하면서도 비교적 빠른 도구를 개발 할 수 있다. 반면에

해시테이블에서는 matching의경우에는빠른속도로리드들을참조서열에매핑이가능하며,정

확도가매우높으나오류나변이가많이일어난리드일수록속도가떨어지는단점이존재한다.

하지만두도구의특성이서로다르기때문에두도구간의비교가쉽지않았다.이후연구에서는

두도구를포함한여러가지도구를비교하기위해 Simulator에대해조사하고조사한 Simulator

를 이용하여 두 도구를 포함한 최신에 발표된 여러 도구들에 대해 비교하고자 한다.

References

[1] M. Burrows, M. Burrows D. J. Wheeler, and D. J. Wheeler, “A block-sorting lossless data

compression algorithm,” 1994.

[2] B Langmead, C Trapnell, M Pop, and SL Salzberg, “Ultrafast and memory-efficient align-

ment of short dna sequences to the human genome,” Genome Biol, vol. 10, no. 3, pp. R25,

2009.

[3] Marques-Bonet T Aksay G Antonacci F Hormozdiari F Kitzman JO Baker C Malig M

Mutlu O Sahinalp SC Gibbs RA Eichler EE Alkan C, Kidd JM, “Personalized copy number

and segmental duplication maps using next-generation sequencing,” Nat Genet, vol. 41, pp.

1061–1067, 2009.

[4] Hongyi Xin, Donghyuk Lee, Farhad Hormozdiari, Samihan Yedkar, Onur Mutlu, and Can

Alkan, “Accelerating read mapping with fasthash,” BMC Genomics, vol. 14, no. 1, pp. 1–13,

2013.

[5] Durbin R. Li H, “Fast and accurate short read alignment with burrows-wheeler transform,”

Bioinformatics, vol. 25, no. 14, pp. 1754–1760, 2009.

[6] R. Li, “Soap2: an improved ultrafast tool for short read alignment transform,” Bioinformat-

ics, vol. 25, no. 15, pp. 1966–1967, 2009.

9

[7] M. Goodson G. Lunter, “Stampy: A statistical algorithm for sensitive and fast mapping of

illumina sequence reads,” Bioinformatics, vol. 21, pp. 936–939, 2011.

[8] R. Durbin H. Li, J. Ruan, “Mapping short dna sequencing reads and callingvariants using

mapping quality scores,” Bioinformatics, vol. 18, pp. 1851–1858, 2008.

10

Ý ôY RNA-Sequence äQpearl.cs.pusan.ac.kr/~wiki/images/8/86/TR13-05-kdg.pdf · 2015-01-18 · Ý<...

Documents

Transcript of Ý ôY RNA-Sequence äQpearl.cs.pusan.ac.kr/~wiki/images/8/86/TR13-05-kdg.pdf · 2015-01-18 · Ý<...