단백질접기와단백질구조예측 - kias.re.kr은어려움이있다....

6
30 과학의 지평 단백질 접기 게임 Fold it ! 얼마 전 “고득점자는 노벨상 수상 가능”‘단백질 접기’온라인 게임[1] 이라는 제목으로“Fold it이라는 미국 워싱턴대학교의 과학자들이 개발한 흥미로운 게임이 소개되었는데, 이는 일반인들이 현 대 생명과학의 중심에 있는 단백질의 모양을 마우스 를 이용하여 직접 접어보는 게임이다. 어릴 적 하던 종이 접기를 생각하면 조금 다르지만 해보면 꽤 재 (?)가 있다. 처음 게임을 시작하면 워싱턴 대학의 David Baker 박사의 가이드에 따라 작고 간단한 단백질부터 어떻게 접어야 좋은 점수를 얻을 수 있 는지 교육을 받을 수 있다. 그림1은 실제 게임 화면 인데, Pro Peptide 라는 단백질을 정답을 가르쳐 주지 않은 상태에서 여러 사용자들이 동시에 접어보면서 스코어와 등수까지 알 수 있다. 이 게임을 개발한 과 학자들에 따르면, 이 게임의 목적은“게임에 참여하 는 평범한 사람들이 노벨상 후보자가 되도록 하는 것” 이라고 한다. 우스개 소리처럼 들리지만, 단백질의 접 단백질 접기와 단백질 구조 예측 글_ 주기형∙고등과학원 계산과학부 연구원 그림 1: Fold it 게임 화면, 나선형의 구조가 헬릭스 구조이고, 평평하게 보이는 것이 베타시트 구조이다. 잔가지처럼 그려져 있는 것들은 각각 아미노산마다 다른 사이드 체인(곁가지)이다. 연구의 현장 _ 계산과학부

Transcript of 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다....

Page 1: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

30 과학의 지평

단백질 접기 게임 Fold it !

얼마 전“고득점자는 노벨상 수상 가능”‘단백질

접기’온라인 게임[1] 이라는 제목으로“Fold it”

이라는 미국 워싱턴 학교의 과학자들이 개발한

흥미로운 게임이 소개되었는데, 이는 일반인들이 현

생명과학의 중심에 있는 단백질의 모양을 마우스

를 이용하여 직접 접어보는 게임이다. 어릴 적 하던

종이 접기를 생각하면 조금 다르지만 해보면 꽤 재

미(?)가 있다. 처음 게임을 시작하면 워싱턴 학의

David Baker 박사의 가이드에 따라 작고 간단한

단백질부터 어떻게 접어야 좋은 점수를 얻을 수 있

는지 교육을 받을 수 있다. 그림1은 실제 게임 화면

인데, Pro Peptide 라는 단백질을 정답을 가르쳐 주지

않은 상태에서 여러 사용자들이 동시에 접어보면서

스코어와 등수까지 알 수 있다. 이 게임을 개발한 과

학자들에 따르면, 이 게임의 목적은“게임에 참여하

는 평범한 사람들이 노벨상 후보자가 되도록 하는 것”

이라고 한다. 우스개 소리처럼 들리지만, 단백질의 접

단백질 접기와 단백질 구조 예측

_ 주기형∙고등과학원 계산과학부 연구원

그림 1: Fold it 게임 화면, 나선형의 구조가 헬릭스 구조이고, 평평하게 보이는 것이 베타시트 구조이다. 잔가지처럼 그려져 있는 것들은 각각

아미노산마다 다른 사이드 체인(곁가지)이다.

연구의 현장 _ 계산과학부

Page 2: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

31

힌 모양(구조)을 아는 것은 매우 중요하다. 그것은 단

백질의 접힌 모양이 생체 내에서의 그 기능과 집적

적인 연관성이 있기 때문이다. 휴먼지놈 프로젝트가

끝난 후 세계의 많은 연구 팀들은 생체내의 단백질

의 구조와 기능을 밝히기 위해 엄청난 규모의 예산

을 투자하고 있다. 실제로 중요한 질병에 관련된

단백질들의 구조에 관한 논문들이 계속해서 쏟아져

나오고 있다. 그만큼 단백질의 구조를 밝히는 것은 매

우 중요하고 21세기 생명과학이 풀어야 할 문제의 하

나이다.

게임 이야기를 계속 하면, 높은 점수를 얻으려면

단백질을 이루고 있는 아미노산 들의 성질과 곁가지

(side chain)에 해서 배워야 한다. 단백질은 자연에

존재하는 20가지의 아미노산들이 펩타이드 결합

(그림2)으로 짧게는 30여 개에서 많게는 거의 2000

여 개의 아미노산으로 연결되어 있는데 이를 단백질

의 기본구조 (primary structure) 또는 1차구조라고 한

다. 이 20가지의 아미노산들을 보통 어의 알파

벳을 이용하여 표시한다(ACDEFGHIKLMN-

PQRSTVWY). 또한 그 특성들이 제각각 달라서

물을 좋아하는 친수성 (hydrophilic) 아미노산들이 있

고, 또 물을 싫어하고 자기들끼리 모이기 좋아하는 소

수성(hydrophobic) 아미노산들이 있으며, 또 중간적

인 것도 있고, 그 크기도 각각 달라서 이런 성질에 따

라 국소적으로 안정한 나선형의 헬릭스 구조, 평평한

베타시트 구조를 이루고 또 특별한 모양이 없는 코

일구조 등을 만들게 된다. 이를 단백질의 2차구조(sec-

ondary structure)라고 한다(그림1). 또 이러한 2차구

조들이 서로 상호작용을 하면서 전체적으로 3차원적

인 고유한 모양 (native structure)을 갖는다. 이를

단백질의 3차구조(tertiary structure)라고 부른다.

여기서 놀라운 것은 각각의 단백질이 생체 내에서

각자 고유한 3차구조를 갖는다는 것이다. 그래서 Fold

it과 같은 게임이 가능해진다. 단백질의 1차원적 아

미노산 서열이 주어지면 항상 같은 모양으로 접힌다

는 것이다. 여기에 바로 종이 접기와 다른 점이 있다.

종이 접기는 1개의 종이로 비행기도 만들 수 있고, 배

도 만들고 종이학도 만든다. 그러나 단백질은 항상 1

가지 모양으로 접힌다 . 안핀센(Anfinsen)은

Ribonuclease라는 단백질을 접었다 폈다 하는 실험

을 통해 이것을 증명하여 노벨 화학상을 수상하 다.

단백질의 모양, 그 3차 구조는 아미노산의 서열만으

로 결정된다. 여기에는 물리학의 중요한 원리가 숨어

있는데, 이는 생체 내에서 단백질이 접히는 모양이 주

어진 환경에서 자유에너지(free energy)가 가장 낮은

구조가 된다는 것이다 (thermodynamic hypothe-

sis) [2]. 이것이 이론적 단백질 구조 예측의 기반이 된

다.

단백질 구조 예측

단백질의 구조를 이론적으로 예측하기 위해 사용

하는 방법은 크게 두 가지가 있는데, 첫째는 안핀센

의 열역학 가설에 기반한 ab initio 방법 (physics

based modeling) 둘째, 이미 구조가 밝혀진 단백질을

템플릿(template)으로 이용하는 방법 (homology

modeling, comparative modeling, template based

modeling)이 있다.

먼저 ab initio 방법을 시도하기 위해서는 단백질

을 이루고 있는 모든 원자들 간의 상호작용 에너지

를 기술하고 구조에 한 에너지를 기술하여 열역학

적 자유에너지의 최저점을 주는 구조를 찾으면 된다.

그런데 단백질은 기본적으로 원자간의 상호작용을

그림 2: 두개의 아미노산 들이 펩타이드 결합으로 연결되는 모양, 이런

방법으로 기다란 아미노산들의 체인인 단백질의 1차구조가 만들어 진다.

Page 3: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

하기 때문에 양자역학의 지배를 받는다. 그리고 수천

에서 수만에 이르는 원자로 구성되어 있는 다입자계

여서 이를 정확히 푼다는 것은 아직까진 거의 불가

능하다. 그래서 많은 경험론적 에너지 함수들이 개발

되었는데, 사용되는 각 에너지 항만 써보면 략

아래와 같다.

E 5 Eb1Eθ1EΦ1Evdw1Eel

여기서 Eb, Eθ,EΦ는 단백질의 모든 원자들이 연결

되어 있기 때문에 생기는 화학결합길이 (bond

length), 결합 각(bond angle), 뒤틀림 각(torsion

angle)에 한 에너지 함수이며, Evdw는 Lennard

Jones의 원자간 반데르발스 에너지 항이며, Eel는

전하를 띄는 원자에 한 에너지이다[3]. 또 여기에

더하여 단백질의 환경은 주로 물 속에 있는 것과 비

슷하기 때문에 물과의 상호작용 (solvation energy) 도

고려 되어야 한다. 단백질이 가질 수 있는 그 모양의

가짓수를 한번 생각해 보면 아미노산 한 개당 략

10개의 모양을 가질 수 있다고 가정하면 아미노산이

100개만 되어도 가능한 가짓수가 10100이 되어, 아무

리 빠른 컴퓨터를 사용한다 해도 모든 모양에 해

서 가장 낮은 에너지를 찾으려면 우주의 나이보다 더

긴 시간을 필요로 한다1. 그러므로 주어진 에너지 함

수의 자유에너지 최저점을 찾기 위해서는 강력한 광

역 최적화 (global optimization) 방법이 있어야 한다.

이렇게 해서 경험론적 에너지 함수를 사용하여 분자

동력학, 몬테카를로 방법을 사용하여 단백질이 접히

는 시뮬레이션을 하고자 했던 많은 시도가 있었다.

그러나 아직까지 이렇다 할 만한 좋은 결과를 얻지

32 과학의 지평

그림 3: 두 개의 유사한 구조를 갖는 단백질의 중첩 (단백질 code : 녹색 1g9o, 주황 1n7e), 서열 유사성(ID)이 15.4% 이며, 아래는 구조중첩(superposi-

tion)에 따른 서열 정렬이다. TM-score는 구조의 유사성을 의미하는데 여기서는 77.68 %정도임을 나타내고 RMSD는 두개의 겹쳐진 원자들 사이의

평균제곱 거리를 의미한다. (generated by pymol program)

1 실제의 단백질은 생체 내에서 개 마이크로 초에서 수초, 어떤 것은 길어야 수분 정도 만에 접힌다. 단백질 접힘에서 이런 실제와 이론과의 커다란

장벽을 Levintal Paradox라고 부른다[4].

Page 4: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

33

과 학 의 지 평

못하고 있다. 그래서 등장한 방법이 단백질의 국소 구

조(local structure)를 이미 구조가 알려져 있는 단백

질의 조각(fragment)에서 가져와 조합(assembly)

하는 방법과 이를 기술하는 더 경험적인 에너지 함

수들이 도입되었다. 이 방법은 비교적 단백질을 접는

데 짧은 시간이면 가능하지만 여전히 그 구조의 정

확도에 있어서 만족스러운 결과를 주지 못하고 있다.

그래서 2차적으로 많이 사용하는 방법이 바로 이

미 구조가 알려진 단백질을 템플릿으로 이용하는 방

법으로 매우 실용적이고 널리 사용되고 있다. 이

방법의 핵심 아이디어는 아미노산의 서열이 비슷한

단백질은 비슷한 모양을 갖는다는 것이다. 실재로 아

미노산 서열 유사성 (sequence similarity)이 30%

이상이 되면 거의 비슷한 구조를 갖는다. 또 어떤 경

우에는 놀랍게도 10% 미만의 유사성에도 유사한 구

조를 갖는 경우가 발견되고 있다 (remote homolo-

gous).

그림 3은 두 개의 비슷한 단백질을 구조적으로 겹

쳐본 것(superposition)인데, 이것은 구조를 서로 알

고 있을 때 가능하다. 이렇게 구조를 겹쳐 보면 이에

따른 서열 정렬을 얻을 수 있는데, 그 서열의 유사성

이 15.4% 정도임을 알 수 있다. (이런 그림은 항상 보

는 각도가 조금 다른 그림을 양쪽에 그리는데, 왼쪽

그림은 왼쪽 눈으로 오른 쪽은 오른 눈으로 보게 되

면 입체감 있게 단백질을 볼 수 있다) 여기서 만약 두

구조 중 하나가 그 3차원 구조가 알려져 있지 않고 아

미노산의 서열정보만이 주어졌다고 가정해보자. 그

러면 여기서 그 알려져 있지 않은 구조를 예측하기

위해서는 두 가지 문제에 부딪치게 된다. 첫째는

“이미 알려져 있는 구조들 중에서 어떻게 비슷한 구

조를 가진 단백질을 찾을 것인가?”이며 두 번째는 찾

았다고 했을 때, “어떻게 구조가 없는 상태에서 그림

3의 아래에 주어진 정확한 서열 정렬을 찾을 것인가?”

이다. 여기서 첫 번째 문제는 구조인식 (fold recog-

nition) 문제로 알려져 있고 두 번째는 서열 정렬

(sequence alignment) 문제로 알려져 있다. 구조 인식

문제의 경우 서열의 유사성이 높으면 (20~30% 이상)

비교적 쉽게 단백질 데이터 베이스(PDB)에서 비슷

한 구조들을 찾을 수 있다. 그러나 서열 유사성이 낮

은 경우(20% 미만)에는 매우 어려운 문제가 되고 어

떤 경우에는 비슷한 구조가 없을 수도 있다. 이것이

템플릿 기반 구조 예측 방법의 약점이다. 유사한

구조를 찾을 수 있는 경우에는 비교적 높은 정확도

로 구조예측을 할 수 있지만, 그렇지 못하면 어쩔 수

없이 ab initio 모델링을 시도하여야 한다. 한편 현재

까지 구조가 밝혀진 단백질은 약 5만 개 정도이다. 그

러나 실제로는 구조의 유사성을 제외하면 5천 개 미

만의 구조가 알려져 있다. 그래서 템플릿 기반 구조

예측 방법은 데이터베이스에 의존하게 된다. 두 번째

로 서열 정렬 문제도 매우 중요한 문제인데, 현 생

명정보학의 발전으로 이에 한 많은 연구가 이루어

져 왔고, 현재에는 여러 개의 유사한 서열을 동시에

정렬하는 다중 서열 정렬(multiple sequence align-

ment)에 의한 프로파일 (profile) 정보를 이용하여 점

점 정확한 서열 정렬을 얻는 것이 가능해지고 있다.

서열 정렬의 기본 아이디어는 그림 3의 서열정렬에

서 보는 것처럼 아미노산 서열간의 매치 스코어와 매

치 되지 않은 부분에 한 penalty 함수를 도입하여

가장 높은 스코어를 주는 정렬을 동적 프로그래밍

(dynamic programming) 방법을 통해 구하는 것이다

[5].

이렇게 구조인식과 서열 정렬 방법을 통해 템플

릿 구조와의 서열정렬을 얻으면 다음 단계로 하는 것

이 단백질 각 원자들간의 거리와 결합 각, 비틀림 각

등의 정보를 이 서열정렬과 템플릿 구조를 통해 얻

는다. 이것은 일종의 구속조건으로 보통 restraint

라고 한다. 그러면 이러한 구속조건들과 단백질 구조

의 기본 특성 정보에 한 에너지 함수를 사용하여

구조를 예측하게 된다. 이러한 방법을 쓰는 표적인

방법으로 공개 프로그램인 MODELLER가 있다. 또

다른 방법으로 조각 조립방법 (fragment assembly)

이나 부분 매칭(segment matching) 방법들이 있다. 여

Page 5: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

기까지 오면 단백질의 백본 (backbone) 구조를 얻을

수 있고 각 아미노산들의 곁가지 구조를 모델링 하

고 최종 3차원 구조를 얻게 된다.

CASP 회 [6]

단백질 구조 예측에서 CASP 회를 빼 놓을 수가

없는 데, 이것은 세계의 수많은 연구그룹들이 각자의

이론과 방법으로 아직 알려지지 않은 단백질의 구조

를 계산하여 이후에 공개되는 실험에 의한 구조와 맞

추어 보는 Community wide 실험이다. 이는 1994년

처음 시작하여 2년에 한번씩 열려 왔는데 올해 벌써

8번째 회가 개최되고 있다. 사실 이 을 쓰고

있는 현재 숨가쁘게 CASP가 진행되고 있다. 참여 그

룹만 세계 100여 개 이상의 팀이 되며 약 200여 개의

방법들이 서로 경쟁하고 있다. 이 회의 의의는

진정한 진검 승부에 있다. 단백질 구조 예측에 관한

논문은 지금까지 정말 많은 논문들이 출간 되었으며,

계속해서 벤치마크 되고 경쟁하고 있다. 그런데 많은

논문들의 단점은 사실 이미 구조를 알고 있는 상태

에서 그 방법을 시험하고 여러 파라미터들을 맞춘다

는 데 있다. 그래서 이런 CASP를 통해 테스트를 거

치게 되면 진정한 승부(?)가 가려지게 된다. 어떤 방

향이 옳은지, 어떤 구조예측 방법이 우수한지 알

수 있게 되는 것이다. 사실 이러한 경쟁은 과학자들

사이에서는 매우 피곤한 일이 될 수도 있다. 각 분야

에서 1위를 하기도 어렵지만 또 그 위치를 계속 지키

는 것은 더 어렵기 때문이다. 하지만 CASP를 통해

단백질 구조예측은 매우 빠른 속도로 발전되고 있고,

점점 더 정확하게 단백질의 접힌 구조를 예측할 수

있게 되었다. (고등과학원의 단백질 구조 연구팀은

1996년 CASP7 고해상도 구조예측 분야에서 세계 1

위를 차지한 바 있다.)

단백질 접기 시뮬레이션과 슈퍼 컴퓨팅

예전에 Science지에 소개된 villin headpiece라는

아미노산 36개짜리 단백질 조각 시뮬레이션이 있다

[7]. 이 단백질은 작은 단백질 조각이지만 자체적으

로 접히는 것으로 알려져 있다. 시뮬레이션 주변의 물

분자까지 포함하면 작은 단백질임에도 1만개도 넘는

아톰들로 이루어져 있다. 이 논문에서 하려고 했던 것

은 컴퓨터 시뮬레이션을 사용해서 이 단백질이 접히

는 과정을 보려고 한 것이지만, 거의 1년여 동안

슈퍼컴퓨터 2 를 사용하여 시뮬레이션을 했지만 결

국에는 접힘 과정을 관찰할 수 없었다. 여기에는

몇 가지 이유를 생각할 수 있는데, 첫 번째는 사용된

에너지 함수의 부정확성이 있고, 또 그렇게 오래

시뮬레이션을 했지만 실제시간으로 환산하면 겨우

수백 나노 초(10-9 sec) ~ 1 마이크로 초(10-6 sec) 정도

밖에 하지 못했다는 데 있다. 앞에 이야기 했던 단백

질의 접힘 시간을 생각하면 훨씬 더 많은 시간을 시

뮬레이션 해야 하지만 현재까지의 기술로는 아직 많

은 어려움이 있다. 참고로 현재 세계 슈퍼 컴퓨터 중

TOP 1은 Blue Gene (IBM) 으로 약 20만여 개의 cpu

core로 구성되어 있는데, 이 슈퍼컴퓨터의 제작 목적

가운데 하나가 바로 단백질 접기 시뮬레이션에 있다.

단백질 디자인

여기서 한가지 더 생각해 볼 만한 것이 단백질 디

자인이다. 예를 들어 자동차의 성능을 높이는 데

더 효율적이고 더 좋은 기능을 발휘하는 여러 가지

부품들을 새롭게 디자인하는 것이 중요하다. 마찬가

지로 생체 내의 중요 단백질의 기능을 개선할 수 있

는 단백질을 디자인 할 수 있다면 이는 매우 중요한

일이 될 수 있다. 예를 들어 어떤 질병에 강한 단백질

을 디자인 한다든가 요즘 우리나라에 많은 논란이 되

고 있는 광우병에 내성을 갖는 단백질을 새롭게 디

자인 할 수 있다면 이는 엄청난 일이 될 것이다. 단백

질 구조 예측은 이러한 분야에도 매우 폭 넓게 응용

될 수 있다. 실험으로 하기 어려운 많은 부분들에서

컴퓨터를 이용한 단백질 구조 예측, 단백질 디자

인, 또 이를 통해 신약개발과 같은 많은 부분으로 연

결될 수 있다.

34 과학의 지평

Page 6: 단백질접기와단백질구조예측 - kias.re.kr은어려움이있다. 참고로현재세계슈퍼컴퓨터중 TOP 1은Blue Gene (IBM) 으로약20만여개의cpu core로구성되어있는데,

35

과 학 의 지 평

맺는 말

구조예측을 하다 보면 계산으로 나온 모델의 일부

가 마음에 들지 않는 경우가 사실 꽤 있는데, 예를 들

면“이쪽에는 헬릭스가 있어야 하는데”, 또는“이쪽

은 베타시트를 이루면 좋겠다”또는“이쪽 곁가지가

좀 정리되어야 할 것 같다”등 이런 생각을 하게 된

다. 그러나 사실 마음뿐이고 어떻게 해볼 방법이

별로 없다. (이런 분야를 연구하는 사람들도 꽤 있는

데, 이것을 refinement라고 한다.) 그래서“만약 단백

질을 직접 보면서 손으로 만지고 조작할 수 있다면...”

이런 생각을 가끔 한다. 이것이 바로 맨 처음 설명했

던 Fold it 게임이 추구하고 있는 것이다. 손으로 마

우스를 이용해서 직접 단백질을 접는다! 아주 기발

한 아이디어이다^^. 여러분도 한번 해보기 바란다. 그

런데, 또 게임을 하다 보니, 이런 생각이 든다. 단백질

은 3차원인데, 모니터가 2차원이라 마음 로 접는 것

이 쉽지가 않다는 것이다. 그래서 컴퓨터 안에 있는

3차원 모델을 실제 우리 앞에 만들어 주는 시스템이

있다면 직접 손으로 만지면서 단백질을 접을 수 있

지 않을까? 하는 생각을 가끔 한다. 언젠가는 이런 게

나오지 않을까. 그러면 어쩌면 어떤 이론 보다 더 정

확한 모양을 접는 진짜 human expert가 탄생할지도

모르겠다.

단백질 접기는 현 생명과학의 중심에 있는 매우

중요한 문제로 단백질 접힘 구조예측은 현재 진행 중

이고 매우 빠르게 발전하고 있다. 그러나 아직도

그 근본적인 원리와 이에 한 이해 수준은 아직도

멀기만 하다. 앞에서 살펴본 템플릿 기반 구조 예측

은 실제 단백질 구조 예측에서 많은 가능성을 보여

주고 있다. 점점 더 그 정확도는 높아지고 있고 그 기

반이 되는 단백질의 구조 데이터베이스는 늘어가고

있기 때문이다. 비록 현상론적 접근의 수준에 있지만,

앞으로 더 많은 실험결과와 이론적 연구가 쌓이면 물

리학의 역사에서 케플러의 법칙과 같이 경험법칙의

완성에 이를 수 있을 것으로 전망된다. 이는 매우 실

용적이면서도 또한 더 근본적인 뉴턴의 법칙을 찾는

데 많은 도움을 줄 수 있을 것이다. 인류역사에서 현

재는 생명현상을 원자 수준에서 규명할 수 있는 수

준에 까지 도달하고 있다. 거기에 단백질의 구조에

한 본질적인 이해와 모든 단백질의 그 접힌 모양을

알 수 있다면 우주보다 복잡하고 베일에 쌓여 있는

생명현상에 해 더 깊은 이해에 이를 것이 기 된

다.

[1] Solve Puzzles for Science (http://fold.it)

http://news.empas.com/issue/show.tsp/cp_pn/5196

/20080513n04924

[2] C. B. Anfinsen, Science 181, 223 (1973)

[3] Minoru Kanehisa, Post-Genome Informatics,

Oxford university press (2000).

[4] C. Levinthal (1968). “Are there pathways for protein

folding?”. Journal de Chimie Physique et de

Physico-Chimie Biologique 65: 44-45.

[5] http://en.wikipedia.org/wiki/Sequence_alignment

[6] Critical Assessment of techniques for protein struc-

ture prediction (http://predictioncenter.org)

[7] Yong Duan and Peter A. Kollman, Science 282,

740 (1998)