Seminar Sinh(Bai Dich)

NATURE | SỐ 409 | 15 / 02/ 2001 | www.nature.com © 2001 Macmillan Magazines Ltd

C

Bản phân tích Phân tích tiến hóa của bộ gen người

Wen- Hsiung Li , Zhenglong Gu , Haidong Wang & Anton Nekrutenk o

Sinh thái học và tiến hóa, Đại học Chicago, Đông 1101 57th Street , Chicago, Illinois 60637, Hoa Kỳ …………………………………………………………………………………………………………………………………

Hoàn thành hệ gen của con người sẽ thúc đẩy rất nhiều sự phát triển của một chi nhánh mới của gen khoa học tiến hóa. Chúng ta có

thể trực tiếp giải quyết các câu hỏi quan trọng về lịch sử tiến hóa của các gen người và trình tự quy định của chúng. Phân tích máy tính

của bộ gen người sẽ tiết lộ số lượng các gen và các yếu tố lặp đi lặp lại , mức độ trùng lặp gen và tính không đồng nhất về thành phần

trong hệ gen của con người, và mức độ xáo trộn miền và phân chia miền trong protein. Ở đây chúng tôi trình bày một số đại cương đầu

tiên của các tính năng này .

húng tôi đã phân tích dự thảo trình tự bộ gen người đối với dữ

liệu liên quan đến gen tiến hóa. Điều tra của chúng tôi tiết lộ

thông tin mới về các yếu tố lặp lại , sự phân chia tên miền và

bảo tồn hóa và nhân bản gen trong hệ gen của con người. (đối

với Phương pháp , xem Thông tin Bổ sung).

Số lượng của các yếu tố trùng lặp

Phân tích 76% của bộ gen người (sử dụng gần như tất cả các đoạn AND

có sẵn được nhân bản nằm liền kề, Bảng 1) , chúng tôi ước tính có khoảng

43% bộ gen người được chiếm bởi bốn lớp chính của phần tử lặp lại đặt

rải rác: (1) các phần tử ngắn xen kẽ (SINEs), (2) các phần tử dài xen

kẽ(LINEs), (3) các phần tử lặp lại cuối dài ( yếu tố LTR) , và (4) các gen

chuyển DNA. Hiện có hơn 4,3 triệu yếu tố lặp đi lặp lại trong bộ gen của

con người, với Alu và LINE1(L1) là thường gặp nhất . Những ước tính

này chủ yếu là đồng ý với (1) và (2). Như nhiều yếu tố lặp đi lặp lại sẽ

thoái hóa đến mức mà chúng không thể được phát hiện bởi các chương

trình máy tính RepeatMasker ( http://repeatmasker.genome.Washing -

ton.edu / cgi- bin / RepeatMasker ) , hơn 50 % bộ gen của con người đã

đến từ việc chèn các yếu tố lặp đi lặp lại này.

Các yếu tố lặp lại trong protein

Trái ngược với sự tin tưởng rằng một phần tử lặp lại chèn vào một gen là

có hại và không để tồn tại, thì lại có phần tử trùng lặp được tìm trong các

protêin (Bảng 2). Từ Danh mục Protein quốc tế (tham khảo 3 ;

http://www.ensemble.org/IPI ) , chúng tôi xuất phát từ cơ sở dữ liệu mới

bằng cách loại bỏ đồng dạng ( do thay thế nối). Chúng tôi đặt kỳ vọng ( E)

bậc phân loại < 10-80 trong BLASTing (sử dụng tBLASTN ) cơ sở dữ liệu

của chính nó và xóa tất cả, nhưng một bản sao của gen có vị trí nhiễm sắc

thể chồng chéo nhiều hơn 50 % . Tiến trình này làm giảm số lượng của

'protein’ trong cơ sở dữ liệu từ 45.112 đến 43.195 , trong đó 15.337 là

những protein được biết và protein được dự đoán 27.858 ( dịch từ việc dự

đoán gen ) .

Bảng 1 Yếu tố lặp trong bộ gen người

Loại Tìm được Ước tính trong hệ gen Phần trăm

SIN (tất cả) 1,404,300 1,841,000 12.5

Alu 1,010,400 1,324,600 10.7 LINE (tất cả) 1,045,800 1,371,100 18.9

L1 661,000 866,600 15.4

DNA 308,800 404,900 2.7

LTR 531,900 697,300 7.9

Other 7,300 9,600 0.1

Total 3,959,200 4,323,900 42.5

…………………………………………………………………………………………………

Những con số thu được bằng cách sử dụng RepeatMasker để che tất cả chuỗi đoạn

AND giao cho nhiễm sắc thể. Cơ sở dữ liệu chuỗi được sử dụng là ổn định 17 tháng

7 năm 2000. Khoảng trống trình tự đã được gỡ bỏ.Tổng chiều dài của chuỗi phân tích

(2440850649 bp) là ~ 76 % bộ gen của con người. Phần trăm của bộ gen có nghĩa là

tỷ lệ ước tính của bộ gen người bị chiếm đóng bởi các y ếu tố lặp đã được nghiên cứu.

Vì những điều kiện nghiêm ngặt sử dụng , cơ hội nhận diện sai của đồng

dạng(isoforms) là không đáng kể. Cơ sở dữ liệu mới có lẽ vẫn còn chứa

một số (isoforms) đồng dạng bởi vì các vị trí nhiễm sắc thể của nhiều trình

tự này là không rõ và isoforms của chúng không thể được xác định .

Sau đó chúng tôi đã BLASTed mỗi chuỗi trong cơ sở dữ liệu mới

ngược lại với một bản phát hành gần đây của RepBase

(www.girinst.org).Các protein dự đoán trung bình chứa nhiều sự kết hợp

với các mảnh phần tử hơn các protein đã biết (Bảng 2), cho thấy nhiều

sự sai khác xác thực trong dự đoán gen. Đây không phải là một vấn đề

quan trọng đối với protein đã biết, như chúng đã được dịch mã từ gen

nhân bản vô tính bằng phương pháp truyền thống hoặc từ ‘gen’ rằng có

một sự tương đồng cao với các gen được biết đến. Đáng ngạc nhiên là các

protein “đã biết” cũng chứa các (phần tử) yếu tố lặp lại, đặc biệt là L1 và

Alu . Một sự xem xét gần hơn cho thấy rằng các yếu tố lặp này thường

được không đưa vào khung mã nguyên bản, nhưng đã trở thành một phần

của một gen vì thay đổi- kết nối tự nhiên, mà đôi khi có thể kéo dài hoặc

cắt ngắn vùng mã hóa . L1 có trung bình cao nhất các sự kết hợp E- điểm

(bảng 2) , chỉ ra rằng quá trình tiến hóa gen L1 qua trung gian có thể được

phổ biến . Ngoài ra, có bằng chứng cho thấy dẫn truyền của các trình tự

3'- sườn trình tự (bao gồm exon ) là phổ biến trong L1 retrotransposition4

, để L1 có thể qua trung gian nhiều quá trình xáo trộn exon . Do vậy , các

yếu tố lặp có thể là quan trọng trong quá trình tiến hóa gen và sự khác biệt

loài .

Để giảm hiệu ứng của các dự đoán gen sai, chúng tôi sẽ bị xóa khỏi

cơ sở dữ liệu 2.615 protein dự đoán mà có tác động đáng kể (E <10-4) bởi

một yếu tố lặp và không có một tên miền cấu trúc nào khác với sao chép

ngược hoặc transposaze. Cơ sở dữ liệu ' sạch ' chứa 15.337 protêin ‘đã

biết' và 25.243 protêin dự đoán (tổng cộng , 40.580 ) .

Chia sẻ tên miền và bảo tồn

Một miền là một đơn vị cấu trúc hoặc chức năng trong một protein. Để

điều tra tần số của việc chia sẻ miền , nơi cùng miền xuất hiện trong các

protein khác nhau , chúng tôi có được một bộ sưu tập của con người, ruồi

giấm , giun tròn và men protein ( 15.312 , 8.896 , 9.254 và 3.136

polypeptide ) chứa đựng ít nhất một tên miền , chúng tôi sử dụng cơ sở

dữ liệu tên miền INTERPRO. Trong mỗi trường hợp các lĩnh vực lồng

nhau , chỉ có một cái ngắn nhất đã được đưa vào số liệu cuối cùng . Có

1.865, 1.218, 1.183 và 973 loại miền trong của con người, ruồi giấm, giun

tròn và men, tương ứng, và tỷ lệ protein khảm (có chứa nhiều hơn một

loại tên miền) trong bốn đơn vị phân loại là 28%, 27%, 21% và 19%.

Đầu tiên , chúng ta xem xét việc chia sẻ các loại tên miền ( hoặc tên

miền kết hợp ) , bất chấp thứ tự hoặc số lần một miền xuất hiện trong một

protein , ví dụ, một protein có A-A-B-B-A chỉ chứa hai loại tên

http://www.nature.com/

http://repeatmasker.genome.washing/


Bảng 3 Miền và chia sẻ bậc bảo toàn trong con người và giữa

người và sinh vật nhân chuẩn khác

So với Người

Miền chia sẻ Sắp xếp các miền tương đồng

Số lượng miền

protei nschi a

Số trường hợp Tổng số. số

miền

Số lượng các miền tương đồng / Số

lượng proteins của người

sẽ trong một

protein

Số lượng loại miền Số lượng loại miền*

1 2 3 >3 2 3 >3

Người 2 214 194 73 61 1 - - - 3 147 88 25 18 2 141/556 - -

4 123 38 17 5 3 57/208 21/62 - 5 67 17 5 3 4 53/168 18/63 4/10

6 56 19 5 0 5 44/173 11/27 5/16 >6 377 79 20 5 >5 150/605 66/172 34/78

...... . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . .

Ruồi 1 143 129 32 23 1 - - -

2 134 65 14 12 2 119/337 - - 3 97 47 11 5 3 35/98 10/18 - 4 83 19 7 0 4 28/65 10/24 1/1

5 51 9 2 2 5 25/74 8/17 5/13

Bảng 4 Nhóm protein suy ra từ các chuỗi giống nhau

Kích cỡ nhóm I' Š 50%* I' Š 40%† I' Š 30%‡

Số nhóm Số nhóm Số nhóm

1 31,515 28,251 25,237 2 2,041 2,343 2,288 3–5 807 1,069 1,298

>5 359 65 14 2 >5 58/137 11/19 12/16 ......................................................................................................................................................................... Giun 1 136 92 27 9 1 - - -

2 124 56 11 12 2 89/307 - - 3 94 38 9 7 3 28/118 10/24 - 4 84 17 5 2 4 16/39 6/20 0/0 5 46 8 2 2 5 16/60 3/8 3/6

>5 355 61 11 1 >5 43/118 8/16 9/13 .........................................................................................................................................................................

6–10 104 170 262

11–20 36 57 86

21–50 14 26 38 51 1 2 69 1 1

71 1 104 1 122 1

Nấm 1 135 51 8 2 1 - - - 124 1 2 91 27 5 0 2 51/199 - - 129 1 3 64 18 2 0 3 9/20 4/12 - 132 1 4 58 5 0 0 4 4/7 3/3 0/0 133 1 1

5 41 3 0 0 5 3/6 1/2 1/1 139 1 >5 260 24 4 1 >5 36/16 1/3 0/0 221 1 ......................................................................................................................................................................... 232 1 Ruồi, 1 75 24 4 1 1 - - - 265 1 Giun 2 78 16 3 0 2 26/145 - - 292 1 v à 3 49 12 1 0 3 4/10 1/3 - 331 1 nấm 4 48 3 0 0 4 3/5 0/0 0/0 358 1 5 33 2 0 0 5 3/6 0/0 1/1 479 1

>5 249 21 3 1 >5 7/18 0/0 0/0 ...... . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . .

* Sự sắp xếp số lượng miền duy nhất / số protein của con người mà trong đó các sắp xếp sở đang được tìm thấy. Số thứ hai là lớn hơn so với trước vì nhiều protein có thể chia sẻ sự sắp xếp tương tự. Ví dụ, trong trường hợp 4/10 (số in đậm) có bốn sắp xếp độc đáo của protein ba

miền với hai loại tên miền (ví dụ, ABA sắp xếp có ba miền nhưng chỉ có hai miền loại: A và

tên miền và có sự kết hợp AB . Trong cơ sở dữ liệu của chúng tôi

, số lượng lớn nhất các loại tên miền trên mỗi protein là chín ở

người và ruồi giấm , bảy ở giun tròn và nấm men. Tần số của việc

chia sẻ miền là rất cao giữa các protein của con người (Bảng 3) ,

ví dụ , có 88 trường hợp ba protein chia sẻ hai loại tên miền. Ngoài

ra còn có nhiều protein của con người mà chia sẻ nhiều hơn một

loại tên miền với ruồi giấm, (hơi ít thường xuyên hơn ) với C.

elegans , và ( ít thường xuyên hơn ) với các protein nấm men.

Nhưng chỉ có ba trường hợp một sự kết hợp của hơn ba loại tên

miền được chia sẻ bởi các protein của con người và nấm men và

chỉ có hai trường hợp này được chia sẻ bởi bốn đơn vị phân loại .

Một trong hai trường hợp có một sự kết hợp của bảy loại miền , nó

xảy ra một lần trong con người, tuyến trùng và nấm men nhưng

hai lần trong ruồi giấm . Nó là một synthase carbamoyl -phosphate

(EC 6.3.5.5 ) tham gia vào ba bước đầu tiên của de novo sinh tổng

hợp pyrimidin nucleotide ( SwissProt nhập nos P07259 , Q18990

, Q9VXD5 , P27708 ) .

Bây giờ chúng ta xem xét việc bảo tồn các sắp xếp miền (số lượng

và thứ tự của các tên miền trong một protein). Có 3.433, 1.702,

1.248 và 470 sắp xếp riêng biệt của hai hoặc nhiều miền trong con

người, ruồi giấm, giun tròn và protein men, tương ứng. Một số

protein phơi bày lặp lại tên miền mở rộng: ở người, số lượng lớn

nhất các loại tên miền trong một protein là chín, nhưng tổng số

lượng lớn nhất của tên miền trong một protein là 130. Nhiều

protein của con người có sự sắp xếp giống hệt nhau (Bảng 3).

Tổng số 'của protein: 40.580 (15.337' 'protein đã biết và 25.243 protein dự đoán). Mọi sự so sánh với L Š 20 đã được loại trừ. * I’ là 50% đối với L> 40 và i là pI cho L> 40, nơi pI được đưa ra bởi công thức 4 pI Frost ¼ 00:01 NTH 04:08 LD - 00:32 D1 þ expð - L = 1; 000ÞÞÞ. Cho n = 0, pI = 72%, 41%, 28% và 24% cho L ¼ 20, 50, 100 và 150, tương ứng. † I’ là 40% đối với L> 70 và I’ là pI cho L> 70. ‡ I’ là 30% đối với L> 150 và I’ là pI cho L> 150.

B) đã được bảo tồn giữa con người, bay, sâu và các loại men, trong con người có mười protein

này.

Bản phân tích



BẢN SAO GEN

Hai gen đã được bắt nguồn từ một nhân bản gen được cho là

paralogous; hai gen (trong hai loài) là orthologous nếu chúng bắt

nguồn từ cùng một gen thông qua sự biệt hóa. Dự đoán liệu hai loại

protein là paralogous là tương đối đơn giản khi danh tính trình tự của

chúng (I) là cao (> 40% cho chuỗi dài) nhưng trở nên khó khăn khi I

nằm trong khoảng trung bình (20-35%) hoặc thấp hơn, đặc biệt là cho

các chuỗi ngắn.

Rost5 đề xuất một công thức kinh nghiệm cho phân nhóm protein

trong cơ sở dữ liệu (Bảng 4) . Hai loại protein được giả định là

paralogous nếu tỷ lệ (p) dư lượng giống hệt nhau trong L liên kết dư

lượng axit amin giữa hai protein cao hơn so với điểm cắt ( pI ) được

xác định theo công thức . Điểm cắt tăng lên khi L giảm vì hai chuỗi

ngắn có thể không liên quan tình cờ có một giá trị p cao .. Một thực

tế phổ biến trong phân nhóm protein thành các nhóm là sử dụng mối

liên hệ duy nhất: nếu protein A và B có a p cao hơn pI và protein B

và C cũng vậy, sau đó A, B và C được gom lại trong cùng một nhóm,

thậm chí nếu giá trị p cho A và C không đáp ứng được việc cắt này .

Áp dụng công thức Rost với n = 5 (n là một yếu tố để nâng cao điểm

cắt ) cho cơ sở dữ liệu protein , chúng tôi thấy rằng nhóm lớn nhất có

15.121 thành viên , mà là nhiều hơn một phần ba cơ sở dữ liệu và bao

gồm protein khác nhau. Ngay cả đối với n = 25 nhóm lớn nhất vẫn

chứa 4.519 thành viên . Những nhóm lớn như vậy xảy ra có thể là do

protein nonhomologous có thể chia sẻ cùng miền (xem ở trên).

Chúng tôi đề xuất sử dụng I’=I × Min (n1/L1; n2 / L2), nơi I là

tỷ lệ các axit amin giống hệt nhau trong khu vực liên kết (bao gồm cả

khoảng trống) giữa các truy vấn (chuỗi 1) và mục tiêu (chuỗi 2) trình

tự thu được bởi chương trình liên kết FASTA, Li là chiều dài của

chuỗi i, và ni là số axit amin trong khu vực liên kết trong chuỗi i. Yếu

tố Min (n1/L1, n2/L2), có nghĩa là nhỏ hơn n1/L1 và n2/L2, quan tâm các

vị trí mà một bậc phân loại I cao thu được khi một protein ngắn chia

sẻ một hoặc nhiều miền với một protein dài hơn. M ột sự khác biệt

nữa giữa I’ và pi là I’ áp đặt một vùng cấm trống trong khu vực liên

kết. Đối với protein ngắn, tuy nhiên, I’ có khả năng rất cao và vì thế

chúng tôi cho rằng I’ ≥ pi với n = 5.

Bảng 4 cho thấy các nhóm protein suy ra từ công thức của chúng

tôi . I’ là 50% tương ứng với định nghĩa của Dayhoff ' của họ protein

s . Nhóm lớn nhất (139 thành viên) có chứa các L1 ngược transcrip -

tase (RT) và các chuỗi có bậc phân loại I’ cao là L1 RT. Điều này là

thật ngạc nhiên , nhưng nhiều protein ‘đã biết’ và protêin dự đoán

chứa (cắt ngắn) L1 RT ; cũng lưu ý rằng nhiều L1 RTs có lẽ vẫn còn

gần nguyên vẹn trong hệ gen của con người. Nhóm lớn thứ hai (129

thành viên) có chứa các chuỗi nặng 91 globulin miễn dịch , 1 phần tử

rheumatoid, 6 protein chưa được đặt tên và 31 protein dự đoán ;;

Nhóm thứ ba (124 thành viên) bao gồm 85 chuỗi nhẹ globulin miễn

dịch , 2 chuỗi nặng , 1 protein microfibrillar , 2 protein chưa được

đặt tên và 34 loại protein được dự đoán; Nhóm thứ tư ( 104 thành

viên) có 38 protein hình ngón tay kẽm , 6 protein chưa được đặt tên

và 60 protein dự đoán , và thứ năm ( 51 thành viên) là nhóm có chứa

16 thụ thể khứu giác và 35 protein.

Bản phân tích

I’ ≥ 30% tiêu chí xác định 3982 siêu họ (Bảng 4). Mặc dù một số

nhóm có thể xác định không chính xác, con số này có thể đại diện cho

một ước tính tối thiểu vì nhiều gen của con người vẫn chưa được xác

định và có nhiều protein trong nhóm 'singleton’(nhóm đơn) (25.237)

thực sự có thể liên quan với nhau. Lấy dữ liệu theo bậc phân loại, tỷ lệ

nhóm 'đơn' là 25.237 / 40.580 = 62% tổng số 'của protein trong cơ sở

dữ liệu' sạch 'của chúng tôi. Điều này có thể là một ước lượng quá cao,

nhưng cần được thực hiện một cách thận trọng vì rất nhiều các protein

'đơn' có thể là xác định không chính xác và vì tổng số gen của con

người vẫn chưa được biết hết.

Phân tích của chúng tôi đã cung cấp một số hiểu biết về các tiến

hóa gen trong bộ gen của con người. Có rất nhiều yếu tố lặp đi lặp lại

trong bộ gen của chúng ta (Bảng 1), và họ có thể là rất quan trọng trong

sự tiến hóa các protein của động vật có vú (Bảng 2). Chia sẻ miền là

phổ biến giữa các protein, và nhiều thỏa thuận miền đã được bảo tồn

(Bảng 3). Nhưng còn nhiều thách thức. Ví dụ, khi số lượng gen của con

người vẫn còn chưa biết, vẫn chưa rõ có bao nhiêu gen con người tồn

tại như những bản sao duy nhất. Chú thích đáng tin cậy của hệ gen và

cơ sở dữ liệu chính xác của các gen của con người và các protein cần

thiết cho một phân tích nghiêm ngặt.Ngoài ra, công cụ tốt hơn cần thiết

cho việc phân tích. Liên kết duy nhất dường như không phù hợp với

phân nhóm protein. Cuối cùng, phương pháp tốt hơn là cần thiết để

quyết định có hai loại protein là tương đồng, đặc biệt là các protein

ngắn.

1. Smit , AFA Lặp lại xen kẻ và các vật lưu niệm khác của các yếu tố chuyển vị trong hệ gen động

vật có vú . Curr . Opin . Genet . Dev . 9 , 657-663 ( 1999).

2 . Gu, Z. , Wang , H., Nekrutenko , A. & Li , W.-H. Mật độ , tỷ lệ chiều dài , và các tính năng phân

phối khác của các trình tự lặp lại trong hệ gen của con người được ước tính từ 430 megabases

chuỗi gen . Gen 259 , 81-88 (2000).

3 . Quốc tế Human Genome Sequencing Consortium. Trình tự ban đầu và phân tích bộ gen của con

người. Thiên nhiên 409, 860-921 (2001).

4 . Goodier , JL , Ostertag , EM, Kazazian , HH Jr tải nạp của các trình tự 3' - chuỗi sườn là phổ biến

trong L1vận chuyển cũ. Hum . Mol . Genet . 9 , 653-657 (2000).

5 . Rost , B. Thời kỳ thoái hóa vùng sắp xếp trình tự protein. Protein Eng . 12 , 85-94 ( 1999).

Thông tin bổ sung có sẵn từ trang web World-Wide thiên nhiên (

http://www.nature.com ) hoặc bản sao giấy từ văn phòng biên tập London của thiên

nhiên .

L ờ i c ả m ơ n Chúng tôi cảm ơn R. Stevens đã cho chúng tôi sử dụng máy tính Argonne , E. Birney

đã giúp đỡ và hỗ trợ cho nghiên cứu của NIH .

Thư nên được giải quyết để W.-H.L. (e -mail : [email protected] ) .



HỌ VÀ TÊN: PHẠM THÀNH LÝ

MSSV: 61302293

HỌ VÀ TÊN: TRẦN HUỲNH PHÚC

MSSV: 61303071

LỚP: HC13HC06

NHÓM : LO2 – B

Chủ đề: Bài dịch Sinh học đại cương(Seminar)


Seminar Sinh(Bai Dich)

Documents

Transcript of Seminar Sinh(Bai Dich)