Seminar Sinh(Bai Dich)
-
Upload
pham-thanh-ly -
Category
Documents
-
view
19 -
download
1
Transcript of Seminar Sinh(Bai Dich)
NATURE | SỐ 409 | 15 / 02/ 2001 | www.nature.com © 2001 Macmillan Magazines Ltd
C
Bản phân tích Phân tích tiến hóa của bộ gen người
Wen- Hsiung Li , Zhenglong Gu , Haidong Wang & Anton Nekrutenk o
Sinh thái học và tiến hóa, Đại học Chicago, Đông 1101 57th Street , Chicago, Illinois 60637, Hoa Kỳ …………………………………………………………………………………………………………………………………
Hoàn thành hệ gen của con người sẽ thúc đẩy rất nhiều sự phát triển của một chi nhánh mới của gen khoa học tiến hóa. Chúng ta có
thể trực tiếp giải quyết các câu hỏi quan trọng về lịch sử tiến hóa của các gen người và trình tự quy định của chúng. Phân tích máy tính
của bộ gen người sẽ tiết lộ số lượng các gen và các yếu tố lặp đi lặp lại , mức độ trùng lặp gen và tính không đồng nhất về thành phần
trong hệ gen của con người, và mức độ xáo trộn miền và phân chia miền trong protein. Ở đây chúng tôi trình bày một số đại cương đầu
tiên của các tính năng này .
húng tôi đã phân tích dự thảo trình tự bộ gen người đối với dữ
liệu liên quan đến gen tiến hóa. Điều tra của chúng tôi tiết lộ
thông tin mới về các yếu tố lặp lại , sự phân chia tên miền và
bảo tồn hóa và nhân bản gen trong hệ gen của con người. (đối
với Phương pháp , xem Thông tin Bổ sung).
Số lượng của các yếu tố trùng lặp
Phân tích 76% của bộ gen người (sử dụng gần như tất cả các đoạn AND
có sẵn được nhân bản nằm liền kề, Bảng 1) , chúng tôi ước tính có khoảng
43% bộ gen người được chiếm bởi bốn lớp chính của phần tử lặp lại đặt
rải rác: (1) các phần tử ngắn xen kẽ (SINEs), (2) các phần tử dài xen
kẽ(LINEs), (3) các phần tử lặp lại cuối dài ( yếu tố LTR) , và (4) các gen
chuyển DNA. Hiện có hơn 4,3 triệu yếu tố lặp đi lặp lại trong bộ gen của
con người, với Alu và LINE1(L1) là thường gặp nhất . Những ước tính
này chủ yếu là đồng ý với (1) và (2). Như nhiều yếu tố lặp đi lặp lại sẽ
thoái hóa đến mức mà chúng không thể được phát hiện bởi các chương
trình máy tính RepeatMasker ( http://repeatmasker.genome.Washing -
ton.edu / cgi- bin / RepeatMasker ) , hơn 50 % bộ gen của con người đã
đến từ việc chèn các yếu tố lặp đi lặp lại này.
Các yếu tố lặp lại trong protein
Trái ngược với sự tin tưởng rằng một phần tử lặp lại chèn vào một gen là
có hại và không để tồn tại, thì lại có phần tử trùng lặp được tìm trong các
protêin (Bảng 2). Từ Danh mục Protein quốc tế (tham khảo 3 ;
http://www.ensemble.org/IPI ) , chúng tôi xuất phát từ cơ sở dữ liệu mới
bằng cách loại bỏ đồng dạng ( do thay thế nối). Chúng tôi đặt kỳ vọng ( E)
bậc phân loại < 10-80 trong BLASTing (sử dụng tBLASTN ) cơ sở dữ liệu
của chính nó và xóa tất cả, nhưng một bản sao của gen có vị trí nhiễm sắc
thể chồng chéo nhiều hơn 50 % . Tiến trình này làm giảm số lượng của
'protein’ trong cơ sở dữ liệu từ 45.112 đến 43.195 , trong đó 15.337 là
những protein được biết và protein được dự đoán 27.858 ( dịch từ việc dự
đoán gen ) .
Bảng 1 Yếu tố lặp trong bộ gen người
Loại Tìm được Ước tính trong hệ gen Phần trăm
SIN (tất cả) 1,404,300 1,841,000 12.5
Alu 1,010,400 1,324,600 10.7 LINE (tất cả) 1,045,800 1,371,100 18.9
L1 661,000 866,600 15.4
DNA 308,800 404,900 2.7
LTR 531,900 697,300 7.9
Other 7,300 9,600 0.1
Total 3,959,200 4,323,900 42.5
…………………………………………………………………………………………………
Những con số thu được bằng cách sử dụng RepeatMasker để che tất cả chuỗi đoạn
AND giao cho nhiễm sắc thể. Cơ sở dữ liệu chuỗi được sử dụng là ổn định 17 tháng
7 năm 2000. Khoảng trống trình tự đã được gỡ bỏ.Tổng chiều dài của chuỗi phân tích
(2440850649 bp) là ~ 76 % bộ gen của con người. Phần trăm của bộ gen có nghĩa là
tỷ lệ ước tính của bộ gen người bị chiếm đóng bởi các y ếu tố lặp đã được nghiên cứu.
Vì những điều kiện nghiêm ngặt sử dụng , cơ hội nhận diện sai của đồng
dạng(isoforms) là không đáng kể. Cơ sở dữ liệu mới có lẽ vẫn còn chứa
một số (isoforms) đồng dạng bởi vì các vị trí nhiễm sắc thể của nhiều trình
tự này là không rõ và isoforms của chúng không thể được xác định .
Sau đó chúng tôi đã BLASTed mỗi chuỗi trong cơ sở dữ liệu mới
ngược lại với một bản phát hành gần đây của RepBase
(www.girinst.org).Các protein dự đoán trung bình chứa nhiều sự kết hợp
với các mảnh phần tử hơn các protein đã biết (Bảng 2), cho thấy nhiều
sự sai khác xác thực trong dự đoán gen. Đây không phải là một vấn đề
quan trọng đối với protein đã biết, như chúng đã được dịch mã từ gen
nhân bản vô tính bằng phương pháp truyền thống hoặc từ ‘gen’ rằng có
một sự tương đồng cao với các gen được biết đến. Đáng ngạc nhiên là các
protein “đã biết” cũng chứa các (phần tử) yếu tố lặp lại, đặc biệt là L1 và
Alu . Một sự xem xét gần hơn cho thấy rằng các yếu tố lặp này thường
được không đưa vào khung mã nguyên bản, nhưng đã trở thành một phần
của một gen vì thay đổi- kết nối tự nhiên, mà đôi khi có thể kéo dài hoặc
cắt ngắn vùng mã hóa . L1 có trung bình cao nhất các sự kết hợp E- điểm
(bảng 2) , chỉ ra rằng quá trình tiến hóa gen L1 qua trung gian có thể được
phổ biến . Ngoài ra, có bằng chứng cho thấy dẫn truyền của các trình tự
3'- sườn trình tự (bao gồm exon ) là phổ biến trong L1 retrotransposition4
, để L1 có thể qua trung gian nhiều quá trình xáo trộn exon . Do vậy , các
yếu tố lặp có thể là quan trọng trong quá trình tiến hóa gen và sự khác biệt
loài .
Để giảm hiệu ứng của các dự đoán gen sai, chúng tôi sẽ bị xóa khỏi
cơ sở dữ liệu 2.615 protein dự đoán mà có tác động đáng kể (E <10-4) bởi
một yếu tố lặp và không có một tên miền cấu trúc nào khác với sao chép
ngược hoặc transposaze. Cơ sở dữ liệu ' sạch ' chứa 15.337 protêin ‘đã
biết' và 25.243 protêin dự đoán (tổng cộng , 40.580 ) .
Chia sẻ tên miền và bảo tồn
Một miền là một đơn vị cấu trúc hoặc chức năng trong một protein. Để
điều tra tần số của việc chia sẻ miền , nơi cùng miền xuất hiện trong các
protein khác nhau , chúng tôi có được một bộ sưu tập của con người, ruồi
giấm , giun tròn và men protein ( 15.312 , 8.896 , 9.254 và 3.136
polypeptide ) chứa đựng ít nhất một tên miền , chúng tôi sử dụng cơ sở
dữ liệu tên miền INTERPRO. Trong mỗi trường hợp các lĩnh vực lồng
nhau , chỉ có một cái ngắn nhất đã được đưa vào số liệu cuối cùng . Có
1.865, 1.218, 1.183 và 973 loại miền trong của con người, ruồi giấm, giun
tròn và men, tương ứng, và tỷ lệ protein khảm (có chứa nhiều hơn một
loại tên miền) trong bốn đơn vị phân loại là 28%, 27%, 21% và 19%.
Đầu tiên , chúng ta xem xét việc chia sẻ các loại tên miền ( hoặc tên
miền kết hợp ) , bất chấp thứ tự hoặc số lần một miền xuất hiện trong một
protein , ví dụ, một protein có A-A-B-B-A chỉ chứa hai loại tên
NATURE | SỐ 409 | 15 / 02/ 2001 | www.nature.com © 2001 Macmillan Magazines Ltd
Bảng 3 Miền và chia sẻ bậc bảo toàn trong con người và giữa
người và sinh vật nhân chuẩn khác
So với Người
Miền chia sẻ Sắp xếp các miền tương đồng
Số lượng miền
protei nschi a
Số trường hợp Tổng số. số
miền
Số lượng các miền tương đồng / Số
lượng proteins của người
sẽ trong một
protein
Số lượng loại miền Số lượng loại miền*
1 2 3 >3 2 3 >3
Người 2 214 194 73 61 1 - - - 3 147 88 25 18 2 141/556 - -
4 123 38 17 5 3 57/208 21/62 - 5 67 17 5 3 4 53/168 18/63 4/10
6 56 19 5 0 5 44/173 11/27 5/16 >6 377 79 20 5 >5 150/605 66/172 34/78
...... . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . .
Ruồi 1 143 129 32 23 1 - - -
2 134 65 14 12 2 119/337 - - 3 97 47 11 5 3 35/98 10/18 - 4 83 19 7 0 4 28/65 10/24 1/1
5 51 9 2 2 5 25/74 8/17 5/13
Bảng 4 Nhóm protein suy ra từ các chuỗi giống nhau
Kích cỡ nhóm I' Š 50%* I' Š 40%† I' Š 30%‡
Số nhóm Số nhóm Số nhóm
1 31,515 28,251 25,237 2 2,041 2,343 2,288 3–5 807 1,069 1,298
>5 359 65 14 2 >5 58/137 11/19 12/16 ......................................................................................................................................................................... Giun 1 136 92 27 9 1 - - -
2 124 56 11 12 2 89/307 - - 3 94 38 9 7 3 28/118 10/24 - 4 84 17 5 2 4 16/39 6/20 0/0 5 46 8 2 2 5 16/60 3/8 3/6
>5 355 61 11 1 >5 43/118 8/16 9/13 .........................................................................................................................................................................
6–10 104 170 262
11–20 36 57 86
21–50 14 26 38 51 1 2 69 1 1
71 1 104 1 122 1
Nấm 1 135 51 8 2 1 - - - 124 1 2 91 27 5 0 2 51/199 - - 129 1 3 64 18 2 0 3 9/20 4/12 - 132 1 4 58 5 0 0 4 4/7 3/3 0/0 133 1 1
5 41 3 0 0 5 3/6 1/2 1/1 139 1 >5 260 24 4 1 >5 36/16 1/3 0/0 221 1 ......................................................................................................................................................................... 232 1 Ruồi, 1 75 24 4 1 1 - - - 265 1 Giun 2 78 16 3 0 2 26/145 - - 292 1 v à 3 49 12 1 0 3 4/10 1/3 - 331 1 nấm 4 48 3 0 0 4 3/5 0/0 0/0 358 1 5 33 2 0 0 5 3/6 0/0 1/1 479 1
>5 249 21 3 1 >5 7/18 0/0 0/0 ...... . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . .
* Sự sắp xếp số lượng miền duy nhất / số protein của con người mà trong đó các sắp xếp sở đang được tìm thấy. Số thứ hai là lớn hơn so với trước vì nhiều protein có thể chia sẻ sự sắp xếp tương tự. Ví dụ, trong trường hợp 4/10 (số in đậm) có bốn sắp xếp độc đáo của protein ba
miền với hai loại tên miền (ví dụ, ABA sắp xếp có ba miền nhưng chỉ có hai miền loại: A và
tên miền và có sự kết hợp AB . Trong cơ sở dữ liệu của chúng tôi
, số lượng lớn nhất các loại tên miền trên mỗi protein là chín ở
người và ruồi giấm , bảy ở giun tròn và nấm men. Tần số của việc
chia sẻ miền là rất cao giữa các protein của con người (Bảng 3) ,
ví dụ , có 88 trường hợp ba protein chia sẻ hai loại tên miền. Ngoài
ra còn có nhiều protein của con người mà chia sẻ nhiều hơn một
loại tên miền với ruồi giấm, (hơi ít thường xuyên hơn ) với C.
elegans , và ( ít thường xuyên hơn ) với các protein nấm men.
Nhưng chỉ có ba trường hợp một sự kết hợp của hơn ba loại tên
miền được chia sẻ bởi các protein của con người và nấm men và
chỉ có hai trường hợp này được chia sẻ bởi bốn đơn vị phân loại .
Một trong hai trường hợp có một sự kết hợp của bảy loại miền , nó
xảy ra một lần trong con người, tuyến trùng và nấm men nhưng
hai lần trong ruồi giấm . Nó là một synthase carbamoyl -phosphate
(EC 6.3.5.5 ) tham gia vào ba bước đầu tiên của de novo sinh tổng
hợp pyrimidin nucleotide ( SwissProt nhập nos P07259 , Q18990
, Q9VXD5 , P27708 ) .
Bây giờ chúng ta xem xét việc bảo tồn các sắp xếp miền (số lượng
và thứ tự của các tên miền trong một protein). Có 3.433, 1.702,
1.248 và 470 sắp xếp riêng biệt của hai hoặc nhiều miền trong con
người, ruồi giấm, giun tròn và protein men, tương ứng. Một số
protein phơi bày lặp lại tên miền mở rộng: ở người, số lượng lớn
nhất các loại tên miền trong một protein là chín, nhưng tổng số
lượng lớn nhất của tên miền trong một protein là 130. Nhiều
protein của con người có sự sắp xếp giống hệt nhau (Bảng 3).
Tổng số 'của protein: 40.580 (15.337' 'protein đã biết và 25.243 protein dự đoán). Mọi sự so sánh với L Š 20 đã được loại trừ. * I’ là 50% đối với L> 40 và i là pI cho L> 40, nơi pI được đưa ra bởi công thức 4 pI Frost ¼ 00:01 NTH 04:08 LD - 00:32 D1 þ expð - L = 1; 000ÞÞÞ. Cho n = 0, pI = 72%, 41%, 28% và 24% cho L ¼ 20, 50, 100 và 150, tương ứng. † I’ là 40% đối với L> 70 và I’ là pI cho L> 70. ‡ I’ là 30% đối với L> 150 và I’ là pI cho L> 150.
B) đã được bảo tồn giữa con người, bay, sâu và các loại men, trong con người có mười protein
này.
Bản phân tích
NATURE | SỐ 409 | 15 / 02/ 2001 | www.nature.com © 2001 Macmillan Magazines Ltd
BẢN SAO GEN
Hai gen đã được bắt nguồn từ một nhân bản gen được cho là
paralogous; hai gen (trong hai loài) là orthologous nếu chúng bắt
nguồn từ cùng một gen thông qua sự biệt hóa. Dự đoán liệu hai loại
protein là paralogous là tương đối đơn giản khi danh tính trình tự của
chúng (I) là cao (> 40% cho chuỗi dài) nhưng trở nên khó khăn khi I
nằm trong khoảng trung bình (20-35%) hoặc thấp hơn, đặc biệt là cho
các chuỗi ngắn.
Rost5 đề xuất một công thức kinh nghiệm cho phân nhóm protein
trong cơ sở dữ liệu (Bảng 4) . Hai loại protein được giả định là
paralogous nếu tỷ lệ (p) dư lượng giống hệt nhau trong L liên kết dư
lượng axit amin giữa hai protein cao hơn so với điểm cắt ( pI ) được
xác định theo công thức . Điểm cắt tăng lên khi L giảm vì hai chuỗi
ngắn có thể không liên quan tình cờ có một giá trị p cao .. Một thực
tế phổ biến trong phân nhóm protein thành các nhóm là sử dụng mối
liên hệ duy nhất: nếu protein A và B có a p cao hơn pI và protein B
và C cũng vậy, sau đó A, B và C được gom lại trong cùng một nhóm,
thậm chí nếu giá trị p cho A và C không đáp ứng được việc cắt này .
Áp dụng công thức Rost với n = 5 (n là một yếu tố để nâng cao điểm
cắt ) cho cơ sở dữ liệu protein , chúng tôi thấy rằng nhóm lớn nhất có
15.121 thành viên , mà là nhiều hơn một phần ba cơ sở dữ liệu và bao
gồm protein khác nhau. Ngay cả đối với n = 25 nhóm lớn nhất vẫn
chứa 4.519 thành viên . Những nhóm lớn như vậy xảy ra có thể là do
protein nonhomologous có thể chia sẻ cùng miền (xem ở trên).
Chúng tôi đề xuất sử dụng I’=I × Min (n1/L1; n2 / L2), nơi I là
tỷ lệ các axit amin giống hệt nhau trong khu vực liên kết (bao gồm cả
khoảng trống) giữa các truy vấn (chuỗi 1) và mục tiêu (chuỗi 2) trình
tự thu được bởi chương trình liên kết FASTA, Li là chiều dài của
chuỗi i, và ni là số axit amin trong khu vực liên kết trong chuỗi i. Yếu
tố Min (n1/L1, n2/L2), có nghĩa là nhỏ hơn n1/L1 và n2/L2, quan tâm các
vị trí mà một bậc phân loại I cao thu được khi một protein ngắn chia
sẻ một hoặc nhiều miền với một protein dài hơn. M ột sự khác biệt
nữa giữa I’ và pi là I’ áp đặt một vùng cấm trống trong khu vực liên
kết. Đối với protein ngắn, tuy nhiên, I’ có khả năng rất cao và vì thế
chúng tôi cho rằng I’ ≥ pi với n = 5.
Bảng 4 cho thấy các nhóm protein suy ra từ công thức của chúng
tôi . I’ là 50% tương ứng với định nghĩa của Dayhoff ' của họ protein
s . Nhóm lớn nhất (139 thành viên) có chứa các L1 ngược transcrip -
tase (RT) và các chuỗi có bậc phân loại I’ cao là L1 RT. Điều này là
thật ngạc nhiên , nhưng nhiều protein ‘đã biết’ và protêin dự đoán
chứa (cắt ngắn) L1 RT ; cũng lưu ý rằng nhiều L1 RTs có lẽ vẫn còn
gần nguyên vẹn trong hệ gen của con người. Nhóm lớn thứ hai (129
thành viên) có chứa các chuỗi nặng 91 globulin miễn dịch , 1 phần tử
rheumatoid, 6 protein chưa được đặt tên và 31 protein dự đoán ;;
Nhóm thứ ba (124 thành viên) bao gồm 85 chuỗi nhẹ globulin miễn
dịch , 2 chuỗi nặng , 1 protein microfibrillar , 2 protein chưa được
đặt tên và 34 loại protein được dự đoán; Nhóm thứ tư ( 104 thành
viên) có 38 protein hình ngón tay kẽm , 6 protein chưa được đặt tên
và 60 protein dự đoán , và thứ năm ( 51 thành viên) là nhóm có chứa
16 thụ thể khứu giác và 35 protein.
Bản phân tích
I’ ≥ 30% tiêu chí xác định 3982 siêu họ (Bảng 4). Mặc dù một số
nhóm có thể xác định không chính xác, con số này có thể đại diện cho
một ước tính tối thiểu vì nhiều gen của con người vẫn chưa được xác
định và có nhiều protein trong nhóm 'singleton’(nhóm đơn) (25.237)
thực sự có thể liên quan với nhau. Lấy dữ liệu theo bậc phân loại, tỷ lệ
nhóm 'đơn' là 25.237 / 40.580 = 62% tổng số 'của protein trong cơ sở
dữ liệu' sạch 'của chúng tôi. Điều này có thể là một ước lượng quá cao,
nhưng cần được thực hiện một cách thận trọng vì rất nhiều các protein
'đơn' có thể là xác định không chính xác và vì tổng số gen của con
người vẫn chưa được biết hết.
Phân tích của chúng tôi đã cung cấp một số hiểu biết về các tiến
hóa gen trong bộ gen của con người. Có rất nhiều yếu tố lặp đi lặp lại
trong bộ gen của chúng ta (Bảng 1), và họ có thể là rất quan trọng trong
sự tiến hóa các protein của động vật có vú (Bảng 2). Chia sẻ miền là
phổ biến giữa các protein, và nhiều thỏa thuận miền đã được bảo tồn
(Bảng 3). Nhưng còn nhiều thách thức. Ví dụ, khi số lượng gen của con
người vẫn còn chưa biết, vẫn chưa rõ có bao nhiêu gen con người tồn
tại như những bản sao duy nhất. Chú thích đáng tin cậy của hệ gen và
cơ sở dữ liệu chính xác của các gen của con người và các protein cần
thiết cho một phân tích nghiêm ngặt.Ngoài ra, công cụ tốt hơn cần thiết
cho việc phân tích. Liên kết duy nhất dường như không phù hợp với
phân nhóm protein. Cuối cùng, phương pháp tốt hơn là cần thiết để
quyết định có hai loại protein là tương đồng, đặc biệt là các protein
ngắn.
1. Smit , AFA Lặp lại xen kẻ và các vật lưu niệm khác của các yếu tố chuyển vị trong hệ gen động
vật có vú . Curr . Opin . Genet . Dev . 9 , 657-663 ( 1999).
2 . Gu, Z. , Wang , H., Nekrutenko , A. & Li , W.-H. Mật độ , tỷ lệ chiều dài , và các tính năng phân
phối khác của các trình tự lặp lại trong hệ gen của con người được ước tính từ 430 megabases
chuỗi gen . Gen 259 , 81-88 (2000).
3 . Quốc tế Human Genome Sequencing Consortium. Trình tự ban đầu và phân tích bộ gen của con
người. Thiên nhiên 409, 860-921 (2001).
4 . Goodier , JL , Ostertag , EM, Kazazian , HH Jr tải nạp của các trình tự 3' - chuỗi sườn là phổ biến
trong L1vận chuyển cũ. Hum . Mol . Genet . 9 , 653-657 (2000).
5 . Rost , B. Thời kỳ thoái hóa vùng sắp xếp trình tự protein. Protein Eng . 12 , 85-94 ( 1999).
Thông tin bổ sung có sẵn từ trang web World-Wide thiên nhiên (
http://www.nature.com ) hoặc bản sao giấy từ văn phòng biên tập London của thiên
nhiên .
L ờ i c ả m ơ n Chúng tôi cảm ơn R. Stevens đã cho chúng tôi sử dụng máy tính Argonne , E. Birney
đã giúp đỡ và hỗ trợ cho nghiên cứu của NIH .
Thư nên được giải quyết để W.-H.L. (e -mail : [email protected] ) .
NATURE | SỐ 409 | 15 / 02/ 2001 | www.nature.com © 2001 Macmillan Magazines Ltd
HỌ VÀ TÊN: PHẠM THÀNH LÝ
MSSV: 61302293
HỌ VÀ TÊN: TRẦN HUỲNH PHÚC
MSSV: 61303071
LỚP: HC13HC06
NHÓM : LO2 – B
Chủ đề: Bài dịch Sinh học đại cương(Seminar)