Post on 02-Jan-2016
description
Wykorzystanie informacji rodowodowej lub podobieństwa molekularnego
do określenia postaci dyspersji efektów genetycznych w liniowym modelu mieszanym z dwoma
komponentami
Marta Molińska-Glura, Krzysztof Moliński
Wisła, grudzień 2010
I. Tworzenie macierzy spokrewnień w oparciu o rodowód
II. Tworzenie macierzy podobieństw molekularnych w oparciu o różne miary podobieństwa
III. Model liniowy z dwoma komponentami
IV. Estymacja komponentów metodą REML
V. Kryterium wyboru modelu
• Predykcja efektów genetycznych nazywanych wartościami hodowlanymi roślin lub zwierząt ma istotne znaczenie w selekcji osobników.
• Efekty genetyczne w naukach medycznych najczęściej skojarzone są z odziedziczalnością pewnych cech (chorób).
I. Tworzenie macierzy spokrewnień w oparciu o rodowód
Konstrukcja klasycznego rodowodu w postaci tabelarycznej rozpoczyna się od uporządkowania posiadanych obiektów oraz przypisaniu im rodziców. Możliwe jest również umieszczenie w tabeli rodowodowej osobników o nieokreślonych przodkach. Poniżej zamieszczono fragment przykładowej tabeli rodowodowej:
nr nazwa ojciec matka1 FID - -2 VID - -3 EP1 - -4 F120 - -5 MEID - -6 S220 - -7 S65294A - -8 S56125A - -9 BID - -
10 S41796 - -11 S64417 2 112 S64423-2 2 113 S68911 2 114 S54555 6 115 S633223 5 216 S41324A-2 4 317 S41336 4 318 S79757 9 1619 S41789 16 1020 E 19 2
Odmiany kukurydzy o nieznanym pochodzeniu
Odmiany kukurydzy z pełną informacją rodowodową
Informacje zawarte w tabelarycznej postaci rodowodu mogą posłużyć do wyznaczenia macierzy spokrewnień.
Na podstawie prac Wright`a (1922) i późniejszych Henderson`a (1988) możemy przedstawić wzory definiujące elementy tej macierzy:
gdzie oraz oznaczają wyznaczoną informację rodowodową, odpowiednio ojca i matki, dla i-tego osobnika, oznacza stopień spokrewnienia ojca i matki i-tego osobnika.
Korzystając z tabelarycznej postaci rodowodu i wcześniejszych wzorów na określanie współczynników pokrewieństwa rodowodowego, odpowiednia macierz spokrewnień przyjmuje postać:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20FID VID EP1 F120 MEID S220 S65294A S56125A BID S41796 S64417 S64423-2 S68911 S54555 S633223 S41324A-2 S41336 S79757 S41789 E
1 FID 1 0 0 0 0 0 0 0 0 0 0,5 0,5 0,5 0,5 0 0 0 0 0 0
2 VID 1 0 0 0 0 0 0 0 0 0,5 0,5 0,5 0 0,5 0 0 0 0 0,5
3 EP1 1 0 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 0,25 0,25 0,125
4 F120 1 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 0,25 0,25 0,125
5 MEID 1 0 0 0 0 0 0 0 0 0 0,5 0 0 0 0 0
6 S220 1 0 0 0 0 0 0 0 0,5 0 0 0 0 0 0
7 S65294A 1 0 0 0 0 0 0 0 0 0 0 0 0 0
8 S56125A 1 0 0 0 0 0 0 0 0 0 0 0 0
9 BID 1 0 0 0 0 0 0 0 0 0,5 0 0
10 S41796 1 0 0 0 0 0 0 0 0 1 0,25
11 S64417 1 0,5 0,5 0,25 0,25 0 0 0 0 0,25
12 S64423-2 1 0,5 0,25 0,25 0 0 0 0 0,25
13 S68911 1 0,25 0,25 0 0 0 0 0,25
14 S54555 1 0 0 0 0 0 0
15 S633223 1 0 0 0 0 0,25
16 S41324A-2 1 0,5 0,5 0,5 0,25
17 S41336 1 0,25 0,25 0,125
18 S79757 1 0,25 0,125
19 S41789 1 0,5
20 E 1
II. Tworzenie macierzy podobieństw molekularnych w oparciu o różne miary podobieństwa
1. Przetworzenie obrazu na tablicę zawierającą odpowiednie wartości mas molekularnych charakteryzujące strukturę każdego z obiektów.
2. Zastosowanie znanych miar podobieństwa molekularnego bazujących na zestawie mas molekularnych .
3. Wartości podobieństw molekularnych jako składowe macierzy podobieństw molekularnych.
Najpopularniejszymi miarami oznaczania podobieństwa molekularnego są:
Miara Nei-Li
Miara Kulczyńskiego
Miara Jaccarda
to liczba „prążków” dla i-tego obiektu, to liczba „prążków” dla j-tego obiektu, to liczba „prążków” dla i-tego i j-tego obiektu występujących na tych samych pozycjach.
Korzystając z wyników analiz molekularnych metodą RAPD i wzoru Nei`a-Li określających podobieństwo molekularne odpowiednia macierz podobieństw molekularnych przyjmuje postać:
III. Model liniowy z dwoma komponentami
wektor obserwowanych zmiennych losowychmacierz dla parametrów stałych, pełnego rzędu kolumnowego wektor parametrów stałych macierz dla efektów losowych wektor losowych efektów obiektowych wektor błędów losowych
Założenia:
Dla wektora błędów losowych zakładamy:.
Dla wektora zmiennych losowych
,
gdzie oznacza dyspersję wektora losowego .
Ponadto, wektory losowe i są niezależne, oraz i są tzw. komponentami wariancji, reprezentującymi odpowiednio wariancję błędów eksperymentalnych oraz wariancję losowych efektów obiektowych.
IV. Estymacja komponentów metodą REML Spośród wielu metod estymacji komponentów wariancji wybrano znaną metodę REML. Stąd uzasadnione jest przyjęcie we wstępie założenia o normalności rozkładu zmiennej losowej . Zasada metody REML polega na wydzieleniu w funkcji gęstości wielowymiarowego rozkładu normalnego dwóch czynników, z których pierwszy wystarcza do estymacji komponentów wariancji (nie zależy od wektora parametrów stałych), drugi zaś zależy zarówno od wektora parametrów stałych jak i komponentów wariancji. W rozważanym modelu podział ten daje się zapisać:
, , oznaczają odpowiednie funkcje gęstości wielowymiarowego rozkładu normalnego oraz wymienionych wyżej czynników.
Macierz jest podmacierzą pełnego rzędu wierszowego macierzy: oraz ,
Dalsze postępowanie polega na niezależnej maksymalizacji funkcji Postępowanie to sprowadza się rozwiązania układu równań nieliniowych:
,
w którym elementy macierzy oraz wektora mają następującą postać ogólną (zależną od nieznanych , :
,
gdzie
1. W miejsce macierzy przyjmujemy macierz nieznana struktury zależności między obiektami
2. W miejsce macierzy przyjmujemy macierz zawiera wartości współczynników pokrewieństwa rodowodowego(animal model-model zwierzęcia)
3. W miejsce macierzy przyjmujemy macierz zawiera wartości współczynników podobieństwa molekularnego