Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Post on 04-Apr-2015

108 views 0 download

Tags:

Transcript of Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Genotypic data: concepts and meanings

Solving biological problems that require math,2012

ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

SNPs (Single Nucleotide Polymorphisms)

SNP array technology

Intensity of Allele G

Inte

nsi

ty o

f A

llele

A

Some Genotypes are missing at all …

… but are imputed with different uncertainties

Call rate:

Pour chaque échantillon, le ratio entre le nombre de genotypes "called" (au dessus du seuil de détection) sur le nombre total de SNPs.

Call rate= nombre de SNPs étant soit AA, BB ou AB sur le nombre total de SNPs

SNPs avec un call rate < 0.9 sont généralement supprimés de l'analyse

MAF: minor allele frequency

La fréquence allélique est une mesure de la fréquence relative d'un allèle à un locus précis dans une population. Habituellement, on l'exprime comme une proportion ou un pourcentage.

f(AA), f(Aa) et f(aa) : fréquences des trois génotypes à un locus

p =Fréquence de l'allèle A

q =Fréquence de l'allèle a

p+q = f(AA) + f(Aa) + f(aa) =1

Hardy–Weinberg equilibrium :HWE

Une théorie qui postule qu'il y a un équilibre de la fréquence des allèles et des génotypes au cours des génération ( les fréquences restent constantes)

Si équilibre : La loi de distribution génotypique est donc : p² + q² + 2 pq = 1

Quelques hypothèses pour que l'équilibre existe: •La population est de taille infinie •Espèces diploïde et reproduction sexuée •La Panmixie (croisements aléatoires entre individus) généralisée recouvre : Équiprobabilité des gamètes : pangamie

Rencontre des gamètes au hasard ou formation aléatoire des couple:Panmixie•Absence de mutation sur les allèles considérés

•Absence de sélection d'individus •Les générations ne se chevauchent pas

Deviation de l'équilibre?

L'écart par rapport à la loi de Hardy-Weinberg est estimé grâce au Test du χ² de Pearson, en comparant:

• la structure des fréquences génotypiques obtenues à partir des données observées

• aux fréquences calculées selon la loi de Hardy-Weinberg.

SNPs avec un pvalue de HWE < 1E-6 sont généralement supprimés de l'analyse car cela signifie qu'on rejette l'hypothèse "Dans la population, les fréquences génotypiques et alléliques sont constantes (en équilibre)"

Comptage des génotypes observés (O), déduction des fréquences alléliques

p q = 1 − pet

Calcul des génotypes attendus (E) si HWE

Test du χ² :

χ²

Test à n-1 degré de liberté (ddl), où n est le nombre de classes (allèles).Le seuil de signification à 5% du χ², pour 1 ddl, est à 3.84. Si la valeur du χ² obtenue < à 3.84, l'hypothèse nulle est non rejetée donc la population étudiée suit la loi de Hardy-Weinberg

LD si la fréquence des gamètes porteurs des allèles de deux locus différents A et B est différente du produit des fréquences des allèles c'est-à-dire s'il y a association préférentielle entre deux allèles.

Linkage Desequilibrium (LD): Déséquilibre de Liaison

Linkage Disequilibrium

Markers close together on chromosomes are often transmitted together, yielding a non-zero correlation between the alleles.

Marker 1 2 3 n

LD

D

Coefficient de correlation

Deux vecteurs

Correction de tests multiples• De nombreux tests sont effectués • Contrôle la probabilité d’avoir un faux positif par

chance • Bonferroni correction (diminue le seuil de

significativité d’1 test pour que l’ensemble des tests ait un seuil < à alpha ): – seuil alpha pour 1 test: 0.05– Seuil alpha pour plusieurs tests (n): alpha/n

• Augmente la probabilité d’avoir des faux négatifs

Analyse en composantes principales (ACP)

• L’ACP consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"): "composantes principales", ou axes.

• Permet de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables.

• Approche géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale)

• Approche statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données).

Population stratification: PCA (ACP)

Analysis of Genotypes only

Principle Component Analysis reveals SNP-vectors explaining largest variation in the data

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Raw data points: {a, …, z}

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Normalized data points: zero mean (& unit std)!

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Identification of axes with the most variance

Most variance is along PCA1

The direction of most variance

perpendicular to PCA1 defines

PCA2

Ethnic groups cluster according to geographic distances

PC1 PC1

PC

2P

C2

PCA of POPRES cohort