Genotypic data: concepts and meanings Solving biological problems that require math,2012.

28
Genotypic data: concepts and meanings Solving biological problems that require math,2012

Transcript of Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Page 1: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Genotypic data: concepts and meanings

Solving biological problems that require math,2012

Page 2: Genotypic data: concepts and meanings Solving biological problems that require math,2012.
Page 3: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…

ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

SNPs (Single Nucleotide Polymorphisms)

Page 4: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

SNP array technology

Page 5: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Intensity of Allele G

Inte

nsi

ty o

f A

llele

A

Page 6: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Some Genotypes are missing at all …

Page 7: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

… but are imputed with different uncertainties

Page 8: Genotypic data: concepts and meanings Solving biological problems that require math,2012.
Page 9: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Call rate:

Pour chaque échantillon, le ratio entre le nombre de genotypes "called" (au dessus du seuil de détection) sur le nombre total de SNPs.

Call rate= nombre de SNPs étant soit AA, BB ou AB sur le nombre total de SNPs

SNPs avec un call rate < 0.9 sont généralement supprimés de l'analyse

Page 10: Genotypic data: concepts and meanings Solving biological problems that require math,2012.
Page 11: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

MAF: minor allele frequency

La fréquence allélique est une mesure de la fréquence relative d'un allèle à un locus précis dans une population. Habituellement, on l'exprime comme une proportion ou un pourcentage.

f(AA), f(Aa) et f(aa) : fréquences des trois génotypes à un locus

p =Fréquence de l'allèle A

q =Fréquence de l'allèle a

p+q = f(AA) + f(Aa) + f(aa) =1

Page 12: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Hardy–Weinberg equilibrium :HWE

Une théorie qui postule qu'il y a un équilibre de la fréquence des allèles et des génotypes au cours des génération ( les fréquences restent constantes)

Si équilibre : La loi de distribution génotypique est donc : p² + q² + 2 pq = 1

Quelques hypothèses pour que l'équilibre existe: •La population est de taille infinie •Espèces diploïde et reproduction sexuée •La Panmixie (croisements aléatoires entre individus) généralisée recouvre : Équiprobabilité des gamètes : pangamie

Rencontre des gamètes au hasard ou formation aléatoire des couple:Panmixie•Absence de mutation sur les allèles considérés

•Absence de sélection d'individus •Les générations ne se chevauchent pas

Page 13: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Deviation de l'équilibre?

L'écart par rapport à la loi de Hardy-Weinberg est estimé grâce au Test du χ² de Pearson, en comparant:

• la structure des fréquences génotypiques obtenues à partir des données observées

• aux fréquences calculées selon la loi de Hardy-Weinberg.

SNPs avec un pvalue de HWE < 1E-6 sont généralement supprimés de l'analyse car cela signifie qu'on rejette l'hypothèse "Dans la population, les fréquences génotypiques et alléliques sont constantes (en équilibre)"

Page 14: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Comptage des génotypes observés (O), déduction des fréquences alléliques

p q = 1 − pet

Calcul des génotypes attendus (E) si HWE

Test du χ² :

χ²

Test à n-1 degré de liberté (ddl), où n est le nombre de classes (allèles).Le seuil de signification à 5% du χ², pour 1 ddl, est à 3.84. Si la valeur du χ² obtenue < à 3.84, l'hypothèse nulle est non rejetée donc la population étudiée suit la loi de Hardy-Weinberg

Page 15: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

LD si la fréquence des gamètes porteurs des allèles de deux locus différents A et B est différente du produit des fréquences des allèles c'est-à-dire s'il y a association préférentielle entre deux allèles.

Linkage Desequilibrium (LD): Déséquilibre de Liaison

Page 16: Genotypic data: concepts and meanings Solving biological problems that require math,2012.
Page 17: Genotypic data: concepts and meanings Solving biological problems that require math,2012.
Page 18: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Linkage Disequilibrium

Markers close together on chromosomes are often transmitted together, yielding a non-zero correlation between the alleles.

Marker 1 2 3 n

LD

D

Page 19: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Coefficient de correlation

Deux vecteurs

Page 20: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Correction de tests multiples• De nombreux tests sont effectués • Contrôle la probabilité d’avoir un faux positif par

chance • Bonferroni correction (diminue le seuil de

significativité d’1 test pour que l’ensemble des tests ait un seuil < à alpha ): – seuil alpha pour 1 test: 0.05– Seuil alpha pour plusieurs tests (n): alpha/n

• Augmente la probabilité d’avoir des faux négatifs

Page 21: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Analyse en composantes principales (ACP)

• L’ACP consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"): "composantes principales", ou axes.

• Permet de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables.

• Approche géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale)

• Approche statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données).

Page 22: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Population stratification: PCA (ACP)

Page 23: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Analysis of Genotypes only

Principle Component Analysis reveals SNP-vectors explaining largest variation in the data

Page 24: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Raw data points: {a, …, z}

Page 25: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Normalized data points: zero mean (& unit std)!

Page 26: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Example: 2PCs for 3d-data

http://ordination.okstate.edu/PCA.htm

Identification of axes with the most variance

Most variance is along PCA1

The direction of most variance

perpendicular to PCA1 defines

PCA2

Page 27: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

Ethnic groups cluster according to geographic distances

PC1 PC1

PC

2P

C2

Page 28: Genotypic data: concepts and meanings Solving biological problems that require math,2012.

PCA of POPRES cohort