De la génétique des populations humaines à l...

55
De la génétique des populations humaines à l’évolution des langues Pierre Darlu CNRS, INSERM U535 Génétique épidémiologique et structure des populations humaines

Transcript of De la génétique des populations humaines à l...

Page 1: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

De la génétique des populations humaines à l’évolution des langues

Pierre DarluCNRS, INSERM U535 Génétique épidémiologique et structure des populations humaines

Page 2: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Des origines d’une métaphore biologique

Quelle stratégie pour la fonder?

i) Génétique des populations et diversité des langues

ii) Phylogénie et évolution des langues

Page 3: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Origine d’une métaphore biologique

Page 4: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Darwin, L’origine des espèces (1859)

• « Pour mieux faire comprendre cet exposé de la classification, prenons un exemple tiré des diverses langues humaines. Si nous possédions l’arbre généalogique complet de l’humanité, un arrangement généalogique des races humaines présenterait la meilleure classification des diverses langues parlées actuellement dans le monde entier ; […] Les divers degrés de différences entre les langues dérivant d’une même souche devraient donc s’exprimer par des groupes subordonnés à d’autres groupes ; mais le seul arrangement convenable ou même possible serait encore d’ordre généalogique. Ce serait en même temps l’ordre strictement naturel, car il rapprocherait toutes les langues mortes et vivantes, suivant leurs affinités les plus étroites, en indiquant la filiation et l’origine de chacune d’elles (traduction de la 6e édition anglaise par E. Barbier, 1880, Reinwald et Cie Ed.).

Page 5: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Darwin, La descendance de l’homme (1871)

• « Il est à remarquer, et c’est un fait extrêmement curieux, que les causes qui expliquent la formation des langues différentes expliquent aussi la formation des espèces distinctes ; […] Nous rencontrons, dans les langues distinctes, des homologies frappantes dues à la communauté de descendance, et des analogies dues à un procédésemblable de formation.[…] Les langues, comme les êtres organisés peuvent se classer en groupes subordonnés ; on peut aussi les classer naturellement selon leur dérivation. […] Si deux langages contiennent un grand nombre de mots et de formes de construction identique, on est d’accord pour reconnaître qu’ils dérivent d’une source commune, quand bien même ils pourraient différer beaucoup par quelques autres points. » (traduction de la 6e édition anglaise par E. Barbier, 1891, Reinwald et Cie Ed.)

Page 6: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Lettre de Schleicher à Haeckel (1863)

• « En m'adressant à toi […], je parle surtout aux naturalistes, que je voudrais voir plus instruits dans la science des langues qu’ils ne l’ont été jusqu’ici. Et je n'entends pas seulement par là l'analyse physiologique des sons vocaux,[…] mais aussi la préoccupation des différences linguistiques et de leur importance pour l'histoire naturelle du genre Homme[…]. De même un de mes vœux les plus chers, c’est que la méthode des sciences naturelles trouve de plus en plus de faveur auprès des linguistes. »

Page 7: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Haeckel, Anthropogénie ou Histoire de l’évolution humaine (1874)

• « Suivez, à l’aide de cet arbre généalogique, le développement des divers rameaux linguistiques sortis des communes racines de la langue indo-germanique primitive, et vous aurez un tableau extrêmement clair de leur phylogénie » […] Si j’ai quelque peu insistésur « l’anatomie comparée » et l’histoire du développement des langues, c’est qu’elles éclaircissent singulièrement la phylogénie des espèces organiques. Vous le voyez, par leur structure et leur évolution, les langues primitives, les langues mères, les langues sœurs et les idiomes répondent très bien aux classes, ordres, genres et espèces du règne animal. Dans les deux cas, la « taxinomie naturelle » est phylogénétique. »

• (Traduction de la deuxième édition allemande par Letourneau, Reinwald Ed, 1877)

Page 8: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

« L’ânon, allaité par une jument, ne remplace pas son braiment par le hennissement de sa nourrice. Au contraire, l’enfant chinois, nourri et élevé en Angleterre ou en France, parlera anglais ou français, et aura autant de peine qu’un Européen àapprendre la langue de ses ancêtres. […] »

« Une population conquise oublie assez souvent le langage de ses pères pour celui des envahisseurs. [ …] Parfois aussi les conquérants, se trouvant en minorité relative, sont absorbés par la race conquise et en adoptent jusqu’au langage »

« Lorsqu’on dispose les langues en tableaux dressés d’après les résultats admis par les maîtres en linguistique, lorsqu’on représente par des lignes les rapports indiqués par eux, on retrouve ici la fusion et l’entrecroisement des caractères, aussi bien que lorsqu’on étudie l’extérieur ou le squelette du corps humain ».

De QuatrefagesIntroduction à l’étude des races humaines, 1886. Reinwald Ed

Page 9: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

« On parquerait à part, des enfants sémites et des enfants indo-européens, dirigés par des sourds-muets, que les uns parleraient forcément une langue sémite, les autres forcément une langue aryenne »(Chavée, cité par Topinard, 1876)

« L'argument est considérable en faveur du polygénisme. Les langues qu'emploient aujourd'hui les peuples disséminés sur la terre ne sont donc pas nécessairement celles qu'ils ont parlées auparavant. La communautéde langues entre deux peuples ou même entre deux races déterminées par leurs traits physiques, n'indique pas qu'il y ait parenté ou filiation entre eux, mais simplement qu'ils ont partagé le même sort »

Les caractères tirés de la linguistique […] sont précieux au même titre que les caractères ethniques et archéologiques, mais ils ne peuvent entrer en parallèle avec les caractères anatomiques et physiologiques, qui se perpétuent à travers les croisements et les influences actuelles de milieux. En un mot, ils concernent très souvent les peuples et non les races.

L’Anthropologie, Topinard, 1876

Page 10: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Quelle stratégie pour fonder la métaphore ?

Corrélation entre distancesCongruence entre histoires

Page 11: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Diversité génétique des populations et diversité

linguistique

Page 12: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

EA

B

C D

F

G

H

A B C D E ...A 0B d(AB) 0C d(AC) d(BC) 0D d(AD) d(BD) d(CD) 0E d(AE) d(BE) d(CE) d(DE) 0F d(AF) d(BF) d(CF) d(DF) d(EF) ...G d(AG) d(BG) d(CG) d(DG) d(EG) ...H d(AH) d(BH) d(CH) d(DH) d(EH) ...

d(génétique)d(géographique)d(linguistique)

Corrélation entre distances

Page 13: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Markers NGen,Geo Gen, Ling Geo, Ling Linguistic source

Andean Highland Indians 0.72 0.03 0.32 7 7 Greenberg Nature 1976 Chakraborty

Worldwide 0.41 0.37 0.39 10 130 Ruhlen Hum Biol, 1995, Chen et al.

Europe 0.48 0.36 120 alleles 26 Ethnologue Hum Biol, Nettle, 2003West Asia 0.07 0.29 120 alleles 18East and Central asia 0.36 0.30 120 alleles 21southeast Asia 0.05 0.24 120 alleles 24West Africa 0.01 0.14 120 alleles 13

Sumba, eastern Indonesia 0.01 0.36 0.67 1 SNP Ychr+ STR Swadesh list Lansing et al. PNAS, 2007

Africa -0.01 0.32 50 SNP, Ychr 40 Several sources Wood et al. EJHG, 20050.23 0.23 HVS1, mtDNA 39

Europe 0.39 0.20 11 Chr Y 47 Dyen ' list Rosser et al. AJHG, 20000.09, Geo Cst

Page 14: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Recherche d’irrégularitéou de coïncidences entre Frontières/Barrières génétiques et linguistiques

37 langues (IE), 47 populations (Europe)

48 barrières génétiques détectées

50.0% entre langues de deux familles43.2% entre langues d’une même sous familles31.9% entre langues d’une même sous-famille

G1

G2G3

Fréq

uenc

eAxe géographique

"Barrière"

0

1 Langue A Langue B

Rosser et al., 2000, AJHGChromosome Y

Page 15: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Congruence entre histoires génétiques et linguistiques

Page 16: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Populations LanguesP1

P2

P3

P4

P5

L1

L2

L3

L4

L5

Populations LanguesP1

P2

P3

P4

P5

L1

L2

L3

L4

L5

Congruence entre histoires ?

Non congruent

Congruent

Page 17: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Cavalli-Sforza et al. (1988)

Génétique : Nei’ s Distance, 120 allèles, UPGMALinguistique : Classification de Ruhlen

Page 18: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

100

ThaiMon KhmerMalaysian

IndonesianFilipino

S Chinese

Polynesian

New GuineanMelanesian

Micronesian

Australian

Tibetan

C AmerindS American

Eskimo

N AmericanChukchi

N Turkic

DravidianIndian

Lapp

SardinianBasque

ltalianEngishDanish

GreekIranian

Near EasternBerber

Bantu (lang)Nilosaharan (lang)

Mbuti Pygmy

W.AfricanSan (Bushmen)

E.African

Nilosaharan

Niger-KordofanKhoisan

Afroasiatic

Indoeuropean

Austronesian

Austrasiatic-Daic

Sinotibetan

IndopacificAustralian

Na-Dene

Amerind

Eskimo-AleutChukchi-Kamch

Dravidian

?

Korean

Mongol-TungUralic (ling)

Aïnou Altaic

Uralic-Yuk

Japanese

POPULATIONS LINGUISTIC PHYLA

Ben Hamed & Darlu, BMSAP, 2007

Génétique : Fst, , 120 allèles, NJLinguistique : Classification de Ruhlen

Page 19: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Phylogénie et évolution des langues

Page 20: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Quelle sorte de données?

Comment les coder?

Quel algorithme choisir?

Comment interpreter les résultats

Questions à propos de la procédure phylogénétique

Modèle d’évolutionlinguistique

L’étape cruciale où les linguistes formalisent leurs hypotheses/postulats

Page 21: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

• différents niveaux d’échantillonnage de langues- mondial (e.g. Ruhlen’s data), - une ou quelques familles (IE, Bantu, Austronesian, Poynesian)…- dialecte (Irish, Dutch, Oïl, …)

• Rapport diversité inter/intra familles

• Comment sélectionner une entité à un niveau, représentative du niveau supérieur ?

Superfamille ou "Langue mère"

?

entre familles

Entre languesIntra famille

?

? entre dialectesIntra langue

Temps ?

Quelle sorte de données ? (I)

Page 22: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Quelle sorte de données ? (II)

• Lexical (Swadesh, Dyen lists…)– « Lexical items that are obvious borrowings can be removed from the analysis »

(Atkinson et Gray, 2003). « Items of basic vocabulary are known to be relatively resistant to borrowing »

– Lexical most easily borrowed (most borrowings detectable), and homoplasy relatively frequent (T. Warnow)

– Purely lexical method is much more subject to cultural influence […] than other aspect of language change (L. Traks)

• Phonological– :« Items of basic vocabulary are known to be relatively resistant to borrowing »

(Ringe et al.)

• Typological– In the absence of identifiable lexical cognates, we have use […] features of linguistic

structure […] - grammar rather than vocabulary … (Dunn, 2005) – Characters that show strong implicational correlations were excluded [when linguistic

knowledges allow to distinguish functionally motivated covariance] from phylogeneticor areal patterns (Dunn, 2005)

Lexical

Phonological

Typological

Page 23: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

1. je 53. bâton 105. sentir (odorat) 157. sable2. tu, vous (formel) 54. fruit 106. craindre 158. poussière3. il 55. graine 107. dormir 159. terre (sol)4. nous 56. feuille (d'un végétal) 108. vivre 160. nuage5. vous (pluriel) 57. racine 109. mourir 161. brouillard6. ils 58. écorce 110. tuer 162. ciel7. ceci, celui-ci 59. fleur 111. se battre 163. vent8. cela, celui-là 60. herbe 112. chasser (le gibier) 164. neige9. ici 61. corde 113. frapper 165. glace10. là 62. peau 114. couper 166. fumée11. qui 63. viande 115. fendre 167. feu12. quoi 64. sang 116. poignarder 168. cendre13. où 65. os 117. gratter 169. brûler (intransitif)14. quand 66. graisse 118. creuser 170. route15. comment 67. œuf 119. nager 171. montagne16. ne ... pas 68. corne 120. voler (dans l'air) 172. rouge17. tout 69. queue (d'un animal) 121. marcher 173. vert18. beaucoup 70. plume (d'un oiseau) 122. venir 174. jaune19. quelques 71. cheveux 123. s'étendre, être étendu 175. blanc20. peu 72. tête 124. s'asseoir, être assis 176. noir21. autre 73. oreille 125. se lever, se tenir debout 177. nuit22. un 74. œil 126. tourner (intransitif) 178. jour23. deux 75. nez 127. tomber 179. an, année24. trois 76. bouche 128. donner 180. chaud (température)25. quatre 77. dent 129. tenir 181. froid (température)26. cinq 78. langue (organe) 130. serrer, presser 182. plein27. grand 79. ongle 131. frotter 183. nouveau28. long 80. pied 132. laver 184. vieux29. large 81. jambe 133. essuyer 185. bon30. épais 82. genou 134. tirer 186. mauvais31. lourd 83. main 135. pousser 187. pourri32. petit 84. aile 136. jeter, lancer 188. sale33. court 85. ventre 137. lier 189. droit (rectiligne)34. étroit 86. entrailles, intestins 138. coudre 190. rond35. mince 87. cou 139. compter 191. tranchant36. femme 88. dos 140. dire 192. émoussé37. homme (mâle adulte) 89. poitrine 141. chanter 193. lisse38. homme (être humain) 90. cœur (organe) 142. jouer (s'amuser) 194. mouillé, humide39. enfant 91. foie 143. flotter 195. sec40. femme (épouse) 92. boire 144. couler (liquide) 196. juste, correct41. mari 93. manger 145. geler 197. près42. mère 94. mordre 146. gonfler (intransitif) 198. loin43. père 95. sucer 147. soleil 199. droite44. animal 96. cracher 148. lune 200. gauche45. poisson 97. vomir 149. étoile 201. à46. oiseau 98. souffler 150. eau 202. dans47. chien 99. respirer 151. pluie 203. avec (ensemble)48. pou 100. rire 152. rivière 204. et49. serpent 101. voir 153. lac 205. si (condition)50. ver 102. entendre 154. mer 206. parce que51. arbre 103. savoir 155. sel 207. nom52. forêt 104. penser 156. pierre

Liste de Swadesh

La liste est-elle représentative ?Les items sont-ils présents (homologie)

dans toutes les langues ?

Page 24: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Quelques controverses :

• a) Comment distinguer emprunts et parallélismes ?

• b) Les emprunts doivent-ils être ignorés ?

• c) Comment détecter les corrélations fonctionnelles entre traits ?

• d) Analyses combinées ou séparées de différentes données ?

Quelle sorte de données ? (III)

Page 25: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

0 BP

1000 BP

2000 BP

3000 BP

4000 BP

5000 BP

6000 BP

LY

LUHI

TATBWEOI

LAUMOS

AL

GOONOG

OEAR

GK

OCPRLTLI

VEAV

PE

"PERFECT PHYLOGENETIC NETWORKS"(modifié de Nakhleh et al., 2005)

HI: HittiteLU: LuvianLY: LycianTA: Tocharian ATB: Tocharian BWE: WelshOI: Old IrishLA: LatinUM: UmbrianOS: OscanAL: AlbanianGO: GothicON: Old NorseOG: Old High GermanOE: Old EnglishAR: Classical ArmenianGK: Ancient GreekOC: Old Church SlavonicPR: Old PrussianLT: LatvianLI: LithuanianVE: VedicAV: AvestanPE: Old Persian

1 111 1 1

• a) How to handle borrowings? Borrowings can also be shared innovations

Page 26: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

A,B

A',B'

A',B'A',B' A',B' A,B A,B

Historical dependence

A,B

A'>B'

A'>B'A'>B' A'>B' A,B A,B

Functional dependence

A and B evolved independently Change in A induces change in B

• b) How to recognize and handle functional correlations between traits?

This distinction has to be done to avoid phylogenetic bias

Page 27: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Two strategies: combining the data versus separate/congruence approach

Lexicon Phonology Typology

?

Lexicon Phonology Typology+ +

?

How to weight each set ? How to combine trees?

• c) Combined or separate analyses of different data ?

Page 28: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Comment coder les données ?

• Presence/absence (0/1)

• Multi-state (0,1,2… ou a, b, c…)

• distance d’édition (Levenshtein’s Distance)

• Arbre des relations entre états d’un caractère

Page 29: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Exemple de six mots extraits de la liste de Swadesh (avec leur numéro) et leurs variations telles qu’elles sont interprétées par Ruhlen (Ruhlen, 1997) et telles qu’elles pourraient être codées (en a,b,c,d, ?,…).

Exemple de factorisation de « je » en 0/1

item 1 2 63 92 147 179Swadesh je tu viande boire soleil année

!Khung mi a i ? !hā ? k''ā c /am b kuri cDouala am a ango a nyama a nyכ a oбa ? mbu ?Dinka gen b yin b riŋo b dek ? akכl a ruon bZoulou ami a akhu a inyama a phuza ? langa ? nyaka aHoussa ni b kai a nama a šā b rana ? sekara ?G//ana ke ? tsa d /ka ? kxxa c /am b kuri cMbundu ame a ku a situ ? nyw a kumbi ? lima ?Nandi ane b inye b peny ? ie ? asis ? keny ?Nama ti ? tsa d kx'o ? kx'a c /am b kuri cSwahili mimi a ako a nyama a nyw a jua ? aka aBole ? ? ? ? lo ? sawo'i b futi ? soni ?Massaï nanu b inyi c kiriŋo b mat ? olong a arin b

Je,moi:a Je,moi:b Je,moi:e

!Khung 1 0 0Douala 1 0 0Dinka 0 1 0Zoulou 1 0 0Houssa 0 0 1G//ana ? ? ?Mbundu 1 0 0Nandi 0 1 0Nama ? 0 ?Swahili 1 0 0Bole ? ? ?Massaï 0 1 0

0 1

Page 30: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Arbre des transformations vocaliques de “pater”)(dialectes d’Oïl) (Gaillard-Corvaglia et al. (2007)

*aé è:

é

ei

à:è é:é

éè:

o:é'

42

3

4 3

3

5 ______________________________________

ĭoru↑

*čaru → čar → car → zar → zarə↓čari

______________________________________

Arbre des transformations du cognat « utiliser »en dialectes mongols(d’après J.L. Leonard, comm. pers.)

Page 31: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Distance d’éditiondite de Levenshtein

_____________________________Site # 1 2 3 4 5 6

m • l k ə : Frisem ε l ə k : Haarlem

1 substitution en 2 ( • ↔ ε )1 délétion en 4 (ə)1 insertion en 6 (ə)______________________________

Exemple de distance d’édition entre deux formes dialectales du mot « lait » en néerlandais. D’après Heeringa et al. (2006) (notons que la possibilitéd’une inversion kə/ək, pourrait également s’envisager)

Page 32: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Une hypothèse commune : - Les changements sont rares de telle façon que les

convergences soient plus rares que les partages de changements par ascendance.

Deux positions différentes :- Poser a priori les contraintes linguistiques sur les paramètres

avant l’analyse des données (exploration des données ou reconstruction phylogénétique par optimisation d’un critère)

- Estimer les valeurs des paramètres et l’arbre à partir des données en sur la base d’une approche probabiliste (ML ou Bayesian)

Quel modèle d’évolution ?

Page 33: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Quel modèle d’évolution ?

Définir un modèle (non biologique) spécifique aux données linguistiques par: • Poser les paramètres:

– Changement d’état des traits linguistiques :• Réversions permises ?• Changements polarisés ?• Deux états ou multi-états ?• “coût” ou pondération des changements ?

– Poids des traits linguistiques• Pondération a priori• Fondée sur l’homoplasie ou l’information du trait• Selon une distribution en probabilité (G, B...)

• Partitionner les données ?

• Enracinement de l’arbre– Glottochronologie ou évolution linguistique “clock-like”– Postulat de l’extra-groupe– Hypothèses sur les états ancestraux

Page 34: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

• Parsimonie– Minimisation du nombre de changements sur l’ensemble des traits– Permet de localiser les changements le long des branches– Flexibilité dnas l’intégration des postulats/hypothèses linguistiques.

• Compatibilité– Arbre maximisant le nombre de traits compatibles– “Perfect phylogeny” (Warnow et al)

• Méthodes de distances (NJ, NeighborNet, UPGMA)– Besoin d’une définition des “pairwise” distances– Inapproprié our décrire es changements historique des caractères

• Méthodes probabilistes (ML et/ou bayesian)– p(data|M(θ), T) et/ou a posteriori p(M(θ), T |data)– Un modèle spécifique pour chaque partition des données– Datation…

Quel algorithme utiliser ?

Page 35: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Les approches phénétiques

Page 36: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

• Etablir des listes de traits : liste de mots (Swadesh, Dyen), phonèmes, règles grammaticales…

• Comparer les langues deux à deux• Calculer une distance• Représenter graphiquement (réseau, arbre)

Page 37: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Swadesh M. Tras la huella lingüistica de la prehistoriaUniversidad Nacional de México, Suplément au Seminario de Problemas Cientificos y Filosoficos, n°26, série 2, 1960. 49 pages

Page 38: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

From Hans GoeblRevue de linguistique romane, 2002

1468 mots, 641 « points-dialectaux »

Page 39: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

AA_Tuareg

IE_Rumanian

IE_AlbanianIE_GaelicIE_Russian

IE_EnglishPS_Chukchi

PS_Kamchadal

EA_YupikEA_Aleut

UR_Yenets

UR_YukaghirAL_Bashkir

UR_Finnish

AL_Evenki

AL_Khalkha

IE_ArmenianCA_Georgia

CA_Kabardian

CA_Xinalug

DR_Brahui

IE_Hindi

DR_Tamil

DR_Malto

AA_AfarAA_Iraqi

CA_Xinalug

CA_Kabardia

CA_Georgian

IE_Armenian

AL_Khalkha

UR_Finnish

AL_BashkirUR_Yukaghir

UR_Yenets

PS_Kamchadal

EA_Aleut

EA_Yupik

AL_Evenki

AA_Tuareg

AA_IraqiAA_Afar

DR_Tamil

DR_Malto

IE_Hindi

DR_Brahui

IE_English

IE_RussianIE_Gaelic

IE_RumanianIE_Albanian

PS_Chukchi

a)

b)

Représentation de la matrice des distances entre langues Afro-asiatiques (AA), Indo-européennes (IE) Caucasiennes (CA), Dravidiennes (DR), Altaïques (AL), Paléo-sibériennes (PS),Uraliques(UR) et Eskimo-Aéoutiennes (EA), calculées à partir de 274 données morphologiques, phonologiques, et syntactiques, codées en présence/absence et extraites de Ruhlen (1976). Les figures a et b sont deux représentations par la méthode du Neighbor Joining(Saitou et Nei, 1987)) et celle du NeighborNet (Bryant et Moulton, 2004), respectivement. On notera les concordances entre les deux représentations, les regroupements des langues de même famille, le manque de résolution des familles entre elles et les exceptions géographiques de l’Arménien et de l’Hindi.

Page 40: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Les approches cladistiques

Page 41: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

« Biological Metaphor and Cladistic Classification », 1987 (Hoenigswald, 1982, 1983)

“ It often comes as a surprise to biologists that the predominantmethod in linguistic classification has been cladistic for well over one hundred years. However, whereas trees based explicitly on measures of overall similarity preceded cladistic methods in biology, such a procedure has emerged rather recently in linguistics, under the name of lexicostatistics or glottochronology. ”

Page 42: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

KH

NS

CAND

Gily

ak

IENahali

Burushaski

DR

AM

AinuUR

KetPS

EA

AS

Basque

ST

IP

TREE LENGTH

%

Unconstraint tree

Constraint tree

Random tree

Ruhlen’s Guide (1976)100 Languages17 families274 Binary traits

181 phonological93 syntactict/grammar

Manhattan distanceNJ algorithm

Page 43: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Beau <bĕllum (13)Bien<bĕne (8)Blé<blātum(11)Boeuf <bŏvem (5)Cher <cārum (9)Eau<ăquam (14)Fait <făctum (5)Faucille<fălcīculam (8)Faux<fălcem (15)Feuille<fŏliam (11)Fleurs <flōres (8)Lit<lĕctum (9)Mûr <matūrum (14)Mûre<matūram (7)Pain<pănem (15);Père<pătrem(7);Pied<pĕdem (13)Poing<pŭgnum (10)Pré<prātum (16);Puits<pŭteus (14)Seigle<sĕcalem (21)Tendre<tĕndere (7)Toile<tēlam (20)

Selection of 23 words(nb of vocalic variants)

Atlas linguistique de France (ALF)Survey on 45 localities

Corvaglia, Léonard, Darlu, 2007

Page 44: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Example: Tree of the Vocalic Change of « Père »

Page 45: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

a:é o:? ò:a:B C D

Q à:e, à:j S wè(j)

*é:[ E o:j F wé G wè Hwa: I wa? J woA

M o:O ?:(j) R w?

N ?: P à:

K è:(l) L è :(j)

A:B B:C C:D A:K K:L A:E E:F F:G G:H H:I G:J G:R E:M M:N E:O E:Q M:P A:.

w 54353541332222424A 00000000000000000B 10000000000000000C 11000000000000000D 11100000000000000E 00000100000000000F 00000110000000000G 00000111000000000H 00000111100000000I 00000111110000000J 00000111001000000K 00010000000000000L 00011000000000000M 00000100000010000N 00000100000011000O 00000100000000010P 00000100000010100Q 00000100000000001R 00000111000100000

« Toile »

Page 46: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Exemple de visualisation de l’homoplasie(Convergence/emprunt)

10

251Champagne NO227Seine-Oise

226Seine202Berry C

408Tour343Normandie C

108Berry NE423AnjouE

349NormandieSO446Anjou O

16BourgogneC419PoitouC

531Poitou S518Saintonge

459Poitou NO478Noirmoutier283Picardie Artois N

284Picardie Artois S289Picardie O298Artois Littoral N167Champagne Ardennes

280Picardie E282Picardie NE

286Picardie Artois C264PicardieS

279PicardieLittoral S299Artois Littoral C

394NormandieCotentin O471GalloN

354Normandie C486Gallo O

65FrancheComtéE

171LorraineE191WallonieE

197Wallonie O

ANCESTOR

fuchsia

yellow

red

blue

green

C->D =: : : :

=

=

changes

386NormandieCotentinE

153LorraineS154LorraineromaneC164LorraineN146ChampagneSE

45Franche Comté C

59Lorraineromane S174Lorraineromane N

182Wallonie S181Lorraine RomaneNE

Page 47: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

C1 C2 C3 C4C1: Fuchsia+Yellow 3.66C2: Red 1.47 4.59C3: Blue 0.84 1.53 9.38C4: Green 1.19 1.22 1.68 6.19

Estimation of the number of parallelismsand/or borrowings within (diagonal) and between clades, standardized by the number of possible exchanges

Page 48: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Les approches probabilistes

Page 49: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Données L1 1100100110...L2 1001100110...L3 0110011010......

ModèleParamètres θ

arbre TProbabilité de 0/1

Longueur des branches…

…MéthodeProbabilité des Données, sachant le Modèle et les θ

θθ ˆ),( max ⇒MDP),(),( DMLMDP θθ ∝

0 10 p q1 q p

Page 50: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

La question : a) Origine géographique de l'Indo-Européen (IE) et b) sa date d'expansion Deux hypothèses seraient testées : i) Kurgan expansion, 6000BP ii) Anatolian Expansion, Anatolie, 7800-9800BP

Les données 87 langues; 200 mots de Swadesh => 2449 lexical codés absence/présence (réversible). Emprunts identifiés a priori éliminés

Deux méthodes successives : i) Reconstruction d'une phylogénie par maximum de vraisemblance (ML) et approche

bayésienne ii) Estimation des temps de divergence des nœuds de l'arbre par ML (R8S, Sanderson Conclusion : Origine de l'arbre phylogénétique se situerait à 8700BP, avec une première divergence du Hittite.

Page 51: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

TOCHARIAN (2)

HITTITE

1 00

ARMENIAN (2)1 00

CELTIC (7)

ITALIC (16)

GERMANIC (14)

BALTO-SLAVIC (16)

INDO-IRANIAN (17)

ALBANIAN (5)

GREEK (5)

1 00

1 00

1 00

1 00

1 00

1 00

1 00

6100

6900

7300

7900

8700

0.67

0.84

0.96

Modifié de Gray R.D. &Atkinson Q.D.

Language-tree divergence times support the anatolian theory of Indo-European origin.

Nature, 2003, vol. 426, 27 novembre.

Page 52: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Migration, Co-évolution, « process(us) ?

Nature, 2000, 405:1052-4

Consulter :Hurles et al., Untangling Oceanic settlement : the edge of the knowable.TREE, 2003, 18(10):531-540

Mace R., Holden C.J., 2005, Trends in Ecology and Evolution Adapté de Holden

Page 53: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

IE_AlbanianIE_Rumaninian

IE_RussiaIE_Gaelic

IE_English

CA_XinalugIE_Armenian

CA_GeorgianST_KhamiST_Lahu

ST_TibetanUR_YenetsUR_Finnish

UR_YukaghirDR_Malto

DR_TamilDR_Brahui

IE_HindiAL_KhalkhaAL_Evenki

CK_KamchadalEA_Aleut

EA_YupikST_Mandarin

ST_SgawCK_Chukchi

CA_Kabardian93

100

10078

100

99

92

83

84

88

99

8

7

6

5

4

3

2

10 20 30 40 50 60 70 80 90 100

Nom

bre

deno

euds

Distance à la racine

r = 0.474

Ponctuation ?Ruhlen’s Guide (1976)Langues eurasiatiques274 traits codage présent/absent

181 phonologiques93 syntaxe/grammar

Phylogénie de langues eurasiatiques et relation entre longueur des branches et nombre de nœuds comptés depuis la racine. Les données (phonologiques et grammaticales) sont tirées de Ruhlen (1976) et analysées par des méthodes bayésiennes (MrBayes) et par la méthode de Webster et al. (2003). et Venditti et al. (2006). L’évidence d’une évolution ponctuée (au sens des auteurs) est statistiquement fondée

Page 54: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

• Les modèles d’évolution linguistiques sont-ils universels ou diffèrent-ils d’une langue à l’autre ou d’une période à une autre ?

• Les changements linguistiques suivent-ils des règles ou surviennent-ils au hasard ou suivant des lois probabilistes ?

• Les arbres reconstruits sont-ils assez précis pour inférer des datations, des emprunts, des variations de tempo, des états ancestraux …?

• Infère-t-on l’histoire des langues, l’histoire des locuteurs ou simplement l’histoire de quelques traits sélectionnés de quelques langues ?

Questions conclusives

Page 55: De la génétique des populations humaines à l ...download2.cerimes.fr/canalu/documents/cerimes/31_P_Darlu.pdf · Des origines d’une métaphore biologique Quelle stratégie pour

Un exemple d’emprunt, de convergence, ou d’« identity by descent » ?…

T. Gamkrelidze & V. IvanovDossier Pour la Science, Octobre, 1997

W. Tecumseh FitchNature, October 2007