Infolab : les prénoms, une donnée populaire

22
Les prénoms, une donnée populaire Simon Chignard - @schignard [email protected] www.donneesouvertes.info 1

description

Extrait de l'infolab consacré aux prénoms, une donnée (ouverte) populaire par Simon Chignard (présentation du 11/04/2013 lors de la réunion du groupe national Infolab avec la Fing)

Transcript of Infolab : les prénoms, une donnée populaire

Page 1: Infolab : les prénoms, une donnée populaire

Les prénoms, une donnée populaire Simon Chignard - @schignard

[email protected] www.donneesouvertes.info

1

Page 2: Infolab : les prénoms, une donnée populaire

Atelier «Prénoms»Sommaire

Découverte du sujet 1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003)3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance

Les données disponibles 1/ Sur les portails Open Data des collectivités2/ Le fichier Insee3/ Les prénoms des candidats au bac

Lecture critique des données disponibles1/ Périmètre et constitution du fichier2/ N = ? 3/ Où êtes-vous vraiment nés ?

Des réutilisations possibles1/ La diversité des prénoms et l’évolution dans le temps2/ Les effets de mode et l’influence d’évènements extérieurs3/ Le prénom un indicateur social ?4/ Les prénoms et la crise

Le lien entre matière première disponible et réutilisations possibles

1

2

3

4

52

Page 3: Infolab : les prénoms, une donnée populaire

Découverte du sujet13

Page 4: Infolab : les prénoms, une donnée populaire

Presse Océan2/01/2013

4

Page 5: Infolab : les prénoms, une donnée populaire

Le Telegramme 2/01/2013

5

Page 6: Infolab : les prénoms, une donnée populaire

Le Pays Malouin 3/01/13

6

Page 7: Infolab : les prénoms, une donnée populaire

Découverte du sujet

Les prénoms comme un bien de mode

Le Top des prénoms : Emma et Matthis

«Le retour de Lola, face à l’indétronable Enzo»

L’influence d’évènements extérieurs : les stars de cinéma, les chanteurs, etc...

Les prénoms farfelus

Attention aux prénoms farfelus ! Loréal, Ikea, Tartempion, MJ, ...

les premières perceptions du phénomène

7

Page 8: Infolab : les prénoms, une donnée populaire

Les données disponibles2

8

Page 9: Infolab : les prénoms, une donnée populaire

Les jeux de données disponibles

Sur les portails Open Data des collectivités ou data.gouv.fr

BordeauxCoulommiersLa RochelleNantesRennesMontpellierParisSarlat-la-CanédaDigne-les-BainsToulouse...

Le fichier prénoms de l’INSEE

Soumis à redevance mais disponible en ligne sur nosdonnees.fr

Sur demande auprès de l’état-civil

en application de la loi CADA

Poitiers

Le fichier des candidats au bac 2011 et 2012

compilé par Baptiste Coulmont à partir du site web de l’Education nationale

Un recensement rapide

9

Page 10: Infolab : les prénoms, une donnée populaire

Lecture critique des données3

10

Page 11: Infolab : les prénoms, une donnée populaire

Lecture critique des données

Qui figure dans le fichier ?

Comment est-il constitué ?

Le fichier représente-t-il l’ensemble des naissances ?

Les premières questions

11

Page 12: Infolab : les prénoms, une donnée populaire

Lecture critique des donnéesN=?

Le fichier prénoms de l’INSEE

N = naissances enregistrées (bulletin de naissance) sur le territoire y compris DOM de 1900 à 2009, à l’exception des enfants portant un prénom donné moins de 3 fois au cours d’une année (prénoms «rares».

Le fichier de Paris en Open Data

N = naissances à la date d’enregistrement à l’état-civil sur le territoire de Paris, à l’exception des enfants portant un prénom donné moins de 5 fois au cours de l’année

Le fichier des candidats au bac en 2012

N = candidats au bac 2012 ayant accepté la publication de leurs résultats

12

Page 13: Infolab : les prénoms, une donnée populaire

Des réutilisations possibles4

13

Page 14: Infolab : les prénoms, une donnée populaire

Relativiser la part des prénoms figurant dans le Top

Comment illustrer la courbe de distribution de type longue traîne ?

(Loi de Zipf)

Montrer la diversité dans le temps

Indicateur : nombre de prénoms nécessaires pour nommer la moitié d’une classe d’âge

Indicateur : pourcentage des enfants qui portent un prénom du Top 50 (les plus donnés)

Indicateur : pourcentage des enfants recevants un prénom unique dans une ville

a - Montrer la diversité des prénomsDes réutilisations possibles

Sources : étude Insee Bretagne, publiée dans la revue Octant en 2002,«La sociologie des prénoms», Baptiste Coulmont, éditions La Découverte

«scoring prénoms»

en marketing

14

Page 15: Infolab : les prénoms, une donnée populaire

La mode des prénoms courts

Enrichissement du fichier : nombre de lettres dans le prénom

Attention : Tom et Léa, 3 lettres chacun !

Les terminaisons à la mode

Enrichissement du fichier : prénoms ayant une terminaison en -a ou -ah(Léa, Sarah, Emma, ...)vs.

prénoms ayant une terminaison en -ette (Bernadette)

b - Le prénom, un bien de modeDes réutilisations possibles

L’influence d’un évènement externe

Un fait diversUne chanteuse à la mode...

La recherche d’éventuelles spécificités locales

Est-on plus originaux à Paris, La Rochelle ou Nantes ?

15

Page 16: Infolab : les prénoms, une donnée populaire

b - Le prénom, un bien de modeL’influence d’un évènement externe : un fait divers

% d

es n

aiss

ance

s (g

arço

ns) p

orta

nt le

pré

nom

5700

2200

16

Page 17: Infolab : les prénoms, une donnée populaire

b - Le prénom, un bien de modeL’influence d’un évènement externe : une chanteuse

% d

es n

aiss

ance

s (fi

lles)

por

tant

le p

réno

m 1200

550

17

Page 18: Infolab : les prénoms, une donnée populaire

Les mentions au bac en fonction du prénom (Baptiste Coulmont)

c - Le prénom, un indicateur socialDes réutilisations possibles

18

Page 19: Infolab : les prénoms, une donnée populaire

Le carnet du Figaro

Enrichissement du fichier : prénoms figurant dans le carnet du Figaro

Attention : Justin !

(Parenthèse juridique)

Selon la licence choisie pour le jeu de données initial, on devra republier ces enrichissements selon les mêmes conditions... (ODbL)

Ilustration concrète du partage à l’identique (share-alike).

c - Le prénom, un indicateur socialDes réutilisations possibles

19

Page 20: Infolab : les prénoms, une donnée populaire

d - Le prénom en période de criseDes réutilisations possibles

20

Page 21: Infolab : les prénoms, une donnée populaire

Le lien entre la matière première disponible et les réutilisations possibles5

21

Page 22: Infolab : les prénoms, une donnée populaire

Une très grande hétérogénéité des jeux disponibles

Analyse de Charles Népote sur les jeux disponibles : contenu du fichier, plage temporelle, licence, le troncage réalisé

La comparaison entre territoires est très difficile.

Un troncage lié à leur ouverture

Les prénoms rares ne figurent pas dans les fichiers. Or ils sont indispensables pour répondre à certaines questions :

«Je veux donner à mon enfant un prénom qui n’a jamais été donné dans cette ville»

La matière disponible détermine les réutilisations possibles

Certains phénomènes relèvent du temps long

Un prénom revient à la mode suivant un cycle de 80 à 120 ans.

Les fichiers publiés couvrent des périodes temporelles beaucoup plus limitées...

22