MANIPULATION ET VISUALISATION DE GROSSES BASES DE...

MANIPULATION ET

VISUALISATION DE GROSSES

BASES DE DONNÉES AVEC R

CHAIGNEAU Alicia DAUFOUY Camille

GAZAN Rozenn JOURDAN Sandra

Jeudi 10 octobre

Evolution des outils de collecte

Big data : volume massif de données

« Accumulation continue de tous les types de données atteignant une

taille et un niveau de granularité difficile à exploiter » (1)

3 « V » : Volume, Vitesse (fréquence à laquelle les données sont

générées), Variété (sources différentes : médias, machines,…)

(1) Zouheir Guédri – Mars 2012 congrès BigData Paris 2012

Introduction

Evolution des outils de collecte

Big data : volume massif de données

« Accumulation continue de tous les types de données atteignant une

taille et un niveau de granularité difficile à exploiter » (1)

3 « V » : Volume, Vitesse (fréquence à laquelle les données sont

générées), Variété (sources différentes : médias, machines,…)

Origine

Révolution de l’information (diminution des coûts de stockage,

nouveaux dispositifs de collecte, utilisation des réseaux sociaux) :

90% des données dans le monde créées les 2 dernières années : (2)

Données numériques :1.2 zettaoctects (2010) 40 zettaoctects (2020)

(1) Zouheir Guédri – Mars 2012 congrès BigData Paris 2012

(2) étude IDC sponsorisée par EMC Gartner

Introduction

Limites de R

R, logiciel gourmand en ressource système (CPU et RAM)

Limite d’allocation de ressources pour les programmes sous

Windows (2Go de Ram)

Importation de bigdata entraine une saturation de l’espace mémoire

Temps de calcul conséquents (pas assez d’espace RAM pour exécuter

autre chose)

Introduction

Limites de R

R, logiciel gourmand en ressource système (CPU et RAM)

Limite d’allocation de ressources pour les programmes sous

Windows (2Go de Ram)

Importation de bigdata entraine une saturation de l’espace mémoire

Temps de calcul conséquents (pas assez d’espace RAM pour exécuter

autre chose)

Introduction

La demande de traitement de Bigdata

croit de façon exponentielle…

Quelles sont les solutions à proposer ?

Présentation de 3 packages

Manipulation de grosses bases de données

Visualisation

bigvis

acinonyx

Objectifs communs : faciliter les analyses sur des bases de

données importantes (facilité de manipulation, améliorer la

rapidité, visualisation….)

Introduction

Manipulation des donnéesI

Présentation du package dplyr

Installation du package dplyr

Jeu de données hflights

Manipulations de données avec dplyr

Source : https://github.com/hadley/dplyr

Manipulation des données

Manipulation des données Visualisation des données

Package dplyr créé par Hadley Wickham (encore en

expérimentation)

Package dplyr = Amélioration des outils les plus utilisés dans le

package plyr (ddply, dlply et ldply) et adaptation à plusieurs

format de données

Package plyr créé par Hadley Wickham (publié le 06/12/12

sur le CRAN)

dplyr supporte les formats de données : data frames, data tables,

SQLite,…

Pour consulter l’aide du package dplyr :

help(package=dplyr)

Présentation du package dplyr

Installation du package dplyr

dplyr nécessite Rtools :

http://cran.r-project.org/bin/windows/Rtools

pour vérifier que Rtools fonctionne bien :

find_rtools() ## affiche TRUE

dplyr peut être installé avec :

install.packages("devtools")

library(devtools)

install_github("assertthat") ## affiche DONE

install_github("dplyr") ## affiche DONE

library(dplyr)

Jeu de données hflights

Hflights est le jeu de données inclus dans dplyr

data(package="dplyr")

data(hflights)

?hflights ## pour afficher la description du jeu de données

Tous les vols qui sont partis des aéroports de Houston IAH

(George Bush Intercontinental) and HOU (Houston Hobby) en

227 496 lignes * 21 colonnes

12 variables quali : DayOfWeek, Origin, Dest, Cancelled,…

9 variables quanti : AirTime, ArrDelay, DepDelay, Distance,…

Quelques fonctions pratiques !

Pour afficher une partie du jeu de données :

head(hflights,n) ## affiche les n premières lignes

tail(hflights,n) ## affiche les n dernières lignes

## par défaut n=6

print(hflights[150:155,]) ## affiche les 5 lignes demandées

group_by () de dplyr : permet de faire des opérations sur des

sous-groupes de variables

Fonctions principales

Pour consulter l’aide des 5 fonctions :

?manip

Fonctions Définitions

select() Sélectionner un sous-groupe de variables

filter() Sélectionner un sous-groupe de lignes

mutate() Ajouter de nouvelles colonnes

summarise()Pour calculer des statistiques simples sur les

variables

arrange() Réordonner les lignes

Exemple d’utilisation de filter() :

Cancelled : cancelled indicator:

1 = Yes, 0 = No

CancellationCode : reason for cancellation:

A = carrier, B = weather, C = national air system, D = security

Exemple d’utilisation de summarise() :

Exemple d’utilisation de group_by() et summarise () :

Exemple d’utilisation de la fonction arrange () :

La fonction do() permet d’utiliser n’importe qu’elle autre

fonction de R sur les données

Comparaison du temps d'exécution de la fonction PCA avec et

sans do() grâce à la function system.time () :

Bilan sur le package dplyr18

Avantages Inconvénients

Fonctions principales faciles à

comprendre et à utiliser

Difficile à installer

Peu d’informations pour l’installation

Plusieurs formats de données

supportés

Pas compatible avec plyr pour

l’instant

Plus rapide que le package plyr Gain de temps mais est-il vraiment

important ?

Possibilité d’utiliser d’autres fonctions

(lm, PCA,…)

Aide disponible depuis R

Visualisation des donnéesII

Présentation du package bigvis

Présentation du package acinonyx

Comparaison des deux packages de visualisation

Visualisation des données

Transferts des données Visualisation des données

Informations sur le package

Très récent, disponible depuis début 2013

Auteur : Hadley Wickham

Encore en expérimentation

Description

Outils permettant l ’analyse exploratoire rapide de bigdata

Techniques d’agrégation et de lissage

Source : R-bloggers, Visualize large data sets with the bigvis package

Package bigvis

Installation du package bigvis

Actuellement non disponible sur CRAN

Installation

Installer Rtools

Installer le package devtools

Installer le package bigvis

Source : https://github.com/hadley/bigvis

install.packages("devtools")

find_rtools()

Sys.getenv(‘PATH’)

install_github("bigvis")

Package bigvis

Il est également utile d’installer le package ggplot2 pour

pouvoir utiliser les fonctions de représentations graphiques de bigvis

Test avec le jeu de données movies du package bigvis

130 456 individus (films) x 14 variables (titre, année de sortie,

budget, durée, …)

Visualisation des données

Manipulation des données

Package bigvis

bin() et condense() : permettent d’avoir un résumé compact

des données

Package bigvis

des données

bin(x, width = find_width(x),origin = find_origin(x, width), name = NULL)

Convertit les variables en objet « bin », nécessaire pour

les manipuler avec les autres fonctions

Package bigvis

des données

bin(x, width = find_width(x),origin = find_origin(x, width), name = NULL)

Convertit les variables en objet « bin », nécessaire pour

les manipuler avec les autres fonctions

condense(..., z = NULL, summary = NULL, w = NULL,drop = NULL)

Condense des données de type « bin » en agrégeant des

individus

Ressort la variable condensée et une variable .count par

défaut

Package bigvis

Exemple d’utilisation de condense()

standardise() : s’utilise lorsqu’on travaille sur les effectifs

(.count), permet de passer aux fréquences

standardise(x, margin = integer())

Package bigvis

smooth() : permet de lisser un data.frame condensé

smooth(x, h, var = summary_vars(x)[1], grid = NULL,type = "mean", factor = TRUE)

h : argument permettant de

jouer sur le niveau de

lissage de la courbe

Package bigvis

autoplot() : permet de créer des graphes sur des données

condensées (besoin du package ggplot2 )

autoplot(x,var = last(summary_vars(x)), ...)

peel() : conserve les proportions spécifiques du jeu de

données tout en enlevant les zones de densité faible, augmente

la lisibilité des graphes

peel() : peel(x, keep = 0.99, central = NULL)

Package bigvis

Exemples de graphiques obtenus avec autoplot() :

peel()

Package bigvis

Graphique obtenus avec plot() :

Package bigvis

3 à 4 secondes

pour obtenir le

graphe

Package bigvis

Moins de 1

seconde pour

obtenir le graphe

Package bigvis

Il existe également différentes fonctions permettant de calculer

les statistiques descriptives basiques des jeux de données

condensés :

weighted.median()

weighted.quantile()

weighted.sd()

weighted.var()

Package bigvis

Savez-vous d’où vient le nom du package … ?

Package acinonyx35

Savez-vous d’où vient le nom du package … ?

Package acinonyx36

Simon Urbanek

Mise à disposition des utilisateurs en septembre 2009

Page officielle sur le CRAN en septembre 2011

Qu’est ce que c’est ?

Nouveau système de gestion d’interfaces graphiques de haute

performance (iplot Extreme), pour visualiser et explorer

d’importantes bases de données

Package de R le plus rapide : gestion des graphiques via une

interface de programmation OpenGL

Source : http://www.rforge.net/Acinonyx

Package acinonyx37

Objectifs expérimentaux

Ajouter des modèles statistiques aux graphiques interactifs

Amélioration de la gestion sur systèmes d’exploitations

Windows et Mac

Rapidité et extensibilité aux big data

Package acinonyx

Téléchargement et installation

Copier le lien : install.packages(‘acinonyx','http://www.rforge.net/')

Ou téléchargement du fichier zip sur ce même site

Chargement

library(acinonyx) dans la console R

Package acinonyx

icontainer : mettre plusieurs graphiques dans une seule fenêtre

ibar, ihist, ilines, iplot : graphiques dynamiques avec

coloration des points x/y en rouge

ihist.default,ilines.default, iplot.default : fonction pour

rajouter des options sur le graphique

move, move.iVisual : fonctions pour bouger des objets au sein

de la fenêtre graphique

add.container, add.iplot,… : ajout d’objets à un objet déjà

existant

Package acinonyx

Pour mettre de la couleur

Pour passer en spineplot

Package acinonyx

Déplacer le graphique dans sa

propre fenêtre (objet, x, y)

Package acinonyx

icontainer

Placer 2 graphiques dans une

seule fenêtre

Package acinonyx

icontainer

Position de l’objet, vecteur

c(x,y,largeur,hauteur)

Comportement de l’objet lorsque l’on

modifie la taille de la fenêtre initiale

Package acinonyx

Graphique de coordonnées parallèles :

chaque ligne correspond à un individu,

chaque axe correspond à une variable

Package acinonyx

Sélection des variables

Package acinonyx

Comparaison des deux packages

Avantages

bigvis Graphiques esthétiques et lisibles grâce à l’utilisation du

package ggplot2

Aide disponible depuis R

acinonyx Visualisation des grosses données rapide

Téléchargement et installation aisée

Facilité d’utilisation des fonctions (similaires à iplot )

Communs Outils performants pour avoir une première idée de la

structure d’un gros jeu de données

Temps : 1 min. 30

Package iplot

Package acinonyx

Temps : 20 sec.

Inconvénients

bigvis Difficultés pour installer le package

Certaines fonctions ne fonctionnent pas bien

(best_h() -> temps de calcul très long !)

acinonyx Plateforme de développement: MacOs. Limite de certaines

configurations sur Windows

Absence de certains graphiques de base (boite à

moustaches, mosaïques)

Graphiques simples et peu esthétiques pour des

présentations publiques

Commun Très peu de documentation (encore en expérimentation)

Utilisation de fonctions standards sur des grosses bases de

données possible grâce aux packages présentés

Manipulation simple même si les packages sont encore en

expérimentation : peu de documents sur l’utilisation des différentes

fonctions, installation compliquée

Beaucoup de nouveautés à explorer…

rmr : analyses statistiques par la méthode de « Hadoop MapReduce »

(calculs effectués en parallèles, distribués dans différents clusters)

filehash : analyses statistiques en utilisant les fonctions classiques de R sur

un jeu de donné stocké sur le disque (et pas en mémoire RAM)

ff : idem filehash

Bigmemory : pour l’importation, la manipulation de bigdata, allocation des

données dans une mémoire partagée

Revolution Analytic’s RevoScaleR : classification sur des bigdata

« Programming with BigData in R » (pbdR) : série de packages pour utiliser

des bigdata http://r-pbd.org

Complément

En combinant les fonctions autoplot(), peel() et standardise()

Package « bigvis »

Tableau length x year

-> profils lignes

MANIPULATION ET VISUALISATION DE GROSSES BASES DE...

Documents

Transcript of MANIPULATION ET VISUALISATION DE GROSSES BASES DE...

Visualisation drawing

information visualisation

Visualisation dashboards

L'analyse de données avec [width=0.45]Factologo.png Quelle …math.agrocampus-ouest.fr/infoglueDeliverLive/digital... · 2018-04-12 · juin2016 1/37. IntroductionExempleDonnées

Est la construction, la visualisation, la manipulation et la prédiction de structures moléculaires réalistiques et de ses propriétés physico-chimiques.

MÉTHODE DU PROFIL IDÉAL (IPM) - math.agrocampus-ouest.frmath.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/109972_Meethode_profil... · Pour chaque attribut, le consommateur

EMEP model: Data Formats, Manipulation and Visualisation Tools · Data Formats, Manipulation and Visualisation Tools Semeena Valiyaveetil Shamsudheen MSC-W. ... Zonal average Meridional

Visualisation pp

msftmyz Omon MPI-ESM LR historical r1i1p1 185001-200512 · 2012-03-06 · Data -formats -manipulation -visualisation . informations from NetCDF files with . ncdump - dimensions -

Visual analytics as end-user programming · 2020-08-05 · interactive visualisation, R enables quite sophisticated data manipulation and statistics as well as static visualisation,

research collaboration service · 2017-11-14 · • Advanced Python for Biologists • Data Manipulation and Visualisation with Python • Introduction to ChIP-Seq Data Analysis

Visualisation, (G)UI and Analysis · 2004. 9. 20. · Visualisation & (G)UI - Geant4 Course 10 3. Visualisation Attributes! Necessary for visualisation, but not included in geometrical

Micro-manipulation de l'ADNMicro-manipulation de l'ADN Vers une visualisation directe par microscopie de uorescence Adrien Meglio Laboratoire de Physique Statistique, ENS 1 er avril

Visualisation Project

Product Visualisation

VISUALISATION AND MANIPULATION OF STRUCTURED ...studentnet.cs.manchester.ac.uk/resources/library/thesis_abstracts/MSc... · Epidemiology. A web application has been developed to utilise

Visualisation Finbarr

Map visualisation

Visualisation and map manipulation in Cell Designer (PART 1) · the requirements that might be desired for visualisation of predictions from genome-scale models. Here we present a

Visualisation Techniques