Informatique ZENITH©quipeZENITH2013.pdfInformatique ZENITH Gestion de données scientifiques...

Informatiquew

ww

.lir

mm

.fr

ZENITHGestion de données

scientifiques

Effectifs au 30/06/2013 :

9 permanents (7 ETP)8 doctorants (8 ETP)

4 autres personnels (4 ETP)

Nombre de thèses soutenues entre le 01/01/2008

et le 30/06/2013 : 14,5

Responsables :Esther Pacitti,

Patrick Valduriez

Page Internet de l’équipe : http://team.inria.fr/zenith

BIG DATA, GESTION DE DONNEES DISTRIBUEES ET PARALLELES, RECOMMANDATION ET RECHERCHE D’INFORMATION, WORKFLOWS SCIENTIFIQUES

Présentation

Zenith s’attaque aux défis posés par la gestion (stockage, partage, traitement, recherche et analyse) des données scientifiques qui relèvent du big data. Ces défis (correspondant aux trois big V : Volume, Velocity, Variety) peuvent se résumer ainsi: 1. très grande échelle (big data, big analytics); 2. données en continu (produits par des capteurs, des appareils mobiles,

etc.) ; 3. hétérogénéité et complexité des données (différences sémantiques,

données incertaines ou multi-échelles, etc.).Notre objectif est d’apporter des solutions innovantes, en démontrant des avantages en termes de passage à l’échelle, fonctionnalité, facilité d’usage et performance, dans des environnements distribués et parallèles (P2P, grid, cloud).Nous cherchons à produire des résultats fondamentaux et algorithmiques, que nous pouvons implémenter dans des environnements spécifiques, par ex. Grid5K. Pour valider nos solutions, nous collaborons avec des partenaires scientifiques (INRA, CIRAD, IRD, etc.) et industriels (Data Publica, Bull, EDF, Orange, Microsoft, MonetDB, Sparsity, etc.).

Organisation et Vie de l’équipe

L’équipe est structurée par son projet scientifique qui se décline en trois thèmes : (1) gestion de données et métadonnées, (2) partage des données et des processus, (3) analyse de données. Chaque chercheur permanent a son propre programme de recherche qui porte en priorité sur un thème, tout en pouvant contribuer aux autres thèmes, ce qui favorise les collaborations et synergies entre différents chercheurs.La vie de l’équipe est animée par les séminaires réguliers où interviennent les membres de l’équipe pour y présenter leurs idées ou résultats, voire un état de l’art sur un sujet d’intérêt général. Les interactions avec nos chercheurs invités apportent aussi un regard externe sur nos travaux. Enfin, la proposition régulière de projets ou de sujets de thèse communs et la participation à des projets régionaux, nationaux et internationaux favorisent la dynamique de groupe.Cette organisation est reflétée par le site web de l’équipe, où toutes les informations concernant la vie au quotidien (séminaires d’équipe, conférences invitées, news, sujets de thèse, etc.) sont systématiquement à jour.

Evolution de l’équipe

Zenith est une équipe-projet INRIA commune avec l’UM2 depuis janvier 2011. Elle a été créée par E. Pacitti (PR UM2) et P. Valduriez (DR INRIA), arrivés au LIRMM en oct. 2009, et rejoints par 4 CR1 INRIA (R. Akbarinia, A. Joly, F. Masseglia, D. Parigot) en 2010. Du côté UM2, l’équipe initiale comptait trois EC provenant de l’équipe IDC (Z. Bellahsène, M. Cart, R. Coletta) et un EC recruté en 2010 (H. Bouziane). Fin 2011, R. Coletta a rejoint l’équipe Coconut, tout en continuant à collaborer avec Zenith. En oct. 2012, M. Cart est devenue chercheur associé et K. Todorov a été recruté. En juin 2013, l’équipe Zenith comptait 5 chercheurs INRIA et 4 EC UM2, trois ingénieurs INRIA en CDD, 1 ATER UM2, 1 post-doc INRIA et 8 doctorants.

http://www.lirmm.fr/users/utilisateurs-lirmm/esther-pacitti

http://www.lirmm.fr/users/utilisateurs-lirmm/patrick-valduriez

http://www.lirmm.fr/users/utilisateurs-lirmm/olivier-gascuel

http://team.inria.fr/zenith

dériver des statistiques.• Pl@ntnet: Dans le cadre du projet RTRA Pl@ntNet

(INRIA, CIRAD, INRA, IRD, Tela Botanica) soutenu par la fondation Agropolis, Zenith a participé au développement de trois logiciels majeurs : Pl@ntnet iphone app: une application de recherche et de partage d’images sur Smartphone, mise à la disposition du grand public en 2013 ; Pl@ntNet-Identify: une application web dédiée à l’identification des plantes par des images ; Pl@ntNet-DataManager: un système de gestion de données botaniques hétérogènes.

Résultats scientifiquesLes résultats sur la période 2011-2013 sont nombreux et ont été publiés dans de grandes revues et conférences du domaine. Nos résultats principaux par thème sont les suivants:

1. Gestion de données et métadonnées• Un modèle de données probabiliste pour capturer

l’incertitude, avec des algorithmes pseudo-polynomiaux pour exécuter les requêtes probabilistes d’agrégation [AVtkde13], et une solution incrémentale à l’intégration de données incertaines qui exploite les dépendances fonctionnelles [AAdapd13].

• Des algorithmes efficaces pour le partitionnement dynamique de masses de données arrivant en continu [LAdexa12].

• Diverses techniques (mesures terminologiques, index) qui améliorent la qualité de l’alignement de grandes ontologies [NBcaise11, NBkekm2012].

• Des techniques de hachage de données vectorielles de grande dimension et des algorithmes MapReduce associés pour la recherche de k-plus proches voisins [TJicmr12].

2. Partage de données et processus• Une architecture P2P/cloud, adaptée à la nature collaborative des applications scientifiques [PVercimnews12]. • Une solution P2P à la gestion de contenu de type Content Data Distribution (CDN) [EPis122011] qui combine les techniques de gossiping et de hachage distribué.• Une approche de recommandation P2P qui

Activités scientifiques

Nos activités font l’objet d’un rapport détaillé chaque année (voir les RA 2011 et 2012 en fin de la page Recherche de notre site Internet)

Thèmes de rechercheLe projet Zenith est organisé en trois thèmes :1. Gestion de données et métadonnées : intégration de données et métadonnées (schémas, ontologies), stockage de big data, résolution d’entités incertaines et traitement de requêtes probabilistes.2. Partage de données et processus : gestion des données et processus scientifiques dans des environnements distribués et parallèles, avec partage de données en P2P, recommandation et workflows scientifiques.3. Analyse de données : fouille de données et recherche de données par contenu en exploitant le parallélisme du cloud et les nouvelles technologies NoSQL et MapReduce.Ces trois thèmes reflètent le continuum qui va de la capture des données, en passant par leur intégration, gestion et partage, jusqu’à leur analyse, afin de produire informations et connaissances.

LogicielsLe développement de logiciels est important pour valider, démontrer et valoriser nos résultats. C’est aussi la base de nos collaborations institutionnelles et industrielles. Les voici par thème.

1. Gestion de données et métadonnées • WebSmatch: un environnement d’intégration de

sources de données hétérogènes du web. Il est utilisé par la société Data Publica dans sa chaine de traitement d’open data, et par nos partenaires IBC (CIRAD et IRD).

• ProbDB: un système de gestion de données incertaines (probabilistes) qui fonctionne sur SGBD relationnels (en l’occurrence PostgreSQL).

• YAM++: un outil d’alignement d’ontologies.

2. Partage de données et processus• SON (Shared-data Overlay Network): une plateforme

de développement P2P, utilisée par les logiciels P2Prec et P2Pshare. C’est aussi la brique technologique pour la nouvelle action de développement INRIA Scifloware (2013-2015), un middleware pour workflows scientifiques.

• P2Prec: un système de recommandation P2P qui exploite les données sociales des utilisateurs et la sémantique de leurs contenus. Son intégration avec les logiciels ProbDB et WebSmatch a donné le logiciel P2PShare, un système de partage de données dans les communautés scientifiques.

3. Analyse de données• SnoopIM: un moteur de recherche par contenu pour

découvrir et retrouver de petits objets (par ex. des logos) dans de grandes collections de photos et en

http://hal-lirmm.ccsd.cnrs.fr/lirmm-00652293





http://hal.archives-ouvertes.fr/hal-00739713



https://team.inria.fr/zenith/research/

https://team.inria.fr/zenith/research/

exploite les relations entre collaborateurs scientifiques, notamment la diversité des profils, avec de nouveaux algorithmes de recherche de documents [DPcikm11, SPsrs13].• Une approche algébrique pour optimisation rt exécution parallèle pour les workflows scientifiques [OOpvldb11].• Une approche collaborative pour l‘identification des plantes à partir de contenus image [RJicmr12].

3. Analyse de données• ParallelGDB, un système de gestion de données graphes pour clusters, avec des techniques de partitionnement de graphes et de gestion de cache [BMideas11].• StreamCLoud, un système élastique de gestion de flux de données pour des masses de données dans le cloud [GJtpds12].• Un algorithme d’extraction des itemsets fréquents évolutifs dans un environnement de flux de données où les itemsets comme le flux sont mis à jour et sont considérés sur deux dimensions [ZMictai12, ZMtime12].• Une méthode d’extraction des motifs d’évolution dans les images satellites permettant de détecter des zones d’urbanisation sensibles [PMijns11].• La première proposition de fouille d’itemsets avec supports probabilistes dans des flux de données [PKDDam13].• Des algorithmes scalables de recherche, de fouille et de découverte d’objets visuels dans des grandes collections multimédia [GJacmmm11, LJacmmm12].

Partenariats avec l’industrie

• Data Publica (2011-présent) : open data.• EDF (2013) : confidentialité et P2P.• Microsoft (2013-2017) : workflows et cloud.• INA (2013-2016) : analyse d’image et MapReduce.• X-data (PIA 2013-2015 avec Data Publica, Orange,

La Poste, EDF, Cinequant, Hurence) : croisement de données publiques et privées.

• Datascale (PIA 2013-2015 avec Bull, CEA, ActiveEon SAS, Armadillo, Twenga, IPGP, Xedix) : infrastructure big data.

• CoherentPaaS (projet FP7 IP 2013-2016 avec MonetDB, QuartetFS, Sparsity, Neurocom, Portugal Telecom et U. Madrid, FORTH, INESC, ICCS) : accès SQL et NoSQL dans le cloud.

Rayonnement scientifique

• Zenith a produit des livres majeurs : la troisième édition du livre de référence «Principles of Distributed Database Systems» (Özsu et Valduriez, 850 pages) par Springer en 2011 et le premier textbook sur la gestion de données P2P «P2P Techniques for Decentralized Applications» (Pacitti, Akbarinia et El Dick) par Morgan & Claypool Publishers en 2012.

• Nous participons à des comités de lecture de grandes revues (VLDB Journal, PVLDB, Distributed and Parallel Databases, Internet and Databases, etc.) et conférences (ACM Multimedia, ACM ICMR, ACM SIGMOD, ICDE, EDBT, CIKM, ICDM, IPDPS, etc.).

• P. Valduriez a été distingué ACM Fellow 2012. Il a été keynote speaker à DEXA 2011.

Animation

Zenith a une forte implication dans la communauté nationale, par sa participation au pilotage de BDA, et internationale, par sa participation à l’organisation d’ImageCLEF (campagne d’évaluation sur la recherche d’information visuelle). Au niveau régional, P. Valduriez anime le thème «données scientifiques» du labex NUMEV et dirige le workpackage «intégration de données biologiques» de IBC. Enfin, il a animé le groupe de travail

ModSiCS2020 (Modeling and Simulation of Complex Systems in 2020) de UM2 afin d’identifier les directions de recherche et proposer des actions concrètes.

Faits marquants

• Analyse de grandes collections multimédiasNos résultats ont été appliqués dans le projet Pl@ntNet, pour l’aide à l’identification des plantes par l’image. La réalisation phare, Pl@ntnet iphone app, annoncée au salon de l’agriculture en février 2013, permet de rechercher l’espèce probable d’une plante en prenant en photo ses feuilles, ses fleurs ou le tronc.

• Partage de données en P2PNos contributions en P2P (logiciel P2Pshare, CDN, recommandation, traitement de requêtes) ont été à la base de projets innovants, notamment ANR DataRing, NUMEV, IBC et Mastodons, de nos collaborations internationales avec UFRJ (Brésil) et UCSB (USA), et de notre partenariat avec EDF. D’autre part, Le logiciel SON est à la base d’un i-lab INRIA que nous mettons en place avec la startup Beepeers sur la gestion de données P2P dans des appareils mobiles.













Collaborations externes

• UFRJ (Brésil) : codirection de 3 thèses (1 soutenue en 2011, 2 en cours), collaboration sur workflows scientifiques dans plusieurs projets CNPq-INRIA et l’équipe associée INRIA Saravá.

• UCSB (USA) : équipe associée INRIA BigdataNet (2013-2015) sur la gestion de données dans une architecture hybride P2P/cloud.

• UPC, Barcelone : projet Egide PICASSO Scaling GraphDB (2010-2011) sur la gestion de Large Graph Databases (LGD).

• Université de Madrid : co-direction d’une thèse (soutenue en 2012), collaboration dans le projet StreamCloud et le projet IP CoherentPaaS.

• Intégration de donnéesLe logiciel WebSmatch est à la base de notre collaboration avec Data Publica sur l’open data.

• Alignement d’ontologiesLors de la compétition 2012 de la AOEI qui évalue la qualité et la performance des outils d’alignement d’ontologies, YAM++ a terminé premier dans la catégorie Large Biomedical Ontologies.

• Projets majeurs acceptés en 2013Zenith participe à deux projets industriels «Big Data» (X-data et DataScale) sélectionnés dans le cadre du volet numérique des investissements d’avenir, et au projet IP CoherentPaaS.

Publications majeures

• R. Akbarinia, F. Masseglia. Fast and Exact Mining of Probabilistic Data Streams. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD), 2013.

• R. Akbarinia, P. Valduriez, G. Verger. Efficient Evaluation of SUM Queries Over Probabilistic Data. IEEE Transactions on Knowledge and Data Engineering, Data. Vol. 25, No. 4, 764-775, 2013.

• M. El Dick, E. Pacitti, R. Akbarinia, B. Kemme. Building a Peer-to-Peer Content Distribution Network with High Performance, Scalability and Robustness, Information Systems, Vol. 36, No 2, p. 222-247, 2011.

• P. Letessier, O. Buisson, A. Joly, N. Boujemaa, Scalable Mining of Small Visual Objects, ACM Multimedia Conference, 2012.

• E. Ogasawara, D. De Oliveira, P. Valduriez, J. Dias, F. Porto, M. Mattoso. An Algebraic Approach for Data-Centric Scientific Workflows, Proceedings of VLDB, Vol. 4, No 11, p. 1328-1339, 2011.

Informatique ZENITH©quipeZENITH2013.pdfInformatique ZENITH Gestion de données scientifiques...

Documents

Transcript of Informatique ZENITH©quipeZENITH2013.pdfInformatique ZENITH Gestion de données scientifiques...