Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e...

18
Università degli studi di Padova Facoltà di Ingegneria Gestionale Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire i BIG DATA Laureando: Pedassou Yao Edem Relatore: Bonollo Giuliano Anno Accademico 2011-2012

Transcript of Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e...

Page 1: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Università degli studi di PadovaFacoltà di Ingegneria Gestionale

Dipartimento di tecnica e gestione dei sistemi industriali

Strumenti software per gestire i BIG DATA

Laureando: Pedassou Yao Edem Relatore: Bonollo Giuliano

Anno Accademico 2011-2012

Page 2: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Sommario

Definizione di big dataDescrizione dei processi in campo big data e i

relativi problemi e criticitàLe tecnologie : Apache hadoopApplicazioniProspettive e conclusioni

Page 3: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

• E’ un insieme di dati talmente grande che è praticamente impossibile utilizzarli con gli strumenti tradizionali.

• Definizione doppiamente inadeguata per la dimensione dei dati via via crescente e il valore di sfida che racchiude il big data

Page 4: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

PROCESSI E CRITICITÀ

Page 5: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Dati di acquisizione e di recording

• Sorgenti di generazione dei dati• Definizione dei filtri dei dati• Generazione automatica del metadata giusto• Provenienza dei dati

Estrazione dell’informazione e il data cleaning

Informazioni non inizialmente in formato strutturato pronte per l’analisi

Page 6: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

L’integrazione, l’aggregazione e la rapresentazione dei dati

Ricerca di automatizazione dell’analisi dei dati rendendo l’analisi comprensibile in modo computazionale e poi risolvibile con la robotica

Elaborazione delle query, modellazione e analisi dei dati

• Scaling di query complesse• Mancanza di coordianamento tra i sistemi di dati strutturati e non

strutturati

Interpretazione dei dati

• L’analisi deve essere reso facile al decisore• Si deve soddisfare la richiesta di precisione del decisore

Page 7: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Le sfide

• Eteregeneità• La scala• La tempestività• La privacy• La collaborazione umana

Page 8: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Tecnologie

• apache hadoop

• linguaggio R

• Cascading

• Scribe

• ElasticSearch

• Apache Hbase

• Apache Cassandra

• MongoDB

• Apache CouchDB

Page 9: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Cos’è ?

È un framework Open

Source per

applicazioni distribuite

data-intensive

• MapReduce

• Hadoop Distributed file system (HDFS)

HDFS: È un software che :

• memorizza i file attraverso un insieme di server in un cluster. • Rileva e compensa i problemi di hardware, di disco e guasti di server• Tolera e compensa i fallimenti del cluster

Page 10: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

MapReduce : Sistema di elaborazione parallela dei dati

Page 11: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

• Fare fronte a un problema di esplosione di dati che nessun

sistema preesistente era in grado di risolvere

• Capace di archiviare qualsiasi tipi di dati

• Prevedere uno stoccaggio a costo basso

• Offre un nuovo repository dove tutti dati strutturali e

complessi possono essere facilmente combinati

• Scalabilità e affidabilità per l’elaborazione di algoritmi arbitrari

• Compatibile con i sistemi preesistenti (database, log

generator…)

• Permette al DBA di ottimizzare il database

• Fornire agli utenti meno tecnici informazioni sui dati

(analisti..)

• Guida ad una struttura incentrata sui dati

Page 12: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.
Page 13: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Applicazioni

Applicazioni analitiche

• Basate su Attributi Attribuiscono un credito a una serie di attività

(Partner di società)

• Basate su predizione o previsione Usano le tecniche statistiche e di data Mining per

processi decisionali in svariati scenari di mercato (valutazione rischi, gestione del rendimento)

• Basate su approfondimento Usano le stese tecniche della precedente ma per

rilevare Comportamenti insoliti (uso della carta di credito)

Page 14: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Applicazioni settoriali

• Finanza

• Impatto su i costi, rischi, ricavi e conformità

• Miglioramento dell’anlisi del profilo di clienti determinazione dell’eggibilità del capital azionario (mutui, assicurazione,credito)

• Individuazione delle frodi e prevenzione di eventi futuri di frodi

• Permette l’analisi del commercio

Page 15: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Industria Manifatturiera

Gestione dei servizi

piu efficiente e più efficace grazie alla proliferazione dei sensori e all’ analisi di feed di dati di gran dimensione

Le Operazioni

• Miglioramento del processo di post-vendita di manutenzione • Con l’aggiunta di sensori per attrezzature per fornire livello

crescenti di dati sulle operazioni di manutenzione dell’apparecchiatura

• Aumento della qualità complessiva del prodotto

Page 16: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Sanità

• Migliorare la qualità dei servizi sanitari e ridurre il numero di ospedalizzazioni.

• Sviluppo dei farmaci : uso dei dati per fornire medicinali efficace e in tempo breve

• Scambio di informazioni sulla salute

Page 17: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

Conclusioni

• Nuove tecnologie come hadoop sono impiegate per affrontare le sfide di big data e fino ad oggi ci riescono abbastanza bene

• Finché i Cloud Computing, l’internet ed altri generatori di dati ci sarano, i problemi dei big data sarano di attualità :

• La tecnologia deve affrontare il dilemma di risolvere crescita esponenziale e continua di dati con risorse a capacità limitate e con esigenza degli utenti ancora piu accentuata

• Siamo ancora in fase sperimentale e di ricerca: permangono vari punti dubbi riguardo alle tecnologie, alle possibili “Killer application”, ad un utilizzo basico a livello di utenti.

Page 18: Università degli studi di Padova Facoltà di Ingegneria Gestiona le Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire.

GRAZIE PER

L’ATTENZIONE