Big Data Revolution

Post on 27-Dec-2015

24 views 1 download

Tags:

description

big data

Transcript of Big Data Revolution

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Big Data Revolution

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

un nuovo mondo

con nuove strategie e competenze

approccio creativo

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Cosa sono i Big Data?

...in confronto agli Small Data?

Cambio di Paradigma

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Elementi tecnici

Tipologia di informazioni

Volumi Velocità Variabilità

Origine dei Dati

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Esempio emblematico

Influenza 2009

50mio Parole Chiave

Dati Storici

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Tecnologieinterconnesse ed interoperanti

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Social Network e Search

Open Data

Mobile

Intelligenza Artificiale & ML

Dispositivi indossabili

Sensori e Dispositivi "parlanti"

Internet delle Cose

noSQLBeacons

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Antonella.Blasetti@information-design.it

Doctor Antonella Tosti, Dermatologist University of Miami School of Medicine, uses an iphone as a dermatoscope as she examines Michael Casa Nova,12, for symptoms of skin cancer due to sun exposure (Joe Raedle/Getty Images/AFP) http://rt.com/usa/medical-device-apps-smartphone-295/

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Antonella.Blasetti@information-design.it

click sull’immagine

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Campi di applicazione:

SaluteRicerca

Marketing Scienze Sociali

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Google Books

Translate: da IBM a Google

Imparare dagli Errori

Scoperte Scientifiche

Amazon

Google Places

Google Now

Esempi

Previsioni socio-sanitarie

Social & Sentimental

Analysis

Google NowFrodi-Anomalie

Manutenzione-Controllo

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

click sull’immagine

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

(quasi) Tutto è misurabile

cosa è la

DATIZZAZIONE

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

è necessaria per capire i BIGDATA

Cosa è?A cosa serve?

Come fa a funzionare?

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

la VITA non è Matematica

ma nemmeno

RANDOM

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

I Segreti della Statistica...

non solo a CASOma tante cause

non è possibile prevedere il singolo evento

ma il risultato di molti eventi

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

la Correlazionese prendi freddo ti ammali

Focus sui fattori che si possono variare/controllare

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

Trende Serie Storiche

Il Mondo non sta mai fermoe va sempre più veloce

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

Differenze e RaggruppamentiCluster & Factor Analysis

Metodi empiricinon matematici

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Un pizzico di Statistica...

con i Big Datala Statistica è necessaria

ma più facileviva e divertente

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning

Algoritmi e Sistemi per

PrevisioniClassificazioni

Raggruppamenti

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning

click sull’immagine

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning

Algoritmi e Sistemi per

PrevisioniClassificazioni

Raggruppamenti

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning

anche il Software impara!Alberi di DecisioneMetodi Bayesiani

l’Allenamento/Apprendimento

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning:esempi

Mail SpanAutomotive

Identificazione Pattern Oggetti

Ufficio Clienti

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Machine Learning: Automotive

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Open DATA

Poter accedere a Dati/Statistichedi Pubblica Utilità

e di proprio interessee collegarli tra di loro

e con i BIG DATA

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Strategie tecniche

Costi/RisultatiServizi/in-House

Metodi Proprietari/Complessi vs Semplici/Aperti

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

SW Open Sourceo

Proprietario?

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Database noSQL

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Architettura distribuitaScalabilità

MultiNodo Partizionamento ReplicheParallelismo (MapReduce)

Prestazioni e non legate alla dimensione del data set

no Backup

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Database noSQL

molto SQL e possibile convivenzaDB al contrario

Dati con meno vincoli Pregi e Difetti

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

noSQLMolti formati diversi

noJoinSchemaless

Replicati su +ProcessorScalabilità lineare

notonlyBigData

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Tipologie noSQL DB

Key-ValueColumn/BigTable

Document Graph

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Key-ValueChiavi in associazione

a Dati o Oggetti

Estrema Portabilitàcome un Dizionario

Scalabilità

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Column/BigTable

Google Cloud DataStore Apache HBase

Apache Accumulo Cloudera

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Column/BigTable

Uso di Map ReduceMaster Nodes suddivide operazioni

su più nodie poi aggrega i risultati parziali

Google Maps

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Document DB

MongoDB CouchDBDB XML

OrientDB + Graph

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Document DB

Documenti: XML, Json, altri formatiIl contenuto dei documenti è indicizzato

Document pathDati semi-strutturati

Linguaggi di trasformazionee di interrogazione

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Graph DB

NeoJs InfiniteGraph

Apache Giraph (Google Pregel) DB2

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Graph DB

Gestione di Grafi, molte relazioni da attraversare.

Nodi, relazioni e proprietàVicinanza e Similitudine

Sono la nuova versione dei classici DB Reticolari,

ma più affidabili e veloci

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Graph DB

Scalabilità + difficileIdentificazione dei NODI

W3C - URIsIntegrazione di Linked Data

e di Open Data

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Le tecniche Importanti

Map ReduceCompressione dei Dati

Hashing Shrading

Streaming DataRTBDA

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Map Reduce/Hadoop

Elaborazioni di enormi quantità di dati

in Cluster di Hardware a basso costo

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Map Reduce/Hadoop

Rete di Controllersuddivisione del lavoro

aggregazione Problema dei failure

Gestione della FaultTolerancerende semplice lavorare in parallelo

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Hadoop

è BATCHbasato su HDSF (GFS)

PIG - script per MapReduce Hadoop Common – Ut Libraries

Streaming

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Hadoop

HBase - Il database

YARN - Resource Management & Scheduling

Shark + Spark (open)

Claudera

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

RTBDAReal Time Big Data Analytics

no MapReduce

Dremel (Google BigQuery)

Apache Drill

Druid

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

RTBDA

Real Timeno Database ma Analyics

all DATA, senza Aggregazioni Analisi su DB immensi

Scalabili su più di 10.000 ServerPetabyte of Data Trillions of Records

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

BigQuery

Solo come Servizio Tools di Test

Utilizzabile con normali comandi SQL

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Data Scientist

Nuova figura professionale

TecnicaConoscenza dei Problemi

IntuizioneMetodi Scientifici

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

i Dati in Azienda

Come integrare

Big Datae Small Data

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Best Practices

Servizi REST +

DB XML =

BigData integrati con i Vs.Dati

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

information designOracle Cloud Web Google

Antonella.Blasetti@information-design.it

i Pericoli del Big Data

Privacy

Importanza del modello Open Source

Le “macchine” faranno sempre di più...se questo sia un bene o un male dipenderà da chi

ma soprattutto da quanti ne avranno consapevolezza e potranno controllarle

Antonella.Blasetti@information-design.it

information designOracle Cloud Web Google

GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO

Grazie

Antonella.Blasetti@information-design.it