Post on 27-Dec-2015
description
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Big Data Revolution
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
un nuovo mondo
con nuove strategie e competenze
approccio creativo
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Cosa sono i Big Data?
...in confronto agli Small Data?
Cambio di Paradigma
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Elementi tecnici
Tipologia di informazioni
Volumi Velocità Variabilità
Origine dei Dati
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Esempio emblematico
Influenza 2009
50mio Parole Chiave
Dati Storici
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Tecnologieinterconnesse ed interoperanti
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Social Network e Search
Open Data
Mobile
Intelligenza Artificiale & ML
Dispositivi indossabili
Sensori e Dispositivi "parlanti"
Internet delle Cose
noSQLBeacons
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Antonella.Blasetti@information-design.it
Doctor Antonella Tosti, Dermatologist University of Miami School of Medicine, uses an iphone as a dermatoscope as she examines Michael Casa Nova,12, for symptoms of skin cancer due to sun exposure (Joe Raedle/Getty Images/AFP) http://rt.com/usa/medical-device-apps-smartphone-295/
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Antonella.Blasetti@information-design.it
click sull’immagine
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Campi di applicazione:
SaluteRicerca
Marketing Scienze Sociali
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Google Books
Translate: da IBM a Google
Imparare dagli Errori
Scoperte Scientifiche
Amazon
Google Places
Google Now
Esempi
Previsioni socio-sanitarie
Social & Sentimental
Analysis
Google NowFrodi-Anomalie
Manutenzione-Controllo
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
click sull’immagine
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
(quasi) Tutto è misurabile
cosa è la
DATIZZAZIONE
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
è necessaria per capire i BIGDATA
Cosa è?A cosa serve?
Come fa a funzionare?
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
la VITA non è Matematica
ma nemmeno
RANDOM
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
I Segreti della Statistica...
non solo a CASOma tante cause
non è possibile prevedere il singolo evento
ma il risultato di molti eventi
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
la Correlazionese prendi freddo ti ammali
Focus sui fattori che si possono variare/controllare
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
Trende Serie Storiche
Il Mondo non sta mai fermoe va sempre più veloce
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
Differenze e RaggruppamentiCluster & Factor Analysis
Metodi empiricinon matematici
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Un pizzico di Statistica...
con i Big Datala Statistica è necessaria
ma più facileviva e divertente
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning
Algoritmi e Sistemi per
PrevisioniClassificazioni
Raggruppamenti
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning
click sull’immagine
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning
Algoritmi e Sistemi per
PrevisioniClassificazioni
Raggruppamenti
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning
anche il Software impara!Alberi di DecisioneMetodi Bayesiani
l’Allenamento/Apprendimento
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning:esempi
Mail SpanAutomotive
Identificazione Pattern Oggetti
Ufficio Clienti
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Machine Learning: Automotive
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Open DATA
Poter accedere a Dati/Statistichedi Pubblica Utilità
e di proprio interessee collegarli tra di loro
e con i BIG DATA
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Strategie tecniche
Costi/RisultatiServizi/in-House
Metodi Proprietari/Complessi vs Semplici/Aperti
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
SW Open Sourceo
Proprietario?
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Database noSQL
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Architettura distribuitaScalabilità
MultiNodo Partizionamento ReplicheParallelismo (MapReduce)
Prestazioni e non legate alla dimensione del data set
no Backup
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Database noSQL
molto SQL e possibile convivenzaDB al contrario
Dati con meno vincoli Pregi e Difetti
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
noSQLMolti formati diversi
noJoinSchemaless
Replicati su +ProcessorScalabilità lineare
notonlyBigData
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Tipologie noSQL DB
Key-ValueColumn/BigTable
Document Graph
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Key-Value
Apache Cassandra: ibridoAmazon DynamoDB
CouchBaseBerkeleyDB
Oracle’s Coherence
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Key-ValueChiavi in associazione
a Dati o Oggetti
Estrema Portabilitàcome un Dizionario
Scalabilità
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Column/BigTable
Google Cloud DataStore Apache HBase
Apache Accumulo Cloudera
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Column/BigTable
Uso di Map ReduceMaster Nodes suddivide operazioni
su più nodie poi aggrega i risultati parziali
Google Maps
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Document DB
MongoDB CouchDBDB XML
OrientDB + Graph
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Document DB
Documenti: XML, Json, altri formatiIl contenuto dei documenti è indicizzato
Document pathDati semi-strutturati
Linguaggi di trasformazionee di interrogazione
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Graph DB
NeoJs InfiniteGraph
Apache Giraph (Google Pregel) DB2
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Graph DB
Gestione di Grafi, molte relazioni da attraversare.
Nodi, relazioni e proprietàVicinanza e Similitudine
Sono la nuova versione dei classici DB Reticolari,
ma più affidabili e veloci
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Graph DB
Scalabilità + difficileIdentificazione dei NODI
W3C - URIsIntegrazione di Linked Data
e di Open Data
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Le tecniche Importanti
Map ReduceCompressione dei Dati
Hashing Shrading
Streaming DataRTBDA
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Map Reduce/Hadoop
Elaborazioni di enormi quantità di dati
in Cluster di Hardware a basso costo
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Map Reduce/Hadoop
Rete di Controllersuddivisione del lavoro
aggregazione Problema dei failure
Gestione della FaultTolerancerende semplice lavorare in parallelo
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Hadoop
è BATCHbasato su HDSF (GFS)
PIG - script per MapReduce Hadoop Common – Ut Libraries
Streaming
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Hadoop
HBase - Il database
YARN - Resource Management & Scheduling
Shark + Spark (open)
Claudera
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
RTBDAReal Time Big Data Analytics
no MapReduce
Dremel (Google BigQuery)
Apache Drill
Druid
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
RTBDA
Real Timeno Database ma Analyics
all DATA, senza Aggregazioni Analisi su DB immensi
Scalabili su più di 10.000 ServerPetabyte of Data Trillions of Records
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
BigQuery
Solo come Servizio Tools di Test
Utilizzabile con normali comandi SQL
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Data Scientist
Nuova figura professionale
TecnicaConoscenza dei Problemi
IntuizioneMetodi Scientifici
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
i Dati in Azienda
Come integrare
Big Datae Small Data
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
Best Practices
Servizi REST +
DB XML =
BigData integrati con i Vs.Dati
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information designOracle Cloud Web Google
GDGROMALABGoogle DeveloperGroupROMA LAZIO ABRUZZO
information designOracle Cloud Web Google
Antonella.Blasetti@information-design.it
i Pericoli del Big Data
Privacy
Importanza del modello Open Source
Le “macchine” faranno sempre di più...se questo sia un bene o un male dipenderà da chi
ma soprattutto da quanti ne avranno consapevolezza e potranno controllarle