Proposte di Tesi - Politecnico di...
Transcript of Proposte di Tesi - Politecnico di...
Proposte di Tesi
Torino, Giugno 2011
Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli,
Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero,
Alberto Grand, Luigi Grimaudo
Data Mining Algorithms
3DBMG
Algoritmi di data mining disk-based (1)
Estrazione di regole di associazione
Estrazione itemset frequenti -> Complessità elevata
Generazione delle regole
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
Materializzazione di strutture dati su file per ottimizzare
l’estrazione degli itemset frequenti e rendere scalabili gli
algoritmi di estrazione
Tania Cerquitelli
4DBMG
Algoritmi di data mining disk-based (2)
Algoritmi di clustering
Individuazione di gruppi di oggetti che condividono proprietà
comuni
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
Materializzazione di strutture dati su file per ottimizzare
l’uso degli algoritmi di clustering su elevati volumi di
dati, non gestibili dagli approcci esistenti in letteratura
Tania Cerquitelli
5DBMG
Ottimizzatore orientato al Data Mining
Estrazione di regole di associazione
Estrazione itemset frequenti -> Complessità elevata
Generazione delle regole
Diversi algoritmi di estrazione sono stati proposti in letteratura
Algoritmi diversi sono appropriati per diverse distribuzioni di dati
Alcuni algoritmi sono stati integrati nei DBMS relazionali
Alcuni algoritmi utilizzano strutture dati materializzati su fili binari
Sviluppo di un modulo (i.e., ottimizzatore), eventualmente
integrato in un DBMS Open Source (e.g., PostgreSQL), in grado di
selezionare, per una determinata distribuzione di dati, l’algoritmo
più efficiente per ottimizzare il processo di mining
Tania Cerquitelli
6DBMG
Strutture dati disk-based per il Text Mining
Grandi volumi di dati testuali
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
Progettazione di nuove strutture dati disk-based per la
rappresentazione efficiente di grandi volumi di dati
testuali
Text mining basato su diverse tecniche di analisi (e.g.,
clustering, estrazione delle regole di associazione)
Tania Cerquitelli, Alessandro Fiori, Alberto Grand
Query ProposteTesi-Tania_11_01_10
7DBMG
Estrazione di regole generalizzate con vincoli
Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità
Utilizzo di tassonomie per l’aggregazione dei dati
Numero elevato di regole estratte -> alta complessità
I vincoli servono a limitare l’informazione estratta a un sottoinsieme d’interesse
Studio e implementazione di algoritmi di estrazione di regole di associazione generalizzate con vincoli
Luca Cagliero
8DBMG
Classificazione bayesiana mediante regole generalizzate
Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità
Utilizzo di tassonomie per l’aggregazione dei dati
La classificazione bayesiana utilizza un modello probabilistico per predire la classe di un dato di test
Studio e implementazione di un algoritmo di classificazione bayesiano che utilizza regole di associazione generalizzate
Luca Cagliero
9DBMG
Dynamic data mining
Analisi e comparazione dell'informazione estratta durante diverse sessioni di data mining e knowlegde discovery schedulate nel tempo.
I pattern generalizzati raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità
Utilizzo di tassonomie per l’aggregazione dei dati
Estrazione e analisi di regole dinamiche generalizzate
Luca Cagliero
10DBMG
Classificazione di serie temporali
Tania Cerquitelli
Serie temporale
Sequenza (ordinata) di numeri reali
Serie temporale multivariata
Ogni dato è composto da coppie
<attributo: serie temporale>
Tipo di dato che si trova in molti domini applicativi (medicina,
finanza, multimedia...)
Sviluppo e implementazione di algoritmo per
Selezione attributi che discriminano meglio le diverse classi
Classificazione dei dati
Database systems
12DBMG
Database distribuiti
Daniele Apiletti
Challenge
Scalabilità e affidabilità dei database di applicazioni (web) che permettono di
interagire con reti di amici (social networks)
interagire con luoghi fisici reali (check-in)
condividere dati molto complessi e multimediali (like, comment, foto e video)
Esempi: Facebook, Twitter e Foursquare sono cresciuti a ritmi del 1000%
Solution
Scalabilità orizzontale
non è possibile aggiungere risorse ad un unico DB centrale
aggiungere nuovi database “piccoli” creando una rete di DB distribuiti
Database a documenti
sfruttare la semplicità di database non-relazionali (es. a documenti)
facile gestione della replicazione e ottime performance
Studio delle potenzialità di DB distribuiti e DB non-relazionali
Riferimenti: mongodb.org, http://goo.gl/6L2yC
13DBMG
Modellazione concettuale di basi di dati
Le basi di dati sono progettate mediante il modello Entity-Relationship
Attualmenti sono disponibili pochi strumenti per la modellazione ER GNU Ferret (http://www.gnuferret.org/) offre poche
funzionalità
Sviluppo di un nuovo tool per la modellazione concettuale delle basi di dati
Silvia Chiusano, Paolo Garza
Text Mining
15DBMG
Summarization
Riassunto di documenti identificazione di informazioni rilevanti da notizie, articoli scientifici,
blogs clustering di sentenze contenenti informazioni simili e rilevanti estrazione di informazioni biologiche da testi validazione di risultati sperimentali a seconda del campo applicativo
Studi possibili sviluppo di nuovi metodi di sommarizazione basati sull’informazione di
interesse incremento della rappresentazione dei dati per velocizzare il processo
di generazione del sommario rappresentazione dei risultati a seconda delle queries dell’utente integrazione di algoritmi di estrazione
Information retrieval, text mining, summarization, clustering
Alessandro Fiori
16DBMG
Inferenza di ontologie
Ontologia
Organizzazione rigorosa ed esaustiva di un dominio della conoscenza
Struttura gerarchica
rappresenta le entità rilevanti e le loro relazioni
Text mining per l’inferenza di ontologie
identificare i concetti mediante approcci di entity recognition
Estrarre le relazioni tra le entità
Esempi: DBPedia, YAGO
Applicazioni
Scoprire relazioni tra entità di dominio usando notizie, articoli scientifici, blogs, ecc.
Validare le relazioni rappresentate in ontologie pre-calcolate
Entity recognition, association rules, text mining
Luca Cagliero, Alessandro Fiori, Alberto Grand
17DBMG
Social networks Inferenza di conoscenza dai dati degli utenti
estrazione di informazioni rilevanti dai siti di social networking
personalizzazione di web crawlers usando i profili utenti
identificazione di notizie, locazioni geografiche, ecc.
Studi possibili
Estrazione di regole di associazione per l’analisi dei comportamenti degli utenti
approcci di sommarizazione per identificare informazioni rilevanti
classificazione di oggetti web usando i dati generati dagli utenti
clustering di pagine web in base al topic
sviluppo di recommendation systems usando il comportamento degli utenti nelle social networks
Entity recognition, clustering, association rules, text mining
Luca Cagliero, Alessandro Fiori
Mining in Specific Application Domains
19DBMG
Modello previsionale di energia
Daniele Apiletti, Tania Cerquitelli
Analisi di dati di produzione/consumo di energia elettrica da fonti rinnovabili
Correlazione con dati di contesto es. ambientali, meteo, ecc.
Progettazione e sviluppo di un framework obiettivo: ottimizzazione della
produzione e del consumo di energia metodo: modello previsionale dei
consumi e della produzione
20DBMG
Interrogazioni di Reti di Sensori
“La rete di sensori è una base di dati”
Interrogare la rete
Acquisizione (eventualmente aggregazione) delle misure che descrivono lo stato dell’ambiente monitorato
Applicare le tecniche di Data mining per scoprire le correlazioni tra i diversi attributi
Quali sensori/misure sono correlate?
Qual è il grado di correlazione? (generalmente le misure acquisite dai sensori sono fortemente correlate)
Quando i sensori/misure sono correlate? (e.g. dalle 8:00 a.m. alle 11:00 a.m.)
App
Rete di Sensori
TinyDB
Query,
TriggerDati
Tania Cerquitelli
21DBMG
Analisi del Traffico di Rete Wireless
Sicurezza
Individuare e prevedere eventuali intrusioni
Progettazione
Dimensionare le proprie risorse di rete
Analizzare il traffico di rete wireless mediante algoritmi di data mining Regole di Associazione Algoritmi di Clustering
Tania Cerquitelli
22DBMG
Gestione dati geografici
Necessità di uniformare i dati raccolti mediante osservazioni naturalistiche nella regione Alpi Marittime -Mercantour
Collaborazione con l’Istituto Superiore sui Sistemi Territoriali per l’Innovazione (SiTi) di Torino
Tesi: implementazione di un database PostgreSQL per gestire dati naturalistici con coordinate geografiche, implementazione di interfacce di inserimento dati, sviluppo di query di ricerca mediante criteri geografici
Giulia Bruno
23DBMG
Analisi di dati medici
Analisi database contenenti lo storico degli esami effettuati dai pazienti
Obiettivi estrarre le sequenze di esami eseguite più frequentemente
ricavare i pattern relativi a specifici sintomi
studiare una rappresentazione compatta delle sequenze per una successiva validazione medica
Tesi: studio e implementazione di un algoritmo di estrazione di sequenze, in particolare per la gestione di sequenze con o senza gap, vincoli temporali sugli intervalli di tempo e tassonomie sulla tipologia di esami
Giulia Bruno
24DBMG
Validazione algoritmi per clustering di geni
Analizzando i dati di espressione genica (microarray) è possibile raggruppare geni in base al loro comportamento in diverse situazioni sperimentali attraverso l’utilizzo di algoritmi di clustering
In questo contesto la validazione dei risultati è critica per
mancanza di dataset di riferimento
difficoltà di scelta di un indice di qualità adatto
Tesi: studio e implementazione di algoritmi di clustering e valutazione di indici di validazione per l’analisi di dati di espressione genica
Giulia Bruno, Alessandro Fiori
25DBMG
Integrazione dati clinici-molecolari
Nell’ambito della medicina personalizzata, riveste particolare importanza l’integrazione di dati medici a diversi livelli (clinici e genetici)
gestione di dati eterogenei
visione globale di un sistema complesso quale il corpo umano
identificazione di correlazioni tra differenti studi e/o esperimenti
Tesi: studio e modellazione di un sistema (database/data warehouse) per l’integrazione di dati clinici e molecolari, valutazione di di sistemi esistenti (caBIG), studio di strutture fisiche accessorie per miglioramento delle performance, implementazione di interfacce grafiche di accesso ai dati
Giulia Bruno, Alessandro Fiori
26DBMG
Analisi di dati sportivi
Analisi di dati fisiologici
• Misura dei progressi di un atleta• Misura indiretta di lattato e acido lattico• Migliorare l'efficacia dell'allenamento
degli atleti
Estrazione di conoscenza
• Definizione di un profilo per ogni atleta(es. frequenza cardiaca allenante)• Classificazione degli atleti
Tania Cerquitelli
27DBMG
Analisi delle notizie
Studi tecniche di Query Expansion per allargare il dominio di ricerca mediante
generazione di query alternative costruite a partire dalla query originale
Collaborative filtering, basato sul paradigma che gruppi di utenti simili condividono contenuti simili
Content-based filtering, basato sul paradigma che gruppi di contenuti simili sono condivisi dallo stesso utente
Hybrid filtering, basato su combinazione degli approcci precedenti
New story detection: dato un flusso continuo di notizie determina quando viene incontrata una nuova notizia (per servizi di breaking News)
Topic detection and linking: dato un flusso di notizie determina l’insieme di notizie inerenti lo stesso topic, e le relazioni esistenti tra tali notizie
Topic tracking: data una serie di eventi di interesse per l’utente, determina le notizie future correlate a tali eventi
Rilevamento automatico degli highlights in eventi sportivi
Alessandro Fiori
28DBMG
Analisi dei dati di trasporto pubblico
Dati:
Dati del sistema di Trasporto Pubblico Locale della città di Torino
Obiettivi:
Miglioramento dell’accuratezzadella previsione dei tempi di percorrenza dei mezzi
Ottimizzazione della stabilità della previsione
Attività:
Studio di metodi di previsione dei tempi di percorrenza dei mezzi pubblici
Applicazioni pratiche:
Previsioni d’arrivo in fermata
Stima dell’headway istantaneo
Calcolo percorsi in tempo reale
29DBMG
Analisi dati dei sensori di traffico
Dati:
Dati provenienti dai sensori di monitoraggio del traffico del Sistema 5T
Obiettivi:
Studiare la correlazione tra sensori (dati)
Identificare i guasti impiantistici
Attività:
Studio di metodi di verifica della qualità dei dati
Studio di algoritmi di clustering adattativi alle variazioni dei dati
Principali applicazioni:
Ottimizzazione dell’utilizzo dei sensori
30DBMG
Stage (tesi) in azienda
Elena Baralis, Daniele Apiletti
www.ooros.com
Applicazioni web e mobile per interagire con social networks (Facebook, Twitter, Foursquare, LinkedIn, ...)
analisi delle interazioni tra gli utenti (sia di base, sia su concorsi, giochi, ecc.) tramite tecniche di data mining
Applicazioni web e mobile che sfruttano la geo-localizzazione (es. check-in di Facebook Places, Foursquare, Gowalla, ...)
analisi di dati geografici/spaziali (es. “il mio amico più vicino”)
indici su database ottimizzati per dati geografici/spaziali
Applicazioni mobile (Android, iPhone, etc.) con offline replication
replicazione di dati tra database locale e database remoti per la gestione di perdite di connettività
31DBMG
Stage (tesi) in azienda
Core business: soluzioni ICT per la Pubblica Amministrazione
Analisi di strumenti statistici e per la Business Intelligence (BI) per ilCentro di Competenza Specializzato sui Dati della Pubblica Amministrazione, nell’ambito della Fiscalità
Analizzare sistemi di BI sviluppati dal CSI per la Città di Torino rispetto al profilo medio italiano
Analizzare tecniche statistiche avanzate e tecniche di Data Mining (DM)
Realizzare casi di studio utilizzando Sas Enterprise Miner
Proporre l’applicazione di tecniche statistiche e di DM nell’ambito della Fiscalità
Elena Baralis