Proposte di Tesi - Politecnico di...

31
Proposte di Tesi Torino, Giugno 2011 Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo

Transcript of Proposte di Tesi - Politecnico di...

Page 1: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

Proposte di Tesi

Torino, Giugno 2011

Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli,

Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero,

Alberto Grand, Luigi Grimaudo

Page 2: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

Data Mining Algorithms

Page 3: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

3DBMG

Algoritmi di data mining disk-based (1)

Estrazione di regole di associazione

Estrazione itemset frequenti -> Complessità elevata

Generazione delle regole

Grandi quantità di memoria principale allocata per le

strutture dati rendono gli algoritmi proposti poco

scalabili

Materializzazione di strutture dati su file per ottimizzare

l’estrazione degli itemset frequenti e rendere scalabili gli

algoritmi di estrazione

Tania Cerquitelli

Page 4: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

4DBMG

Algoritmi di data mining disk-based (2)

Algoritmi di clustering

Individuazione di gruppi di oggetti che condividono proprietà

comuni

Grandi quantità di memoria principale allocata per le

strutture dati rendono gli algoritmi proposti poco

scalabili

Materializzazione di strutture dati su file per ottimizzare

l’uso degli algoritmi di clustering su elevati volumi di

dati, non gestibili dagli approcci esistenti in letteratura

Tania Cerquitelli

Page 5: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

5DBMG

Ottimizzatore orientato al Data Mining

Estrazione di regole di associazione

Estrazione itemset frequenti -> Complessità elevata

Generazione delle regole

Diversi algoritmi di estrazione sono stati proposti in letteratura

Algoritmi diversi sono appropriati per diverse distribuzioni di dati

Alcuni algoritmi sono stati integrati nei DBMS relazionali

Alcuni algoritmi utilizzano strutture dati materializzati su fili binari

Sviluppo di un modulo (i.e., ottimizzatore), eventualmente

integrato in un DBMS Open Source (e.g., PostgreSQL), in grado di

selezionare, per una determinata distribuzione di dati, l’algoritmo

più efficiente per ottimizzare il processo di mining

Tania Cerquitelli

Page 6: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

6DBMG

Strutture dati disk-based per il Text Mining

Grandi volumi di dati testuali

Grandi quantità di memoria principale allocata per le

strutture dati rendono gli algoritmi proposti poco

scalabili

Progettazione di nuove strutture dati disk-based per la

rappresentazione efficiente di grandi volumi di dati

testuali

Text mining basato su diverse tecniche di analisi (e.g.,

clustering, estrazione delle regole di associazione)

Tania Cerquitelli, Alessandro Fiori, Alberto Grand

Query ProposteTesi-Tania_11_01_10

Page 7: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

7DBMG

Estrazione di regole generalizzate con vincoli

Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità

Utilizzo di tassonomie per l’aggregazione dei dati

Numero elevato di regole estratte -> alta complessità

I vincoli servono a limitare l’informazione estratta a un sottoinsieme d’interesse

Studio e implementazione di algoritmi di estrazione di regole di associazione generalizzate con vincoli

Luca Cagliero

Page 8: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

8DBMG

Classificazione bayesiana mediante regole generalizzate

Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità

Utilizzo di tassonomie per l’aggregazione dei dati

La classificazione bayesiana utilizza un modello probabilistico per predire la classe di un dato di test

Studio e implementazione di un algoritmo di classificazione bayesiano che utilizza regole di associazione generalizzate

Luca Cagliero

Page 9: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

9DBMG

Dynamic data mining

Analisi e comparazione dell'informazione estratta durante diverse sessioni di data mining e knowlegde discovery schedulate nel tempo.

I pattern generalizzati raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità

Utilizzo di tassonomie per l’aggregazione dei dati

Estrazione e analisi di regole dinamiche generalizzate

Luca Cagliero

Page 10: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

10DBMG

Classificazione di serie temporali

Tania Cerquitelli

Serie temporale

Sequenza (ordinata) di numeri reali

Serie temporale multivariata

Ogni dato è composto da coppie

<attributo: serie temporale>

Tipo di dato che si trova in molti domini applicativi (medicina,

finanza, multimedia...)

Sviluppo e implementazione di algoritmo per

Selezione attributi che discriminano meglio le diverse classi

Classificazione dei dati

Page 11: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

Database systems

Page 12: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

12DBMG

Database distribuiti

Daniele Apiletti

Challenge

Scalabilità e affidabilità dei database di applicazioni (web) che permettono di

interagire con reti di amici (social networks)

interagire con luoghi fisici reali (check-in)

condividere dati molto complessi e multimediali (like, comment, foto e video)

Esempi: Facebook, Twitter e Foursquare sono cresciuti a ritmi del 1000%

Solution

Scalabilità orizzontale

non è possibile aggiungere risorse ad un unico DB centrale

aggiungere nuovi database “piccoli” creando una rete di DB distribuiti

Database a documenti

sfruttare la semplicità di database non-relazionali (es. a documenti)

facile gestione della replicazione e ottime performance

Studio delle potenzialità di DB distribuiti e DB non-relazionali

Riferimenti: mongodb.org, http://goo.gl/6L2yC

Page 13: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

13DBMG

Modellazione concettuale di basi di dati

Le basi di dati sono progettate mediante il modello Entity-Relationship

Attualmenti sono disponibili pochi strumenti per la modellazione ER GNU Ferret (http://www.gnuferret.org/) offre poche

funzionalità

Sviluppo di un nuovo tool per la modellazione concettuale delle basi di dati

Silvia Chiusano, Paolo Garza

Page 14: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

Text Mining

Page 15: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

15DBMG

Summarization

Riassunto di documenti identificazione di informazioni rilevanti da notizie, articoli scientifici,

blogs clustering di sentenze contenenti informazioni simili e rilevanti estrazione di informazioni biologiche da testi validazione di risultati sperimentali a seconda del campo applicativo

Studi possibili sviluppo di nuovi metodi di sommarizazione basati sull’informazione di

interesse incremento della rappresentazione dei dati per velocizzare il processo

di generazione del sommario rappresentazione dei risultati a seconda delle queries dell’utente integrazione di algoritmi di estrazione

Information retrieval, text mining, summarization, clustering

Alessandro Fiori

Page 16: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

16DBMG

Inferenza di ontologie

Ontologia

Organizzazione rigorosa ed esaustiva di un dominio della conoscenza

Struttura gerarchica

rappresenta le entità rilevanti e le loro relazioni

Text mining per l’inferenza di ontologie

identificare i concetti mediante approcci di entity recognition

Estrarre le relazioni tra le entità

Esempi: DBPedia, YAGO

Applicazioni

Scoprire relazioni tra entità di dominio usando notizie, articoli scientifici, blogs, ecc.

Validare le relazioni rappresentate in ontologie pre-calcolate

Entity recognition, association rules, text mining

Luca Cagliero, Alessandro Fiori, Alberto Grand

Page 17: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

17DBMG

Social networks Inferenza di conoscenza dai dati degli utenti

estrazione di informazioni rilevanti dai siti di social networking

personalizzazione di web crawlers usando i profili utenti

identificazione di notizie, locazioni geografiche, ecc.

Studi possibili

Estrazione di regole di associazione per l’analisi dei comportamenti degli utenti

approcci di sommarizazione per identificare informazioni rilevanti

classificazione di oggetti web usando i dati generati dagli utenti

clustering di pagine web in base al topic

sviluppo di recommendation systems usando il comportamento degli utenti nelle social networks

Entity recognition, clustering, association rules, text mining

Luca Cagliero, Alessandro Fiori

Page 18: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

Mining in Specific Application Domains

Page 19: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

19DBMG

Modello previsionale di energia

Daniele Apiletti, Tania Cerquitelli

Analisi di dati di produzione/consumo di energia elettrica da fonti rinnovabili

Correlazione con dati di contesto es. ambientali, meteo, ecc.

Progettazione e sviluppo di un framework obiettivo: ottimizzazione della

produzione e del consumo di energia metodo: modello previsionale dei

consumi e della produzione

Page 20: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

20DBMG

Interrogazioni di Reti di Sensori

“La rete di sensori è una base di dati”

Interrogare la rete

Acquisizione (eventualmente aggregazione) delle misure che descrivono lo stato dell’ambiente monitorato

Applicare le tecniche di Data mining per scoprire le correlazioni tra i diversi attributi

Quali sensori/misure sono correlate?

Qual è il grado di correlazione? (generalmente le misure acquisite dai sensori sono fortemente correlate)

Quando i sensori/misure sono correlate? (e.g. dalle 8:00 a.m. alle 11:00 a.m.)

App

Rete di Sensori

TinyDB

Query,

TriggerDati

Tania Cerquitelli

Page 21: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

21DBMG

Analisi del Traffico di Rete Wireless

Sicurezza

Individuare e prevedere eventuali intrusioni

Progettazione

Dimensionare le proprie risorse di rete

Analizzare il traffico di rete wireless mediante algoritmi di data mining Regole di Associazione Algoritmi di Clustering

Tania Cerquitelli

Page 22: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

22DBMG

Gestione dati geografici

Necessità di uniformare i dati raccolti mediante osservazioni naturalistiche nella regione Alpi Marittime -Mercantour

Collaborazione con l’Istituto Superiore sui Sistemi Territoriali per l’Innovazione (SiTi) di Torino

Tesi: implementazione di un database PostgreSQL per gestire dati naturalistici con coordinate geografiche, implementazione di interfacce di inserimento dati, sviluppo di query di ricerca mediante criteri geografici

Giulia Bruno

Page 23: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

23DBMG

Analisi di dati medici

Analisi database contenenti lo storico degli esami effettuati dai pazienti

Obiettivi estrarre le sequenze di esami eseguite più frequentemente

ricavare i pattern relativi a specifici sintomi

studiare una rappresentazione compatta delle sequenze per una successiva validazione medica

Tesi: studio e implementazione di un algoritmo di estrazione di sequenze, in particolare per la gestione di sequenze con o senza gap, vincoli temporali sugli intervalli di tempo e tassonomie sulla tipologia di esami

Giulia Bruno

Page 24: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

24DBMG

Validazione algoritmi per clustering di geni

Analizzando i dati di espressione genica (microarray) è possibile raggruppare geni in base al loro comportamento in diverse situazioni sperimentali attraverso l’utilizzo di algoritmi di clustering

In questo contesto la validazione dei risultati è critica per

mancanza di dataset di riferimento

difficoltà di scelta di un indice di qualità adatto

Tesi: studio e implementazione di algoritmi di clustering e valutazione di indici di validazione per l’analisi di dati di espressione genica

Giulia Bruno, Alessandro Fiori

Page 25: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

25DBMG

Integrazione dati clinici-molecolari

Nell’ambito della medicina personalizzata, riveste particolare importanza l’integrazione di dati medici a diversi livelli (clinici e genetici)

gestione di dati eterogenei

visione globale di un sistema complesso quale il corpo umano

identificazione di correlazioni tra differenti studi e/o esperimenti

Tesi: studio e modellazione di un sistema (database/data warehouse) per l’integrazione di dati clinici e molecolari, valutazione di di sistemi esistenti (caBIG), studio di strutture fisiche accessorie per miglioramento delle performance, implementazione di interfacce grafiche di accesso ai dati

Giulia Bruno, Alessandro Fiori

Page 26: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

26DBMG

Analisi di dati sportivi

Analisi di dati fisiologici

• Misura dei progressi di un atleta• Misura indiretta di lattato e acido lattico• Migliorare l'efficacia dell'allenamento

degli atleti

Estrazione di conoscenza

• Definizione di un profilo per ogni atleta(es. frequenza cardiaca allenante)• Classificazione degli atleti

Tania Cerquitelli

Page 27: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

27DBMG

Analisi delle notizie

Studi tecniche di Query Expansion per allargare il dominio di ricerca mediante

generazione di query alternative costruite a partire dalla query originale

Collaborative filtering, basato sul paradigma che gruppi di utenti simili condividono contenuti simili

Content-based filtering, basato sul paradigma che gruppi di contenuti simili sono condivisi dallo stesso utente

Hybrid filtering, basato su combinazione degli approcci precedenti

New story detection: dato un flusso continuo di notizie determina quando viene incontrata una nuova notizia (per servizi di breaking News)

Topic detection and linking: dato un flusso di notizie determina l’insieme di notizie inerenti lo stesso topic, e le relazioni esistenti tra tali notizie

Topic tracking: data una serie di eventi di interesse per l’utente, determina le notizie future correlate a tali eventi

Rilevamento automatico degli highlights in eventi sportivi

Alessandro Fiori

Page 28: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

28DBMG

Analisi dei dati di trasporto pubblico

Dati:

Dati del sistema di Trasporto Pubblico Locale della città di Torino

Obiettivi:

Miglioramento dell’accuratezzadella previsione dei tempi di percorrenza dei mezzi

Ottimizzazione della stabilità della previsione

Attività:

Studio di metodi di previsione dei tempi di percorrenza dei mezzi pubblici

Applicazioni pratiche:

Previsioni d’arrivo in fermata

Stima dell’headway istantaneo

Calcolo percorsi in tempo reale

Page 29: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

29DBMG

Analisi dati dei sensori di traffico

Dati:

Dati provenienti dai sensori di monitoraggio del traffico del Sistema 5T

Obiettivi:

Studiare la correlazione tra sensori (dati)

Identificare i guasti impiantistici

Attività:

Studio di metodi di verifica della qualità dei dati

Studio di algoritmi di clustering adattativi alle variazioni dei dati

Principali applicazioni:

Ottimizzazione dell’utilizzo dei sensori

Page 30: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

30DBMG

Stage (tesi) in azienda

Elena Baralis, Daniele Apiletti

www.ooros.com

Applicazioni web e mobile per interagire con social networks (Facebook, Twitter, Foursquare, LinkedIn, ...)

analisi delle interazioni tra gli utenti (sia di base, sia su concorsi, giochi, ecc.) tramite tecniche di data mining

Applicazioni web e mobile che sfruttano la geo-localizzazione (es. check-in di Facebook Places, Foursquare, Gowalla, ...)

analisi di dati geografici/spaziali (es. “il mio amico più vicino”)

indici su database ottimizzati per dati geografici/spaziali

Applicazioni mobile (Android, iPhone, etc.) con offline replication

replicazione di dati tra database locale e database remoti per la gestione di perdite di connettività

Page 31: Proposte di Tesi - Politecnico di Torinodbdmg.polito.it/wordpress/wp-content/uploads/2010/12/ProposteTesi.pdf · Text miningbasato su diverse tecniche di analisi (e.g., clustering,

31DBMG

Stage (tesi) in azienda

Core business: soluzioni ICT per la Pubblica Amministrazione

Analisi di strumenti statistici e per la Business Intelligence (BI) per ilCentro di Competenza Specializzato sui Dati della Pubblica Amministrazione, nell’ambito della Fiscalità

Analizzare sistemi di BI sviluppati dal CSI per la Città di Torino rispetto al profilo medio italiano

Analizzare tecniche statistiche avanzate e tecniche di Data Mining (DM)

Realizzare casi di studio utilizzando Sas Enterprise Miner

Proporre l’applicazione di tecniche statistiche e di DM nell’ambito della Fiscalità

Elena Baralis