Presentazione ufficiale splittata
-
Upload
francesco-rizzo -
Category
Documents
-
view
176 -
download
2
Transcript of Presentazione ufficiale splittata
![Page 1: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/1.jpg)
&
![Page 2: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/2.jpg)
Sviluppo sistema iTag
1
Studio del sistema
Implementazione similarità
Valutazione qualità
![Page 3: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/3.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 4: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/4.jpg)
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
2
![Page 5: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/5.jpg)
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
2
![Page 6: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/6.jpg)
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
2
![Page 7: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/7.jpg)
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
SITI WEB
2
![Page 8: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/8.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 9: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/9.jpg)
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
3
![Page 10: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/10.jpg)
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematico di DISTANZA
3
![Page 11: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/11.jpg)
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematico di DISTANZA
3
![Page 12: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/12.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 13: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/13.jpg)
FONTI ETEROGENEE
4
![Page 14: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/14.jpg)
FONTI ETEROGENEE
4
![Page 15: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/15.jpg)
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
4
![Page 16: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/16.jpg)
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
4
![Page 17: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/17.jpg)
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
RUMOROSI
4
![Page 18: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/18.jpg)
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSI
4
![Page 19: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/19.jpg)
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSI
Passi principali:
• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze
• Integrazione: più fonti eterogenee vengono unite
• Riduzione: diminuire il volume del dataset
4
![Page 20: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/20.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 21: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/21.jpg)
5
![Page 22: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/22.jpg)
elemento taggato (foto, video, sito web)
piattaforma online che favorisce il contributo
degli utenti dietro incentivo economico
sistema di social bookmarking
RISORSA
DATASET
POST
DELICIOUS
CROWDSOURCING
insieme di tag dati di una risorsa
insieme di risorse, ognuna con i suoi post
5
![Page 23: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/23.jpg)
Ogni risorsa alla quale è possibile applicare tag può risultare:
• Sovrataggata (per le più popolari)
• Sottotaggata
6
![Page 24: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/24.jpg)
In questo modo quando un
utente effettua una ricerca
Non tutte le risorse vengono
mostrate ricerca inefficiente
6
• Sottotaggata
![Page 25: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/25.jpg)
6
Aumentare la QUALITA’ del dataset
![Page 26: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/26.jpg)
DATASET
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 27: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/27.jpg)
DATASET
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 28: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/28.jpg)
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 29: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/29.jpg)
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 30: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/30.jpg)
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 31: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/31.jpg)
DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 32: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/32.jpg)
DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 33: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/33.jpg)
DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 34: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/34.jpg)
DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
![Page 35: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/35.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 36: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/36.jpg)
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
8
![Page 37: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/37.jpg)
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Feedback
8
![Page 38: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/38.jpg)
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Similarità
Feedback
8
![Page 39: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/39.jpg)
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Similarità
Feedback
Differenziazione incentivi
8
![Page 40: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/40.jpg)
Similarità
8
Argomento approvato:
![Page 41: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/41.jpg)
Le tre misure di similarità che ho scelto sono state:
9
![Page 42: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/42.jpg)
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
9
![Page 43: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/43.jpg)
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
Coefficiente di Dice
9
![Page 44: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/44.jpg)
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
Coefficiente di Dice
Similarità di Jacquard
9
![Page 45: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/45.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 46: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/46.jpg)
10
![Page 47: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/47.jpg)
Fonte: Delicious
10
![Page 48: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/48.jpg)
Fonte: Delicious
Inizialmente i files, relativi ad 1 mese di utilizzo,
erano 4 da circa 10 GB ciascuno (40GB totali)
10
![Page 49: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/49.jpg)
Fonte: Delicious
Inizialmente i files, relativi ad 1 mese di utilizzo,
erano 4 da circa 10 GB ciascuno (40GB totali)
Dopo le operazioni di pulizia e filtraggio del dataset,
le dimensioni si sono ridotte a 100MB
10
![Page 50: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/50.jpg)
11
![Page 51: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/51.jpg)
Ogni linea è una risorsa
11
![Page 52: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/52.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
![Page 53: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/53.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
![Page 54: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/54.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
![Page 55: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/55.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
11
![Page 56: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/56.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
11
![Page 57: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/57.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
11
![Page 58: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/58.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Le cifre dentro al post
rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
11
![Page 59: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/59.jpg)
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Le cifre dentro al post
rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
“viaggi”11
![Page 60: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/60.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 61: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/61.jpg)
12
![Page 62: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/62.jpg)
finestra (quantità di post) utilizzata per valutare la stabilità
vettore di frequenze relative di ogni tag
STABILITÀ
w
QUALITÀ
RFD
DP
B
si ha quando il livello di informazioni per la risorsa è sufficiente
si ha quando le informazioni della risorsa superano la soglia di stabilità
algoritmo ottimo per generare gli assegnamenti delle risorse
Budget stanziato dal provider per l’incremento della qualità
12
![Page 63: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/63.jpg)
4 X 10GB
DATASET ORIGINALE
13
![Page 64: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/64.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 65: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/65.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
13
CARATTERISTICHE:
![Page 66: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/66.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
13
CARATTERISTICHE:
![Page 67: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/67.jpg)
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
![Page 68: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/68.jpg)
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
![Page 69: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/69.jpg)
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricettaRIDUZIONE RUMORE
13
CARATTERISTICHE:
![Page 70: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/70.jpg)
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
pasta
cucina
ricetta
13
CARATTERISTICHE:
![Page 71: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/71.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 72: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/72.jpg)
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
13
CARATTERISTICHE:
![Page 73: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/73.jpg)
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
13
CARATTERISTICHE:
![Page 74: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/74.jpg)
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA13
CARATTERISTICHE:
![Page 75: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/75.jpg)
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
RIDUZIONE RIDONDANZA
13
CARATTERISTICHE:
![Page 76: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/76.jpg)
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
pasta
13
CARATTERISTICHE:
![Page 77: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/77.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 78: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/78.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB 1 mese
13
CARATTERISTICHE:
![Page 79: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/79.jpg)
Circa 1TB
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB 1 mese
2 anni
13
CARATTERISTICHE:
![Page 80: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/80.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 81: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/81.jpg)
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 82: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/82.jpg)
4 X 10GB100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 83: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/83.jpg)
4 X 10GB100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
PULITO
FORMATTATO
RIDOTTO
DATASET ORIGINALE
13
CARATTERISTICHE:
![Page 84: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/84.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 85: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/85.jpg)
APPLICAZIONE
FORMULE
STATISTICHE
14
![Page 86: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/86.jpg)
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
INPUT
14
![Page 87: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/87.jpg)
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
INPUT
OUTPUT
14
![Page 88: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/88.jpg)
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
RFD
INPUT
OUTPUT
Punto di
stabilità
14
![Page 89: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/89.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 90: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/90.jpg)
DP
15
![Page 91: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/91.jpg)
DP
RFD
Punto di
stabilità
INPUT
BUDGET
15
![Page 92: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/92.jpg)
DP
RFD
Punto di
stabilità
INPUT OUTPUT
BUDGET
15
![Page 93: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/93.jpg)
DP
RFD
Punto di
stabilità
INPUT OUTPUT
Qualità del
dataset
ASSIGNMENTASSIGNMENT
ASSEGNAMENTO OTTIMO
BUDGET
15
![Page 94: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/94.jpg)
DP ASSEGNAMENTO OTTIMO
STATO INIZIALE (RANDOM)
15
![Page 95: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/95.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 96: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/96.jpg)
COSINE DICE JACQUARD
16
![Page 97: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/97.jpg)
COSINE DICE JACQUARD
16
![Page 98: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/98.jpg)
COSINE DICE JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
16
![Page 99: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/99.jpg)
COSINE DICE JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?
16
![Page 100: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/100.jpg)
17
![Page 101: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/101.jpg)
18
![Page 102: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/102.jpg)
19
![Page 103: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/103.jpg)
20
![Page 104: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/104.jpg)
21
![Page 105: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/105.jpg)
22
![Page 106: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/106.jpg)
23
![Page 107: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/107.jpg)
24
![Page 108: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/108.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 109: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/109.jpg)
Osservando i risultati sperimentali è possibile vedere come i risultati in valore
assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi
per la Jacquard.
Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il
sistema analizzato non è presente una misura di similarità migliore delle
altre, ma sono tutte e tre equivalenti.
Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a
misura, le curve abbiano esattamente lo stesso comportamento, ottenendo
alla fine gli stessi valori di qualità.
Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On
incentive-based tagging” (ICDE 2013).
25
![Page 110: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/110.jpg)
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
![Page 111: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/111.jpg)
26
![Page 112: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/112.jpg)
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
26
![Page 113: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/113.jpg)
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
26
![Page 114: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/114.jpg)
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
Implementare un sistema di feedback
26
![Page 115: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/115.jpg)
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
Implementare un sistema di feedback
Generare un sistema di riconoscimento semantico dei tag
26
![Page 116: Presentazione ufficiale splittata](https://reader031.fdocuments.net/reader031/viewer/2022022411/58ece0261a28ab296a8b472b/html5/thumbnails/116.jpg)