Usare le recensioni degli utenti per creare un modello di similarità tra videogiochi
Paolo Verdini
showeet.com
2
Obiettivi del Progetto
1) Ottenere un sistema di similarità tra videogiochi a partire da dati non strutturati, come le recensioni.
2) Mettere a punto un sistema di recommendation che
provveda a suggerire titoli di interesse per l'utente...
...senza supervisione umana.
3
Motivazione
Rimuovere, nel contesto di un'operazione di Sentiment
Analysis e di Machine Learning, il costo del labeling
necessario per mettere a punto un training set, e costruire
un modello di apprendimento efficace.
4
5
Perché i videogiochi?
6
7
8
9
Domain Exploration
10
Caratteristiche dei Dati
Quasi 60 milioni di utenti registrati.
Database di videogiochi più ampio in assoluto (più di 2000 giochi, recensioni utenti).
Dati consistenti.
Solo qualche perdita dovuta alle esclusive su console.
11
12
13
Word embeddings e il problema del significato
In una rappresentazione discreta o tassonomica di due termini come “hotel” e “motel” in un
documento D potrebbe essere la seguente:
h = [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
m = [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0], dove |Vh,m| = |D|.
Dunque Vh ˄ Vm = 0.
14
Si può conoscere il significato di una parola conoscendone il contesto di utilizzo (Harris, 1954)
Intuizione alla base del moderno approccio
Distributional Semantic Representation
15
16
17
18
Visualizzazione
Abbiamo operato sulla distanza tra i document embeddings per indicare una soglia minima di similarità, e successivamente procedere alla visualizzazione (tramite un codice JavaScript e D3) di un grafo di connessioni pesato.
Abbiamo infine completato l'operazione di ristrutturazione dell'informazione attraverso la costruzione di un grafo a raggera, uno per ogni videogioco processato, la cui soglia di similarità con documenti a lui più vicini fosse risultata superabile e in grado di presentare degli esempi di connessione.
19
20
21
22
E il recommendation system?
23
24
25
26
È possibile fare altro?
27
28
Conclusione Il modello di similarità tra videogiochi è cost-effective: considerando la prospettiva
dell'offerta di un servizio, il costo ipotetico del labeling è assorbito dalla possiblità di procedere senza supervisione alcuna.
Costruire un'informazione basata sulle opinioni degli utenti e non pilotata da qualche strategia pubblicitaria apre allora prospettive più moderne di indagine di mercato e di sondaggio, e senz'altro rispecchia più fedelmente il comportamento medio del consumatore odierno.
Top Related