Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore:...
-
Upload
ferruccio-ricci -
Category
Documents
-
view
226 -
download
1
Transcript of Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore:...
Presentazione a cura del gruppo 7:Cristian Caruso
Matteo Degli EspostiClaudia Fontan
Relatore: Claudia Fontan
Link Spam Alliances
Sistemi Informativi LSa.a. 2005-06
di Zoltàn GyöngyiHector Garcia-Molina
Stanford UniversityComputer Science Department
Link Spam Alliances - gruppo 7 2
Outline
Introduzione al web spam Formulazione del PageRank Studio delle Spam Farm:
Analisi di una singola Farm Alleanze tra due Farm Caso multi-Farm
Spam detection
“Conosci il tuo nemico; Conoscilo e l’avrai per metà vinto.”
(Confucio)
Link Spam Alliances - gruppo 7 3
Spam: perché? L’uso di motori di ricerca per rintracciare indirizzi Internet
è sempre più diffuso [FMN]
Assicurarsi un ranking alto coincide con l’aumentare le proprie entrate Nel periodo aprile-giugno 2005 negli USA le vendite tramite
eCommerce hanno rappresentato il 2.2% del totale (941.282 milioni di dollari) [USC]
…e se non si è ai primi postisi cerca di “plasmare” i risultati…
Link Spam Alliances - gruppo 7 4
Spam: definizione
Lo spamming è dannoso [NAJ]
Per gli utenti Rende più difficile trovare le informazioni desiderate Scoraggia l’utente
Per i motori di ricerca Spreca la banda del crawler Inquina la rete con pagine di spam Distorce il ranking reale dei risultati
Spamming: ingannare i motori di ricerca per ottenere un ranking più elevato di quanto ci si meriti in realtà
Link Spam Alliances - gruppo 7 5
Link SpamLink Spam: si costruiscono strutture di pagine interconnesse
per aumentare il PageRank di uno o più target
Link Spam Alliances - gruppo 7 6
cT’p (1 – c)p =
N+ 1N
Una pagina è importante se è puntata da tante altre pagine importanti
Essendo basato sulla struttura dei collegamenti, l’algoritmo del PageRank può essere vulnerabile al Link Spamming
PageRank
PageRank dipi che punta a p0
link uscenti da pi
random jump
PageRank della pagina p0:
dampingfactorGeneralizzando:
matrice ditransizione
p0 = cΣipi/|F(i)| + (1-c)
Link Spam Alliances - gruppo 7 7
Spam Farm: pagine
??
λ1
λ2
λk
λ0
pk
p2
p1
p0
Target page Ogni Farm ne ha una sola L’obiettivo dello spammer è
aumentare il suo ranking Boosting pages
Sono controllate dallo spammer Puntano al target per aumentare
il suo PageRank
Link Spam Alliances - gruppo 7 8
λ0
Spam Farm: link esterni
??
λ1
λ2
λkpk
p2
p1
p0
Leakage PageRank aggiunto al target da pagine
al di fuori della Farm (forum, blog, …) Lo spammer non ne ha il controllo λ = λ0 + … + λk
Link Spam Alliances - gruppo 7 9
Optimal Farm
pk
p2
p1
p0
λ
qk
q2
q1
q0
λ
Ottimale Il target punta alle boosting
pages
q0 = p0 / (1 – c2)
Intuitivo Ogni boosting page punta
unicamente al target
qk
q2
q1
q0
λ
(1 – c)(ck + 1)p0 =
cλN+
Intuitivamente:target e boosting pages
si rinforzanoa vicenda
Link Spam Alliances - gruppo 7 10
Alleanze tra due Farm Intuitivo
Ogni boosting page punta
ad entrambi i target
pkp2p1
p0
qmq2q1
q0
Economico Si interconnettono
unicamente i target
pkp2p1
p0
qmq2q1
q0
Redistribuzione del PageRank
conveniente per la Farm più piccola
q0 = p0 = d(k + m)/2
(k + m) nuovi link solo 2 nuovi link
[d = c/N(1 + c)]
Link Spam Alliances - gruppo 7 11
Incremento del PageRank
conveniente per entrambe le Farm
Alleanze tra due Farm Ottimo
Ogni target punta all’altro target I target non hanno link alle boosting pages
qm
q2
q1q0
pk
p2
p1p0
ck + c2mp0 = (1 + c)N
1N+
Intuitivamente:questo modello risulta vincente
perché concentra tutto il PageRanksui target minimizzando quello
delle boosting pages
Link Spam Alliances - gruppo 7 12
Web ring
Complete core
Alleanze multi-Farm
qm
q2
q1q0
pk
p2
p1p0
rnr2r1
r0
core
Due strutture fondamentali:
Link Spam Alliances - gruppo 7 13
Web ring Modalità di connessione più semplice ed intuitiva
qm
q2
q1q0
pk
p2
p1p0
rnr2r1
r0
ck + c2m + c3np0 = (1 + c + c2)N
1N+
la distanza influenza il contributo di ogni Farm al PageRank delle altre
Link Spam Alliances - gruppo 7 14
Complete core Il core è un sotto-grafo completamente connesso
qm
q2
q1q0
pk
p2
p1p0
rnr2r1
r0
2ck – c2k + c2m + c2np0 = (2 + c)N
1N+
il contributo di ogni Farm al PageRank delle altre è uniforme
Link Spam Alliances - gruppo 7 15
Riassumendo
0
1000
2000
3000
4000
5000
6000
1 2 3 4 5 6 7 8 9 10
Farm Number
Sca
led
Targ
et P
age
Ran
k
Single Farm
Web Ring
Complete Core
Farm non connesse:il PageRank del target è lineare nella dimensione della Farm (numero di boosting pages)
Complete core:aumentano tutti i PageRank, soprattutto quelli dei target delle Farm di minori dimensioni
Web ring:Il PageRank del target della Farm 10 diminuisce rispetto al caso di non connessione
Link Spam Alliances - gruppo 7 16
0
20
40
60
80
100
120
140
160
180
200
1 2 3 4 5 6 7 8 9 10
Farm Number
Pag
e R
ank
Co
ntr
ibu
tio
n
Complete Core
Web Ring
Riassumendo
Complete core:si conserva la maggiorparte del PageRank, agli altri target viene dato un identico contributo molto minore
Web ring:i valori dei contributi sono vicini tra loro e diminuiscono all’aumentare della distanza
Contributo della Farm 1 agli altri target
Link Spam Alliances - gruppo 7 17
Entrare in un’alleanza Web ring
Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Web ring è necessario rispettare le seguenti condizioni:
PR(alleanza p, q, r) > PR(alleanza p, q)
ck + c2m + c3n(1 + c + c2)N
ck + c2m(1 + c)N> n k + cm
(1 + c)>
Le dimensioni delle Farm già presenti determinano la dimensione minima che deve avere una Farm per essere accettata
La media pesata delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm
Es: k = 20; m = 10: Con FL a q n = 16
Il punto di inserimento della Farm entrante ne influenza la dimensione minima
Link Spam Alliances - gruppo 7 18
Entrare in un’alleanza Complete core
Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Complete core è necessario rispettare le seguenti condizioni:
PR(alleanza p, q, r) > PR(alleanza p, q)
La media aritmetica delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm
Es: k = 20; m = 10 n = 16 per m; n = 15 per k media aritmetica = 15 La terza Farm deve avere almeno 16 boosting pages
n arithmeticmean>
La dimensione minima che deve avere una Farm per essere accettata è determinata considerando la Farm più piccola già presente nell’alleanza:
n k + m – (1 – c)min{k, m}(1 + c)>
Link Spam Alliances - gruppo 7 19
Lasciare un’alleanza Prima abbiamo osservato che:
Intuizione: la Farm 10 contribuisce troppo al PageRank dei suoi alleati e riceve troppo poco in cambio
PR(10, non connessa) > PR(10, ring)
Nell’alleanza tra 10 Farm, risulta che il limite per la Farm 10 è 9091 avendo 10000 boosting pages, le conviene uscire dall’alleanza
Web ring La Farm p0 decide di lasciare l’alleanza se:
PR(non connessa) > PR(ring)
>ck + c2m + c3n(1 + c + c2)N
1N+(1 + c)N
ck + 1
>c - m(1 - c2) - cn(1 - c2)
(1 - c)k
Link Spam Alliances - gruppo 7 20
Lasciare un’alleanza Complete core
La Farm p0 decide di lasciare l’alleanza se:
PR(non connessa) > PR(complete core)
>2 + c + (1 + c)(k + m + n)
7c2k
>(1 + c)Nck + 1 2ck – c2k + c2m + c2n
(2 + c)N1N+
Nell’alleanza tra 10 Farm, risulta che nessuna raggiunge la dimensione limite a tutte conviene restare nell’alleanza
Contributi distribuiti in modo più uniforme rispetto al Web ring Piccole differenze tra i limiti di dimensione per le diverse Farm
Link Spam Alliances - gruppo 7 21
Spam detectionIdea di base: identificare strutture come quelle descritte in
precedenza
Obiettivo: determinate potenziali candidati per il link spamming
Zipfian distribution
Amplification factor
Spam mass
Link Spam Alliances - gruppo 7 22
Zipfian distribution
pk
p2
p1
p0
λ
Fetterly et al., 2004 Le Farm sono spesso generate automaticamente ed hanno
strutture molto regolari Si analizzano i gradi di entrata ed uscita delle pagine Molte pagine seguono la distribuzione di Zipfian
Agglomerati di pagine i cui gradi di ingresso ed uscita seguono questa distribuzione in modo esatto risultano spesso essere parte di una Farm
ZD(p) = |F(1)| = |F(2)| = … = |F(k)|
ZD(p) = |B(1)| = |B(2)| = … = |B(k)|
Link Spam Alliances - gruppo 7 23
colludingpages
Amplification factor Amp(H): in un gruppo di H pagine, è il rapporto tra il PageRank delle pagine nel gruppo ed il contributo di quelle esterne
Se Amp(H) è dell’ordine di 1/(1–c), le pagine del gruppo possono essere target di Farm connesse in un’alleanza
p0 + q0 = O1
1 - cΣi pi + Σj qj
Amplification factor Zhang et al., 2004
Una caratteristica comune delle Farm è la capacità dei target di catturare il PageRank proveniente dalle boosting pages
I target amplificano il contributo delle boosting pages
pk
p2
p1 p0
qm
q2
q1q0
Link Spam Alliances - gruppo 7 24
1-c
1-c
1-c
Relative spam mass Mass(i): relativo alla pagina i, è il rapporto tra PageRank totale e PageRank con apporto del random jump posto a 0:
Spam mass Zyöngyi et Garcia-Molina, 2005
I target aumentano il proprio PageRank soprattutto grazie alle boosting pages
Il PageRank delle boosting pages è dovuto al random jump
pk
p2
p1
p0
λ
pk
p2
p1
p’0
λ0
0
0
Per pagine che non hanno grandi benefici da boosting pages, Mass(i) tende a 0
Se Mass(i) è elevato, la pagina i è probabilmente un target all’interno di una Farm
p0 – p’0
p0
p0 = PageRank totalep’0 = PageRank parziale
Link Spam Alliances - gruppo 7 25
Conclusioni Le tecniche di Spam Detection presentate sono ancora
sperimentali Riescono spesso ad identificare solo il core di un’alleanza Possono risultare utili, ma presentano ancora problemi
La tecnica riguardante la distribuzione di Zipfian non identifica strutture non regolari
La tecnica dell’Amplification factor identifica come alleanze di Farm anche gruppi di pagine che non lo sono
La tecnica basata sulla Spam Mass non identifica target che aumentano il proprio PageRank soprattutto grazie al leakage
Il primo passo per combattere realmente il Link Spam è conoscere a fondo le strutture proprie di questa tecnica
Il percorso che porta ad individuare tecniche realmente efficaci per combattere il Link Spamming è comunque ancora molto lungo…
Link Spam Alliances - gruppo 7 26
Riferimenti[FMN] “Spam, Damn Spam, and Statistics”, Dennis Fetterly, Mark
Manasse, Mark Najork, 2004.research.microsoft.com/research/sv/PageTurner/webdb2004.pdf
[GGM] “Link spam alliances” Technical Report, Stanford University, 2005.infolab.stanford.edu/~zoltan/publications.html
[NAJ] “Heuristics for Detecting Spam Web Pages”, Mark Najork – Microsoft Research, Silicon Valley, 2005. www.cise.ufl.edu/~adobra/DaMn/talks/2005-10-26-Bertinoro.ppt
[USC] U.S. Census Bureau, E-Statswww.census.gov/eos/www/ebusiness614.htm
Link Spam Alliances - gruppo 7 27
Demo
…and now…WE WANT YOU
see our