(Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

61
(Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco

Transcript of (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Page 1: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

(Laboratorio di )Sistemi Informatici Avanzati

Giuseppe Manco

Page 2: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

MODELLI MATEMATICI

Page 3: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Qual’è il modo più semplice di generare un grafo?

• Erdos-Renyi Random Graph model [Erdos-Renyi, ’60]

• Due varianti: • Gn,p

– Grafo con n nodi, in cui un arco (u,v) appare con probabilità p

• Gn,m

– Grafo con n nodi, con m archi scelti in maniera random uniforme

Page 4: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

p=1/6 N=12

Page 5: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

p=0.03 N=100

Page 6: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

N=10 p=1/6

Modello

Page 7: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Grafo random

• Probabilità di Gn,p:

– BERNOULLI• Che tipo di grafo produce un simile processo

Bernoulliano?

Page 8: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 9: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 10: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 11: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 12: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 13: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 14: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 15: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Distribuzione Binomiale/Poisson

• Probabilità che ci siano esattamente m archi

Page 16: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Dalla Binomiale a Poisson…

• Probabilità di avere m successi

• Valore medio

• Varianza

Page 17: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Dalla Binomiale a Poisson

• Probabilità di avere m successi

• Se M è grande…

Page 18: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Dalla Binomiale a Poisson

• Mettendo tutto assieme

• Mp è la media

• Distribuzione di Poisson

Page 19: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Grafo Random

• La degree distribution è binomiale (Poissoniana)

Page 20: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

All’ingrandirsi della rete, la distribuzione si restringe – si schiaccia sul valore di <k>.

K nodi dei possibili N-1

Probabilità di avere k archi

Probabilità che N-1-k archi siano assenti

Degree distribution

Page 21: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

P(k

)

k Network Science: Random Graphs 2012

Page 22: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Risultato esatto-binomial distribution-

N grande-Poisson distribution-

Pro

ba

bili

ty D

istr

ibu

tion

Fu

nct

ion

(P

DF

)

Page 23: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Nel continuo:

Una rete con grado medio <k> ha probabilità che un nodo ecceda k0:

Ad esempio, con <k>=10, •La probabilità che un nodo abbia grado almeno 20 è 0.00158826. •La probabilità che un nodo abbia grado almeno 100 è 1.79967152 × 10 -13

•La probabilità che un nodo abbia grado inferiore a un decimo è 0.00049• http://www.stud.feec.vutbr.cz/~xvapen02/vypocty/po.php

•La probabilità di vedere un nodo con degree molto alto o molto basso è esponenzialmente bassa•La maggior parte dei nodi ha grado comparabile•Quanto più la rete è ampia, tanto più i gradi sono comparabili

Del discreto:

I nodi hanno gradi comparabili nelle reti random

Page 24: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Random networks, social networks

• Sulla base di una ricerca sociologica, k ~1,000• La probabilità di trovare un individuo con k>

2,000 è 10-27

– Una società random consisterebbe essenzialmente di persone con lo stesso numero di amici

– No outliers

Page 25: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Evoluzione in un grafo random

Page 26: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

<k>

Nodi disconnessi NETWORK.

Come avviene la transizione?

Page 27: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Transizione di fase• Denotiamo con u=1-Ng/N, la frazione di nodi che non siano

parte di una componente gigante Ng

• Un nodo i fa parte della GC connettendosi ad un altro nodo j– La non appartenenza può avvenire per due motivi

• i non si connette a j (prob 1-p)• i è connesso a j, ma j non fa parte di GC (prob pu)

– In totale, la probabilità è 1-p +pu

• Poiché i può collegarsi a N-1 nodi,

• Size di GC

Page 28: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

evoluzione

• Sostituendo p=<k>/(N-1) e con manipolazioni algebriche otteniamo

• Esponenziando

• Denotando con S la frazione di nodi in GC (S=Ng/N)

Page 29: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

(a) (b)

Punto di transizione:Con S=0, otteniamo

<k>=1

Page 30: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

<k>

Siz

e di

GC

<k>= 0.99 <k>= 1.18 <k>= 3.96

• Quanti nodi devono essere aggiunti per vedere GC?

Quando <k>= 1, la componente compare

Conclusione

Page 31: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Coefficiente di clustering

• Poiché gli archi sono indipendenti e hanno probabilità p

• Il coefficiente di clustering è basso nei grafi random

Page 32: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Small world

• Topologia tree-like

– Neighbors al livello 1: <k>– Neighbors al livello 2: <k>2

– …– Neighbord al livello d: <k>d

Page 33: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

N L <k>

(Sorgente: : The structure and function of complex networks, M. E. J. Newman, SIAM Review 45, 167-256 (2003),

Page 34: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Riassumendo

• Il grafo random può essere esprime le seguenti caratteristiche– Path medio

– Clustering coefficient

– Degree distribution

• Come sono i grafi reali?

Page 35: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Predizione: Dati reali:

Path medio

Page 36: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Predizione: Dati reali:

Clustering coefficient

Page 37: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Predizione:

Dati reali:

(a) Internet;(b) Movie Actors;(c) Coauthorship, high energy physics;(d) Coauthorship, neuroscience

Degree distribution

Page 38: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Source: Watts, D.J., Strogatz, S.H.(1998) Collective dynamics of 'small-world' networks. Nature 393:440-442.

Watts-Strogatz model• Riconcilia due osservazioni

– High clustering• Gli amici dei miei amici sono miei amici

– Cammino geodesico medio corto

Page 39: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Watts-Strogatz model

• Base di partenza: il reticolo– Ogni coppia di vertici separata da un cammino di

dimensione al più k

Page 40: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Selezioniamo una frazione p di archi dal reticolo e Riposizioniamo i vertici

Aggiungiamo I vertici in Maniera random

Watts-Strogatz model

Source: Watts, D.J., Strogatz, S.H.(1998) Collective dynamics of 'small-world' networks. Nature 393:440-442.

Page 41: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Watts-Strogatz model

• p=0– Reticolo

• p=1– Grafo random

• 0.001 < p< 0.01– Transitività alta– Cammino medio corto

Page 42: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.
Page 43: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Kleinberg, ‘Navigation in a small World, Nature, 2000

Geographic Models• I nodi sono posizionati in un reticolo e

connessi ai suoi vicini più vicini• Connessioni aggiuntive in accordo alla legge

Page 44: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

• Con r=0, i links sono distribuiti in maniera random

• Con r<2, il cammino medio è ~N(2-r)/3

0~p p

Page 45: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Con r>2 il cammino medio è ~ N(r-2)/(r-1)

4

1~p

d

Page 46: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Con r=2, il cammino è ~ (log N)2

2

1~p

d

Page 47: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Degree-distribution

• Niente power-law

Page 48: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Le reti reali

Page 49: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Le reti reali

Page 50: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Random vs Scale-free

Power-law distributionBinomial distribution

Page 51: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Preferential attachment

• Introdotto in [Price 65] per le reti di citazioni– Ogni nuovo articolo è generato con m citazioni in media– I nuovi articoli citano I vecchi con probabilità proporzionale al loro in-

degree (numero di citazioni che già hanno)• Ogni articolo ha un numero “default” di citazioni• La probabilità di citare un articolo con grado k è proporzionale a k+1• “I ricchi diventano sempre più ricchi”

• Power law con esponente α = 2+1/m– Probabilità di collegarsi al nodo i-esimo

Page 52: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Barabasi-Albert model• Modello semplice

– Si considera un insieme iniziale di m0 nodi connessi• Es. m0 = 3

– Aggiungi i nodi uno alla volta, con m archi ognuno– Ogni nuovo arco si connette ad un nodo esistente in

proporzione al unmero di archi che quel nodo ha già• preferential attachment

1 2

3

1 1 2 2 2 3 3 4 5 6 6 7 8 ….

Source: Barabási & Albert, Science 286, 509 (1999)

Page 53: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Barabasi-Albert model• Ogni nodo ha lo stesso

numero di archi(2)– Probabilità 1/3

• Un nuovo nodo con m=2– Peschiamo random due nodi,

es. 2 e 3

• Probabilità di selezione per 1,2,3,e 4 diventano1/5, 3/10, 3/10, 1/5

• Aggiungi un nuovo nodo, connettilo in maniera analoga

– etc.

1 2

3

1 1 2 2 3 3

1 2

3

1 1 2 2 2 3 3 3 4 4

4

1 2

3 4

1 1 2 2 2 3 3 3 3 4 4 4 5 5

5

Page 54: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Proprietà

• La distribuzione è power law con esponente α = 3

• Il grafo è connesso– Ogni nodo nasce con un link (m= 1) o con molti link (m > 1)– Si connette ai vertici più vecchi, che sono parte della

componente gigante

• I vecchi sono più ricchi– I nodi accumulano links

Page 55: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Cammino Medio nei modelli PA

• Nei primi due casi, ci sono grandi hubs per cui ogni nodo è connesso a tutti gli altri tramite questi hub con un cammino lungo circa due

• Negli ultimi due casi il cammino medio ha valori simili a quelli di un grafo random• Riferimenti

– Cohen, Havlin Phys. Rev. Lett. 90, 58701(2003); Cohen, Havlin and ben-Avraham, in Handbook of Graphs and Networks, Eds. Bornholdt and Shuster (Willy-VCH, NY, 2002) Chap. 4; Confirmed also by: Dorogovtsev et al (2002), Chung and Lu (2002); (Bollobas, Riordan, 2002; Bollobas, 1985; Newman, 2001

Page 56: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Andamento simile al grafo random

BA Model e Clustering Coefficient

Page 57: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Preferential attachment nel mondo reale

• 4 reti sociali osservate in un arco temporale

Rete Tempo N L

Flickr (F) 621 584,207 3,554,130

Delicious (D) 292 203,234 430,707

Answers (A) 121 598,314 1,834,217

LinkedIn (L) 1294 7,550,955 30,682,028

Page 58: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Preferential networks

Rete τ

Flickr (F) 1

Delicious (D) 1

Answers (A) 0.9

LinkedIn (L) 0.6

PA 1

Gn,p 0

Page 59: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Conseguenze: resilience

• Le reti reali sono resistenti ad attacchi random– Andrebbero rimosse tutte le pagine di grado > 5 per disconnettere il

web– Una piccola percentuale

• Le reti random resistono meglio ad attacchi mirati

Page 60: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

Conseguenze: Web Search

• Poiché il Web è scale-free (e non random) gli outliers (pagine ad alto grado) sono comuni – Il ranking basato sulla struttura funziona bene:

• PageRank• Hubs, Authorities

Page 61: (Laboratorio di ) Sistemi Informatici Avanzati Giuseppe Manco.

SommarioModello <l> C P(k)

Random

Watts-Strogatz

BA

N

Nl

lnln

ln

klog

Nloglrand

klog

Nloglrand

N

kpCrand

Exponential