Redes sociales
-
Upload
fernando-tricas -
Category
Science
-
view
1.374 -
download
0
Transcript of Redes sociales
MÓDULO 1.
Asignatura 3. Asignatura Técnicas de análisis de datos y explotación de datos
MASTER IN BIG DATA & BUSINESS INTELLIGENCE
TEMA. Análisis de Redes Sociales (Fernando Tricas García. Universidad de Zaragoza)
Analisis de redes sociales y analıtica web.
Fernando Tricas Garcıa
Departamento de Informatica e Ingenierıa de SistemasUniversidad de Zaragoza
http://webdiis.unizar.es/~ftricas/
http://campusvirtual.nextibs.com/
Analisis de Redes Sociales
Fernando Tricas Garcıa
Departamento de Informatica e Ingenierıa de SistemasUniversidad de Zaragoza
http://webdiis.unizar.es/~ftricas/
http://campusvirtual.nextibs.com/
Un ındice
I Redes sociales
I Comunidades
I Algunos ejemplos
I Procesos
I Resistencia y robustez
Grafos
Grafos
Entonces, ¿de que estamos hablando?
I Relaciones
I Consecuencias de estas relaciones
I Medidas
I ¿Que podemos aprender?
Grafos
Los arcos pueden tener direccion (una flecha →)
Grafos
0 1 0 1 1 1 11 0 0 1 0 0 01 0 0 1 1 0 10 1 0 1 1 0 00 0 1 1 1 0 01 0 0 1 0 0 10 0 0 1 0 0 0
Grafos
0 1 0 1 1 1 11 0 0 1 0 0 01 0 0 1 1 0 10 1 0 1 1 0 00 0 1 1 1 0 01 0 0 1 0 0 10 0 0 1 0 0 0
Con mas informacion
0 7 0 2 1 1 21 0 0 3 0 0 01 0 0 1 3 0 10 1 0 1 1 0 00 0 1 3 1 0 05 0 0 1 0 0 40 0 0 2 0 0 0
Con mas informacion
0 7 0 2 1 1 21 0 0 3 0 0 01 0 0 1 3 0 10 1 0 1 1 0 00 0 1 3 1 0 05 0 0 1 0 0 40 0 0 2 0 0 0
Algunas definiciones
I Grafo simple1. Como mucho un arco para cada par de nodos.2. No arcos de un vertice a sı mismo.
I Vertices adyacentes si estan unidos por un arco.
I Grado de un vertice Numero de arcos incidentes.
Tipos de grafos con ‘nombre’
I Grafos Eulerianos Se pueden dibujar sin levantar el lapiz delpapel y sin pasar dos veces por el mismo vertice.
I Grafos Hamiltonianos Se pueden dibujar sin levantar el lapizdel papel y sin pasar dos veces por el mismo arco.
Redes Sociales
I Investigar estructuras sociales mediante la teorıa de redes y degrafos.
I Estructuras en red caracterizadas mediante nodos (actores,personas, cosas,...) y arcos (relaciones o interacciones).
Ejemplos
Redes sociales en internet, amistad y/o relaciones, parentesco,propagacion de enfermedades, relaciones sexuales...
With a little help of my friends
http://www.flickr.com/photos/pietermorlion/2127296477/
http://www.flickr.com/photos/anaypacosancho/2357581936/
Relaciones en el ‘mundo real’. Con tecnologıa
http://arxiv.org/abs/physics/0610104
Structure and tie strengths in mobile communicationnetworks. Authors: J.-P. Onnela, J. Saramaki, J.Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz, A.-L.Barabasi
http://www.dailymotion.com/video/xm6vlq_
france-region-mobile_tech
http://www.paristechreview.com/2011/11/15/
voice-border-cellphones-redraw-maps/
¿Es Facebook el mundo real?
http://www.facebook.com/notes/facebook-engineering/
visualizing-friendships/469716398919
Blogs
2003. F. Tricas, JJ. Merelo, V.R. Ruız, “Do we live in a SmallWorld? Measuring the Spanish-speaking blogosphere”
Una red socialEn Twitter
Relaciones
http://www.journals.uchicago.edu/doi/abs/10.1086/386272
Peter S. Bearman, James Moody, Katherine Stovel,
“Chains of Affection: The Structure of Adolescent Romantic and Sexual Networks”
¿Como estudiarlas?
Modelos
Pero . . . ¿como se generan las redes?Modelos
I ‘Se pintan unos cuantos nodos, se anaden enlaces entre ellos y. . . ’(redes aleatorias)
1. Cada nodo puede enlazarse con cualquier otro con la mismaprobabilidad(el mundo no es ası casi nunca)
2. Enlazado preferencial (los ricos seran mas ricos)
Modelo Erdos-RenyI Todos los grafos con n vertices y M ejes tienen la misma
probabilidad G (n,M)I Cada arco se incluye con una cierta probabilidad G (n, p)
p=0.01Imagen: Wikipedia.
https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/Erdos_generated_network-p0.01.jpg/
800px-Erdos_generated_network-p0.01.jpg
Modelo Erdos-RenyI Suele haber una componente grande que agrupa a la mayorıa
(cuando se alcanza un numero suficiente de enlaces)I Diametro pequeno (logN)
I Diametro: maxima distancia entre pares de nodos.I Relaciones adecuadas entre n y p definen ciertas propiedades
estructurales (existencia o no de componentes conexas,componentes especiales, fenomenos de aislamiento, conexion,...)
I Fenomenos de percolacion (componentes pequenos se vansumando a la mayor, como en el paso lento de fluidos a travesde materiales porosos).
I No muy adecuado para representar fenomenos sociales
Demohttps://www.cs.purdue.edu/homes/dgleich/demos/erdos_renyi/
Modelo Watts-StrogatzI Algunos lazos lejanos (Watts, Strogatz)
I Normalmente nos relacionamos con nuestros vecinos proximos(alto acoplamiento).
I Ademas, tenemos unos pocos lazos ‘lejanos’, que hacen reducirmucho el diametro de la red total.
Modelo Watts-StrogatzI Algunos lazos lejanos (Watts, Strogatz)
I Normalmente nos relacionamos con nuestros vecinos proximos(alto acoplamiento).
I Ademas, tenemos unos pocos lazos ‘lejanos’, que hacen reducirmucho el diametro de la red total.
Modelo Watts-Strogatz. Propiedades
Siempre que no haya demasiados arcos..
I Agrupamiento alto (disminuira despacio)
I El camino mas corto es, en media, pequeno (disminuirarapido)
Agrupamiento
Numero de arcos / Numero de posibles arcos
http://www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html
Modelo Barabasi-Albert
I Enlazado preferencial:I Se empieza con un conjunto de nodos conectados
aleatoriamenteI Los nuevos nodos se anaden de uno en uno. Cada nodo se
conecta a cierto numero de nodos con una probabilidadproporcional (preferencia) al numero de enlaces.
https://commons.wikimedia.org/wiki/File:Barabasi_Albert_model.gif
Palabras clave: notoriedad, antiguedad, ...
Modelo Barabasi-AlbertAlgunos defectos
I ‘Rich get Richer’I ¿Sin lımite?I ¿Siempre igual a lo largo del tiempo?
Modelo Barabasi-AlbertPropiedades
I Distribucion de gradosLibre de escala. Sigue la distribucion P(k) = k−α
Distribucion de grados en internet
Bitacoras
Suscriptores Yahoo! Amigos enLiveJournal
Clay Shirky. ‘Power Laws, Weblogs, and Inequality’. 2003http://www.shirky.com/writings/herecomeseverybody/powerlaw_weblog.html
¿Como?
I Hay unos pocos que tienen mucho
I Pero, a veces, si se juntan los que tienen menos, tienen mas
Pero estamos acostumbrados a ver el mundo ası . . .
¿Como?
I Hay unos pocos que tienen mucho
I Pero, a veces, si se juntan los que tienen menos, tienen mas
Pero estamos acostumbrados a ver el mundo ası . . .
¿Que indica la media aquı?
F. Tricas, Juan J. Merelo-Guervos. ‘The Spanish-speaking Blogosphere: towards
the powerlaw?’. Web Based Communities 2004
La cola larga
Aviso . . .A veces, muchos pocos valen mas que pocos muchos.¿De que depende?
I Exponente de la ley de potencias: y = C · x−α
I α < 1→: los primeros nodos acumulan solo un porcentajepequeno del valor
I En los demas casos, la cola larga existe, pero no tiene ‘peso’
Mas propiedades. Lobby index
I l-index: ‘The l -index or lobby index of a node x is the largestinteger k such that x has at least k neighbors with a degree ofat least k .’P(l(x) ≥ k) = k−α(α+1))
I Centralidad (el dilema del diplomatico, alguien tienecapacidad de influencia si tiene ‘buenos’ contactos)
I Buenos contactos → bien conectados.
h–index. Recordatorio
I The original Hirsch index is based on a richer model: author – paper andpaper – citing paper links. Let x be a randomly chosen author of thescientific community under scrutiny and n = n(x) is the number ofhis/her papers (either in general or within a defined perio d). Let y idenote the individual papers (where i = 1 , ...n ,) and c(yi ) their citationscore (in decreasing order), so that c(y1) ≥ c(y2) ≥ ... ≥ c(yn).h(x) = max{k : c(yk) ≥ k} .
P(h(x) ≥ k) = k−α(β+1))
Mas propiedades
I Longitud media de los caminoslnN/lnlnNCrece ‘aproximadamente’ de manera logarıtmica.
I Asortatividad (preferencia de los nodos por unirse a otros degrado similar). Correlaciones entre nodos de grado similar.
I Coeficiente de agrupamiento (clustering) alto. Tendencia aagruparse los nodos con sus vecinos (mayor que en redesaleatorias).
I Normalmente, mas alto de lo que se podrıa esperar(empaquetamiento, comunidades, . . . )
Medidas interesantes
Hemos hablado de la distancia y de coeficiente de agrupamiento(‘clustering’)Tambien son interesantes:
I Centralidad (‘betweenness’, inevitabilidad)Es la proporcion de geodesicas (caminos mas cortos) quepasan por un nodo
I En personas, a veces se asocia con popularidadI En transportes, con flujo e inevitabilidad
I Centralizacion Diferencia de centralidad entre el punto mascentral y el resto (ratio of the actual sum of differences to themaximum possible sum of differences).
I Centralidad de vector propio (‘eigenvector centrality’) de lamatriz de incidencia del grafo, relacionado con el PageRank
Pero . . . ¿Que necesito?
I Estar cerca de la ‘mayorıa’ de la red
I Cercanıa (‘closeness centrality’), distancia media de un nodoa todos los demas de la red.
Hay otras . . .
I ‘Degree centrality’ (el que tiene mas cercanos)
Pero . . . ¿Que necesito?
I Estar cerca de la ‘mayorıa’ de la red
I Cercanıa (‘closeness centrality’), distancia media de un nodoa todos los demas de la red.
Hay otras . . .
I ‘Degree centrality’ (el que tiene mas cercanos)
Hay otras formas de verlo
En grafos dirigidos:
I Hubs, de los que salen muchas conexiones‘todo lo que debes conocer’
I Autoridades, que reciben muchas conexiones‘¿Donde va Vicente . . . ?’
Naturalmente, pueden coincidir, y entonces hablamos deconectores (influyentes, influenciadores, . . . )
EjemplosTransporte
EjemplosTransporte
Mas ejemplos
Las enfermedades
No todas las redes se distribuyen siguiendo leyes depotencia
I Comunicacion recıproca y frecuente
I Red electrica
I Directores de empresas
Deteccion de comunidades
I Si dos nodos interactuan, probablemente es porque tienenalgun tipo de relacion
I Las relaciones no siempre son transitivas, pero ayudan aentender mejor lo que vemos (modas, tendencias, estados deopinion, . . . ).
I Tambien nos pueden dar pistas de por donde ir.
¿Que es una comunidad?
I Solo los recursos tecnicos no hacen una comunidad.I Presencia.I Organizacion de actividades.I Organizacion de los contenidos que se produzcan.I Organizacion interna.I Flexibilidad.
En todo caso . . . ¿que es una comunidad?
I Comunidad de vecinos
I Comunidad de hispanohablantes
I Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
Y ademas. . .
En todo caso . . . ¿que es una comunidad?
I Comunidad de vecinos
I Comunidad de hispanohablantes
I Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
Y ademas. . .
En todo caso . . . ¿que es una comunidad?
I Comunidad de vecinos
I Comunidad de hispanohablantes
I Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
Y ademas. . .
En todo caso . . . ¿que es una comunidad?
I Comunidad de vecinos
I Comunidad de hispanohablantes
I Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
Y ademas. . .
Comunidades. Algunas formas de verlo
I Relaciones mutuas (todos se conocen)
I Abundancia de relaciones (al menos hay relacion con un ciertonumero de miembros)
I Cercanıa o alcanzabilidad de un subgrupo (distancia de comomucho ...)
I Abundancia relativa de relaciones
I Redes de afiliacion (relacionados porque pertenecen a...)
Relaciones mutuas. Cliques
I cada miembro esta relacionado con todos los demasI Puede haber solapamiento
http://www.ladamic.com/netlearn/nw/Cliques.html
I No robustosI Poco interesantes
I ¿Todos conectados?I Centro–periferia
I Pueden ser mas interesantes los solapamientos que los cliquesen sı mismos
Relaciones mutuas. Cliques
I cada miembro esta relacionado con todos los demasI Puede haber solapamiento
http://www.ladamic.com/netlearn/nw/Cliques.html
I No robustosI Poco interesantes
I ¿Todos conectados?I Centro–periferia
I Pueden ser mas interesantes los solapamientos que los cliquesen sı mismos
Abundancia de relaciones. k-cores
I Cada nodo esta relacionado con al menos otros k
I Aun ası puede ser restrictivo
Cercanıa. n-cliques
I Maxima distancia entre nodos de nI Problemas
I Diametro mayor que nI el n-clique puede estar desconectado (enlaces externos)
I Remedio: n-club. subgrafo maximo de diametro n
Abundancia relativa. p-cliques
I Grupos donde al menos una proporcion p (0..1) de vecinosestan en el grupo.
Cohesion
I Componentes conexasI Mantener solo algunos enlaces antes de buscar componentes
conexasI Relaciones recıprocasI Peso de la relacion
Comunidades implıcitas
Principalmente basadas en enlaces
I Cliques grupos de nodos que se enlazan mas entre si que conel resto
I Comunidades de Newman–Girvan Definidas por lo que lassepara (nodos de centralidad alta).
I Co–citas Si tu citas a X y el cita a X, probablemente los dosquerais conoceros
Ejemplo. Comunidades de alimentos
Chun-Yuen Teng, Yu-Ru Lin, Lada A. Adamic.‘Recipe recommendation using ingredient networks’
Ejemplo. Comunidades de alimentos
I Dos comunidades grandes (dulce/salado)Y una tercera de combinados (mixed–drinks).
I Se pueden encontrar comunidades de ingredientes de‘sustitucion’
I Pueden predecir las calificaciones de las recetas
I Preferencias locales (en este caso de EEUU)
El experimento de Stanley Milgram
Podemos alcanzar a cualquier persona en el mundomediante contactos cercanos. En USA, en 1967, laseparacion era de seis.
El experimento de Milgram
Las cartasEnviadas por personas elegidas aleatoriamente, residentes enWichita y Omaha.La carta contenıa un resumen del estudio, una foto y el nombre yla direccion de la persona a la que iba destinada.
1. Anada su nombre a la lista de abajo
2. Separe una postal. Rellenela y enviela a la Universidad deHarvard
3. Si conoce a la persona (personalmente) envıele la postal.
4. Si no la conoce personalmente, envıesela a algun conocidopersonal suyo que ud. crea que puede hacer que le llegue.
Los resultados
Solo llegaron el 29 % de las cartas enviadas (42 de 169)
De las que llegaron: la mediana de personas intermedias era 5.5 (lamedia 6.5)
¿En internet?
En la web se hicieron estudios en el 1999, llegando a la conclusionde que entre cualquier par de documentos en la red habrıa undiametro de 18.59 (19 grados de separacion).
Albert, Barabasi.
Los resultados
Solo llegaron el 29 % de las cartas enviadas (42 de 169)
De las que llegaron: la mediana de personas intermedias era 5.5 (lamedia 6.5)
¿En internet?
En la web se hicieron estudios en el 1999, llegando a la conclusionde que entre cualquier par de documentos en la red habrıa undiametro de 18.59 (19 grados de separacion).
Albert, Barabasi.
Bastante popularidad
El numero de Bacon refleja distancia entreactores, basados en pelıculas en las que amboshan participado
Kevin Bacon Number # of People
0 11 19132 1628193 4601134 1104195 79946 7777 788 14
Mas estrellas que en el cielo
I Alfredo Landa, 3
I Antonio Banderas, 2
I Penelope Cruz, 2
1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran
2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin
3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon
En todo caso . . . (April 2015)
I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)
Mas estrellas que en el cielo
I Alfredo Landa, 3
I Antonio Banderas, 2
I Penelope Cruz, 2
1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran
2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin
3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon
En todo caso . . . (April 2015)
I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)
Mas estrellas que en el cielo
I Alfredo Landa, 3
I Antonio Banderas, 2
I Penelope Cruz, 2
1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran
2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin
3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon
En todo caso . . . (April 2015)
I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)
Mas estrellas que en el cielo
I Alfredo Landa, 3
I Antonio Banderas, 2
I Penelope Cruz, 2
1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran
2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin
3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon
En todo caso . . . (April 2015)
I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)
¿Que significan estas medidasen los tiempos de las redes
sociales?
El mundo es un panuelo (Small World)
I El experimento de MilgramI Estructura local
I Coeficiente de agrupamientoI Motifs (tamano k)
I ModelosI Watts-Strogatz (agrupamiento y caminos cortos)
http:
//www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html
I Kleinberg (basadas en proximidad geografica)I ...
Navegabilidad y encontrabilidad
Experimento Small World en Columbia.Cadenas exitosas utilizaban mucho mas:
I Lazos debiles (Granovetter)
I Relaciones profesionales (34 % vs 13 %)
I Relaciones originadas en el trabajo/estudios
I Trabajo del objetivo (65 % vs 40 %)
Y evitaban:
I Hubs (8 % vs 1 %)
I Familia/amistades (60 % vs 83 %)
Estrategia; geografıa → trabajo
Procesos en redes
I DifusionErdos-Renyi:http://www.ladamic.com/netlearn/NetLogo501/ERDiffusion.html
Watts-Strogatz:http://www.ladamic.com/netlearn/NetLogo4/
SmallWorldDiffusionSIS.html
Barabasi-Albert:http://www.ladamic.com/netlearn/NetLogo501/BADiffusion.html
Procesos en redes
I Contagio (umbrales?)Simple vs Complejo (difusion con umbrales, creacion degrupos resistentes, diferentes zonas tienen diferentesopininones)http://www.ladamic.com/netlearn/NetLogo4/
DiffusionCompetition.html
I Coordinacion
I Innovacion
I Resolucion de problemas
Resistencia y robustez
I Quitar nodos o arcos, ¿que sucede?
I Arcos no es un gran problemaI Nodos aleatorios, no es un problema (muchos humildes).I Puede ser un problema si quitamos nodos con alto grado
(eliminamos muchos arcos)
Ataques
I Problema cuando nos dirigimos a los hubs
I La asortatividad es importante (topologıa)
I ¿Que sucede con un nodo cuando falla? (red electrica vscriminales)
La vista es la que trabaja
I Existen programas para ayudarnos:
I Pajek (Windows) http://pajek.imfm.si/I Netdraw (Windows)
https://sites.google.com/site/netdrawsoftware/homeI Visone (Java) http://www.visone.info/I SocNetV (Linux) http://socnetv.sourceforge.net/
I Gephi http://gephi.github.io/
ReferencesI Laszlo Barabasi. ‘Linked’
http://barabasilab.com/LinkedBook/
I Lada Adamichttp://www.ladamic.com/