Charla Mineria Web Vej
-
Upload
andy-guaygua -
Category
Documents
-
view
227 -
download
0
Transcript of Charla Mineria Web Vej
-
7/26/2019 Charla Mineria Web Vej
1/56
Minera Web de Uso y Perfiles de Usuario:Aplicaciones con Lgica Difusa
Vctor Heughes scobar !eria
"ranada# $%%&
Directoras:Dra' Mara !os( Martn )autistaDra' Mara A*paro Vila Miranda
Departamento de Ciencias de la Computacin e Inteligencia Artificial.Universidad de Granada.
Tesis Doctoral
-
7/26/2019 Charla Mineria Web Vej
2/56
2
La Minera We se define como !el proceso gloal de descuririnformacin o conocimiento potencialmente "til # previamentedesconocido a partir de los datos de la $e% &'t(ioni) *++,-.
+or*a inter*edia
,(cnicas de *inera de datosadecuadas para el an-lisis
de la infor*acin .ue seencuentra en la /eb
Moti0acin
-
7/26/2019 Charla Mineria Web Vej
3/56
3
Minera Web
Minera Web deUso
Minera Web destructura
Minera Web de1ontenido
Documentos We'nlaces entre e intraDocumentos Arcivos Log
Moti0acin
-
7/26/2019 Charla Mineria Web Vej
4/56
4
21*o es el co*porta*iento de na0egacin del usuario enla /eb3
21*o pode*os identificar a los usuarios .ue na0egan por
la /eb si no se registran3
21*o pode*os ofrecer una infor*acin *-s adecuada alusuario durante su na0egacin3'''
Minera de Datos
Lgica Difusa
Moti0acin
-
7/26/2019 Charla Mineria Web Vej
5/56
5
La otencin de patrones de navegacin) a trav/s de la t/cnica
de reglas de asociacin difusas.
0eali(ar un an1lisis demogr1fico) utili(ando la t/cnica delclustering difuso para la agrupacin # caracteri(acin de sesionesde usuarios.
Construccin de perfiles de usuario) a trav/s de un modelogeneral de otencin # representacin de los mismos en 2ML.
La aplicacin de la lgica difusa en la *inera /eb deLa aplicacin de la lgica difusa en la *inera /eb deuso'uso'
4b5eti0os
-
7/26/2019 Charla Mineria Web Vej
6/56
6
Minera We de Uso. 3Captulo 45 6 Modelo de datos.
An1lisis de patrones de navegacin. 3Captulo 75 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de
navegacin9 caso real 3'.T.:.I.I.T.5.
An1lisis demogr1fico. 3Captulo ;56 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real 3'.T.:.I.I.T.5.
-
7/26/2019 Charla Mineria Web Vej
7/56
7
Minera We de Uso. 3Captulo 45 6 Modelo de datos.
An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de
patrones de navegacin9 caso real.
An1lisis demogr1fico.6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.
-
7/26/2019 Charla Mineria Web Vej
8/56
8
Coleccin deDatos de Uso
Preprocesamientode Datos de Uso
Descubrimiento dePatrones de Uso
Interpretacin delos resultados
6 7er0idor Web
6 7er0idor Pro8y6 M-.uina delUsuario
6 Heterogeneidad y 1arenciade structura
6 +or*a 9nter*edia
,(cnicas de Minera:
6 1lustering
6 eglas de Asociacin6 9nterpretar patrones
6 1onstruir perfiles
Minera Web de Uso ; tapas Minera Web de Uso tapas 3Captulo 45
-
7/26/2019 Charla Mineria Web Vej
9/56
9
-
7/26/2019 Charla Mineria Web Vej
10/56
10
Arcivo '@tended Common Log ?ile ?ormat 3'CL??5
ost oI
9P$ > K K
9P= , K J K
9PJ K 4 K *K
Proble*a $:Proble*a $: prolema de navegacin entre p1ginas.
Fte*s: p1ginas visitadas # p1ginas referenciadas.
,ransacciones:: talas transaccionales difusa para la otencin de
las reglas) para los tems p1ginas visitadas # p1ginas referenciadas9
9PGPag' PagB Pag$ Pag= PagJ
9PB K K.7 K K.>
9P$ K.> K K. K
9P= K., K K.J K
9PJ K K.4 K *
8tencin de los pesos
+recuencia peso
Patrones de na0egacinModelo asociado a la na0egacin entrep-ginas 6P-gina 0isitada ; P-ginareferenciada 3Captulo 75
-
7/26/2019 Charla Mineria Web Vej
20/56
20
p-gina 0isitada p-gina referenciada
BdtBPcH**,>K O ttp9BB$$$.sopJ.c(
6 :oporte H7KS confian(a H*.K ?C H*.K
9nterpretacin:esto indica Fue los usuarios vistan a la p1gina BdtBP
cH**,>K # luego se van a la p1gina ttp9BB$$$.sopJ.c() esta reglase encuentra en un 7KS dentro del con=unto anali(ado.
Patrones de na0egacin5e*plo de regla de asociacin difusa ;P-gina 0isitada ; P-gina referenciada
-
7/26/2019 Charla Mineria Web Vej
21/56
21
4btencin de las creencias del usuario4btencin de las creencias del usuario
1reencia del Usuario:
*. ?oro OasignaturasJ. Taln de anuncios Oactividades
4. 'ventos O p1gina principal
7.
-
7/26/2019 Charla Mineria Web Vej
22/56
22
1on5untos de datos:1on5untos de datos:
Patrones de na0egacin Medidas de calidad 3cont.5
1on5untosde datos
ntrada dedatos
originales
ntrada de datospreprocesadas
Preprocesa*iento
Con=unto * *KK+KK *KK*K 'liminacin entradas id/nticas
Con=unto J *KK*K 7,+;K 'liminacin entradas sin el campo dereferencia
Con=unto 4 7,+;K *,;* 'liminacin de im1genes
Con=unto 7 *,;* *J+*K 'liminacin =avascript
Con=unto ; +JKJ *;,>,
-
7/26/2019 Charla Mineria Web Vej
23/56
23
IN egla 7up 1on +1 Lif P67 1f U1. U1d bs
egla B K.K;J K.7> K.4+ ,.+ K.K7 K.K *.K K.K K.K
egla $ K.K>, K.;K K.4J J.+ K.K; K.K *.K K.K K.K
egla = K.KJ K.; K.4 ,.4; K.KJ K.K K.K K.K *.K
egla J K.K* K.4 K.K ,.*> K.K* K.K K.K K.K *.K
egla K.K4 K.,; K.,; 7. K.KJ K.K K.K K.K *.K
eglas obtenidaseglas obtenidasdel con5unto :del con5unto :
Discusin de los resultados:Discusin de los resultados: el usuario navega aitualmente por
las diferentes secciones del foro.
IN egla eglas 4btenidas
egla B G'TBappsBtalonB O ttp9BBetsiit.ugr.es
egla $ G'[email protected] O ttp9BBetsiit.ugr.es
egla = G'[email protected] O [email protected]
egla J G'[email protected] O [email protected]
egla G'[email protected] O [email protected]
Patrones de na0egacin esultados 3Captulo 75
+oro
-
7/26/2019 Charla Mineria Web Vej
24/56
24
Minera We de Uso 6 Modelo de datos.
An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de
navegacin9 caso real.
An1lisis demogr1fico. 3Captulo ;56 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real 3'.T.:.I.I.T.5.
-
7/26/2019 Charla Mineria Web Vej
25/56
25
1lustering deP-ginas Web
1lustering Difuso de7esiones de
usuario
4b5eti0o'4b5eti0o'Caracteri(ar distintos tipos de usuarios a trav/s de9
6an1lisis de los grupos de p1ginas por los Fue navegan enfuncin de su direccin.6an1lisis de los grupos de sesiones en funcin de las
p1ginas visitadas.Metodologa'Metodologa'
An-lisis de*ogr-fico
-
7/26/2019 Charla Mineria Web Vej
26/56
26
Definicin cl-sicaDefinicin cl-sica
Dado un con=unto 2 H @*)@J)V)@n Fueremos otener una particin
-
7/26/2019 Charla Mineria Web Vej
27/56
27
Le0enshtein'Le0enshtein'
==
= =
=N
j
lj
N
i
ki
N
i
N
j
lj
ki
kl
SS
SS
S
11
1 1
,1
1oseno'1oseno'
An-lisis de*ogr-fico Medidas utili@adas 3Captulo ;5
)},()},...,(),,...,((
casootroen,1),...,(),,...,((
,1),...,(),,...,((min{
0p
0q
)),...,(),,...,((
1111
111
11111
+
+
+
=
=
=
qpqp
qp
qpp
yxzyyxxL
yyxxL
yyxxL
q
p
yyxxL
-
7/26/2019 Charla Mineria Web Vej
28/56
28
1oseno e8tendido'1oseno e8tendido'
( )( )
=
=
==
= =
1max,1maxmin),(
),(
11
1 1
,2
ji
ji
N
j
lj
N
i
ki
N
i
N
j
lj
ki
kl
pp
ppjiSn
SS
jiSnSS
S
An-lisis de*ogr-fico Medidas utili@adas 3cont.5
-
7/26/2019 Charla Mineria Web Vej
29/56
29
Definicin cl-sicaDefinicin cl-sica
Dado un con=unto 2 H @*)@J)V)@n Fueremos otener una particin
-
7/26/2019 Charla Mineria Web Vej
30/56
30
,(cnica utili@ada,(cnica utili@ada:Clustering =er1rFuico 3:
-
7/26/2019 Charla Mineria Web Vej
31/56
31
Datos 9niciales
1lustering!er-r.uico
1lustering
Validacin deesultados
P-ginas Web 7esiones deUsuario
16*edias difuso16*edias
An-lisis de*ogr-fico
-
7/26/2019 Charla Mineria Web Vej
32/56
32
N
u
CP
c
i
N
k
ik = == 1 1
2
1oeficiente de particin'1oeficiente de particin'
1oeficiente de ntropa'1oeficiente de ntropa'
( )
=
= =
c
i
N
k
ikaik uuN
CE1 1
log1
An-lisis de*ogr-fico Validacin del clustering
-
7/26/2019 Charla Mineria Web Vej
33/56
33
An-lisis de*ogr-fico
Datos 9niciales
1lustering!er-r.uico
1lustering
Validacin deesultados
P-ginas Web7esiones de
Usuario
16*edias difuso16*edias
-
7/26/2019 Charla Mineria Web Vej
34/56
34
mjmippisimP j = 1,1)],,([
Modelo de datos asociado'Modelo de datos asociado'
},...,,{ 21 mpppP=Un Con=unto de p1ginas definida como9
Las p1ginas $e puede ser vista conceptualmente como una matri(
p1gina6p1gina mxm9
4b5eti0o'4b5eti0o'
8tener grupos de p1ginas $e m1s similares para saer cuales sonlas m1s representativas de la navegacin del usuario.
An-lisis de*ogr-fico 1lustering de p-ginas si*ilares 3Captulo ;5
-
7/26/2019 Charla Mineria Web Vej
35/56
35
1on5untos de datos:1on5untos de datos:
An-lisis de*ogr-fico
Medida: Levenstein
,(cnica: clustering con el algoritmo c6medias
IO*ero de particiones iniciales:*J 3otenidos con el an1lisis declustering =er1rFuico previamente5.
esultados del clustering de p-ginassi*ilares
1on5untosde datos
ntrada dedatos
originales
ntrada dedatos
preprocesadas
Preprocesa*iento
Con=unto * *KK+KK *KK*K 'liminacin entradas id/nticas
Con=unto J *,;* *J+*K ,
-
7/26/2019 Charla Mineria Web Vej
36/56
36
1luster 1entroideE
Cluster 0 [GET/apps/foro/index.php]
Cluster 1 [GET/apps/tablon]
Cluster 2 [GET/usuarios/jmlvea/idraon/formate.!ss]
Cluster " [GET/apps/foro/index.php#a!tion$foro%idforo$eneral]
Cluster & [GET/alumnos/dieorp/!analplus.html]
Cluster ' [GET/apps/foro/index.php#
a!tion$foro%idforo$asinaturas]
Cluster ( [GET/js/prot)indo*s/themes/default.!ss]
Cluster + [GET/apps/foro/index.php#a!tion$foro,%idforo$es!uela]
Cluster - [GET/alumnos/mlii]
Cluster [GET/TT/1.1]
Cluster 10 [GET/apps/foro/index.php#a!tion$hebra,%idhebra$1"]
Cluster 11 [GET/apps/foro/index.php#a!tion$foro%idforo$!ompra]
ntropa %'%%
1' De Particin B'%%
+oro
,abln
Alu*nos
7incaracteri@ar
An-lisis de*ogr-ficoesultados del clustering de p-ginassi*ilares
-
7/26/2019 Charla Mineria Web Vej
37/56
37
Datos 9niciales
1lustering!er-r.uico
1lustering
Validacin deesultados
P-ginas Web7esiones de
Usuario
16*edias difuso16*edias
An-lisis de*ogr-fico
-
7/26/2019 Charla Mineria Web Vej
38/56
38
A partir de esta matri( de peso sesin6p1gina otendremos unamatri( de seme=an(a entre las sesiones definida
# para otener esta seme=an(a aplicaremos la medida del coseno #coseno e@tendido.
mjisssimSS ji = )],,([
Modelo de datos asociado'Modelo de datos asociado'
4b5eti0o'4b5eti0o'8tener grupos de sesiones de usuarios Fue navegan por la $e concaractersticas similares.
An-lisis de*ogr-fico
},...,,{ 21 msssS=Con=unto de sesiones : definida como9},...,,{ 21 npppP=Con=unto de p1ginas
-
7/26/2019 Charla Mineria Web Vej
39/56
39
1on5untos de datos:1on5untos de datos:
An-lisis de*ogr-fico
Medidas: coseno # coseno e@tendido.
,(cnica:clustering difuso con el algoritmo c6medias difuso.
IO*ero de particiones iniciales9 *J 3otenidos mediante elan1lisis =er1rFuico previamente5
esultados del clustering de sesiones deusuario
1on5untosde datos
ntrada de datosoriginales
ntrada de datospreprocesadas
IN 7esiones
Con=unto * *KK+KK *J+*K JKJ7
Con=unto J +JKJ *;,>, J>K
-
7/26/2019 Charla Mineria Web Vej
40/56
40
1oseno e8tendido
Discusin de los resultados:Discusin de los resultados: la medida del coseno e@tendido fuela Fue me=or representacin entregaa de las sesiones con respecto alos centroidos.
1oseno
An-lisis de*ogr-ficoesultados del clustering de sesiones deusuario 3cont.5
-
7/26/2019 Charla Mineria Web Vej
41/56
41
Minera We de Uso 6 Modelo de datos.
An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de
navegacin9 caso real.
An1lisis demogr1fico.
6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.
-
7/26/2019 Charla Mineria Web Vej
42/56
42
4b5eti0o'4b5eti0o'
Construccin de perfiles de usuario) a trav/s de la navegacin
de Fue reali(a el usuario en la $e) # as poder identificardiferentes grupos sociales #Bo demogr1ficos.
-
7/26/2019 Charla Mineria Web Vej
43/56
43
-
7/26/2019 Charla Mineria Web Vej
44/56
44
( ) siEezKLVe iiiiii = 1,,,,elativo a los aspe!tos so!iales
rano de edad3 nivel edu!ativo3
idioma45i!heros 6o
7e aso!ian pesos a las p8inas
esultado de una
area!i9n de perfiles
aso!iados a !ada sesi9n
Vi: Variables de*ogr-ficas
Li: Variables de identificacini: Variables de clic?strea*
@Qi: Perfil si*ple de lasesin
Definicin de perfil de usuario:Definicin de perfil de usuario: coleccin de datos acerca delas preferencias o intereses de navegacin de los usuarios.
Definicin for*al de perfil de usuario:Definicin for*al de perfil de usuario: &Martn6autista et al.)JKKJ-.
An-lisis de*ogr-fico Definicin de perfil de usuario
-
7/26/2019 Charla Mineria Web Vej
45/56
45
Vi: Variables de*ogr-ficas
Li: Variables de identificacin
@Qi: Perfil si*ple de lasesin
i: Variables de clic?strea*
An-lisis de*ogr-ficoModelo de representacin en RML del perfilde usuario
-
7/26/2019 Charla Mineria Web Vej
46/56
46
Vi: Variablesde*ogr-ficas
Li: Variables de identificacin
@Qi: Perfil si*ple de lasesin
i: Variables declic?strea*
An-lisis de*ogr-fico 5e*plo de perfil de usuario
-
7/26/2019 Charla Mineria Web Vej
47/56
47
:ea C H c*)cJ)...)cn los clusters de sesiones de usuarios m1srepresentativas de la navegacin reali(ada por los usuarios en elsitio $e de la escuela) siendo nel n"mero de la particin inicial.
:ea XH F*)FJ)...)Fn el con=unto de losperfiles de los usuarios otenidos.
'ntonces9
C H c*)cJ)...)cn O XH F*)FJ)...)Fn
An-lisis de*ogr-fico4btencin del perfil de usuario a partir delclustering difuso
YP@ml versionHZ*.KZ encodingHZUT?6ZP[
-
7/26/2019 Charla Mineria Web Vej
48/56
48
Y
-
7/26/2019 Charla Mineria Web Vej
49/56
49
gY
-
7/26/2019 Charla Mineria Web Vej
50/56
50
Algunos resultadosAlgunos resultados
Perfil B% est1 clasificado por la p1gina G'TBappsBconvocatorias.
Perfil B$ est1 clasificado por la p1gina G'TBappsBdescargas.Perfil = est1 clasificado por la p1gina G'TBalumnosBsinBsin.tm.Perfil & est1 clasificado por la p1gina G'TBalumnosBmlii.
Perfil J est1 clasificado por la p1gina G'[email protected] est1 clasificado por las p1ginas9 G'[email protected])
G'TBappsBtalon)G'TBalumnosBdiegorpBcanalplus.tml)G'TBalumnosBdiegorpBcanal.css.
Alu*noAlu*no
ProfesorProfesor
MetodologaMetodologa
_rol de decisin. Algoritmo ^7. 3C7.;5) 3W'`A5.
An-lisis de*ogr-fico1lasificacin de los perfiles a partir de lasp-ginas /eb
-
7/26/2019 Charla Mineria Web Vej
51/56
51
Minera We de Uso 6 Modelo de datos.
An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de
navegacin9 caso real.
An1lisis demogr1fico.6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.
5
1ontenidos
-
7/26/2019 Charla Mineria Web Vej
52/56
52
4btencin de patrones de na0egacin:4btencin de patrones de na0egacin:
emos planteado un modelo de otencin de reglas de asociacindifusas .
emos llevado a cao un proceso de interpretacin sem1nticaaplicando tanto medidas de inter/s o=etivas como medidas de inter/ssu=etivas.
emos e@perimentado sore un sitio $e real.
1onclusiones1onclusiones
1onclusiones y ,raba5os +uturos
-
7/26/2019 Charla Mineria Web Vej
53/56
53
An-lisis de*ogr-fico:An-lisis de*ogr-fico:Utili(ando diversas t/cnicas del clustering emos podido estaleceruna metodologa para reali(ar diferentes agrupaciones de loselementos Fue participan en un sitio $e.
emos utili(ado el clustering =er1rFuico para la otencin de laparticin inicial de los datos # emos utili(ado el coeficiente departicin # la entropa como medidas de validacin para las t/cnicasanteriores.
-
7/26/2019 Charla Mineria Web Vej
54/56
54
1onstruccin de perfiles de usuario:1onstruccin de perfiles de usuario: emos planteado una nueva representacin de los perfiles deusuarios en 2ML
emos definido un modelo de otencin de los perfiles de usuarios)as1ndonos en el an1lisis demogr1fico reali(ado en el clusteringdifuso de las sesiones de usuarios.
emos reali(ado una clasificacin de los perfiles de usuarios atrav/s de las p1ginas $e m1s representativas.
1onclusiones
-
7/26/2019 Charla Mineria Web Vej
55/56
55
'@tender los resultados otenidos a otros sitios $e astadesarrollar una erramienta integrada Fue inclu#a tanto los procesosde an1lisis descritos como la actuali(acin din1mica # online de losperfiles de usuario.
Ampliar el estudio de otras agrupaciones) asociaciones # relacionesentre los elementos Fue participan en el sitio $e.
'n un futuro) e@tenderemos el uso de los perfiles de usuario paradesarrollar un sistema de recomendacin Fue complete el proceso depersonali(acin aFu iniciado.
,raba5os futuros
-
7/26/2019 Charla Mineria Web Vej
56/56
56
Gracias
Cada da sabemosms y entendemosmenos
Albert Einstein