Charla Mineria Web Vej

download Charla Mineria Web Vej

of 56

Transcript of Charla Mineria Web Vej

  • 7/26/2019 Charla Mineria Web Vej

    1/56

    Minera Web de Uso y Perfiles de Usuario:Aplicaciones con Lgica Difusa

    Vctor Heughes scobar !eria

    "ranada# $%%&

    Directoras:Dra' Mara !os( Martn )autistaDra' Mara A*paro Vila Miranda

    Departamento de Ciencias de la Computacin e Inteligencia Artificial.Universidad de Granada.

    Tesis Doctoral

  • 7/26/2019 Charla Mineria Web Vej

    2/56

    2

    La Minera We se define como !el proceso gloal de descuririnformacin o conocimiento potencialmente "til # previamentedesconocido a partir de los datos de la $e% &'t(ioni) *++,-.

    +or*a inter*edia

    ,(cnicas de *inera de datosadecuadas para el an-lisis

    de la infor*acin .ue seencuentra en la /eb

    Moti0acin

  • 7/26/2019 Charla Mineria Web Vej

    3/56

    3

    Minera Web

    Minera Web deUso

    Minera Web destructura

    Minera Web de1ontenido

    Documentos We'nlaces entre e intraDocumentos Arcivos Log

    Moti0acin

  • 7/26/2019 Charla Mineria Web Vej

    4/56

    4

    21*o es el co*porta*iento de na0egacin del usuario enla /eb3

    21*o pode*os identificar a los usuarios .ue na0egan por

    la /eb si no se registran3

    21*o pode*os ofrecer una infor*acin *-s adecuada alusuario durante su na0egacin3'''

    Minera de Datos

    Lgica Difusa

    Moti0acin

  • 7/26/2019 Charla Mineria Web Vej

    5/56

    5

    La otencin de patrones de navegacin) a trav/s de la t/cnica

    de reglas de asociacin difusas.

    0eali(ar un an1lisis demogr1fico) utili(ando la t/cnica delclustering difuso para la agrupacin # caracteri(acin de sesionesde usuarios.

    Construccin de perfiles de usuario) a trav/s de un modelogeneral de otencin # representacin de los mismos en 2ML.

    La aplicacin de la lgica difusa en la *inera /eb deLa aplicacin de la lgica difusa en la *inera /eb deuso'uso'

    4b5eti0os

  • 7/26/2019 Charla Mineria Web Vej

    6/56

    6

    Minera We de Uso. 3Captulo 45 6 Modelo de datos.

    An1lisis de patrones de navegacin. 3Captulo 75 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de

    navegacin9 caso real 3'.T.:.I.I.T.5.

    An1lisis demogr1fico. 3Captulo ;56 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real 3'.T.:.I.I.T.5.

  • 7/26/2019 Charla Mineria Web Vej

    7/56

    7

    Minera We de Uso. 3Captulo 45 6 Modelo de datos.

    An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de

    patrones de navegacin9 caso real.

    An1lisis demogr1fico.6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.

  • 7/26/2019 Charla Mineria Web Vej

    8/56

    8

    Coleccin deDatos de Uso

    Preprocesamientode Datos de Uso

    Descubrimiento dePatrones de Uso

    Interpretacin delos resultados

    6 7er0idor Web

    6 7er0idor Pro8y6 M-.uina delUsuario

    6 Heterogeneidad y 1arenciade structura

    6 +or*a 9nter*edia

    ,(cnicas de Minera:

    6 1lustering

    6 eglas de Asociacin6 9nterpretar patrones

    6 1onstruir perfiles

    Minera Web de Uso ; tapas Minera Web de Uso tapas 3Captulo 45

  • 7/26/2019 Charla Mineria Web Vej

    9/56

    9

  • 7/26/2019 Charla Mineria Web Vej

    10/56

    10

    Arcivo '@tended Common Log ?ile ?ormat 3'CL??5

    ost oI

    9P$ > K K

    9P= , K J K

    9PJ K 4 K *K

    Proble*a $:Proble*a $: prolema de navegacin entre p1ginas.

    Fte*s: p1ginas visitadas # p1ginas referenciadas.

    ,ransacciones:: talas transaccionales difusa para la otencin de

    las reglas) para los tems p1ginas visitadas # p1ginas referenciadas9

    9PGPag' PagB Pag$ Pag= PagJ

    9PB K K.7 K K.>

    9P$ K.> K K. K

    9P= K., K K.J K

    9PJ K K.4 K *

    8tencin de los pesos

    +recuencia peso

    Patrones de na0egacinModelo asociado a la na0egacin entrep-ginas 6P-gina 0isitada ; P-ginareferenciada 3Captulo 75

  • 7/26/2019 Charla Mineria Web Vej

    20/56

    20

    p-gina 0isitada p-gina referenciada

    BdtBPcH**,>K O ttp9BB$$$.sopJ.c(

    6 :oporte H7KS confian(a H*.K ?C H*.K

    9nterpretacin:esto indica Fue los usuarios vistan a la p1gina BdtBP

    cH**,>K # luego se van a la p1gina ttp9BB$$$.sopJ.c() esta reglase encuentra en un 7KS dentro del con=unto anali(ado.

    Patrones de na0egacin5e*plo de regla de asociacin difusa ;P-gina 0isitada ; P-gina referenciada

  • 7/26/2019 Charla Mineria Web Vej

    21/56

    21

    4btencin de las creencias del usuario4btencin de las creencias del usuario

    1reencia del Usuario:

    *. ?oro OasignaturasJ. Taln de anuncios Oactividades

    4. 'ventos O p1gina principal

    7.

  • 7/26/2019 Charla Mineria Web Vej

    22/56

    22

    1on5untos de datos:1on5untos de datos:

    Patrones de na0egacin Medidas de calidad 3cont.5

    1on5untosde datos

    ntrada dedatos

    originales

    ntrada de datospreprocesadas

    Preprocesa*iento

    Con=unto * *KK+KK *KK*K 'liminacin entradas id/nticas

    Con=unto J *KK*K 7,+;K 'liminacin entradas sin el campo dereferencia

    Con=unto 4 7,+;K *,;* 'liminacin de im1genes

    Con=unto 7 *,;* *J+*K 'liminacin =avascript

    Con=unto ; +JKJ *;,>,

  • 7/26/2019 Charla Mineria Web Vej

    23/56

    23

    IN egla 7up 1on +1 Lif P67 1f U1. U1d bs

    egla B K.K;J K.7> K.4+ ,.+ K.K7 K.K *.K K.K K.K

    egla $ K.K>, K.;K K.4J J.+ K.K; K.K *.K K.K K.K

    egla = K.KJ K.; K.4 ,.4; K.KJ K.K K.K K.K *.K

    egla J K.K* K.4 K.K ,.*> K.K* K.K K.K K.K *.K

    egla K.K4 K.,; K.,; 7. K.KJ K.K K.K K.K *.K

    eglas obtenidaseglas obtenidasdel con5unto :del con5unto :

    Discusin de los resultados:Discusin de los resultados: el usuario navega aitualmente por

    las diferentes secciones del foro.

    IN egla eglas 4btenidas

    egla B G'TBappsBtalonB O ttp9BBetsiit.ugr.es

    egla $ G'[email protected] O ttp9BBetsiit.ugr.es

    egla = G'[email protected] O [email protected]

    egla J G'[email protected] O [email protected]

    egla G'[email protected] O [email protected]

    Patrones de na0egacin esultados 3Captulo 75

    +oro

  • 7/26/2019 Charla Mineria Web Vej

    24/56

    24

    Minera We de Uso 6 Modelo de datos.

    An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de

    navegacin9 caso real.

    An1lisis demogr1fico. 3Captulo ;56 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real 3'.T.:.I.I.T.5.

  • 7/26/2019 Charla Mineria Web Vej

    25/56

    25

    1lustering deP-ginas Web

    1lustering Difuso de7esiones de

    usuario

    4b5eti0o'4b5eti0o'Caracteri(ar distintos tipos de usuarios a trav/s de9

    6an1lisis de los grupos de p1ginas por los Fue navegan enfuncin de su direccin.6an1lisis de los grupos de sesiones en funcin de las

    p1ginas visitadas.Metodologa'Metodologa'

    An-lisis de*ogr-fico

  • 7/26/2019 Charla Mineria Web Vej

    26/56

    26

    Definicin cl-sicaDefinicin cl-sica

    Dado un con=unto 2 H @*)@J)V)@n Fueremos otener una particin

  • 7/26/2019 Charla Mineria Web Vej

    27/56

    27

    Le0enshtein'Le0enshtein'

    ==

    = =

    =N

    j

    lj

    N

    i

    ki

    N

    i

    N

    j

    lj

    ki

    kl

    SS

    SS

    S

    11

    1 1

    ,1

    1oseno'1oseno'

    An-lisis de*ogr-fico Medidas utili@adas 3Captulo ;5

    )},()},...,(),,...,((

    casootroen,1),...,(),,...,((

    ,1),...,(),,...,((min{

    0p

    0q

    )),...,(),,...,((

    1111

    111

    11111

    +

    +

    +

    =

    =

    =

    qpqp

    qp

    qpp

    yxzyyxxL

    yyxxL

    yyxxL

    q

    p

    yyxxL

  • 7/26/2019 Charla Mineria Web Vej

    28/56

    28

    1oseno e8tendido'1oseno e8tendido'

    ( )( )

    =

    =

    ==

    = =

    1max,1maxmin),(

    ),(

    11

    1 1

    ,2

    ji

    ji

    N

    j

    lj

    N

    i

    ki

    N

    i

    N

    j

    lj

    ki

    kl

    pp

    ppjiSn

    SS

    jiSnSS

    S

    An-lisis de*ogr-fico Medidas utili@adas 3cont.5

  • 7/26/2019 Charla Mineria Web Vej

    29/56

    29

    Definicin cl-sicaDefinicin cl-sica

    Dado un con=unto 2 H @*)@J)V)@n Fueremos otener una particin

  • 7/26/2019 Charla Mineria Web Vej

    30/56

    30

    ,(cnica utili@ada,(cnica utili@ada:Clustering =er1rFuico 3:

  • 7/26/2019 Charla Mineria Web Vej

    31/56

    31

    Datos 9niciales

    1lustering!er-r.uico

    1lustering

    Validacin deesultados

    P-ginas Web 7esiones deUsuario

    16*edias difuso16*edias

    An-lisis de*ogr-fico

  • 7/26/2019 Charla Mineria Web Vej

    32/56

    32

    N

    u

    CP

    c

    i

    N

    k

    ik = == 1 1

    2

    1oeficiente de particin'1oeficiente de particin'

    1oeficiente de ntropa'1oeficiente de ntropa'

    ( )

    =

    = =

    c

    i

    N

    k

    ikaik uuN

    CE1 1

    log1

    An-lisis de*ogr-fico Validacin del clustering

  • 7/26/2019 Charla Mineria Web Vej

    33/56

    33

    An-lisis de*ogr-fico

    Datos 9niciales

    1lustering!er-r.uico

    1lustering

    Validacin deesultados

    P-ginas Web7esiones de

    Usuario

    16*edias difuso16*edias

  • 7/26/2019 Charla Mineria Web Vej

    34/56

    34

    mjmippisimP j = 1,1)],,([

    Modelo de datos asociado'Modelo de datos asociado'

    },...,,{ 21 mpppP=Un Con=unto de p1ginas definida como9

    Las p1ginas $e puede ser vista conceptualmente como una matri(

    p1gina6p1gina mxm9

    4b5eti0o'4b5eti0o'

    8tener grupos de p1ginas $e m1s similares para saer cuales sonlas m1s representativas de la navegacin del usuario.

    An-lisis de*ogr-fico 1lustering de p-ginas si*ilares 3Captulo ;5

  • 7/26/2019 Charla Mineria Web Vej

    35/56

    35

    1on5untos de datos:1on5untos de datos:

    An-lisis de*ogr-fico

    Medida: Levenstein

    ,(cnica: clustering con el algoritmo c6medias

    IO*ero de particiones iniciales:*J 3otenidos con el an1lisis declustering =er1rFuico previamente5.

    esultados del clustering de p-ginassi*ilares

    1on5untosde datos

    ntrada dedatos

    originales

    ntrada dedatos

    preprocesadas

    Preprocesa*iento

    Con=unto * *KK+KK *KK*K 'liminacin entradas id/nticas

    Con=unto J *,;* *J+*K ,

  • 7/26/2019 Charla Mineria Web Vej

    36/56

    36

    1luster 1entroideE

    Cluster 0 [GET/apps/foro/index.php]

    Cluster 1 [GET/apps/tablon]

    Cluster 2 [GET/usuarios/jmlvea/idraon/formate.!ss]

    Cluster " [GET/apps/foro/index.php#a!tion$foro%idforo$eneral]

    Cluster & [GET/alumnos/dieorp/!analplus.html]

    Cluster ' [GET/apps/foro/index.php#

    a!tion$foro%idforo$asinaturas]

    Cluster ( [GET/js/prot)indo*s/themes/default.!ss]

    Cluster + [GET/apps/foro/index.php#a!tion$foro,%idforo$es!uela]

    Cluster - [GET/alumnos/mlii]

    Cluster [GET/TT/1.1]

    Cluster 10 [GET/apps/foro/index.php#a!tion$hebra,%idhebra$1"]

    Cluster 11 [GET/apps/foro/index.php#a!tion$foro%idforo$!ompra]

    ntropa %'%%

    1' De Particin B'%%

    +oro

    ,abln

    Alu*nos

    7incaracteri@ar

    An-lisis de*ogr-ficoesultados del clustering de p-ginassi*ilares

  • 7/26/2019 Charla Mineria Web Vej

    37/56

    37

    Datos 9niciales

    1lustering!er-r.uico

    1lustering

    Validacin deesultados

    P-ginas Web7esiones de

    Usuario

    16*edias difuso16*edias

    An-lisis de*ogr-fico

  • 7/26/2019 Charla Mineria Web Vej

    38/56

    38

    A partir de esta matri( de peso sesin6p1gina otendremos unamatri( de seme=an(a entre las sesiones definida

    # para otener esta seme=an(a aplicaremos la medida del coseno #coseno e@tendido.

    mjisssimSS ji = )],,([

    Modelo de datos asociado'Modelo de datos asociado'

    4b5eti0o'4b5eti0o'8tener grupos de sesiones de usuarios Fue navegan por la $e concaractersticas similares.

    An-lisis de*ogr-fico

    },...,,{ 21 msssS=Con=unto de sesiones : definida como9},...,,{ 21 npppP=Con=unto de p1ginas

  • 7/26/2019 Charla Mineria Web Vej

    39/56

    39

    1on5untos de datos:1on5untos de datos:

    An-lisis de*ogr-fico

    Medidas: coseno # coseno e@tendido.

    ,(cnica:clustering difuso con el algoritmo c6medias difuso.

    IO*ero de particiones iniciales9 *J 3otenidos mediante elan1lisis =er1rFuico previamente5

    esultados del clustering de sesiones deusuario

    1on5untosde datos

    ntrada de datosoriginales

    ntrada de datospreprocesadas

    IN 7esiones

    Con=unto * *KK+KK *J+*K JKJ7

    Con=unto J +JKJ *;,>, J>K

  • 7/26/2019 Charla Mineria Web Vej

    40/56

    40

    1oseno e8tendido

    Discusin de los resultados:Discusin de los resultados: la medida del coseno e@tendido fuela Fue me=or representacin entregaa de las sesiones con respecto alos centroidos.

    1oseno

    An-lisis de*ogr-ficoesultados del clustering de sesiones deusuario 3cont.5

  • 7/26/2019 Charla Mineria Web Vej

    41/56

    41

    Minera We de Uso 6 Modelo de datos.

    An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de

    navegacin9 caso real.

    An1lisis demogr1fico.

    6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.

  • 7/26/2019 Charla Mineria Web Vej

    42/56

    42

    4b5eti0o'4b5eti0o'

    Construccin de perfiles de usuario) a trav/s de la navegacin

    de Fue reali(a el usuario en la $e) # as poder identificardiferentes grupos sociales #Bo demogr1ficos.

  • 7/26/2019 Charla Mineria Web Vej

    43/56

    43

  • 7/26/2019 Charla Mineria Web Vej

    44/56

    44

    ( ) siEezKLVe iiiiii = 1,,,,elativo a los aspe!tos so!iales

    rano de edad3 nivel edu!ativo3

    idioma45i!heros 6o

    7e aso!ian pesos a las p8inas

    esultado de una

    area!i9n de perfiles

    aso!iados a !ada sesi9n

    Vi: Variables de*ogr-ficas

    Li: Variables de identificacini: Variables de clic?strea*

    @Qi: Perfil si*ple de lasesin

    Definicin de perfil de usuario:Definicin de perfil de usuario: coleccin de datos acerca delas preferencias o intereses de navegacin de los usuarios.

    Definicin for*al de perfil de usuario:Definicin for*al de perfil de usuario: &Martn6autista et al.)JKKJ-.

    An-lisis de*ogr-fico Definicin de perfil de usuario

  • 7/26/2019 Charla Mineria Web Vej

    45/56

    45

    Vi: Variables de*ogr-ficas

    Li: Variables de identificacin

    @Qi: Perfil si*ple de lasesin

    i: Variables de clic?strea*

    An-lisis de*ogr-ficoModelo de representacin en RML del perfilde usuario

  • 7/26/2019 Charla Mineria Web Vej

    46/56

    46

    Vi: Variablesde*ogr-ficas

    Li: Variables de identificacin

    @Qi: Perfil si*ple de lasesin

    i: Variables declic?strea*

    An-lisis de*ogr-fico 5e*plo de perfil de usuario

  • 7/26/2019 Charla Mineria Web Vej

    47/56

    47

    :ea C H c*)cJ)...)cn los clusters de sesiones de usuarios m1srepresentativas de la navegacin reali(ada por los usuarios en elsitio $e de la escuela) siendo nel n"mero de la particin inicial.

    :ea XH F*)FJ)...)Fn el con=unto de losperfiles de los usuarios otenidos.

    'ntonces9

    C H c*)cJ)...)cn O XH F*)FJ)...)Fn

    An-lisis de*ogr-fico4btencin del perfil de usuario a partir delclustering difuso

    YP@ml versionHZ*.KZ encodingHZUT?6ZP[

  • 7/26/2019 Charla Mineria Web Vej

    48/56

    48

    Y

  • 7/26/2019 Charla Mineria Web Vej

    49/56

    49

    gY

  • 7/26/2019 Charla Mineria Web Vej

    50/56

    50

    Algunos resultadosAlgunos resultados

    Perfil B% est1 clasificado por la p1gina G'TBappsBconvocatorias.

    Perfil B$ est1 clasificado por la p1gina G'TBappsBdescargas.Perfil = est1 clasificado por la p1gina G'TBalumnosBsinBsin.tm.Perfil & est1 clasificado por la p1gina G'TBalumnosBmlii.

    Perfil J est1 clasificado por la p1gina G'[email protected] est1 clasificado por las p1ginas9 G'[email protected])

    G'TBappsBtalon)G'TBalumnosBdiegorpBcanalplus.tml)G'TBalumnosBdiegorpBcanal.css.

    Alu*noAlu*no

    ProfesorProfesor

    MetodologaMetodologa

    _rol de decisin. Algoritmo ^7. 3C7.;5) 3W'`A5.

    An-lisis de*ogr-fico1lasificacin de los perfiles a partir de lasp-ginas /eb

  • 7/26/2019 Charla Mineria Web Vej

    51/56

    51

    Minera We de Uso 6 Modelo de datos.

    An1lisis de patrones de navegacin. 6 8tencin de reglas de asociacin difusas para el an1lisis de patrones de

    navegacin9 caso real.

    An1lisis demogr1fico.6 Clustering de p1ginas similares9 caso real.6 Clustering difuso de sesiones de usuarios9 caso real.

    5

    1ontenidos

  • 7/26/2019 Charla Mineria Web Vej

    52/56

    52

    4btencin de patrones de na0egacin:4btencin de patrones de na0egacin:

    emos planteado un modelo de otencin de reglas de asociacindifusas .

    emos llevado a cao un proceso de interpretacin sem1nticaaplicando tanto medidas de inter/s o=etivas como medidas de inter/ssu=etivas.

    emos e@perimentado sore un sitio $e real.

    1onclusiones1onclusiones

    1onclusiones y ,raba5os +uturos

  • 7/26/2019 Charla Mineria Web Vej

    53/56

    53

    An-lisis de*ogr-fico:An-lisis de*ogr-fico:Utili(ando diversas t/cnicas del clustering emos podido estaleceruna metodologa para reali(ar diferentes agrupaciones de loselementos Fue participan en un sitio $e.

    emos utili(ado el clustering =er1rFuico para la otencin de laparticin inicial de los datos # emos utili(ado el coeficiente departicin # la entropa como medidas de validacin para las t/cnicasanteriores.

  • 7/26/2019 Charla Mineria Web Vej

    54/56

    54

    1onstruccin de perfiles de usuario:1onstruccin de perfiles de usuario: emos planteado una nueva representacin de los perfiles deusuarios en 2ML

    emos definido un modelo de otencin de los perfiles de usuarios)as1ndonos en el an1lisis demogr1fico reali(ado en el clusteringdifuso de las sesiones de usuarios.

    emos reali(ado una clasificacin de los perfiles de usuarios atrav/s de las p1ginas $e m1s representativas.

    1onclusiones

  • 7/26/2019 Charla Mineria Web Vej

    55/56

    55

    '@tender los resultados otenidos a otros sitios $e astadesarrollar una erramienta integrada Fue inclu#a tanto los procesosde an1lisis descritos como la actuali(acin din1mica # online de losperfiles de usuario.

    Ampliar el estudio de otras agrupaciones) asociaciones # relacionesentre los elementos Fue participan en el sitio $e.

    'n un futuro) e@tenderemos el uso de los perfiles de usuario paradesarrollar un sistema de recomendacin Fue complete el proceso depersonali(acin aFu iniciado.

    ,raba5os futuros

  • 7/26/2019 Charla Mineria Web Vej

    56/56

    56

    Gracias

    Cada da sabemosms y entendemosmenos

    Albert Einstein