Acero 01

7
Generación automática de resúmenes personalizados Ignacio Acero, Matías Alcojor, Alberto Díaz, José María Gómez Departamento de Inteligencia Artificial, Escuela Superior de Informática, Universidad Europea-CEES, 28670, Villaviciosa de Odón, Madrid Tel.: (34) 91 6167142 ext. 671. Fax: (34) 91 6168265 [email protected], [email protected] {alberto, jmgomez}@dinar.esi.uem.es Manuel Maña Departamento de Informática, Universidad de Vigo, Campus As Lagoas s/n, 32004, Orense, Spain. Tel.: (34) 988 387014. Fax: (34) 988 387001 [email protected] Resumen. En la actualidad los servicios de información presentes en la Web y en particular los periódicos digitales ofrecen a los usuarios una selección de documentos basada en criterios bastante simples que lleva a los usuarios a recibir una gran cantidad de información irrelevante. Nuestro trabajo pretende disminuir la sobrecarga de los usuarios de dos maneras: aportando un modelo de usuario más completo que permita definir mejor los intereses de los usuarios y construyendo un generador de resúmenes automático que permita al usuario detectar las noticias que realmente le interesan mediante la visualización de resúmenes adaptados a su modelo. Se han obtenido resultados alentadores en una evaluación de los distintos tipos de resúmenes para varios modelos de usuario. El trabajo está enmarcado dentro del sistema Hermes, un enviador personalizado de noticias que maneja información en inglés y en español. 1. Introducción Los servicios personalizados de información son cada vez más populares en la Web. Los periódicos digitales más importantes ofrecen a sus usuarios la posibilidad de recibir por correo electrónico una selección de las noticias del día. La mayoría de los periódicos envían todas las noticias (o sólo los titulares) de una o varias secciones que el usuario ha seleccionado previamente, o también aquellas que contienen ciertas palabras elegidas por el usuario. Una definición tan simple de los intereses de un usuario puede hacer que mucha de la información recibida sea realmente irrelevante. La creación de modelos de usuario que mejoren la definición de esos intereses junto con la integración de tareas de clasificación de texto permite mejorar la selección de las noticias relevantes para cada usuario. Ejemplos representativos de sistemas de acceso a la información que integran este tipo de técnicas son WebMate [5], News Dude [3] y SIFT [18]. En todo caso, aunque la selección se mejore, el usuario recibe un conjunto de noticias en su correo todos los días de las cuales es probable que no todas le interesen, o unas le interesen más que otras, o incluso le interese conocer algunas en profundidad y otras superficialmente. Para evitar que el usuario tenga que leer todas las noticias, una mejora que puede introducirse, es incluir un resumen de cada noticia, en vez de enviar la noticia completa. De esta manera, el usuario lee solamente el resumen de las noticias y en caso de que le interese, puede acceder a la noticia completa. Reemplazar la noticia completa por un resumen es una mejora significativa, pero podríamos mejorar aún más estos sistemas si el resumen fuera personalizado para cada usuario. Así cada usuario podría leer un resumen adaptado a sus preferencias definidas en su modelo de usuario.

description

mineria de texto

Transcript of Acero 01

  • Generacin automtica de resmenes personalizados

    Ignacio Acero, Matas Alcojor, Alberto Daz, Jos Mara GmezDepartamento de Inteligencia Artificial, Escuela Superior de Informtica, Universidad Europea-CEES,

    28670, Villaviciosa de Odn, MadridTel.: (34) 91 6167142 ext. 671. Fax: (34) 91 6168265

    [email protected], [email protected]{alberto, jmgomez}@dinar.esi.uem.es

    Manuel Maa

    Departamento de Informtica, Universidad de Vigo,Campus As Lagoas s/n, 32004, Orense, Spain.Tel.: (34) 988 387014. Fax: (34) 988 387001

    [email protected]

    Resumen. En la actualidad los servicios deinformacin presentes en la Web y enparticular los peridicos digitales ofrecen alos usuarios una seleccin de documentosbasada en criterios bastante simples quelleva a los usuarios a recibir una grancantidad de informacin irrelevante.Nuestro trabajo pretende disminuir lasobrecarga de los usuarios de dos maneras:aportando un modelo de usuario mscompleto que permita definir mejor losintereses de los usuarios y construyendo ungenerador de resmenes automtico quepermita al usuario detectar las noticias querealmente le interesan mediante lavisualizacin de resmenes adaptados a sumodelo. Se han obtenido resultadosalentadores en una evaluacin de losdistintos tipos de resmenes para variosmodelos de usuario. El trabajo estenmarcado dentro del sistema Hermes, unenviador personalizado de noticias quemaneja informacin en ingls y en espaol.

    1. IntroduccinLos servicios personalizados de informacinson cada vez ms populares en la Web. Losperidicos digitales ms importantes ofrecen asus usuarios la posibilidad de recibir por correoelectrnico una seleccin de las noticias del da.La mayora de los peridicos envan todas lasnoticias (o slo los titulares) de una o variassecciones que el usuario ha seleccionadopreviamente, o tambin aquellas que contienenciertas palabras elegidas por el usuario.

    Una definicin tan simple de los intereses deun usuario puede hacer que mucha de lainformacin recibida sea realmente irrelevante.La creacin de modelos de usuario que mejorenla definicin de esos intereses junto con laintegracin de tareas de clasificacin de textopermite mejorar la seleccin de las noticiasrelevantes para cada usuario. Ejemplosrepresentativos de sistemas de acceso a lainformacin que integran este tipo de tcnicasson WebMate [5], News Dude [3] y SIFT [18].

    En todo caso, aunque la seleccin se mejore,el usuario recibe un conjunto de noticias en sucorreo todos los das de las cuales es probableque no todas le interesen, o unas le interesenms que otras, o incluso le interese conoceralgunas en profundidad y otrassuperficialmente. Para evitar que el usuariotenga que leer todas las noticias, una mejoraque puede introducirse, es incluir un resumende cada noticia, en vez de enviar la noticiacompleta. De esta manera, el usuario leesolamente el resumen de las noticias y en casode que le interese, puede acceder a la noticiacompleta.

    Reemplazar la noticia completa por unresumen es una mejora significativa, peropodramos mejorar an ms estos sistemas si elresumen fuera personalizado para cada usuario.As cada usuario podra leer un resumenadaptado a sus preferencias definidas en sumodelo de usuario.

  • Este trabajo est incluido en el proyectoHermes1, el cual tiene como objetivo lapersonalizacin inteligente en servicios deenvo de noticias mediante la integracin detcnicas de anlisis automtico del contenidotextual y modelado de usuario con capacidadesbilinges. El sistema de generacin deresmenes es un mdulo dentro del proyecto.En este trabajo describimos el funcionamientopara el idioma espaol, pero se ha desarrolladode tal manera que la mayor parte del mismo esindependiente del idioma y el coste deadaptacin al ingls es, por tanto, mnimo.

    2. Generacin de resmenesEn la actualidad, buena parte de la informacinque leemos a diario nos llega a travs demedios electrnicos. El amplio uso que de estosmedios se est realizando para la difusin deinformacin conlleva una excesiva carga para ellector, que hace cada vez ms necesaria ladisponibilidad de herramientas que permitanresumir estos textos.

    Por generacin automtica de resmenes detexto entendemos el proceso por el cual seidentifica la informacin sustancial provenientede una fuente (o varias) para producir unaversin abreviada destinada a un usuarioparticular (o grupo de usuarios) y una tarea (otareas) [11]. Bajo esta definicin se agrupandiferentes tipos de resmenes que puedenclasificarse atendiendo a su propsito, enfoquey alcance [8].

    Atendiendo al alcance, el resumen puedelimitarse a un nico documento o a un conjuntode ellos que traten sobre el mismo tema.

    Segn su propsito, esto es, atendiendo aluso o tarea al que estn destinados, losresmenes se clasifican en: Indicativos, si el objetivo es anticipar al

    lector el contenido del texto y ayudarle adecidir sobre la relevancia del documentooriginal,

    Informativos, si pretenden sustituir al textocompleto incorporando toda la informacinnueva o trascendente, y

    Crticos, si incorporan opiniones ocomentarios que no aparecen en el textooriginal.

    1Este proyecto ha sido financiado parcialmente por elMinisterio de Ciencia y Tecnologa (PROFIT,2000/020)

    Finalmente, atendiendo al enfoque, podemosdistinguir entre resmenes: Genricos, si recogen los temas principales

    del documento y van destinados a un grupoamplio de personas, y

    Adaptados al usuario, si el resumen seconfecciona de acuerdo a los intereses (i.e.conocimientos previos, mbitos de inters onecesidades de informacin) del lector ogrupo de lectores al que va dirigido.

    Es claro que, sobre todo para niveles decompresin altos, un resumen que no tenga encuenta las necesidades del usuario puede serdemasiado general como para ser til. Enconcreto, en un entorno de recuperacin deinformacin, ya ha sido demostrada lasuperioridad de los resmenes adaptados a laconsulta realizada por el usuario [12]. En otrosmbitos relacionados, como el filtrado o losservicios personalizados de informacin, en losque el sistema puede disponer de un mayorconocimiento sobre las preferencias de losusuarios, cabra esperar una seleccin msadecuada de los contenidos.

    Ante la variedad de tipos y dominios de losdocumentos disponibles, las tcnicas deseleccin y extraccin de frases resultan muyatractivas por su independencia del dominio ydel idioma. El mtodo se centra en una fase deanlisis en el que se identifican los segmentosde texto (frases o prrafos, normalmente) quecontienen la informacin ms significativa.Durante esta fase se aplica un conjunto deheursticas a cada una de las unidades deextraccin. El grado de significacin de cadauna de ellas puede obtenerse mediantecombinacin lineal de los pesos resultantes dela aplicacin de dichas heursticas. staspueden ser posicionales, si tienen en cuenta laposicin que ocupa cada segmento dentro deldocumento, lingsticas, si buscan ciertospatrones de expresiones indicativas, oestadsticas, si incluyen frecuencias deaparicin de ciertas palabras.

    El resumen resulta de concatenar dichossegmentos de texto en el orden en que aparecenen el documento original [10]. Los posiblesproblemas de inconsistencia en el resumenresultante constituyen el principalinconveniente de esta aproximacin. Una formade paliar este problema es utilizar el prrafo enlugar de la frase como unidad de extraccin[14], esperando que al proporcionar ste un

  • contexto ms amplio se mejoren los problemasde legibilidad.

    Otro conjunto de tcnicas, que podemosdenominar ricas en conocimiento, se caracterizapor utilizar mtodos de comprensin profundadel texto [9]. Esta aproximacin puede conducira crear sistemas que evitan algunos problemas,como los mencionados de inconsistencia. Sinembargo, estos sistemas necesitan gran cantidadde conocimiento sobre el dominio. Adems,estos dominios son necesariamente muyrestringidos y de caractersticas conocidas.Como consecuencia, los sistemas son pocoflexibles y de difcil adaptacin a otros casos deaplicacin u otros idiomas.

    3. Modelado de usuarioEl modelo sirve, como se indica en laintroduccin, para filtrar las noticias que ms leinteresan a un usuario [6].

    El modelo de usuario est diseado pararepresentar los intereses del usuario desdevarios puntos de vista [1]. Este perfil describelas necesidades de informacin del usuario, esdecir, lo que el usuario realmente estbuscando.

    El modelo de usuario almacena 3 tipos deinformacin: Informacin general (nombre, login,

    password, direccin de correo electrnico). Informacin sobre sus preferencias (das de

    la semana que desea recibir mensajes,mximo nmero de noticias por mensaje,desactivacin temporal del servicio).

    Informacin sobre los intereses del usuario:(1) secciones, (2) categoras generales, (3)trminos.

    La informacin sobre las preferencias es muytil para los usuarios. La posibilidad de fijar unmximo nmero de noticias por mensaje y elhecho de poder desactivar temporalmente elservicio evitan la sobrecarga de informacin.Establecer un nmero mnimo de noticias hasido considerado contraproducente porquepuede llevar a la inclusin de informacin norelevante si no se alcanza dicho nmero con lainformacin relevante.

    Como se ha descrito en la introduccin, losservicios de noticias normalmente realizan lapersonalizacin de sus envos utilizandoinformacin sobre las secciones y palabrasclaves seleccionadas por el usuario. Nuestromodelo soporta ambos aspectos.

    Por una parte, los usuarios puedenseleccionar sus secciones preferidas. Lassecciones de un peridico son un conjuntodefinido de categoras basadas en el contenidode las noticias. Este conjunto de 8 categorasprocede de la organizacin tradicional de unperidico. Los usuarios pueden asignar un pesoa cada seccin, para dar mayor importancia alas noticias que pertenezcan a dichas secciones.Ejemplos de secciones en un peridico sonInternacional o Cultura.

    Por la otra, los usuarios tambin puedenintroducir un conjunto de trminos y asignar unpeso a cada uno de ellos que represente suimportancia para los intereses del usuario.

    Nuestro modelo permite otro sistema dereferencia adicional utilizando un sistemadiferente de categoras. Los usuarios de Internetestn familiarizados con los sistemas decategoras utilizados en los motores debsqueda, por ello se ha elegido el sistema decategoras de Yahoo! Espaa como sistemaalternativo para representar los intereses de unusuario. Al ser un sistema de mayor coberturaque las secciones de un peridico constituyeuna buena segunda opinin. Se ha elegido elprimer nivel de 14 categoras para representaresta informacin. Los usuarios pueden asignarun peso a cada categora, para indicar su intersen ella.

    La existencia de muchos mtodos deseleccin puede llegar a confundir al usuario,hacindole tener una idea borrosa delfuncionamiento del sistema. Por ello, existe unnivel adicional de especificacin de losintereses del usuario. Cada uno de los 3sistemas de referencia del modelo (secciones,categoras y trminos) tienen un peso querepresenta la importancia para el usuario decada uno de ellos. Por ejemplo, si el peso de lassecciones es bajo y el peso de las categoras esalto, los valores de relevancia procedentes de lacategorizacin automtica de las noticias conrespecto a las categoras tendr mayorimportancia para la seleccin de las noticias. Deesta manera, cada una de las 3 dimensiones delperfil de usuario puede ser definida ycontrolada por el usuario, constituyendo unmecanismo fino de ajuste para obtener unacaracterizacin flexible de sus intereses.

    El modelo puede ser editado por el usuario:se pueden modificar los pesos de secciones ytrminos, y se puede borrar o aadir trminos.

  • En el proceso de seleccin se aplicacategorizacin de texto [4, 16] con lascategoras respecto de las noticias yrecuperacin de informacin [2] con lostrminos con respecto a las noticias.Adicionalmente las noticias son procesadaspara comprobar si pertenecen a alguna de lassecciones seleccionadas por el usuario. Losdiferentes resultados obtenidos se integranusando el nivel de inters asignado por elusuario a los diferentes sistemas de referencia.

    4. Generacin de resmenespersonalizados.

    Para la confeccin de los resmenes nuestrosistema utiliza tres heursticas de seleccin defrases. Las dos primeras se utilizan para laobtencin de resmenes generales mientras quela tercera se refiere a la personalizacin de losmismos. Nuestra investigacin se centraprincipalmente en las tcnicas depersonalizacin.

    Para generar los resmenes utilizaremos lacombinacin ponderada de las distintasheursticas. Vamos a describir cada una de ellaspor separado y despus comentaremos comomodificamos los diferentes parmetros paraobtener resmenes generales o personalizados.

    Las tres heursticas tienen un objetivo comny es dar puntuaciones a cada una de las frasesdel texto objeto del resumen, para ms tardepoder elegir las ms relevantes.

    4.1 Heurstica de posicinEsta heurstica consiste bsicamente en darmayor puntuacin a las cinco primeras frases deun texto [7].

    En dominios periodsticos, el ttulo y lasprimeras frases de un texto dan una ideaaproximada al lector del contenido del textoque va a leer a continuacin. Por esta raznasignaremos los siguientes pesos a las Nprimeras frases del documento que estemosresumiendo. Un valor tpico de N podra ser 5 ylos pesos asignados podran ser:

    Peso frase 1: 1.0Peso frase 2: 0.99Peso frase 3: 0.98Peso frase 4: 0.95Peso frase 5: 0.90

    4.2 Heurstica de palabras claveCada texto tiene un nmero de palabras clave,que son bastante representativas de sucontenido. Esta heurstica consiste en extraerlas M palabras ms significativas de cada textoy comprobar a continuacin, cuantas de esaspalabras clave se encuentran en cada frase. Deesta forma asignaremos mayor peso a las frasesque contengan mayor nmero de palabras clavedel texto [17].

    Para obtener las M palabras ms relevantesde cada noticia indexamos todas las noticiasobteniendo as el peso de cada palabra en cadadocumento utilizando el mtodo tf idf [15].Seleccionamos as las ocho palabras que mspeso tengan para cada documento.

    Para obtener el peso de la frase en eldocumento se divide el nmero de palabrasclave del documento que aparecen en la frasepor el nmero total de palabras de la frase:

    4.3 Heurstica de personalizacinEl objetivo de esta heurstica consiste enpotenciar aquellas frases que tengan mayorrelevancia para un modelo de usuario dado, conel fin de personalizar el resumen. En lugar deobtener una idea general del texto resumido,orientamos la eleccin de frases de tal formaque se elijan aquellas que tengan mayorsimilitud con las preferencias del usuario.

    El potencial de personalizar un resumen esalto, ya que un documento que resumido (deforma general) podra ser descartado, no lo sersi se acierta a elegir las frases adecuadas paradespertar el inters de dicho usuario.

    El clculo de los pesos para las frases serealiza de la siguiente manera. Del modelo deusuario obtenemos la informacin con respectoa los pesos que el usuario ha asignado a suscategoras y a sus trminos personales.Tambin extraemos del modelo los trminosque representan cada categora as como lostrminos que el usuario haya definido. Con todaesta informacin calculamos la similitudexistente entre el modelo y la frase, asignandoun peso a la frase de acuerdo con la siguientesimilitud:

    pTermpCatTrmsfrasesimpTerCategorasfrasesimpCat

    PesoFrase+

    +=

    ),(),(

    Donde:

  • =

    =

    =

    =

    =ni

    ii

    ni

    iii

    pc

    pctcfrasesimCategorasfrasesim

    1

    1),(

    ),(

    =

    =

    =

    =

    =ni

    ii

    ni

    iii

    pt

    pttfrasesimTrmsfrasesim

    1

    1

    ),(),( Sie

    ndo, pCat el peso general de las categoras,pTerms el peso general de los trminos, tci lostrminos que identifican a la categora i, pci elpeso asignado a la categora i, ti el trmino i y

    pti el peso asignado al trmino i.

    4.4 Combinacin de las tres Heursticas.Para poder combinar las tres heursticas yobtener as un solo peso para cada fraseutilizaremos la siguiente ecuacin:

    ++

    ++=

    )3()2()1( pesoHpesoHpesoHrasePesoTotalF

    Los parmetros , y nos sirven paradar ms importancia a una heurstica que a otra.

    Los clculos de similitud que realiza nuestrosistema se basan en el modelo del espaciovectorial [15], utilizando para la representacinde textos, vectores de pesos de trminos. Parasu obtencin, se eliminan las palabras msfrecuentes usando una lista de parada estndar ylas restantes se reducen a una forma cannicausando el extractor de races de Porter adaptadoal espaol [13].

    5. EvaluacinEn este apartado se describen las tcnicas deevaluacin que hemos aplicado, as como losresultados cuantitativos de la misma y sudiscusin. Los dos aspectos ms importantes dela evaluacin son la construccin de la coleccinde prueba y la eleccin de las mtricas deevaluacin.

    5.1 Coleccin de evaluacinHemos construido una coleccin de evaluacinconsistente en 109 noticias obtenidas en laedicin electrnica del diario ABC electrnico,para un da determinado. Tambin hemosseleccionado tres perfiles de usuarios reales delsistema Hermes, atendiendo a que seanrelativamente distintos entre s, y a que posean

    distintos grados de elaboracin. De este modo, elprimer usuario est interesado en informacindeportiva y en Internet, y posee un perfilrelativamente pobre. El segundo usuario poseeun perfil ms rico, concentrado en temaseconmicos y polticos, mientras que el tercerusuario posee un perfil muy completo que cubretemas econmicos como la bolsa.

    Un experto independiente ha examinado cadanoticia, decidiendo si es relevante o no deacuerdo a los intereses mostrados en cada perfil.Se han encontrado 38, 52 y 78 noticiasrelevantes para cada perfil respectivamente.

    5.2 Mtricas de calidadA fin de determinar la calidad de una serie deresmenes desde el punto de vista de loindicativos que son para juzgar el inters de lasnoticias enviadas por un sistema, es razonablecomparar los resultados de la recuperacin delas noticias completas con respecto a un perfilcon los resultados de la recuperacin de lasmismas cuando slo se utiliza el resumen. Estetipo de evaluacin cuantitativa es caractersticode sistemas de extraccin de resmenes que seenmarcan dentro de un sistema ms complejoque realiza otras funciones, como un sistemas derecuperacin o de filtrado de informacin comoel nuestro.

    La mtrica de evaluacin ms popular en elmarco de la recuperacin de informacin es laprecisin media sobre once niveles de recall[15]. Esta mtrica permite comparar numrica ygrficamente (por medio de una grfica recall-precisin) distintos enfoques de recuperacin.Nosotros calculamos la precisin media y lagrfica recall-precisin de los siguientesenfoques:

    La utilizacin de las noticias completas en larecuperacin.

    La utilizacin de los resmenes generales enla recuperacin, con los parmetros = 0.5y = 0.5 (es decir, se da igual importanciaa las dos heursticas generales).

    La utilizacin de los resmenespersonalizados en la recuperacin, con losparmetros = 0.5 y = 0.5, y = 1, 2, ...,5 (es decir, la heurstica de personalizacines igual de importante que las dosheursticas generales, o el doble, etc.).

    En general, cuanto ms prxima se encuentrala precisin media o la grfica obtenida para un

  • mtodo de extraccin de resmenes a la obtenidausando todo el texto de las noticias, la calidad esmayor porque se retiene ms informacin. Laherramienta de recuperacin utilizada es elmotor de seleccin de noticias para su envo alos usuarios en el proyecto Hermes.

    5.3 Resultados y discusinEn la figura 1 presentamos un grafo recall-precisin comparando los siete enfoquesanteriores, calculada en media para los tresusuarios. En la tabla 1 se muestran los valoresde la precisin media sobre once niveles derecall para cada uno de los enfoquescomparados, sobre cada usuario y en mediasobre stos.

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    0,0 0,2 0,4 0,6 0,8 1,0recall

    prec

    isin

    Texto completo Resumen general Resumen pers. (1)Resumen pers. (2) Resumen pers. (3) Resumen pers. (4)Resumen pers. (5)

    Figura 1.Grfica recall-precisin para los enfoquesevaluados Las etiquetas de la forma Resumenpers.(i) identifican los resultados correspondientesa los resmenes personalizados con valor de = i.

    n rg rp(1) rp(2) rp(3) rp(4) rp(5)u(1) 0,871 0,860 0,861 0,850 0,854 0,859 0,813u(2) 0,957 0,905 0,900 0,890 0,902 0,902 0,905u(3) 0,745 0,591 0,527 0,622 0,638 0,611 0,610

    Media 0,858 0,785 0,763 0,788 0,798 0,791 0,776

    Tabla 1. Valores de precisin medios para cadauno de los enfoques comparados y para cada unode los usuarios y en media. Las etiquetas n, rg yrp(i) identifican los resultados obtenidos utilizandoel texto completo de las noticias, los resmenesgenerales y los personales con valor de = i,respectivamente. La etiqueta u(i) identifica losresultados para el usuario isimo.

    En la figura 1 se puede observar que paravalores bajos y medios de recall, no existediferencia perceptible entre la utilizacin deltexto completo frente al uso de cualquier tipo deresumen en la recuperacin, aunque losresultados son levemente mejores para losresmenes personalizados con = 3. Paravalores altos de recall, es decisivamentepreferible utilizar el texto completo frente autilizar un resumen en la recuperacin, aunquelos resultados son poco homogneos.

    En la tabla 1 se observa gran variacin deresultados dependiendo del usuario, aunque engeneral, los resmenes personalizados sonlevemente mejores en media para = 3. Sinembargo, no existe un valor de ptimo paratodos los usuarios, dependiendo ste de lacantidad de informacin disponible en el perfil, yde la similitud existente entre el perfil delusuario y las noticias disponibles. Por ejemplo,aunque el tercer usuario posee gran cantidad deinformacin en su perfil, sta es poco til paraseleccionar noticias porque incluye variosnombres propios, que raramente aparecen en lasnoticias.

    En general, los resultados son muyalentadores aunque las diferencias son pocosignificativas. Es aconsejable realizar unaevaluacin con un mayor nmero de usuarios ynoticias, que muy probablemente mostrar quees preferible la utilizacin de resmenespersonalizados frente a resmenes generales ensistemas de recuperacin y filtrado deinformacin.

    6.

    Conclusiones y trabajo futuroEn este artculo se ha presentado un sistema deelaboracin de resmenes personalizados en elmarco de un sistema de envo personalizado denoticias llamado Hermes. El sistema deextraccin de resmenes genera resmenesadaptados a las necesidades de informacin delusuario de acuerdo con un perfil en Hermes.Los resmenes obtenidos tienen como finayudar al usuario en la decisin de leer o no eltexto completo de la noticia.

    Los resultados de la evaluacin de la tcnicade extraccin de resmenes personalizados vs.resmenes no personalizados son alentadores.En nuestro trabajo futuro, planeamos mejorarlas tcnicas de extraccin de resmenespersonalizados utilizando nuevas heursticas y

  • la informacin de recursos lxicos comoWordNet y EuroWordNet. Asimismo,realizaremos una evaluacin de la calidad de losresmenes personalizados basada en tcnicasorientadas al usuario y la tarea. Finalmente,portaremos el sistema al idioma ingls, tareaque plantea un coste significativamentepequeo, y evaluaremos nuestras tcnicas deextraccin de resmenes en el contextomultilinge.

    Bibliografa[1] Amato, G., Straccia, U.: User ProfileModeling and Applications to Digital Libraries.In: Proceedings of the Third EuropeanConference on Research and AdvancedTechnology for Digital Libraries, Paris, France(1999)[2] Baeza-Yates, R. and Ribeiro-Neto, B.(1999). Modern Information Retrieval. ACMPress Books, New York.[3] Billsus, D., Pazzani, M.J.: A Hybrid UserModel for News Story Classification. In:Proceedings of the Seventh InternationalConference on User Modeling, Banff, Canada(1999)[4] Buenaga, M., Gmez, J.M. and Daz B.(1997) Using WordNet to ComplementTraining Information in Text Categorization. InProceedings of the Second InternationalConference on Recent Advances in NaturalLanguage Processing (RANLP).[5] Chen, L., Sycara, K.P.: WebMate: APersonal Agent for Browsing and Searching. In:Proceedings of the Second InternationalConference on Autonomous Agents,Minneapolis, (1998)[6] Daz Esteban, A., Gervs Gmez-Navarro,P., Garca Jimnez, A.: Evaluating a User-Model Based Personalisation Architecture forDigital News Services. In: Proceedings of theFourth European Conference on Research andAdvanced Technology for Digital Libraries,Lisbon, Portugal (2000)[7] Edmundson, H.P. 1969. New Methods inAutomatic Abstracting. Journal of the ACM,16(2):264-285.[8] Hahn, Udo and Inderjeet Mani. 2000. TheChallenges of Automatic Summarization.Computer, 33(11):29-36.[9] Hahn, Udo and Ulrich Reimer. 1999.Knowledge-Based Text Summarization:Salience and Generalization Operators for

    Knowledge-Based Abstraction. In Mani, I. andMaybury, M.T. (eds.), Advances in AutomaticText Summarization, 215-232. The MIT Press,Cambridge, Massachusetss.[10] Kupiec, Julian, Jan O. Pedersen, andFrancine Chen. 1995. A Trainable DocumentSummarizer. In Proceedings of the 18th AnnualInternational ACM/SIGIR Conference onResearch and Development in InformationRetrieval, 68-73, Seattle, Washington.[11] Mani, Inderjeet and Mark T. Maybury(eds). 1999. Advances in Automatic TextSummarization. The MIT Press, Cambridge,Massachusetss.[12] Maa, Manuel J., Manuel de Buenaga, andJos Mara Gmez. 1999. Using and EvaluatingUser Directed Summaries to ImproveInformation Access. In S. Abiteboul and A.M.Vercoustre (eds.), Proceedings of the ThirdEuropean Conference on Research andAdvanced Technology for Digital Libraries(ECDL'99), Lecture Notes in ComputerScience, Vol. 1696, 198-214, Springer-Verlag.[13] Porter, M.F. An algorithm for suffixstripping. Program, 14(3): 130-137[14] Salton, G., J. Allan, C. Buckley, and A.Singhal. 1994. Automatic Analysis, ThemeGeneration and Summarization of Machine-Readable Texts. Science, 264, 1421-1426.[15] Salton, G. (1989). Automatic TextProcessing: the transformation, analysis andretrieval of information by computer. AddisonWesley. 1989[16] Sebastiani, F. "A Tutorial on AutomatedText Categorisation". Proceedings of the FirstArgentinean Symposium on ArtificialIntelligence (ASAI-99)[17] Teufel, Simone and Marc Moens. 1997.Sentence extraction as a classification task. EnProceedings of ACL/EACL Workshop onIntelligent Scalable Text Summarization,Madrid.[18] Yan, T.W., Garcia-Molina, H.: SIFT ATool for Wide-Area InformationDissemination. In: Proceedings of the USENIXTechnical Conference, (1995)