Resumen Automático - Computer Science...

28
<Resumen Automático> <Inteligencia Artificial> Oscar Miras Ortiz 19/01/2009 Resumen Automático Inteligencia Artificial

Transcript of Resumen Automático - Computer Science...

<Resumen Automático><Inteligencia Artificial>

Oscar Miras Ortiz 19/01/2009

Resumen Automático

Inteligencia Artificial

<Resumen Automático><Inteligencia Artificial>

– (piiip). Tiene 1 mensaje de voz nuevo.– Sr López.... su mujer …..espera.... en casa.... 21:00 h ….(piiip) – fin del mensaje.– Es increíble. - murmura el Sr López con satisfacción – si no fuera por el nuevo dispositivo

de auto resumen de audio que instalé, tendría que haber aguantado el cacareo de mi secretaria durante 2 minutos para comunicarme lo mismo.

<Resumen Automático><Inteligencia Artificial>

Índice de contenidos1. Introducción......................................................................................................................................4

1.1 Situación de las técnicas de auto resumen.................................................................................42. El texto..............................................................................................................................................5

2.1 Características del texto para auto resumen...............................................................................52.2 Organización y descomposición del texto.................................................................................62.3 Técnicas de derivación del texto................................................................................................72.4 Resumen ...................................................................................................................................8

3. Arquitectura del auto resumen..........................................................................................................93.1 Introducción: Modelando el auto resumen................................................................................93.1.1 Técnicas de auto resumen.......................................................................................................93.2 Módulos. Visión global............................................................................................................10

3.2.1 Modulo de procesamiento del lenguaje...........................................................................103.2.2 Modulo de identificación de conceptos relevantes..........................................................113.2.3 Modulo de selección de conceptos. .................................................................................123.2.4 Modulo de redacción del auto resumen: .........................................................................13

4. Ejemplos.........................................................................................................................................144.1 Programas Usados....................................................................................................................144.2 Textos analizados.....................................................................................................................16

4.2.1 Wikipedia: Barcelona. Apartado “Economy” .................................................................164.2.2 BBC NEWS: La toma de posesión de Barack Obama.....................................................184.2.3 AbcNews: Entrevista con Steve Jobs ( extracto )............................................................22

4.3 Ejemplos extremos...................................................................................................................254.3.1 El Hobbit .........................................................................................................................254.3.2 Tarzán de los monos.........................................................................................................25

5. Conclusiones...................................................................................................................................266. Referencias.....................................................................................................................................27

<Resumen Automático><Inteligencia Artificial>

1. Introducción

Después de buscar varias definiciones , podríamos definir Según el diccionario en línea de Cambridge 2007; define el auto resumen como "una corta y clara descripción de los echos o ideas de alguna cosa". El auto resumen va más allá de la simple aplicación a la que estamos acostumbrados como extractor de la parte relevante de un texto.El creciente volumen de información que dispone Internet ( se estima que crece a un ritmo de un 30% anual )1 ;provoca un fenómeno que es conocido como : la sobrecarga de información. Toman entonces relevancia más que nunca las técnicas de auto resumen; tantopara profesionales que necesitan en poco tiempo la información mas importante sobre un tema; o para grandes empresas como Google que usan las técnicas de auto resumen en sus motores de búsqueda.

1.1 Situación de las técnicas de auto resumen

Cuando los humanos hemos querido volar; nos hemos fijado en otras especies para averiguar como se las arreglaban para vencer las leyes de la gravedad y levantar el vuelo.

Básicamente, lo que se persigue creando arquitectura y herramientas de auto resumen; es copiar la manera que los humanos tienen de abstraer la información relevante de un texto. La mayoría de estudiosos que han profundizado sobre este tema, identifican generalmente 4 pasos a la hora de definir un proceso de resumen:

1. Determinar que elementos del texto son relevantes (verbos, nombre propios, siglas?)

2. Identificar los conceptos relevantes a través de la aplicación de una serie de reglas (repetición de elementos, relaciones, etc..)

3. Extraer, reducir y ordenar la información relevante seleccionada; y transformarla en unidades coherentes por si mismas.

4. Ordenar y refinar el nuevo texto.

Existe también discusión entre los diferentes autores de cuan independiente puede ser un texto de la metodología que se use para resumir el mismo. Esto es, que hay autores que realmente piensan que es posible crear una herramienta de auto resumen, que a partir de algunos parámetros de entrada, puede resumir cualquier tipo de texto. Otros autores sin embargo, piensan que para cada tipo de texto, la herramienta de auto resumen debería poder interpretar y “entender” el tipo de texto con el que está trabajando.

Hasta los años 70 ; las técnicas de auto resumen estaban más bien pensadas para documentos simples. Hoy en día el auto resumen se busca para todo tipo de temas ( científicos, legales, etc.); y además, para cualquier idioma.

1 http://www.amazings.com/ciencia/noticias/041103b.html

<Resumen Automático><Inteligencia Artificial>

2. El texto

2.1 Características del texto para auto resumenAntes de entrar de lleno en el tema, vamos a tratar de clasificar los aspectos importantes que

tiene un texto en cuanto el auto resumen se refiere. Vamos a comentar aquí las partes en las que se puede dividir un texto en cuanto nos puede interesar de cara a las técnicas y herramientas de auto resumen:

• Estructura del texto: Si el texto se compone en capítulos, secciones o pares del estilo nombre – definición ( un diccionario, por ejemplo ). Cualquier aspecto de la estructura que nos ayude en nuestra objetivo , que es identificar las partes relevantes del texto, lo tendremos en cuenta. En otras casos , es posible que el texto o no siga ninguna estructura, o ésta no sea relevante para el auto resumen. En tal caso, no tendremos en cuenta la estructura del documento.

• Dominio: es de esperar que las herramientas de auto resumen sean de propósito general, es decir, que puedan resumir cualquier tipo de texto. Sin embargo , crear algunas herramientas destinadas a tipos de texto en concreto , puede ayudar mucho en la tarea. Mientras que con herramientas de auto resumen no especializadas, se corre el peligro de producir errores semánticos debido a que es computacionalmente imposibles de resolver;2 con las especializadas tenemos otro tipo de problemas: hemos de tener en cuenta toda la terminología que usan sobre el tema especializado que tratan. Esto podría ser equivalente a tener que crear una base de echos muy grande ; y no solo eso, sino que necesaria de una actualización constante en función del tema del texto que se trate. 3

• Granularidad: Podríamos describir la granularidad del auto resumen como en las porciones de texto que nos vamos a concentrar para realizar el resumen. Esto es, que parte del texto original vamos a dividir para aplicar las técnicas de auto resumen. Por ejemplo, en relatos cortos como artículos periodísticos, seria suficiente con resumir frase por frase, mientras que en un libro, que contiene mucho mas texto, parece mas lógico resumir párrafo por párrafo. Se espera así, que no perdamos el contexto de lo que estamos leyendo, y es de suponer, que cuanto más largo sea el texto, mayor sera el número de información que podemos llegar a eliminar sin perder el significado de lo que queremos resumir.

• Medio: A pesar de que el auto resumen esta focalizado a su uso en textos, también hay técnicas que se aplican sobre el audio y por imágenes. Esta área aún no está tan extendida debido a las dificultades del reconocimiento por voz, que se le añade los problemas propios de las técnicas de auto resumen, que ya hemos podido ir vislumbrando. Normalmente se usa una técnica intermedia que consiste en reconocer la voz para escribirla en un documento de texto, que más tarde será resumido.

• Audiencia: Es importante también considerar para quien va dirigido el resumen. No es lo mismo enfocar un resumen para alguien que conoce el tema, o para alguien que ya lo conoce: seguramente podremos eliminar muchas mas partes en este último caso. Por defecto, se suele considerar que el conocimiento sobre el tema del usuario es regular. Si un

2 Por ejemplo, el buscar todos los posibles significados válidos de una palabra en el contexto de una frase.3 Por ejemplo, echo 1: una gallina es un ave. Echo 2: un loro es un ave. Se ha descubierto que los pinguinos son un

ave; entonces es necesario actualizar la base de echos con esa información.

<Resumen Automático><Inteligencia Artificial>

usuario se empeña en querer entender un texto científico sobre un tema que no conoce en absoluto; ahí ya no podemos hacer nada4.

2.2 Organización y descomposición del texto

Centrémonos ahora en una pre-proceso importante en la tarea del auto resumen: en que maneras se puede dividir el texto; sobretodo orientado a crear “clausulas” o “elementos mínimos de análisis” ; para su posterior análisis y procesamiento por la herramienta de análisis automático.

• Las unidades elementales del texto son fragmentos que no se solapan: Son muchas las maneras que los investigadores de ésta materia tratan de encontrar las unidades elementales : por frases, por cláusulas , segmentos de discurso etc... pero todos están de acuerdo que éstas partes tienen que ser partes del texto que no se solapen, esto es , que ninguna parte de una unidad elemental esta dentro de otra unidad elemental. Por ejemplo, en el siguiente texto, lo separaremos por cláusulas5 :

• Mantener relaciones entre diferentes elementos del texto: Es importante identificar que elementos relacionan unas partes del texto con otra. En éste punto nos centramos en aquellos elementos que aportan significado o relación a otros . Por ejemplo , podríamos definir que la relación consecuencia , relaciona las cláusulas 4) y 5) del texto anterior, porque la cláusula 4) denota una consecuencia de la cláusula 5.

• No todas las partes del texto tienen la misma importancia: Es uno de los factores que más en cuenta tiene un humano al resumir un texto: identificar las partes importantes del texto. Por ejemplo, si sobre un concepto no se aportan demasiados datos en forma de : complementos, adjetivos, oraciones subordinadas, etc; es de esperar que es concepto no sea demasiado importante. Otra factor para incrementar la importancia de un concepto; sería por ejemplo contabilizar la frecuencia de aparición del mismo durante el desarrollo del texto.

• La estructura de los textos se puede representar en forma de árbol: Los árboles son considerados una de la mejor manera para representar la separación de los elementos del texto. Un ejemplo de árbol del texto anterior sería el siguiente:

4 Sin ir más lejos, no hubiera tenido sentido para el autor de este documento el resumen de las diferentes fuentes de información que ha consultado, pues tenia una idea muy vaga sobre el tema.

5 Clausula: oración o proposición gramatical, conjunto de palabras con sentido completo.

1) En la mitología griega, 2) una gorgona (en griego antiguo γοργώ gorgō o γοργών gorgōn, ‘terrible’) era un despiadado monstruo femenino, 3) a la vez que también era una deidad protectora procedente de los conceptos religiosos más antiguos.4) Su poder era tan grande que cualquiera que intentase mirarla quedaba petrificado, 5) por lo que su imagen se ubicaba en todo tipo de lugares

<Resumen Automático><Inteligencia Artificial>

2.3 Técnicas de derivación del textoEn el capitulo anterior explicamos que conceptos son importantes para resumir el texto, pero

no hablamos de como obtener esta separación y estructuración de los conceptos. Puesto que tratamos de automatizar una tarea, resulta lógico dejar esta tarea a un algoritmo . Hay dos formas generales de hacerlo:

• Aprovechar la estructura natural del texto para identificar estructuras validas. Esto es, por ejemplo, basarse en las reglas gramaticales propias de la lengua del texto. Tiene por ventaja este método que es independiente del modo que queramos analizarlo : un verbo siempre será un verbo, y un sujeto siempre será un sujeto; por lo que la entrada es independiente del algoritmo que queramos aplicar para realizar la estructuración del texto

• Reescribimos nosotros las reglas gramaticales . Esto nos da la ventaja de que vamos a tener un control mas grande sobre la entrada, pero perdemos la independencia que nos permitía aplicar diversos algoritmos en la entrada.

Una manera de hacer ésto último, es pasar un texto estructurado a una gramática de la Forma Normal de Chomsky; y a partir de ahí, analizar el texto para identificar las estructuras que son validas; e identificar las relaciones entre uno y otros conceptos.

No es el objeto de este documento explicar estos algoritmos, por lo que no veremos como funcionan estos algoritmos mas detalladamente.

1) En la mitología griega, 2) una gorgona (en griego antiguo γοργώ gorgō o γοργών gorgōn, ‘terrible’) era un despiadado monstruo femenino, 3) a la vez que también era una deidad protectora procedente de los conceptos religiosos más antiguos.4) Su poder era tan grande que cualquiera que intentase mirarla quedaba petrificado, 5) por lo que su imagen se ubicaba en todo tipo de lugares

1) En la mitología griega, 2) una gorgona (en griego antiguo γοργώ gorgō o γοργών gorgōn, ‘terrible’) era un despiadado monstruo femenino, 3) a la vez que también era una deidad protectora procedente de los conceptos religiosos más antiguos

4) Su poder era tan grande que cualquiera que intentase mirarla quedaba petrificado, 5) por lo que su imagen se ubicaba en todo tipo de lugares

PARRAFO

4) Su poder era tan grande que cualquiera que intentase mirarla quedaba petrificado,

5) por lo que su imagen se ubicaba en todo tipo de lugares

CONSECUENCIA

<Resumen Automático><Inteligencia Artificial>

2.4 Resumen Llegados a este punto , hemos identificado varios conceptos a tener en cuenta de cara al

autor sumen. Uno, que el texto para ser analizado debe dividirse en diferentes partes. Normalmente estas partes son exclusivas unas de otras; y su finalidad es facilitar la tarea a los diferentes algoritmos y métodos que más tarde emplearemos para realizar el auto resumen.

De manera similar, hemos visto que hay relaciones entre los conceptos; y que algunos conceptos son mas importantes que otro. Este punto nos va a determinar que partes del texto son importantes, y que partes no lo son tanto; y en consecuencia, eliminarlas del texto una vez realizado el auto resumen.

Existen diversas técnicas para identificar estas estructuras. Están basadas en la utilización de algoritmos; unos que proporcionan una independencia de la entrada sobre el algoritmo usado, y otros que permiten una mayor control de la estructura del texto.

<Resumen Automático><Inteligencia Artificial>

3. Arquitectura del auto resumen

3.1 Introducción: Modelando el auto resumen.Hemos comentado en la sección 2.1 algunos de los aspectos a tener en cuenta del texto a la

hora de realizar el auto resumen. A estos aspectos le podríamos añadir una serie de restricciones u opciones que el usuario puede aplicar sobre el auto resumen que quiere obtener:

• Resultado del auto resumen: Un resumen no siempre tiene que venir dado de forma natural que conocemos. Es posible que la respuesta una vez auto resumido consista en frases, lista de la palabras, o una simple respuesta de texto a partir de una pregunta que el usuario haya formulado.

• Tamaño: Se puede acotar el groso de auto resumen que queremos obtener, por ejemplo, a partir del % de mínimo o máximo de palabras eliminadas de todo el texto.

• Filtros: Podemos escoger específicamente que palabras no queremos que aparezcan en el auto resumen.

• Formato final: El formato final no tiene porque ser siempre texto. En el apartado 2.1 hemos comentado que en teoría, podríamos reducir cualquier tipo de formato ( voz, video, audio). De todas maneras, en este documento nos centraremos tan solo en el formato textual.

3.1.1 Técnicas de auto resumenEn la sección 2.1 comentábamos que hay diferentes tipos de texto que podemos llegar a

resumir. Así, si también de esperar que existan diversas técnicas y herramientas a la hora de analizar los diferentes tipos de texto que podemos llegar a resumir.

Por ejemplo, si simplemente queremos resumir un texto general, una historia o narración, podemos usar una técnica de Aprendizaje Automático, esto es, a medida que vayamos adentrándonos en la historia ; iremos reconociendo que partes de la misma son más relevantes , y cuales no.

Si por el contrario, lo que necesitamos es resumir otro tipo de texto como por ejemplo un dialogo, tendremos que usar otro tipo diferente para realizar con éxito el resumen.

Esto no quiere decir que se tengan que usar las técnicas de forma excluyente, pero si es cierto que hay adaptaciones para cada tipo de texto que pueden dar un resultado mejor que no usar un Aprendizaje Automático genérico para cualquier tipo de texto, por ejemplo.

Así, también serán diferentes las operaciones que a cada tipo de texto se aplique a la hora de resumirlo. Por ejemplo, al analizar un texto científico, quizás lo más importante es primero identificar los conceptos importantes, eliminar las partes no relevantes; y finalmente sintetizar todo en un nuevo texto como salida del auto resumen. Pero para otro tipo de textos, como pudiera ser un dialogo, el echo de irnos “comiendo” conceptos demasiado rápido, puede hacernos perder el hilo de la conversación . En éste caso, lo mejor sería en esperar mucho más a la hora de aplicar la eliminación de concretos, e ir enriqueciendo a cada linea de dialogo, una estructura que guarde todos los conceptos que vayan apareciendo; para cada cierto tiempo reducirlos y re-ordenarlos cada cierto tiempo.

Todo esto es un poco denso de explicar sin usar lenguaje especializado; así que ilustraremos con un ejemplo la idea:

<Resumen Automático><Inteligencia Artificial>

– Hola Don Petito. estructura= {Hola (don,Pepito)}

– Hola Don José. estructura= {Hola (don,Pepito)},{Hola(don,José)}

– ¿Pasó ayer usted por mi casa? estructura= {Hola (don,Pepito)},{Hola(don,José)}, {verbo=pasó, CD=Pepito, CCT=ayer CCL=por mi casa }

– Por su casa ayer yo pasé. estructura= {Hola (don,Pepito)},{Hola(don,José)}, {verbo=pasé, CD=José, CCT=ayer CCL=por su casa }

Es un ejemplo muy básico que no pretende ser exacto ni con la técnica ni con la representación. Identificamos dos conceptos durante el dialogo que se repiten ¿hace realmente falta guardar dos veces que ayer se pasó por la casa de Don Pepito? Un herramienta de auto resumen, podría identificar que hay dos conceptos repetidos que no aportan, durante el dialogo, más información por muchas veces que se repita; y que están orientados más bien a recordar al lector por donde pasó Don José.

3.2 Módulos. Visión global.Igual que nos ocurría cuando comentábamos que habían muchas maneras de estructurar

( preparar ) un texto para realizar el auto resumen; también hay muchas formas de identificar cuales son las fases que el texto debe pasar para realizar el auto resumen: esto es, en que punto vamos a realizar las diferentes tareas para conseguir nuestro objetivo: analizar el texto, identificar los conceptos relevantes, identificar las relaciones, evaluar, reducir o clarificar el texto, etc.

Lo que si podemos es hacer es enumerar las fases generales en los que podemos dividir el trabajo de resumir un texto; y lo podríamos ver como una serie de módulos el cual cada uno tiene una función específica, y la salida de uno suele ser la entrada de otro.

Ésta arquitectura que pretendemos abstraer aquí, pretende dar una idea de la arquitectura propuesta por María Fuentes Font ( ver referencias ). Aún así , puesto que el texto está destinado para todo tipo de público, se van a omitir muchos tecnicismos y se van a tomar ciertas licencias a al hora de explicar algunos aspectos de la arquitectura; por lo que no pretende este documento explicar fielmente como funciona la arquitectura de auto resumen creada por la citada autora.

3.2.1 Modulo de procesamiento del lenguajeÉste modulo es el que se encarga de procesar el texto para definir las estructuras validas , a

partir del tipo de texto que queremos resumir ( sección 2.1 ). En este modulo podríamos incluir también las diferentes herramientas y algoritmos que utilizaríamos para realizar esta tarea ( sección 2.3 ). La información es dividida y transformada en tokens6.

Generalmente se crean dos tipos de estructuras del texto inicializado a partir de los tokens extraídos, una que hace referencia a la sintaxis del texto y otra a la semántica. Mientras que en el primer caso se suele representar con una lista de dependencias asociadas a cada concepto, en el segundo caso suele adoptar una estructura de grafo que representa las relaciones entre los diferentes conceptos.

Esta forma de proceder no es una coincidencia que se parezca tanto al análisis gramatical

6 Unidades independientes que arbitrariamente decidimos dividir el texto. Un token podría ser una cláusula ; pero no tiene porque ser siempre así.

<Resumen Automático><Inteligencia Artificial>

que usan otras herramientas, tal como ANTLR. Puesto que debemos dividir el texto en tokens; es necesario saber que partes del mismo son válidas a su vez. En éste punto nos damos cuenta que el

análisis gramatical no es más que un pre proceso para realizar el auto resumen: cuanto mas mal formada éste la información de entrada, más difícil será el trabajo de éste módulo; pues al trabajo de identificar las estructuras del texto, tendrá que decidir las que no son validas, y decidir si quedarse con ellas o no.

3.2.2 Modulo de identificación de conceptos relevantesÉste es el modulo encargado de, a partir de la entrada del módulo anterior, descubrir que

conceptos del texto son importantes, y puntuarlos ( palabras, frases o incluso párrafos enteros del texto).

Una manera de hacer esto es ir identificando que conceptos se repiten, e incluso, que conceptos están diciendo lo mismo que otros. Para realizar esta tarea nos ayudaremos de las relaciones que se pueden establecer entre los diferentes conceptos (ampliamente comentado en apartados anteriores). Podríamos refinar un poco más estas relaciones, y decir que hay dos tipos; las que están limitadas al texto que estamos tratando en cuestión ( y que por lo tanto dependientes del texto ); y otras que no. Por poner un ejemplo:

El gato come pescado ; es de esperar que lo que sea que come el gato sea un alimento. La relación entre comer y su consecuente es un alimento; que podemos definir, por ejemplo, en nuestro lexicon7 del apartado 3.2.1 ; y crear las reglas gramaticales necesarias para que sea valida.

El gato come pescado. Mas tarde el gato comió carne. En este caso, el texto se esta refiriendo al mismo gato; no a un gato cualquiera. La relación se establecido al hablar de “el gato” en vez de “un gato”. Si no hay mas texto; en analizador debería detectar que el segundo token “gato” es exactamente el mismo concepto que el primer token “gato”; y establecer las relaciones correspondientes.

El procedimiento de adquisición de estos conceptos es el siguiente:

1. Primero se identifican un conjunto de conceptos candidatos a ser elegidos en un segmento limitado de texto ( por ejemplo , una frase)

2. Seguidamente, se intenta buscar algunas relaciones entre el resto del texto

3. Si finalmente se encuentran, se establecen dichas relaciones, y se actualiza la cadena

7 Un posible sinónimo de lexicon sería “vocabulario”, es decir, la parte de la gramática donde decidimos si una palabra en concreto es un nombre, un determinante, si es un número, etc.

Maria

Juan

Pedro

Ama aDesconfia de

Conoce a

<Resumen Automático><Inteligencia Artificial>

de relaciones entre los conceptos.

Vamos a ilustrar esto con un ejemplo:

El Gabinete de seguridad de Israel tiene previsto votar a favor de la propuesta para detener la ofensiva militar en Gaza sin un acuerdo previo con Hamás, tal y como ha confirmado un oficial israelí a la agencia Reuters, pero los milicianos islamistas han anunciado que continuarán luchando pese al alto el fuego unilateral desde Tel Aviv.

"La batalla no ha acabado y no terminará con el cese de la agresión (israelí), sino con el fin de la ocupación", ha afirmado el dirigente de Hamás en Líbano, Osama Hamdán, dentro del Foro de apoyo a la resistencia, en el que participan representantes de todo el mundo, y que se inauguró ayer en el palacio de la UNESCO en Beirut. El cabecilla de Hamás ha asegurado además que las exigencias de su milicia siguen en pie antes de aceptar un alto el fuego: cese de la agresión israelí sobre Gaza, levantamiento del bloqueo y la apertura de los pasos fronterizos de la franja.

El módulo ha escogido hasta la primera coma para identificar la primera cadena válida de texto; lo denotamos por un recuadro rojo. ( punto 1 del procedimiento). Vemos que ha seleccionado en amarillo 3 conceptos : Israel, Gaza y Hamás. Un posible motivo es que al ser nombre en mayúsculas los ha identificado como elementos importantes. Mas tarde, al seguir analizando el texto, encuentra mas ocurrencias sobre el mismo ( punto 2).

En este momento entra en juego el punto 3 del procedimiento. Puesto que “Gaza” es un elemento importante en el texto, el modulo intenta ver si los conceptos conectados a “Gaza”; aparecen más veces en el texto ; y si dan algún tipo de información extra. Vemos que más adelante se hace referencia a “una agresión israelí sobre Gaza”. Si la modulo identificara agresión como sinónimo de ofensiva ( que en realidad lo son ) ; podría establecer una relación entre estos dos conceptos. Es más, en este punto también podría deducir que la agresión proviene de “Israel”, que es otro de los conceptos importantes identificados.

Algo similar pasa con “Hamas”; donde también se hace referencia continuada “dirigente o cabecilla” de éste concepto; y le pone un nombre y lo sitúa. Este trozo de texto rodeado por un circulo verde podría ser candidato también a ser incluido en esta cadena de relaciones relevantes; quizás en un paso siguiente de análisis.

Puntuando

Para haber echo esta selección, se ha necesitado previamente un proceso de selección. Normalmente se utiliza algún heurístico para esta labor, donde la puntuación podría depender, por ejemplo, del número de ocurrencias de la palabra candidata, o del tipo de relación que tiene dicha palabra seleccionada ( es idéntica a otra, es un complemento de un concepto seleccionado, etc...)

3.2.3 Modulo de selección de conceptos.Una vez puntuados los conceptos, el siguiente módulo se encargará de elegir cuales van a ser

puestos finalmente en el auto resumen y cuales no. Algunos de los heurísticos por los que se puede guiar, pueden venir dados por ejemplo por el tipo de texto que se quiere resumir ( Dominio ) ; o tal como hemos comentado con anterioridad, para que tipo de Audiencia va dirigido.

Por ejemplo, una forma de puntuar y más tarde seleccionar estos conceptos, es usar el

<Resumen Automático><Inteligencia Artificial>

algoritmo de PageRank de Google, para ver cuan relevante es concepto ( muy útil podría resultar si nuestro resumidor8 automático esta diseñado para resumir noticias, pues tendrá muchos datos para puntuar los conceptos seleccionados y relacionados ). Existe una amplia área dedicada a explotar los mecanismos con los que Google indexa por relevancia las paginas importantes ( a grosso modo; si en ellas encuentran los conceptos que buscamos y si esas páginas han sido enlazadas desde otras páginas). Entonces, si cambiamos páginas relevantes por conceptos relevantes; tenemos que el algoritmo de PageRank nos puede ayudar en nuestra labor de auto resumen.

También se pueden usar otros criterios de selección independientes de cualquier tipo de otros resultados empíricos; esto ya, depende del Dominio y del Formato; entre otras variables, del documento a resumir.

3.2.4 Modulo de redacción del auto resumen: Es el paso final del proceso, ya su salida tenemos el resultado del mismo; resumen. Este

punto puede ser más o menos elaborado, y se vera condicionado también por los puntos comentados en la sección 3.1

Básicamente lo que se hace aquí es coger la salida del módulo anterior y organizar el texto para darle la misma coherencia gramatical que tenia anteriormente; claro que, esta vez resumido.

8 Voy a tomar la licencia de usar el término 'resumidor' a una persona o programa que resume un texto.

<Resumen Automático><Inteligencia Artificial>

4. EjemplosNo podíamos dejar éste documento sin mostrar algunos resúmenes que programas

comerciales y gratuitos pueden hoy en día pueden llegar a crear. Aplicaremos, sobre un mismo texto, diversas herramientas de auto resumen para ver que tal funcionan.

Dividiremos este apartado en 3 partes, la primera, enunciaremos los programas que vamos a usar para realizar las pruebas. Segundo, analizaremos una serie de textos de diferentes características y que tratan temas distintos. Por último, algunos ejemplos extremos y curiosos encontrados por Internet.

4.1 Programas Usados• Auto resumen de Microsoft Word : quizás uno de los más conocidos; debido a la alta

difusión y conocimiento de Microsoft Word. La versión que vamos a usar es la más moderna, la del 2007.

Destaca Microsoft Word en que nos hace un “preview” de cuantas palabras nos va a quedar; así como nos permite simplemente señalar los conceptos relevantes del texto; crear un documento nuevo con el auto resumen, o borrar todo el documento y dejar solo el auto resumen.

• Copernic Summarizer: Este programa es exclusivamente dedicado a resumir textos; no solo en formato de texto plano (copy & paste en su espacio de trabajo); sino que es capaz de reconocer formatos de documentos .doc. odt o pdf; e incluso, páginas web completas. También es capaz de incorporarse a clientes de correo tan conocidos como Microsoft Outlook o Thunderbird.

<Resumen Automático><Inteligencia Artificial>

Como podemos apreciar , Copernic es algo más configurable que Microsoft Word. También nos da mas algo mas de feedback; mostrándonos en una columna a la izquierda los conceptos relevantes encontrados en el texto; y pudiendo configurar el número de ellos que queremos considerar a la hora de realizar el auto resumen.

• Herramienta Online de Resumen de la pagina web : Tools 4 Noobs

Este herramienta encontrada en esta peculiar web; es incluso más configurable que Copernic; pues nos permite determinar el número mínimo de letras que tiene que tener un concepto para ser considerado “relevante”.

<Resumen Automático><Inteligencia Artificial>

He incluido ésta herramienta porque es una de las primeras que devuelve Google cuando buscamos este tipo de herramientas; y es peculiar por ser gratuita y en linea (es de esperar que si Google; a través de su algoritmo de PageRank la ha llevado a los primeros puestos; será porqué mucha gente la enlaza y/o la utiliza)

4.2 Textos analizadosHemos decidido analizar 3 tipos de texto en esta sección: una descripción común, una

noticia; y un dialogo entre personas. Todos ellos están en inglés; debido a que la mayoría de las herramientas que he ido encontrando están diseñadas para ese idioma; por lo que he preferido sacrificar el explorar que tal funciona el auto resumen en español de Word ; para poder comparar los textos con diversas herramientas de auto resumen.

4.2.1 Wikipedia: Barcelona. Apartado “Economy” 9

El primer texto a analizar es un texto meramente descriptivo ; que enuncia una serie de datos, y consecuencias, de la situación económica actual de Barcelona.

Barcelona has a long-standing mercantile tradition. Less well known is that it was one of the earliest regions in continental Europe to begin industrialization, beginning with textile related works at the end of the eighteenth century but really gathering momentum in the mid nineteenth century, when it became a major center for the production of textiles and machinery. Since then, manufacturing has played a large role in its history. The traditional importance in textiles is still reflected in Barcelona's importance as a major fashion center. In summer 2006, Barcelona became an host for the prestigious Bread & Butter urban fashion fair.

As in other modern cities, the manufacturing sector has long since been overtaken by the services

9 http://en.wikipedia.org/wiki/Barcelona#Economy

<Resumen Automático><Inteligencia Artificial>

sector, though it remains important. The most important industries today are textile, chemistry, pharmaceutical, motor, electronic and printing. In the services sector, the most important are the logistics, publishing, telecommunications and computer sectors.

Drawing upon its tradition of creative art and craftsmanship, Barcelona is nowadays also known for its award-winning industrial design. Barcelona also has several congress halls, notably Fira de Barcelona (Trade Fair), that host a quickly growing number of national and international events each year, which had also meant the opening of new hotels each year. The Port of Barcelona is an important Mediterranean port, both for general containers cargo and for cruise ships.

Barcelona has one of the highest costs of living in Spain, and occupying the 31st position in the world rank according to a report by Mercer Human Resource.

• Resultado de auto resumen con Microsoft Word:Barcelona has a long-standing mercantile tradition. The traditional importance in textiles is still reflected in Barcelona's importance as a major fashion center. In summer 2006, Barcelona became an host for the prestigious Bread & Butter urban fashion fair.

In the services sector, the most important are the logistics, publishing, telecommunications and computer sectors.

• Resultado de auto resumen con Copernicus:Less well known is that it was one of the earliest regions in continental Europe to begin industrialization, beginning with textile related works at the end of the eighteenth century but really gathering momentum in the mid nineteenth century, when it became a major center for the production of textiles and machinery.

In summer 2006, Barcelona became an host for the prestigious Bread & Butter urban fashion fair.

As in other modern cities, the manufacturing sector has long since been overtaken by the services sector, though it remains important.

• Resultado del resumidor automaatico Online: Tool 4 Noobs:The traditional importance in textiles is still reflected in Barcelona's importance as a major fashion center. (22)

Barcelona also has several congress halls, notably Fira de Barcelona (Trade Fair), that host a quickly growing number of national and international events each year, which had also meant the opening of new hotels each year.

Conclusion: El resumidor 1 y resumidor 3 son los que sacan resúmenes mas parecidos. Copernicus prefiere dar algo mas de rodeo , y hace una historia completa de la trayectoria industrial de Barcelona. Esto hace que su resumen sea más largo, y verdaderamente , no aporte mucha más información relevante que los demás. También parece que para Microsoft Word y Copernicus, las fechas concretas son importantes; reflejado en que los dos nombran el evento Bread & Butter que tuvo lugar en Barcelona el año 2006. El tercer analizador ignora ésta fecha; y simplemente habla del creciente número de eventos que se organizan en Barcelona año tras año.

<Resumen Automático><Inteligencia Artificial>

4.2.2 BBC NEWS: La toma de posesión de Barack Obama.10

Éste va a ser el texto mas largo que vamos a analizar. Tenemos que hacerlo así para comprobar cuan buenos son los analizadores que estamos comparando cuando el texto es relativamente largo. Recordar que el resumen de noticias es uno de los aspectos por los que se usa más el auto resumen.

High security for Obama's inauguration By Jonathan Beale BBC News, Washington

There was a time when a US president could travel from his inauguration in an open-top car. John F Kennedy was the last president to do that.

He was also the last president to be sworn into office without the protection of a bullet proof screen.

Those days have long gone.

Secret Service agents now swarm a new president's blast-proof limousine as it travels along Pennsylvania Avenue.

But the inauguration still presents a security nightmare.

And Barack Obama's inauguration on Tuesday will provide the biggest challenge yet.

Biggest fear

There have already been painstaking preparations, with rehearsals for security officials - not just for the military precision of the ceremony and the parade.

At a US military base in Washington they have been planning for any eventuality for the past six months.

Huge satellite maps of the centre of Washington dominate the control room at Fort McNair.

On the day itself they will be able to track the new president's every move - and the huge crowds expected to watch.

They are hoping for the best, but preparing for the worst.

Major General Richard Rowe takes me through the possible scenarios: a major power failure, a car bomb or multiple ones, a cyber attack, the collapse of a bridge, and panic among the crowd.

He says his biggest fear would be a biological, chemical or radioactive attack.

But they are ready for anything.

Outside the control room, members of the US coastguard show off the latest sensors to detect such a device.

This is only the second inauguration to take place since the attacks on 11 September 2001.

And Major General Rowe reminds me that America is still at war.

In the skies above Washington there is already a sober reminder - helicopters on patrol.

On the big day they will be joined by fighter jets.

10 http://news.bbc.co.uk/2/low/americas/obama_inauguration/7834799.stm

<Resumen Automático><Inteligencia Artificial>

Along Washington's waterways the coastguard will be watching from high speed boats.

Snipers will be positioned on the rooftops near the Capitol building and along the parade route.

Roads and bridges into Washington will be closed to traffic, with sniffer dogs on the subway and thousands of armed police, soldiers and plainclothes agents on the streets.

Elite organisations

In total, there will be 4,000 Washington police, reinforced by another 4,000 officers from all over the country.

Thousands more National Guard members have been called in.

That is on top of the 5,000 professional soldiers and sailors who will be on the ground. There are 57 different government agencies involved in what has been declared a "National Special Security Event".

And overseeing the entire operation is the US Secret Service.

It describes itself as "one of the most elite law enforcement organisations in the world", and has had the task of protecting the president ever since William McKinley's assassination in 1901.

Its most visible agents are the ones who will be running beside the presidential car.

But there will also be hundreds of others mingling in the crowd.

The Secret Service has already been shadowing Barack Obama for a year.

But since his victory it has been stepping up his protection.

It has also ordered a new presidential limousine.

Dubbed "the beast", it looks more like a tank than a car.

So far it has only been seen in photos, but the public will get a chance to see it for real on inauguration day itself.

When I asked Ed Donovan - the assistant special agent in charge - about the car's features, all he could say was that: "It's made by Cadillac".

• Resultado de auto resumen de Microsoft Word:High security for Obama's inauguration

There was a time when a US president could travel from his inauguration in an open-top car.

John F Kennedy was the last president to do that.

He was also the last president to be sworn into office without the protection of a bullet proof screen.

Secret Service agents now swarm a new president's blast-proof limousine as it travels along Pennsylvania Avenue.

But the inauguration still presents a security nightmare.

And Barack Obama's inauguration on Tuesday will provide the biggest challenge yet.

Biggest fear

There have already been painstaking preparations, with rehearsals for security officials - not just for the military precision of the ceremony and the parade.

<Resumen Automático><Inteligencia Artificial>

Huge satellite maps of the centre of Washington dominate the control room at Fort McNair.

Major General Richard Rowe takes me through the possible scenarios: a major power failure, a car bomb or multiple ones, a cyber attack, the collapse of a bridge, and panic among the crowd.

He says his biggest fear would be a biological, chemical or radioactive attack.

Outside the control room, members of the US coastguard show off the latest sensors to detect such a device.

In the skies above Washington there is already a sober reminder - helicopters on patrol.

Along Washington's waterways the coastguard will be watching from high speed boats.

Snipers will be positioned on the rooftops near the Capitol building and along the parade route.

Roads and bridges into Washington will be closed to traffic, with sniffer dogs on the subway and thousands of armed police, soldiers and plainclothes agents on the streets.

Elite organisations

Thousands more National Guard members have been called in.

The Secret Service has already been shadowing Barack Obama for a year.

Dubbed "the beast", it looks more like a tank than a car.

• Resultado de auto resumen de Copernic:There was a time when a US president could travel from his inauguration in an open-top car.

Secret Service agents now swarm a new president's blast-proof limousine as it travels along Pennsylvania Avenue.

But the inauguration still presents a security nightmare.

And Barack Obama's inauguration on Tuesday will provide the biggest challenge yet.

Major General Richard Rowe takes me through the possible scenarios: a major power failure, a car bomb or multiple ones, a cyber attack, the collapse of a bridge, and panic among the crowd.

Banned items Agent Donovan says his organisation recognises the "historical significance" of protecting the first African-American president.

• Resultado de auto resumen de Online Summarize Tool:There was a time when a US president could travel from his inauguration in an open-top car. (15)

• He was also the last president to be sworn into office without the protection of a bullet proof screen. (16)

• Secret Service agents now swarm a new president's blast-proof limousine as it travels along Pennsylvania Avenue. (26)

• But the inauguration still presents a security nightmare. (14)• And Barack Obama's inauguration on Tuesday will provide the biggest challenge yet. (17)• There have already been painstaking preparations, with rehearsals for security officials - not

just for the military precision of the ceremony and the parade. (19)

<Resumen Automático><Inteligencia Artificial>

• Major General Richard Rowe takes me through the possible scenarios: a major power failure, a car bomb or multiple ones, a cyber attack, the collapse of a bridge, and panic among the crowd. (24)

• Roads and bridges into Washington will be closed to traffic, with sniffer dogs on the subway and thousands of armed police, soldiers and plainclothes agents on the streets. (25)

• There are 57 different government agencies involved in what has been declared a "National Special Security Event". (15)

• It describes itself as "one of the most elite law enforcement organisations in the world", and has had the task of protecting the president ever since William McKinley's assassination in 1901. (17)

• The Secret Service has already been shadowing Barack Obama for a year. (13)• Agent Donovan says his organisation recognises the "historical significance" of protecting

the first African-American president. (20)• Preparations for this day have been going on for more than a year, with officials looking at

every detail right down to the credentials needed to enter the dozens of inauguration balls. (19)

• Anyone hoping to get near the parade or the swearing-in ceremony will have to go through a security screen, while umbrellas, pushchairs and large banners are among the long list of items that have been banned. (22)

• But if you are hoping for a glimpse of the new president, get ready for suffocating security and a long wait in the cold. (18)

Conclusión: Si lo que esperábamos era ahorrarnos algo de tiempo leyendo, desde luego con Microsoft Word no lo hemos logrado. Hemos configurado los parámetros de manera idéntica para todos los analizadores (reducir el texto al 50%; pero aun devuelven demasiado texto). Vamos a comparar que conceptos relevantes tratan cada uno de ellos;y veamos si la longitud del texto justifica este grosor del resumen.

Hablan de la inauguración

Comparan con inauguraciones pasadas

Condiciones climáticas duras

Primer presidente afro-americano

Temor de ataques terroristas

Muchos objetos prohibidos

Numero de efectivos movilizados

Barrera de seguridad para acceder

Microsoft Word

CopernicOnline Tool

• El primer punto a destacar. Es que el único analizador que habla algo del número de efectivos movilizados es Microsoft Word; a pesar que en el texto original se le dedica un apartado entero.

<Resumen Automático><Inteligencia Artificial>

• Sin embargo, Microsoft Word ha emitido uno de los resúmenes más largos, pero con más conceptos irrelevantes a mi juicio; y a juicio de los demás analizadores; que si han identificado la mayoría de conceptos relevantes

• La derrota en este apartado es claramente para Microsoft, pues a pesar de haber emitido uno de los resúmenes más largos; es el que menos conceptos importantes ha identificado. De echo, habla demasiado sobre un mismo tema; e incluso incluye en su resumen expresiones coloquiales que alguno de los interlocutores ha emitido; cuando lo han echo a modo de simple comentario (Dubbed "the beast", it looks more like a tank than a car. )

• A pesar que Online Tool summarize es la que más conceptos importantes ha identificado en menos espacio; es bastante sorprendente la de conceptos que ha resumido Copernic en muy poco espacio (cerca de la mitad que Online Summarize Tool).

4.2.3 AbcNews: Entrevista con Steve Jobs ( extracto )11

Finalmente, vamos a comprobar cuan preparadas están éstas herramientas de auto resumen para identificar y resumir los elementos relevantes de una entrevista.

JAKE TAPPER: Hello and welcome to the ABC News Shuffle -- brain candy for your iPod. I'm Jake Tapper in Washington. We're dealing a special hand today. A special edition of the Shuffle. Tuesday morning, Apple rolled out the new incarnation of iTunes, which provides digital music software and an online music store.

But as it rolled out iTunes 4.9, Apple also announced it was dedicating new resources to podcasting. These are audio broadcast programs to download into your iPod, obviously. You're listening to one right now. Apple also announced a partnership with Disney for those podcasts.

ITunes users will get-- will be able to download podcasts from Disney companies such as ESPN or ABC News. Joining us to talk about Apple's new announcement is Steve Jobs, Apple's CEO. Steve, welcome.

STEVE JOBS: Thanks. Thanks for having me.

JT: So here's a quick question. There are gonna be 3,000 free audio programs available, making it one of the largest podcast directories in the world. Why are they gonna be free?

SJ: Well, you know, podcasting-- has been free since the beginning. It's been an emerging phenomenon that-- has been, you know, growing very rapidly. But we're hoping to take it mainstream with-- the latest version of iTunes, which has everything you need to podcast built right in it. So-- podcasts I think they're gonna remain free. Although I do think we may-- start to see some advertising tagged onto them-- you know, in the coming months.

JT: Now, I know it's companies like Disney and ESPN and ABC News are also gonna be various contributors like the Dawn and Drew Show and Newsweek and some NPR member stations. Are there gonna be individuals who are able to contribute to this? Will the average man or woman who has their own podcast on their home computer and sends it out on their Web site, are they gonna be part of the directory?

SJ: Well, you know, the, we have over 3,000 podcasts in the directory, today at launch. And, and I'm sure you know, hundreds more are flooding in as we speak. And, yeah, they range from professional podcasts -

11 http://abcnews.go.com/technology/Story?id=892335&page=1

<Resumen Automático><Inteligencia Artificial>

• Resultado de Microsoft Word:JAKE TAPPER: Hello and welcome to the ABC News Shuffle -- brain candy for your iPod. I'm Jake Tapper in Washington. Tuesday morning, Apple rolled out the new incarnation of iTunes, which provides digital music software and an online music store.

But as it rolled out iTunes 4.9, Apple also announced it was dedicating new resources to podcasting. Apple also announced a partnership with Disney for those podcasts.

ITunes users will get-- will be able to download podcasts from Disney companies such as ESPN or ABC News. Joining us to talk about Apple's new announcement is Steve Jobs, Apple's CEO. Steve, welcome.

STEVE JOBS: Thanks. JT: So here's a quick question. There are gonna be 3,000 free audio programs available, making it one of the largest podcast directories in the world. Why are they gonna be free?

SJ: Well, you know, podcasting-- has been free since the beginning. So-- podcasts I think they're gonna remain free. JT: Now, I know it's companies like Disney and ESPN and ABC News are also gonna be various contributors like the Dawn and Drew Show and Newsweek and some NPR member stations.

• Resultado de Copernic:AKE TAPPER: Hello and welcome to the ABC News Shuffle -- brain candy for your iPod.

Tuesday morning, Apple rolled out the new incarnation of iTunes, which provides digital music software and an online music store.

But as it rolled out iTunes 4.9, Apple also announced it was dedicating new resources to podcasting.

These are audio broadcast programs to download into your iPod, obviously.

ITunes users will get-- will be able to download podcasts from Disney companies such as ESPN or ABC News.

Joining us to talk about Apple's new announcement is Steve Jobs, Apple's CEO. Steve, welcome.

There are gonna be 3,000 free audio programs available, making it one of the largest podcast directories in the world.

It's been an emerging phenomenon that-- has been, you know, growing very rapidly.

But we're hoping to take it mainstream with-- the latest version of iTunes, which has everything you need to podcast built right in it.

JT: Now, I know it's companies like Disney and ESPN and ABC News are also gonna be various contributors like the Dawn and Drew Show and Newsweek and some NPR member stations.

Will the average man or woman who has their own podcast on their home computer and sends it out on their Web site, are they gonna be part of the directory?

SJ: Well, you know, the, we have over 3,000 podcasts in the directory, today at launch.

And, and I'm sure you know, hundreds more are flooding in as we speak.

<Resumen Automático><Inteligencia Artificial>

• Resultado de Online Tool Summarize:Tuesday morning, Apple rolled out the new incarnation of iTunes, which provides digital music software and an online music store. (23)

• But as it rolled out iTunes 4. 9, Apple also announced it was dedicating new resources to podcasting. (17)

• Apple also announced a partnership with Disney for those podcasts. (15)• ITunes users will get-- will be able to download podcasts from Disney companies such as

ESPN or ABC News. (16)• Joining us to talk about Apple's new announcement is Steve Jobs, Apple's CEO. Steve,

welcome. STEVE JOBS: Thanks. Thanks for having me. (28)• There are gonna be 3,000 free audio programs available, making it one of the largest podcast

directories in the world. (18)• JT: Now, I know it's companies like Disney and ESPN and ABC News are also gonna be

various contributors like the Dawn and Drew Show and Newsweek and some NPR member stations. (16)

• Will the average man or woman who has their own podcast on their home computer and sends it out on their Web site, are they gonna be part of the directory? (15)

Conclusión: Plasmas los conceptos importantes en una tabla como hemos echo antes nos ayudará a valorar mejor los resúmenes. Recordar también que ésto es solo un extracto de la entrevista; por lo que quizás el resultado de aplicarlo sobre la entrevista entera hubiera diferido.

Ha salido una nueva versión de Itunes.

Podcasting siempre ha sido gratuito; recuerda Steve Jobs

Posibilidad de crear los usuarios sus podcasts y enviarlos al directorio de Apple.

Numero de podcasts que posee Apple (que emitirá gratuitamente)

Habla de los acuerdos de Apple con Disney; y que podrán descargar los usuarios

Microsoft WordCopernicOnline Summarize Tool

• En este caso , los 3 analizadores han estado muy igualados.

• Destaca el echo que han coincidido en destacar los mismos aspectos importantes Copernic y Online Summarize Tool; si bien éste último ; tras una lectura detenida; comprobamos que deja la última pregunta sin responder ! Con lo cual, no podemos admitir que el resumidor ha identificado satisfactoriamente el concepto 3.

<Resumen Automático><Inteligencia Artificial>

• En cuanto a tamaño, Copernic es el mas largo de todos, seguidos de Microsoft Word; si bien Copernic si hace referencia a un concepto, a juicio mio, más importante que el concepto que hace referencia Microsoft Word y Copernic no ( en este caso, el concepto 3 no es detectado como relevante ni por Online Summarize Tool).

4.3 Ejemplos extremosA modo de curiosidad, algunos ejemplos extremos que hemos encontrado en Internet de

libros enteros resumidos en menos de 100 palabras; por el auto resumen de Microsot Word.

4.3.1 El HobbitGandalf! Gandalf, Gandalf! Bilbo knew it. Bilbo did his best. Then Bilbo understood. Bilbo was astonished. Time! Guess away! said Bilbo. Never you mind, said Bilbo. Bilbo heard him crying. Bilbo called. Bilbo persisted. That slowed Bilbo down. Bilbo had escaped. Bilbo bowed. Up jumped Bilbo. no! said Bilbo. Hobbit! Poor dwarves! Bilbo sneezed again. Suddenly Bilbo understood. Quickly Bilbo explained. The key! cried Bilbo. The key! shouted Bilbo. Then Bilbo fled. Cheer up Bilbo! Dwarves! said Bilbo in pretended surprise. Thorin! Bilbo Baggins! he said. Bilbo hurried on. Dear me! said Bilbo. Thorin? Then Bilbo remembered his ring!

The Hobbitby J. R. R. Tolkien

4.3.2 Tarzán de los monosTarzan was appalled. Did men eat men? Tarzan looked. Man had come. TARZAN WATCHES. TARZAN OF THE APES. Tarzan was perplexed. Tarzan was spellbound. Still Tarzan watched. Was not Tarzan a Man? Jane Porter. Tarzan coiled his rope. Chapter 23. Brother Men. Tarzan laughed. D'Arnot? Very well, said Tarzan. Stop, Tarzan! cried D'Arnot. White men, replied D'Arnot. Some, replied Tarzan, dryly. Tarzan afraid! No, replied Tarzan. Tarzan arose. Tarzan nodded his head. Jane! Yes, your man, Jane Porter. Tarzan of the Apes. Tarzan turned toward Jane. Mr. Philander eyed Tarzan narrowly. I am Monsieur Tarzan, said the ape-man. D'ARNOT.

Tarzan of the Apesby Edgar Rice Burroughs

<Resumen Automático><Inteligencia Artificial>

5. Conclusiones• La necesidad de resumir no es nueva; desde siempre se ha querido maximizar el tiempo

minimizando el grueso de información que se ha de absorber para entender o conocer unos conceptos determinados

• En análisis de como abstrae ésta información si que es un trabajo más reciente; y más aún las técnicas de resumen automático; basadas en algoritmos e implementadas en programas informáticos.

• El texto debe ser adaptado para que los algoritmos de auto resumen puedan trabajar con el. Estos funcionan básicamente como lo haría la mente humana: identificando los conceptos importantes, escogiendo la información relevante; y eliminando la redundante o poco valiosa.

• Los principales factores que condicionan el resumen, y el auto resumen en particular, son los diferentes ámbitos de los que puede tratar un texto, que son, ciertamente muy variados. También depende de cuan pretendamos resumir el texto; y también a la público que éste resumen va dirigido.

• Existen numerosos estudios abiertos, y muy diversos puntos de vista, sobre cual es la arquitectura correcta , no solo de un sistema de auto resumen, si no de cada uno de los pasos que lo forman.

• Existen en el mercado, y también de forma gratuita, varias herramientas para llevar a cabo esta tarea. Unas son mas configurables que otros; y en los pocos experimentos que hemos echo aquí; solo podemos determinar que Microsoft Word no aparenta ser de los mejores.

• La importancia de contar con herramientas de auto resumen eficaces ; queda más clara llegados al final de este documento. Desarrollar una herramienta suficientemente buena de auto resumen, no solo va ahorrar tiempo al usuario final en leer textos largos, sino que va a poder organizar y ordenar de manera mas eficiente todo el grueso de información que circula por Internet.

<Resumen Automático><Inteligencia Artificial>

6. Referencias

Font, M. (2008). A Flexible Multitask Summarizer for Documents from Different Media, Domain and Language, PhD thesis. Ph. D. thesis, UPC University. http://www.tdx.cat/TDX-1119108-172657

Marcu, Daniel. (1997). The Rhetorical Parsing,Summarization, and Generationof Natural Language Texts, PhD thesis. Ph. D. thesis, Toronto University.

Wikipedia:Automatic Summarizationhttp://en.wikipedia.org/wiki/Automatic_summarization

Wikipedia:Natural language Processinghttp://en.wikipedia.org/wiki/Natural_language_processing

Wikipedia:Aprendizaje automáticohttp://es.wikipedia.org/wiki/Aprendizaje_automático

Google. Visión general de la tecnología http://www.google.com/intl/es/corporate/tech.html

Wikipedia:Page Rankhttp://es.wikipedia.org/wiki/PageRank

ANTLR Parser Generator Homepagehttp://www.antlr.org/about.html

Copernic Summarizer http://www.copernic.com/en/products/summarizer/

Online Summarize Toolhttp://www.tools4noobs.com/summarize/

The Unofficial AutoSummarize Fanpagehttp://www.theycomeoutatnight.com/autosummarize/index.htm

<Resumen Automático><Inteligencia Artificial>