Proyecto de Grado - Idetem
description
Transcript of Proyecto de Grado - Idetem
![Page 1: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/1.jpg)
Proyecto de Grado - IdetemMartin BarretoRicardo Bedat
Docentes: Juanjo Prada – Aiala Rósa
![Page 2: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/2.jpg)
El DesafioDesarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase.
Se pretende que el sistema sea capas de identificar secciones de texto, que contengan la información deseada, aunque esta no sea explicita.
Por ejemplo: Dada la frase “Aumento en los precios del combustible” sea capas de devolver porciones del documento que contengan: • “Suba del combustible”• “Subió el valor del combustible”• “Aumentó el barril de petróleo”• Etc.
![Page 3: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/3.jpg)
Consulta: • “Información”
EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información , debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
![Page 4: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/4.jpg)
Consulta: • La cantidad de
información ha sufrido un gran aumento
• Problemas al crear un programa
• Recuperación de información.
EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
![Page 5: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/5.jpg)
Objetivo:◦ Investigación del estado del arte de los sistemas
de recuperación y extracción de información.◦ Desarrollo de un sistema de extracción de
información temática.◦ Integrar el sistema desarrollado al sistema
Lavinia.◦ Analizar los resultados obtenidos.
Proyecto Idtem
![Page 6: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/6.jpg)
Se analizaron trabajos relacionados, para el Inglés.
Se analizaron herramientas de utilidad para el desarrollo del proyecto.
Se obtuvo una versión de WordNet para el Español.
Se hicieron prototipos de uso de las herramientas.
Se inició con el Diseño del software. Actualmente se está comenzando la
implementación.
Estado actual del proyecto
![Page 7: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/7.jpg)
Escaso material relacionado. Pocas herramientas de software libre. No se encontró ningún sistema que
solucione el problema planteado.
Dificultades encontradas
![Page 8: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/8.jpg)
Primera Versión de la Arquitectura
En el fondo se busca encontrar un algoritmo.
![Page 9: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/9.jpg)
Primera Versión de la Arquitectura
Divide y vencerás
Dividimos el sistema en sub componentes encargados de resolver una función especifica.
![Page 10: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/10.jpg)
Primera Versión de la Arquitectura
Los componentes resuelven una función, pero existen varias formas de cumplir esta función, cada una con ventajas y desventajas
![Page 11: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/11.jpg)
Primera Versión de la Arquitectura
Integrar a Lavinia
![Page 12: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/12.jpg)
Primera Versión de la Arquitectura
Contenedor UIMA para permitir la integración con LAVINIA
![Page 13: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/13.jpg)
Primera Versión de la Arquitectura
Cada componente individual puede ser integrado a LAVINA
![Page 14: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/14.jpg)
1. El uso de un dominio restringido o un dominio global.
2. Expansión de consultas.3. El uso de diccionarios.4. Algoritmos de aprendizaje automático o
basados en reglas parametrizables.5. Definición de la estructura de datos para
la comunicación entre los diferentes componentes
Decisiones a tomar
![Page 15: Proyecto de Grado - Idetem](https://reader035.fdocuments.net/reader035/viewer/2022081811/568165ed550346895dd911ca/html5/thumbnails/15.jpg)
Implementación de la plataforma principal. Desarrollo de los componentes Desarrollo de los algoritmos específicos Desarrollo de la solución. Testear y evaluar los resultados. Documentar hasta que el verdirrojo sea
campeón de la liga.
Coming next…