PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

25
PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Transcript of PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Page 1: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

PFC ITIS 2012Alumno: Dersu García Sanz

Director: German Rigau Claramunt

1

Page 2: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración

2

Page 3: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.

Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea.

3

Page 4: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.

Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC.

4

Page 5: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Sistema informático de clasificación de noticias multilingües.

Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas.

Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo.

5

Page 6: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

6

Page 7: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Extraer periódicamente información de las noticias recogidas en el portal News Explorer.

Almacenarla en disco para su posterior análisis.

Guardar un registro con la fecha de ejecución del programa y los datos almacenados.

7

Page 8: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

8

Page 9: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

9

Page 10: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.

Acceder a dichas páginas y extraer información de las noticias.

Necesitamos especificar al programa:◦ Lenguajes de las noticias que queremos recoger.◦ Umbral de semejanza para recopilar clústers

relacionados.

10

Page 11: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

De cada clúster de noticias queremos extraer:◦ Enlace◦ Idioma◦ Título◦ Descripción◦ Fecha◦ Historia◦ Noticias◦ Países◦ Lugares◦ Personas◦ Entidades◦ Keywords◦ Clústers relacionados

11

Page 12: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

12

Page 13: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Dividir el trabajo en subprogramas Realizar los contratos de las operaciones

13

Page 14: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Base de Datos◦ Claves primarias SHA1(enlace)◦ Relaciones entre tablas◦ Frecuencias (Personas, Países, Otros nombres)

Elección tecnológica◦ Expresiones regulares

Pseudocódigo de las operaciones

14

Page 15: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

15

Page 16: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Ejemplos:

◦ Fecha del clúster m{<p class="center_group_main">(.+?)</p>}

◦ Otros nombres m{Other Names</p>(.*?)</div>}s m{<a href="(.*)" class="headline_link">(.*?)</a> \((\d+)\)</p>}g

◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+)</a>}g m{<p class="center_headline_source">.+?&nbsp;(.+?)</p>}g

16

Page 17: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Módulos Perl◦ LWP::Simple◦ DBI◦ URI◦ HTML::Entities◦ Digest::SHA1

Extracción de información◦ Expresiones Regulares

Estructuras de datos◦ Listas

17

Page 18: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

emm_launcher.pl◦ Ejecuta diferentes configuraciones de emm.pl

emm.pl◦ Programa principal

NewsMonitor.pm◦ Definición de funciones y variables globales

18

Page 19: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Parámetros de entrada del programa◦ Idioma Principal◦ Idiomas Secundarios◦ Umbral de Semejanza

Unitarias◦ Probar funcionamiento de subprogramas antes de

añadirlos al programa principal. (Caja Negra) De Integración

◦ Probar programa principal al añadirle un subprograma.

19

Page 20: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

De Sistema◦ Comparación de los datos almacenados en la

base de datos con los que se encuentran en las páginas extraídas.

De Explotación◦ Problema al cambiar de servidor.◦ Personas con claves primarias iguales.

De Rendimiento◦ Expresiones regulares frente a parsers HTML.◦ Tamaño de columnas en la base de datos.

20

Page 21: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Procesos Planificado Real

Tácticos 50 60

Operativos 80 85

Formativos 115 145

Total 245 290

Desviación 18%

21

Page 22: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Incidencias principales◦ Falta de documentación.◦ Se estimó poco tiempo para desarrollar la

memoria.◦ Re-planificación de entregas.◦ Pensábamos terminar el proyecto en junio.

Otras asignaturas Cursos online Trabajo Inglés

22

Page 23: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Objetivos Cumplidos◦ Extraer datos de News Explorer◦ Almacenarlos en disco◦ Guardar registro log

El programa está en explotación

Mejoras futuras◦ Extraer información adicional◦ Obtener clústers relacionados en el mismo idioma◦ Guardar los datos en XML◦ Recuperar todo el cuerpo de las noticias (PF Máster)◦ Normalizar las fechas

23

Page 24: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Balance positivo del resultado◦ Objetivos cumplidos.◦ El programa lleva en funcionamiento desde

febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity 2013

24

Proyectos Europeos

Proyecto Nacional (MEC)

Page 25: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Estado actual de la base de datos en el servidor.

Prueba de ejecución en local. emm_launcher.pl

◦ emm.pl en es fr it de nl 0.5◦ emm.pl nl en es fr it de 0.5◦ emm.pl de nl en es fr it 0.5◦ emm.pl it de nl en es fr 0.5◦ emm.pl fr it de nl en es 0.5◦ emm.pl es fr it de nl en 0.5

25