Post on 20-Aug-2015
Análisis crítico de los metadatos distribuidos por la IDEC
Motivación: Actualmente existen muchas voces críticas con la forma de
funcionamiento de los catálogos de metadatos de las Infraestructuras de
Datos Espaciales.
Alumna: Paula DíazCoordinador del proyecto: Joan Masó
Datos Espaciales.A pesar del esfuerzo de documentar los metadatos de las capas, tal y como se
realiza actualmente, los resultados de los buscadores basados en metadatos no
suelen ser muy acertados.
Estructura:
1. Introducción2. Metadatos: generación de la base de datos de
los metadatos de la IDEC3. Metadatos: Detección de errores en los
metadatos distribuidos por la IDEC4. Metadatos; orígenes
2
4. Metadatos; orígenes5. Metadatos: Errores y su origen6. Datos: Detección de carencias7. Búsquedas: Metadatos de la IDEC8. Búsquedas: La web oculta9. Conclusiones generales.
1. Introducción
• IDEC: Infraestructura de Datos Espaciales de Cataluña
3
Organismos registrados Documentos totalesVerano 2008 79 4880Verano 2009 (10/06/2009) 112 27007Utilizados en el estudio 111 14231
Se descartan los del ICC al ser muy voluminosos, semejantes entre si y por no poder obtener la lista de sus UUID.
2. Metadatos: Generación de la base de datos de los metadatos de la IDEC
• El estándar ISO 19115 establece tres categorías de elementos:• Obligatorios
• Condicionales• OpcionalesObtenidos los 14231 UUID, se
4
Obtenidos los 14231 UUID, se descargan los documentos XML y se construye una base de datos:14231 registros y 32 campos
3. Metadatos: Detección de errores en los metadatos distribuidos por la IDEC
• Errores referentes a elementos • obligatorios:
• Títulos de códigos ininteligibles: 27%• Fecha de creación del dato en blanco: 44%• Fecha de creación del dato posterior a edición: 10%• Categorías temáticas en idioma incorrecto: 11%
5
• Categorías temáticas en idioma incorrecto: 11%• Idiomas de los datos en blanco: 26%
• condicionales y opcionales:• Coordenadas no en ángulos: 5%• Coordenada mínima mayor a la máxima: 3%• Factor de escala incoherente: 3%
• Observaciones:• Título demasiado largos: 2%• Resumen que contiene el título: 4%
3. Metadatos: Detección de errores
PRESENCIA DE LAS CATEGORIAS TEMÁTICAS (ISO 19115) EN LOS DOCUMENTOS DE METADATOS
7476
Ejemplo 1/4CATEGORIAS TEMÁTICAS totalesimageryBaseMapsEarthCover 7073boundaries 1057biota 1015Medi Ambient 792location 760structure 732planningCadastre 537Bases mapes imatges cobertura terra 403elevation 343(en blanco) 323farming 273society 182economy 177
6
1060
1018
963
807
732
540
349
323
225
182
107
83 35 30 20 6 1274
Bas
es m
apas
Lím
ites
Bio
logi
co
Med
io a
mbi
ente
Loca
lizac
ión
Est
ruct
ura
Pla
nific
ació
n C
adas
tro
Ele
vaci
ón
(En
blan
co)
Agr
icul
tura
/Gan
ader
ía
Eco
nom
ía
Soc
ieda
d
Com
unic
ació
n de
Info
rmac
ión
Agu
as in
terio
res
Tra
nspo
rte
Clim
atol
ogia
/Met
eoro
l
Sal
ud
Océ
anos
Inte
ligen
cia
milit
ar
mediana
Categorías temáticas en lengua no inglesa.
economy 177environment 171Comunicació de serveis 99geoscientificInformation 71Economia 48Localització 47inlandWaters 33transportation 30climatologyMeteorologyAtmosphere 20Informació geocientífica 12utilitiesCommunication 8Elevació 6health 6Biològic 3Límits 3Planejament/Cadastre 3Aigües interiors 2Agricultura/Ramaderia 1oceans 1Total general 14231 11%
3. Metadatos: Detección de errores
FECHA EDICIÓN total
1988-01-01 151994-06-30 151996-02-29 302003-02-10 102006-05-08 128
XMIN>XMAX
• Coordenada mínima mayor a la máxima.
Ejemplo 2/4
3%
7
2006-05-08 1282006-05-10 2132008-02-06 11988-01-01 61994-06-30 61996-02-29 122007-05-23 12007-09-12 292007-11-19 12008-02-06 1
Total general 468
YMIN>YMAXTÍTULOS totalesCaracteres ininteligibles 3869 27%Mayor a 100 caracteres 252 2%Total general 4121
• Títulos de códigos numéricos ininteligibles.
27%
3. Metadatos: Detección de errores
FACTORES DE ESCALA MÁS REPRESENTADOS
33000
1000 o 1:5000 1000012
Resto de escalas
50000
Ejemplo 3/4FACTOR DE
ESCALAtotal
1000 o 1:5000 136(en blanco) 1183100000 296650000 12233000 31425000 70910000 1095000 1514
8
100000
5000
(en blanco)
2000
25000
33000
500
1000
• Factores de escala mixtos o demasiado pequeños para tratarse de un mapa
5000 15142000 10261000 2824500 280012 117RESTO 411Total general 14231
3%
3. Metadatos: Detección de errores
SISTEMA DE REFERENCIA núm. ArchivosUTM_31N - ED50 (g) 12669UTM_31N - ED50 (m) 742UTM_30N - ED50 (m) 23WGS84_33N (g) 20WGS84_Mundo (g) 15WGS84_31N (g) 1Sin SRH (g) 761Total general 14231
• Sistemas de referencia en unidades no en ángulos
Ejemplo 4/4
5%
9
12669
74223 20 15 1
761
0
2000
4000
6000
8000
10000
12000
14000
Doc
umen
tos
UTM_31N - ED50 (g)
UTM_31N - ED50 (m)
UTM_30N - ED50 (m)
WGS84_33N (g)
WGS84_Mundo (g)
WGS84_31N (g)Sin SR (g)
SISTEMAS DE REFERENCIA
4. Metadatos: Orígenes
• Comparación de los geoportales de la IDEC y del GOS: Geospatial One-Stop. (M.F.Goodchild, P.Fu, P.Rich, de
IDEC GOSEstándar ISO1911 / FGDC FGDC (CSDGM)
Palabra clave de
5 tipos
Palabra clave exacta
o aproximadaFecha edición "posterior a"
Fecha por período o revisión reciente
Búsqueda EscalaCategoría temática
10
P.Fu, P.Rich, de 2007)
• Diferencias esenciales• Gazetteer
• 5 variantes de publicación
Localización coordenadas
Localización (gazetteer)
OrganismoBúsqueda rápida
Formulario en líneaTransmisión directa
(XML)Transmisión desde un escritorio GIS
Recopilación automática
Publicación
de
metadatos
MetaD
Correo electrónico
Categoría temática
Formato
4. Metadatos: Orígenes
• ¿Como enviamos metadatos a la IDEC?• MetaD (2002, versión actual 3.0.5)
• Aplicación de creación, edición y transmisión de documentos de metadatos.
• Función de validación: “controla la obligatoriedad de los metadatos”
11
los metadatos”• Elementos obligatorios no validados: fechas de
creación, publicación y revisión.
• Correo electrónico• Fuente potencial de publicación de documentos de
metadatos con errores.
5. Metadatos: Errores y su origen
12
ERRORES DE LOS METADATOS Error (%)¿Los permite el
MetaD?Títulos de códigos ininteligibles 27% SIFecha de edición del metadato en blanco 2% NOFecha de creación del dato en blanco 44% SIFecha de creación del dato posterior a edición 10% SIFecha de creación por defecto: 1900-01-01 9% SICategorías temáticas en idioma incorrecto 11% NOCategorías temáticas en blanco 2% NOInformación de contacto en blanco 0.1% NOCoordenadas no en ángulos 5% SIMínima coordenada mayor a la máxima 3% NOIdioma de los datos en blanco 26% SIIdioma del metadato incorrecto 1.5% SIFactores de escala incoherentes 3% SIPromedio de error 11% 8/13
ADVERTENCIAS %¿Los permite
el MetaD?
Título demasiado largo 2% SIResumen que contiene el título 4% SI
5. Metadatos: Errores y su origen
• Conclusiones y propuestas de mejora del MetaD• Función de validación no evita errores de
comisión.• Algunos errores no se pueden generar con el
programa MetaD. • Función de validación a todos los documentos.
13
• Función de validación a todos los documentos.• Considerar la extracción automática de
metadatos desde los propios datos.• Recomendaciones:
• Incluir fecha e idioma del dato como elementos obligatorios
• Revisión de la fecha de creación por defecto:01-01-1900.• El editor utilice tesauros en la elección de la palabra
clave. • Test de la descripción geométrica y de topología.
6. Datos: Detección de carencias• Ráster: Ámbito y densidad de datos.
• Rasterización de los 13747 ámbitos• Contaje de capas en cada píxel de 0.03º x 0.03º
Leyenda
0: 65.514
13: 260.869
26: 456.225
Registros de metadatos de la IDEC en Julio de 2009 (ámbito de Cataluña)
N
14
26: 456.225
40: 666.607
53: 861.963
67: 1072.346
80: 1267.701
93: 1463.057
107: 1673.439
120: 1868.795
134: 2079.178
147: 2274.533
161: 2484.916
174: 2680.271
187: 2875.627
201: 3086.010
214: 3281.365
228: 3491.748
241: 3687.104
255: 3897.48620000 0 60000 m
6. Datos: Estructura de los datos y búsquedas
• Análisis visual en la selección de datos geográficos.
“El análisis visual de los datos usa la visualización como un canal de comunicación entre el ordenador y el usuario”, (INVISIP, Albertoni, 2004)
Categorías temáticas y escalas
Categorías temáticas y años Medio ambiente
15
escalas
0
100
200
300
400
500
600
Eco
nom
ía
Med
ioam
bien
te
Tra
nspo
rte
1/50000
1/10000
1/15000
1/5000
1/1000
años
0.00
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
Eco
nom
ía
Med
ioam
bien
te
Tra
nspo
rte2009
2008
2007
2006
2005
2004consulta por atributos: Categoría temática=”Medio
Ambiente” y Escala=[1,50000] y Año de creación>=2004
Medio ambiente
0
10
20
30
40
50
60
70
5000 50000
2006
2007
2008
ESCALA ( ?): N registres amb dades : 75 Moda : 5000 Mínim : 1000 Màxim : 50000 Rang : 49001 N valors diferents : 3 Llistat de freqüències 1: 1000 67: 5000 7: 50000
7. Búsquedas: Evaluación del Motor de la IDEC
• Modelo de información IDEC• Servicio de registro Web (WRS): INdicio (2005). • Gestión de catálogo de datos mediante
esquemas XML• Perfil ebRIM de registro de información del
16
• Perfil ebRIM de registro de información del OGC
• Catalogo de la IDEC oculto a Google pero• Hemos usado Google Desktop
• Buscador genérico de documentos en local con algoritmo Google (PageRank)
• Soporte para contenidos XML
7. Búsquedas: Evaluación del Motor de la IDEC
• Prueba piloto: comparación del buscador del catálogo de datos de la IDEC y el motor de búsqueda Google Desktop.
IDEC Google IDEC Google BDIDEC - BD
Ideunivers * 5054 1.3 3898
Resultados Tiempo (seg.)
IDEC: • Menos resultados. • Elementos concretos.
17
Ideunivers * 5054 1.3 3898España * 9361 1.2 15462003 1311 14528 29.2 1.6 1254 57Comercio 26 2666 13.8 0.9 4 22Biología 1032 1038 12.9 1.5 1015 17Transporte 410 390 4.7 1.1 30 380
Escala 2000 1027 44 13.2 0.7 1026 1Fecha edición 31/03/2009 1295 3 8.9 2.6 5 1290
DEPLAN 61 61 8.8 0.8 61 0Ayuntamiento de Cardedeu 4 6 9.7 1.5 4 0Àrea metropolitana de Barcelona
2067 2895 9.8 2.2 20652
Modelos digitales del terreno 312 344 6.2 1.1 320** -8Topográfico 9402 4766 28.8 1.0 3867** 9082SIG 142 9453 5.3 1.3 120** 22
**términos del título y título de la serie
palabras clave
Categorías temáticas
* Búsqueda no realizable
Organismo
búsqueda
rápida
• Elementos concretos.•Mayor precisión.
• Ordenación alfabética
Google Desktop: • Mas rápidas. • Busca en todo el
documento.•Menos concretas.
• Ordenación PageRank.
7. Búsquedas: Evaluación del Motor de la IDEC
• Propuestas de mejora en las búsquedas• Búsqueda más de un término (2 categorías
temáticas)• Búsqueda por aproximación ortográfica y
semántica. Orchestra (Hilbring, 2008)
18
• La inclusión de los formatos o la topología.• Fechas: anterioridad a una determinada fecha o
en un intervalo.• Ampliar las opciones de la búsqueda por escala.• Visualizar los resultados de una búsqueda en
una tabla.
8. Búsquedas: Acceso i enlace a los documentos de metadatos desde Internet
• La deep Web (Web oculta)• “Información que, siendo accesible a través de
Internet, no puede encontrarse mediante los buscadores tradicionales.” (http://www.idg.es/computerworld/)
• Los metadatos de la IDEC son parte de la Web
19
• Los metadatos de la IDEC son parte de la Web oculta• Ejemplo:
• si buscamos en Google el registro: {58964B84-24B9-44FF-8274-CAD378B657B4} "Presència d'ambients d'interès per la conservació de la biodiversitat - Ocells com a bioindicadors "
• No encontramos ningún resultado por tratarse de información extraída de una consulta a una Base de Datos.
Solución
• Realización de una página HTML de enlace a los XML descargados e Indexación por Google.
• Realización de la búsqueda en Google:
20
• Realización de la búsqueda en Google:• {58964B84-24B9-44FF-8274-CAD378B657B4}
"Presència d'ambients d'interès per la conservació de la biodiversitat - Ocells com a bioindicadors "
• Catalogado desde: http://www.creaf.uab.es/tmp/
9. Conclusiones generales.
• Metadatos: Presentan errores muy variados.• Fuentes: El MetaD no permite alguno de los errores
detectados. ¿Correo electrónico?. • Los errores dejan ocultos muchos documentos en las
búsquedas. El éxito de la búsqueda está relacionado con la calidad del metadato
22
con la calidad del metadato
• Datos: Menor densidad de datos S y NO de Cataluña.
• Búsquedas: • La búsqueda mediante el catálogo de la IDEC está
limitada a 7 elementos concretos. Google no permite filtro por elemento.
• El análisis visual permite analizar gran cantidad de metadatos de un modo más ágil.