Modelado de Documentos y Sistemas de Información con XML

Modelado de Documentos y Sistemas de Información con XML

Modelado de Documentos y Sistemas de Información con

XML

Proyecto Fin de Carrera de la Licenciatura de Documentación del alumno:

José Manuel Sánchez Navarro

Dirigido por el profesor:Juan Antonio Pastor Sánchez

1


Contenido

I. INTRODUCCIÓN………………………………………………………………... 3

II. OBJETIVOS……………………………………………………………………... 4

III. METODOLOGÍA………………………………………………………………. 4

IV. RESULTADOS………………………………………………………………… 51. Los Sistemas de Información Documental………………………………. 5

1.1. Los subsistemas de un Sistema Integral de Gestión de la Información…………………………………………………………. 7

1.1.1. La base de datos documental…………………………. 71.1.2. El correo electrónico………………………………….. 91.1.3. El subsistema de base de datos relacional……………. 91.1.4. El subsistema de thesaurus…………………………… 101.1.5. El subsistema de imágenes y OCR…………………… 111.1.6. El subsistema de Workflow…………………………... 121.1.7. El subsistema de Groupware…………………………. 121.1.8. El subsistema de DSI…………………………………. 13

2. El lenguaje XML y sus especificaciones…………………………………. 142.1. Orígenes del lenguaje XML……………………………………. 142.2. Características del lenguaje XML……………………………… 152.3. Algunas especificaciones derivadas de XML: RDF, OWL y SKOS-CORE………………………………………………………... 16

2.3.1. RDF…………………………………………………… 172.3.2. OWL………………………………………………….. 182.3.3. SKOS-CORE…………………………………………. 19

3. Aplicación del XML en un Sistema de Información……………………... 203.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión de Información……………………………………………... 203.2. Infraestructura…………………………………………………... 213.3. Los subsistemas de base de datos documental y relacional……. 21

3.3.1. La entrada o carga de documentos……………………. 223.3.2. El almacenamiento……………………………………. 233.3.3. La recuperación de información……………………… 243.3.4. Conectividad entre la base de datos documental y relacional…………………………………………………….. 26

3.4. El subsistema de tesauro………………………………………... 273.5. El subsistema de publicación de contenidos y DSI…………….. 28

V. CONCLUSIONES………………………………………………………………. 30

VI. BIBLIOGRAFÍA……………………………………………………………….. 31

2


I. INTRODUCCIÓN

El Proyecto fin de Carrera (PFC) es una asignatura obligatoria incluida dentro del plan de

estudios vigente en la titulación “Licenciado en Documentación” de nuestra Universidad. Se entiende

como el resultado final de un proyecto o trabajo personal del alumno, donde manifieste los

conocimientos y aptitudes adquiridos a los largo de la titulación de Licenciado en Documentación.

Para el presente PFC se ha escogido el tema "Modelado de documentos y sistemas de

información con XML". La aplicación de las tecnologías de la información originadas en Internet

está cambiando de forma cualitativa y cuantitativa las dinámicas de gestión de información y

documentación en las organizaciones.

En una primera fase de desarrollo tecnológico han proliferado las actuaciones para la creación

y mantenimiento de sistemas de información mediante Intranets y la elaboración de productos y

servicios de información para Web.

En la actualidad se han identificado una serie de problemáticas en este tipo de desarrollos.

Estas problemáticas tienen su origen en las carencias del uso de la Web para el análisis y gestión del

contenido informativo de los documentos HTML. Hay que recordar que la Web se ideó como un

medio para la comunicación de información y no para su gestión.

Sin embargo, hoy día existen soluciones basadas en XML que permiten aportar un mayor

contenido semántico a la descripción de los documentos electrónicos. Por lo tanto se abren nuevas

posibilidades de gestión y reutilización de los contenidos informativos de los documentos digitales. La

tecnología XML supone un punto de partida para el desarrollo de sistemas de información y el

modelado de documentos que doten de mayor relevancia al contenidos y la estructura de los

documentos y no a su forma y presentación. Esta nueva orientación tiene su origen en la idea de Web

Semántica.

La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier

usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a

una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más

semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias

a la utilización de una infraestructura común, mediante la cual es posible compartir, procesar y

transferir información de forma sencilla.

Esta Web extendida y basada en el significado, se apoya en lenguajes universales que

resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el

acceso a la información se convierte en una tarea difícil y frustrante. A partir de XML se han

desarrollado múltiples especificaciones que permiten desarrollar la idea de Web Semántica, tales como

RDF, OWL o SKOS-CORE.

3


II. OBJETIVOS

Los objetivos del presente PFC son los siguientes:

Estudiar las funcionalidades de un Sistema de Información Documental.

Identificar los principales subsistemas que componen un Sistema de Información Documental.

Elaborar una visión integral de un Sistema de Información Documental mediante una

adecuada estructuración de los diferentes subsistemas.

Identificar las especificaciones XML más adecuadas para su aplicación en los distintos

subsistemas del Sistema de Información Documental atendiendo a las funcionalidades de los

mismos.

Detallar la forma en la que se pueden aplicar las especificaciones XML identificadas dentro de

un Sistema de Información Documental.

III. METODOLOGÍA

La metodología seguida en este PFC se basa en un análisis de los diferentes subsistemas que

componen un Sistema de Información Documental dentro del ámbito de las Tecnologías de la

Información.

No solamente se han identificado dichos subsistemas, sino que además se han estudiado las

diferentes relaciones que existen entre los mismos.

Posteriormente se ha realizado un estudio de las especificaciones XML que se han

considerado más adecuadas para su aplicación en los diferentes subsistemas. En este estudio las

especificaciones XML seleccionadas han sido: RDF, OWL Y SKOS-CORE. El motivo de escoger

estas especificaciones se debe a que cubren, junto con el uso general de XML para la descripción de

documentos, los principales procesos que realiza un Sistema de Información Documental.

Finalmente se ha procedido a un trabajo de síntesis en donde se ha realizado una propuesta de

aplicación de las especificaciones XML estudiadas en un Sistema de Información Documental.

Se ha tenido en cuenta que dichas especificaciones pueden utilizarse tanto dentro de cada uno

de los subsistema analizados como en las relaciones que pueden establecerse entre los mismos.

4


IV. RESULTADOS

A continuación se detallan los resultados obtenidos tras la aplicación de la metodología

que se ha detallado en el anterior apartado.

1. Los Sistemas de Información Documental

En los últimos años, las organizaciones han venido incorporando las Tecnologías de la

Información y la Comunicación (TIC's) a sus procesos de producción y de gestión, modificándose así

la forma de trabajar dentro de las mismas. La información, tanto interna como externa, se ha

convertido en un elemento de vital importancia para las organizaciones, desde el punto de vista

estratégico y para mejorar su competitividad. Más aún, se ha pasado a un modelo basado en la gestión

adecuada de los llamados “activos intangibles” y el “capital intelectual”, llegando así a lo que se

conoce como “Gestión del Conocimiento” (Knowledge Management). De este modo, además de la

clásica gestión de los documentos en la organización, se ha pasado a la implementación de

herramientas que mejoran la gestión y generación de conocimiento nuevo, como los sistemas de

Workflow o Data Warehouse.

Desde una primera etapa donde se definían simplemente como sistemas de gestión de la

documentación, se ha llegado a una concepción global y corporativa de la gestión de la información.

Estos sistemas deben llegar, como señala M.A. Esteban Navarro a “administrar y controlar de modo

conjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento y

habilidades existentes en la organización en la que se aplica1”.

Los objetivos de estos sistemas deben adecuarse a los de la organización donde se encuentran,

aunque hay una serie de elementos básicos que serían aplicables a todos los entornos. Por lo tanto, lo

que pretende un Sistema Integral de Gestión de la Información es:

Facilitar a las personas que trabajan en la organización el trabajo con los documentos. Los

documentos deben poder encontrarse rápidamente y sus usuarios deben saber cuáles hay que

guardar, dónde y cómo. Deben poder gestionar los diferentes formatos de documento con los

que la organización trabaje. Tienen que cubrir todo el ciclo vital de los documentos.

Permitir que la información se comparta y se aproveche como un recurso colectivo.

Conservar la memoria de la organización más allá de los individuos que trabajan en ella y

poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando

empezar de cero sobre aspectos en los que ya hay experiencia acumulada.

1 ESTEBAN NAVARRO, Miguel Ángel. La técnica de gestión integral de la información: nuevas tendencias de representación y la organización del conocimiento en los sistemas de información en las organizaciones. Organización del Conocimiento en Sistemas de Información y Documentación, v. 2, 1997, pp. 285-209.

5


Evolucionar al mismo tiempo que la organización, con un carácter abierto y dinámico.

Estos objetivos establecen el marco de los distintos subsistemas que deberán integrarse. Cada

herramienta responderá a una necesidad en la gestión de la información, aunque el Sistema Integral de

Gestión de la Información se verá determinado por el funcionamiento de todas en su conjunto.

Veamos los diferentes subsistemas que puede implementar un Sistema Integral de Gestión de

la Información:

Todos los procesos relacionados con la elaboración, archivo, importación, recuperación,

agrupación, lectura y referenciación de documentos de texto se llevarán a cabo mediante la

incorporación de un subsistema de Base de datos documental, que integre un sistema de

gestión del Correo Electrónico y otras herramientas de Ofimática e Internet.

La recuperación de documentos puede hacer necesaria la implementación de un

subsistema de Thesaurus. Según el caso, este subsistema puede indexar y referenciar

documentos externos (CD-ROM, Internet, etc.)

Para la gestión de documentos en formato de imagen (escaneados) será necesario un

subsistema de Imágenes, enlazado normalmente con un subsistema de Base de datos

Relacional, aunque estas imágenes también se podrán enlazar con el subsistema de Base de

Datos Documental. (Sin embargo, es importante destacar aquí que, en la actualidad, el

origen de los documentos manejados por las organizaciones es, en gran medida, digital.)

El paso de imágenes de texto a documentos textuales, mediante el escáner para obtener

datos de imágenes, se realizará mediante un subsistema de Reconocimiento Óptico de

Caracteres (OCR).

También es posible que sea preciso enviar periódicamente a determinados usuarios una

serie de documentos que se correspondan con su perfil de interés, a medida que éstos vayan

llegando al sistema, para ello podría implementarse un subsistema de Difusión Selectiva

de la Información (DSI).

Los flujos de información (documentos) y los procesos en el seno de la organización deben

ser racionales, estar coordinados y deben poder monitorizarse. Para lograr este objetivo se

puede implantar una solución de Workflow en la organización.

El trabajo colaborativo entre las personas que trabajan en la organización se puede

gestionar mediante herramientas de tipo Groupware, como pueden ser los Entornos

colaborativos.

6


1.1. Los subsistemas de un Sistema Integral de Gestión de la Información

1.1.1. La base de datos documental

Cuando se trata de un sistema que gestiona grandes cantidades de documentos en formato

texto, hipertexto o hipermedia, es preciso integrar un Sistema de Gestión Documental. Estos sistemas

deben soportar la importación, archivo, control de versiones, replicación, clasificación, indexación,

búsqueda, visualización, edición, distribución y administración de los documentos.

A) La importación de los documentos

La base de datos documental debe permitir tanto importaciones masivas de documentos (carga

inicial, migración desde otro sistema, etc.) como las propias de las gestiones diarias del sistema. Las

fuentes desde las que se cargarán estos documentos pueden ser muy variadas: entradas de fax, correo

electrónico, correspondencia ordinaria, documentos internos, publicaciones interesantes para la

organización, discos ópticos, Internet... Los documentos que llegan al sistema en formato papel serán

escaneados para de este modo obtener su imagen, que podrá ser enlazada a un documento “principal”

de texto o bien pasada por un OCR para cargar la información obtenida como un documento de texto.

B) La creación de documentos

El subsistema de base de datos documental debe proveer herramientas que ayuden a la

creación de documentos, ya sea creándolos desde cero mediante la integración con herramientas

ofimáticas para tal fin, editando los ya existentes o enlazando otros objetos a los mismos, entre otras

posibilidades.

C) La búsqueda de documentos en la base de datos

El subsistema debe permitir buscar por varios procedimientos:

1. Por texto completo (full text): combinaciones de palabras expresadas mediante operadores

booleanos, búsquedas por proximidad, frase completa, etc.

2. Por hiperenlaces: se refiere a poder saltar de un documento a otro de la base de datos por

medio de enlaces predefinidos e indicados en los mismos. Se trataría de una búsqueda

“manual”, ya que es el propio usuario quien “navega” (browsing) por el contenido de los

documentos y a través de las conexiones semánticas que ofrecen los enlaces. Estos

hiperenlaces los podrá definir el usuario explícitamente en el momento de la referenciación o

el propio sistema implícitamente. Para esto último el sistema deberá aplicar un criterio

homogéneo para la asignación de conceptos a los diferentes documentos.

3. Por descriptores de documentos: son palabras o grupos de palabras que representan el

contenido de un documento. Estos términos se extraen de lenguajes documentales, tales

7


como listas de autoridades, encabezamientos de materias, o tesauros, permitiendo la

recuperación de documentos a partir de palabras que no están presentes en el documento

original. Se pueden combinar mediante operadores booleanos.

4. Por categorías: los documentos se clasifican por los campos que contienen, y en función de

éstos se ordenan de forma jerárquica (arborescente).

5. Debería ser posible buscar también por medio del Thesaurus del sistema, ya sea mediante los

términos elegidos o mediante sinónimos u otros relacionados en la estructura del mismo.

D) La “referenciación” de documentos

Un aspecto importante es el de la definición de los campos de los documentos que van a ser

referenciados y de las diferentes agrupaciones de documentos que se van a constituir. Esta actividad

debe facilitar posteriormente las búsquedas que se realicen en la base de datos. De este modo, el

subsistema debe permitir definir campos dentro de los documentos, listas de descriptores o bien

enlaces a otros documentos, referenciándolos siempre con un criterio común y evitando la repetición

de esfuerzos.

Aquí es importante destacar el concepto de hipertexto, fundamental en los sistemas de

información modernos, o de hipermedia, en el caso de que los documentos contengan imágenes,

vídeo, sonido u otros objetos diferentes del texto. El sistema de gestión integral de la información debe

permitir “navegar” por los documentos que contiene (browsing).

Los conceptos contenidos en el documento se constituyen en enlaces a los que el usuario

puede acceder en sus búsquedas y que le llevarán a otros documentos relacionados a nivel de

contenido. Esto nos acerca también a la idea de hipertexto a dos niveles2: los documentos se

representan desde el punto de vista de su contenido y al mismo tiempo éste se abstrae en una red

conceptual. De ahí los dos niveles, por un lado la red semántica estructurada en descriptores que

definen el contenido de los documentos y, por otro, los subconjuntos de éstos últimos que tienen en

común esos descriptores. Así, el usuario puede realizar browsing en un documento cualquiera de la

base de datos documental haciendo clic en los enlaces definidos en el mismo y que son representativos

del contenido del mismo. Esto le llevará a otros documentos que también contienen ese descriptor, por

lo que están semánticamente relacionados.

1.1.2. El correo electrónico

El subsistema de correo electrónico es un vehículo de comunicación de decisiones de trabajo,

negociaciones con clientes o encargos de trabajo, cuya implantación ha tenido un éxito sin precedentes

en el seno de las organizaciones. El subsistema debe permitir que la información intercambiada

mediante correo electrónico o mensajería interna no se pierda y sea accesible para el conjunto de la

organización.

2 PASTOR, J. A. y SAORÍN, T., “La escritura hipermedia” [en línea]. En: Cuadernos de Documentación Multimedia, números 6-7, 1997-98, pp. 221-238. Puede consultarse en red en: <http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/saorin.htm> [Consulta: 24 mayo 2005]

8


Entendiendo la globalidad y el carácter corporativo de los Sistemas Integrales de Gestión de la

Información, es preciso que el subsistema de correo electrónico esté integrado con el de gestión

documental. Debería permitir añadir a los mensajes información obtenida del sistema de gestión

documental o consultar el mismo sin necesidad de abandonar el correo.

Es más, el subsistema de gestión documental debería ser capaz de comunicarse con los

usuarios del sistema por medio del correo electrónico, difundiendo la información del mismo a

aquellos que puedan necesitarla o bien enviando alertas para informar de la presencia de un

documento nuevo de interés.

1.1.3. El subsistema de base de datos relacional

Hemos de tener en cuenta que una base de datos relacional es un subsistema de propósito

general, y que proporciona soporte a otros subsistemas para el manejo de datos, aportando las

funcionalidades necesarias para manejarlos, preservarlos y recuperarlos. Éste subsistema funciona

como un servidor, proporcionando los datos a los usuarios que se conectan a él. Existen numerosas

soluciones de base de datos, tanto libres (MySql, PostgreSQL, etc.) como comerciales (Oracle, SQL

Server, etc.).

El subsistema de base de datos relacional sirve de soporte a la referenciación que antes se

mencionaba, concretamente en el caso del subsistema de imágenes y en el caso de trabajar con

documentos en formato de audio o vídeo. La base de datos contendrá el código que haga referencia a

la imagen en cuestión y el resto de datos que sirvan para referenciarla unívocamente y poder así

localizarla cuando sea preciso.

Es preciso apuntar aquí que la base de datos relacional no funciona de forma “aislada” a la

base documental, sino que puede contener registros haciendo referencia a determinados documentos,

ya sean texto plano, hipertexto o hipermedia.

Junto a esta funcionalidad, la base de datos relacional podrá contener datos vitales para el

sistema: inventarios, usuarios y roles, control de accesos, información de configuración, etc. Estos

datos se distribuirían entre diversos servidores.

Cabe destacar aquí un tipo especial de base de datos orientada a la toma de decisiones en la

organización. Se trata de los Data Warehouse. Si bien tienen similitudes con las relacionales, éstas se

pueden considerar más bien bases de datos multidimensionales, ya que su estructura depende de una

serie de dimensiones predefinidas en la BD (geografía, tiempo, productos, etc.).

Se nutre de los datos extraídos y filtrados de otros subsistemas, transformándolos,

integrándolos, sumariándolos y almacenándolos en un repositorio, de manera que se pueda acceder a

ellos cuando sea preciso. La información de interés se distribuye por medio de diversas herramientas

de consulta y de creación de informes, orientadas a la toma de decisiones. Permite también el empleo

9


de técnicas avanzadas de extracción de información como el Data Mining.3

1.1.4. El subsistema de thesaurus

Este subsistema puede encontrarse integrado en la base de datos documental o bien funcionar

como una aplicación aparte. El thesaurus dota al sistema de funciones que mejoran sustancialmente las

búsquedas. En la actualidad destacan por sus potencialidades hipertextuales: las relaciones entre

términos se representan con enlaces. El tesauro sirve como base a la navegación hipertextual de la

base documental, ya que especifica las relaciones entre los términos representativos del contenido de

los documentos.

El hipertexto a dos niveles, del que se hablaba anteriormente, depende de la existencia de una

red conceptual subyacente, en este caso el tesauro cumple esa función. Esto finalmente conseguirá que

el lenguaje del sistema (thesaurus) haga de “guía” del usuario en las búsquedas por navegación en los

documentos (browsing), ofreciéndole documentos relacionados con la materia que buscaba, pero que

en un principio no se hallaban en su formulación de búsqueda. Además de buscar por palabras

concretas contenidas en los textos mediante los clásicos operadores booleanos, el subsistema de

thesaurus encuentra sinónimos o términos relacionados, aumentando así en gran medida el número de

documentos encontrados.

La combinación de estas funcionalidades puede servir para elaborar perfiles de búsqueda,

bastante más avanzados que las búsquedas normales, y que pueden ser almacenados y llamados en

cualquier momento. A la hora de determinar qué descriptores van a caracterizar un determinado

documento, el thesaurus también representa una ventaja, ya que puede sustituir a la determinación de

descriptores clásica. El thesaurus debería integrarse en el sistema de forma transparente al usuario,

teniendo acceso a los documentos de la base de datos documental, relacional y el correo electrónico.

1.1.5. El subsistema de imágenes y el OCR

Responde a la necesidad de tratar los documentos que no están sobre soporte de fichero

informático de texto, ni de audio o vídeo, esto es, documentos en formato papel, transparencias,

fotografías, diapositivas, planos, faxes, imágenes de objetos tridimensionales, etc. El objetivo de este

subsistema es capturar, editar, visualizar e imprimir estas imágenes y permitir que puedan ser

almacenadas y gestionadas en red. Como es obvio, se encontrará integrado con un subsistema de base

de datos documental o relacional.

La incorporación de imágenes al sistema puede realizarse a través de una carga masiva inicial,

una migración desde otro sistema o bien con las entradas de documentos diarias. A partir de los

documentos físicos en diversos soportes, se crean unos ficheros de imágenes. Para ello se emplea

generalmente el escáner, que dispone de una aplicación informática ligada, a su vez subordinada a la

aplicación principal de imágenes del sistema. Estas imágenes posteriormente deben poder ser

buscadas, visualizadas en pantalla o bien imprimidas. Se suele distinguir entre “digitalización gráfica” 3 J.M. Franco, EDS-Institut Prometheus, "El Data Warehouse. El Data Mining", Ediciones Gestión 2000, 1997.

10


y “digitalización del texto”, según sea el propósito final de dicha digitalización del documento.

El sistema de Reconocimiento Óptico de Caracteres (OCR) permite reconocer texto y datos

que se encuentran en los ficheros informáticos de imágenes. Pueden leer tanto el texto completo

contenido en un fichero de imagen como determinadas zonas del mismo. La primera funcionalidad

tiene por objetivo el volcado del texto en documentos que pasarán a formar parte de la base de datos

documental. La segunda, enviar los datos extraídos a la base de datos relacional, siendo lo más común

en el caso de digitalizar lotes de formularios o documentos con un formato fijo. Este subsistema

acostumbra a integrarse con el de gestión documental.

Sin embargo, volvemos a reiterar aquí que el uso de herramientas ofimáticas está desplazando

a la tradicional gestión de documentos en papel. Los documentos se generan en formato digital y el

sistema de gestión integral de la información trabaja con ellos directamente. Aspectos como la

compatibilidad y el uso de estándares son importantes aquí, ya que el intercambio de documentos con

las aplicaciones que los generan debe poder hacerse sin conversiones previas.

1.1.6. El subsistema de Workflow

En estrecha relación con las aplicaciones de trabajo en grupo (groupware), propone el

establecimiento de una serie de reglas y pautas en las que se especifican las tareas y pasos que se han

de seguir para la consecución de un proceso de negocio. En estos procesos se suele generar

información abundante, ahí es donde entra en juego el sistema de gestión integral de la información,

para capturar ese conocimiento, almacenarlo y procesarlo para generar conocimiento nuevo.

Decimos que pertenece a la aplicaciones de groupware, porque va destinado a facilitar el

trabajo en grupo, dándole una estructura racional. El workflow, al mismo tiempo, permite coordinar y

automatizar los procesos de negocio, balanceando cargas de trabajo, gestionando los plazos de entrega

o bien pasando tareas de un empleado a otro según sea conveniente. No sólo eso, el workflow también

está dotado de un sistema de monitorización de las tareas realizadas y del estado de los procesos, lo

que permitirá futuras modificaciones e incluso el completo rediseño del proceso de negocio para

adaptarlo a las necesidades del mercado.

1.1.7. El subsistema de Groupware

Básicamente se puede definir al groupware como el software que permite trabajar de forma

cooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas,

gestión de flujos de trabajo, etc. Por lo tanto, se define como «herramientas con las que las personas

puedan trabajar juntas en un marco colectivo de comunicación, colaboración y coordinación»4. Si la

comunicación entre los miembros del equipo es en tiempo real, pueden emplearse medios que faciliten

la votación o la generación de nuevas ideas, siempre y cuando puedan reunirse en el mismo lugar; de

no ser así, se puede recurrir al teléfono, la videoconferencia o la mensajería instantánea. De tratarse de

4 SAGREDO, ÁNGEL (1996): «El trabajo en grupo en la Internet», Actas del I Congreso Nacional de Usuarios de Internet. Madrid, Asociación de Usuarios de Internet, 1996, 213-239.

11


una comunicación asíncrona, entrará en juego el correo electrónico, fax, buzón de voz, los grupos de

discusión o los entornos colaborativos. La variedad de aplicaciones de tipo groupware es enorme, sin

embargo puede establecerse una taxonomía de las mismas:

Herramientas de comunicaciones: incluyen la mensajería, el correo electrónico, el fax, la

telefonía, los foros de discusión, etc.

Herramientas de coordinación: facilita que los componentes de un grupo de trabajo se pongan

de acuerdo y trabajen en una misma dirección. Pueden incluirse aquí las Agendas de grupo o

las de Seguimiento de una actividad. Si el tiempo es vital para la tarea, aquí entran en juego

los Organizadores personales, las Agendas de red o incluso los Sistemas de gestión de

proyectos.

Herramientas de workflow: ya mencionadas anteriormente, tratan de conseguir la

coordinación de usuarios, tareas e información para el logro de la meta de la organización.

Entre otros ejemplos aquí cabe citar: Automatización y control de procesos, Rutas dinámicas

de documentos, firmas digitales, etc.

Repositorios de información: permiten la distribución de información de y para los usuarios.

Los usuarios pueden publicarla o recibirla, esto siempre mediante la acción directa del mismo.

Ejemplos: bases de datos de documentos, control de versiones, servidores web en Internet, etc.

Entornos colaborativos: permiten que personas que se encuentran ubicadas en diferentes

localizaciones puedan trabajar juntas en tiempo real. Estos entornos permite trabajar a un

grupo de personas sobre los mismos documentos al mismo tiempo, y pueden integrar

herramientas como el control de versiones, agendas de red, videoconferencia, pizarras

colaborativas, compartición de pantalla, etc.

1.1.8. El subsistema de DSI

La Difusión Selectiva de la Información consiste en un tratamiento y explotación periódica de

las informaciones documentales más recientes, memorizadas y difundidas periódicamente en respuesta

a los perfiles documentales definidos por los usuarios. Estos perfiles se construyen en base a los

términos o palabras clave que constituyen la “necesidad documental” del usuario. Una vez definido el

perfil, el usuario recibe periódicamente la información ajustada a su demanda.

Los sistemas actuales, disponen de dos opciones relativas a los sistemas DSI:

El cliente consulta directamente información de algún tema concreto en base a un listado. Es

el método tipo “PULL”, ya que es el usuario el que decide acceder a los contenidos cuando él

lo desea.

El cliente se suscribe a los perfiles de información que le interesan y recibe periódicamente en

12


su correo electrónico boletines con las novedades de la base de datos documental. Es el

método tipo “PUSH”, ya que el usuario recibe periódicamente la información de forma

continuada.

En todo caso, el sistema debe permitir que el usuario sugiera nuevos perfiles de DSI en

función de sus intereses cambiantes.

Figura 1. Esquema funcional del sistema integral de gestión de la información.

2. El lenguaje XML y sus especificaciones

2.1. Orígenes del lenguaje XML

Como se verá posteriormente, XML trata el contenido de un documento digital como una

estructura arbórea de elementos. Este enfoque tiene su origen en las técnicas empleadas por los

primeros procesadores de texto.

En los años 60 se escribía en primer lugar el texto digital y luego se aplicaba el formato

deseado. Por lo general este texto terminaba siendo impreso y se asociaba la descripción referente a la

presentación del documento. Algunas de esas “anotaciones” siguen vigentes hoy en día, como en el

caso del formato RTF (Rich Text Format). Poco después aparecería el marcado de formato, que

consistía en marcar directamente el texto mediante una serie de etiquetas.

13


La aparición de los sistemas WYSIWYG (what you see is what you get) trajo consigo el

desarrollo de lenguajes de etiquetas más complejos. Mientras tanto, los procesadores de texto

evolucionaron cualitativamente hasta llegar a los actuales: Pagemaker, MsWord, WordPerfect,

StarOffice, ect.

Esto llevó a una proliferación de formatos y, con ellos, diferentes formas de representar la

información. Así, a finales de los 60, IBM creó el GML (General Markup Language), que

posteriormente se convertiría en SGML (Standard Generalized Markup Language), que adquirió el

estatus de norma ISO en 1986 (ISO 8879).

SGML permite especificar la estructura de un documento mediante una definición formal

llamada DTD (Document Type Definition). La DTD especifica qué elementos constituyen un

documento, como por ejemplo secciones, subsecciones, párrafos, títulos, etc.

El precedente de Internet, ARPANET, apareció a principios de los 70. Uno de los principios

en que se basaba era el hipertexto, esto es, la organización no secuencial de los documentos, lo que

supone criterios de asociación de conceptos como principio organizador. Los dos elementos clave en

este sistema son el enlace y el nodo. Un nodo en Internet es un documento digital relacionado con

otros por medio de enlaces. La mayor parte de los nodos o documentos digitales que se encuentran en

Internet están codificados en HTML, que no es ni más ni menos que una DTD de SGML que

especifica qué “elementos” componen un documento digital publicado en la web.

El World Wide Web Consortium (W3C) ha centralizado desde 1996 el desarrollo de HTML.

Esta misma entidad ha sido la que ha propuesto y desarrollado el formato XML, fundamentalmente

por tres motivos:

Se buscaba una norma para intercambiar información estructurada entre dos puntos de la red,

con independencia de la plataforma o la aplicación. Pese a que SGML era el candidato ideal,

su tamaño y complejidad hicieron necesaria la creación de otro estándar.

Se quería publicar documentos digitales en la WWW a gran escala.

HTML sólo sirve para describir el formato de los documentos y no su contenido.

Para ello se creó un subconjunto de SGML que es lo que ha dado lugar a la actual

especificación XML.

Lo más interesante de esta evolución es constatar cómo en un momento determinado se

produjo una separación entre presentación y contenido. En estos momentos la estructuración del

contenido de la web concentra el interés y los esfuerzos de usuarios y desarrolladores. De ahí el éxito

actual del formato XML, ya que es un medio para estructurar el contenido de los documentos digitales.

2.2. Características del lenguaje XML

14


Por medio de XML es posible definir los documentos con el grado de exhaustividad que se

requiera. Una de las características principales de un documento XML es que permite organizar

jerárquicamente todas las unidades informativas de un documento mediante estructuras lógicas. En la

terminología de XML, estas unidades se denominan entidades (entities) y no son sino datos

(contenidos) dispuestos para ser interpretados por la máquina. XML posee mecanismos que permiten

revisar la estructura lógica de los documentos con el propósito de que las máquinas que se

interconecten entre sí para operar con estos datos lo puedan hacer de manera fluida. El acceso a los

documentos XML se realiza mediante un procesador que revisa la estructura de los documentos e

interpreta los contenidos de acuerdo con una gramática.

La gramática de los lenguajes XML, es decir, la estructura y elementos permitidos en los

documentos XML, se define mediante:

DTD (Document Type Definition): Documento ASCII plano que especifica tanto los

elementos que forman un tipo de documento dado, como las relaciones que se dan entre ellos.

XSD (XML Schema Definition): Mejoran los DTD’s porque están escritos en XML y

permiten nuevas características:

- Definir tipos de datos.

- Utilizar espacios de nombre.

- Definir intervalos de valores para los atributos y elementos.

- Características Orientadas a Objetos.

El éxito de XML ha propiciado la demanda de nuevas funcionalidades, que se abordan

definiendo extensiones adicionales para:

Estructurar documentos (XML Schema)

Enlaces y direccionamiento (Xpath, Xlink, Xpointer)

Transformación y presentación (XSL, CSS2)

Consultas (Xquery)

Programación (DOM, SAX)

Otros (Namespaces, Xinclude, Xbase...)

<?xml version=“1.0”?> <contacts> <contact> <name> <first>John</first> <last>Belcher</last> </name>

Figura 2. Código de ejemplo XML.

15


2.3. Algunas especificaciones derivadas de XML: RDF, OWL Y

SKOS-CORE

Aunque XML es un lenguaje válido para describir con exhaustividad el contenido de un

documento, tiene serias limitaciones en contextos donde se precisa que la semántica de los datos con

que se trabaja sea explícita. Es decir, cuando “codificamos” un documento en XML, no estamos

diciendo nada sobre el significado de esas estructuras que estamos creando. Pese a ser un gran

lenguaje para el intercambio de datos en la web y entre aplicaciones, no permite expresar la semántica

de esos datos. Del mismo modo, usando XML, las propiedades de esos datos (y de los metadatos) no

pueden ser inferidas de ninguna manera.

Como solución a esto surgen otros lenguajes que, apoyándose en la sintaxis de XML, sí están

dotados de capacidades para definir la semántica y las propiedades de los datos que manejan.

2.3.1. RDF

En 1999 se publicó la primera versión de RDF (Resource Description Framework), un

lenguaje para la definición de ontologías y metadatos en la web. El objetivo de RDF fue solucionar el

acceso y gestión de contenidos en la web mediante un lenguaje de metacontenidos. RDF es hoy el

estándar más popular y extendido en la comunidad de la web semántica.

Este lenguaje es importante para la descripción de los objetos y los tipos de objetos que se

encuentran en la red (a los que se suele llamar “recursos”). RDF se basa en la idea de que podemos

identificar los elementos a partir de URIs (Uniform Resource Identification) describiendo los recursos

en términos de propiedades simples o pares propiedad-valor. Esto permite representar las

declaraciones simples sobre recursos como un grafo de nodos y arcos que representan los recursos, sus

propiedades y sus valores. Por tanto, el elemento de construcción básica en RDF es el “triple” o

sentencia, que consiste en dos nodos (sujeto y objeto) unidos por un arco (predicado), donde los nodos

representan recursos, y los arcos propiedades.

Con RDF Schema (RDFS) se pueden definir jerarquías de clases de recursos, especificando las

propiedades y relaciones que se admiten entre ellas. En RDF las clases, relaciones, y las propias

sentencias son también recursos, y por lo tanto se pueden examinar y recorrer como parte del grafo, o

incluso asertar sentencias sobre ellas. Se han definido diferentes formas sintácticas para la formulación

escrita de RDF, pero quizás la más extendida es la basada en XML (serialización). Es por ello que

RDF se presenta a menudo como una extensión de XML.

Pese a la potencia de RDF para describir recursos, hay que tener en cuenta que también tiene

algunas debilidades:

16


Dos documentos pueden usar definiciones diferentes del mismo concepto y no se puede

decidir que son equivalentes.

Tiene problemas de ambigüedad en la definición de sus elementos.

No se permite el manejo/ definición de restricciones de integridad.

<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#"> <contact:Person rdf:about="http://www.w3.org/People/EM/contact#em"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:[email protected]"/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person></rdf:RDF>

Figura 3. Código de ejemplo RDF.

2.3.2. OWL

Al lenguaje RDF le siguieron OIL (Ontology Inference Language), desarrollado en Europa, y

DAML (DARPA Agent Markup Language), en EE.UU., dos lenguajes muy similares que de hecho se

terminaron fundiendo en DAML+OIL. A partir de esta unión se definió el lenguaje OWL (Web

Ontology Language), con el propósito de reunir todas las ventajas de DAML+OIL y resolver los

problemas de este lenguaje.

OWL se puede formular en RDF, por lo que se suele considerar una extensión de éste. OWL

incluye toda la capacidad expresiva de RDF(S) y la extiende con la posibilidad de utilizar expresiones

lógicas. OWL permite, por ejemplo, definir clases mediante condiciones sobre sus miembros (p.e. la

clase de los cuadros creados por pintores españoles), mediante combinación booleana de clases (Tinto

and Rioja and not Crianza en una ontología de vinos), o por enumeración de las instancias que

pertenecen a la clase (i.e. por extensión). Además OWL permite atribuir ciertas propiedades a las

relaciones, como cardinalidad, simetría, transitividad, o relaciones inversas.

El lenguaje OWL permite todas las operaciones que son propias de una ontología, como crear

descripciones sobre clases de individuos, con restricciones y relaciones con otras descripciones. Se

divide en tres sublenguajes: OWL-Lite, OWL-DL y OWL-Full, cada uno de los cuales proporciona un

conjunto definido sobre el que trabajar, siendo el más sencillo OWL-Lite y el más completo OWL-

Full.

Con todo esto y pese a ser válido como lenguaje de elaboración de ontologías, hay que

recordar que OWL también tiene algunas desventajas:

Debe existir un número limitado de constructores / axiomas para que el proceso de inferencia

sea decidible.

17


No es muy natural.

No permite definir/ chequear restricciones de integridad.

Complejidad.

<owl:Class rdf:ID="QualityRating"> <owl:oneOf rdf:parseType="Collection"> <QualityRating rdf:ID="qualityRating_Excellent"/> <QualityRating rdf:ID="qualityRating_Good"/> <QualityRating rdf:ID="qualityRating_Average"/> <QualityRating rdf:ID="qualityRating_Poor"/> </owl:oneOf> </owl:Class>

Figura 4. Código de ejemplo OWL.

2.3.3. SKOS-CORE

Se trata de la propuesta más concreta que hay hoy en dia para la elaboración de tesauros en el

entorno de la web semántica. SKOS-Core es un schema RDF para la representación de tesauros y

sistemas similares de organización de conocimiento. Esta aproximación es la propuesta por el W3C.

El objetivo fundamental de SKOS-Core es proporcionar un modelo para la migración de sistemas de

organización de conocimiento al entorno de la web semántica. Además sirve para construir esquemas

de conceptos simples para su utilización en la Web.

SKOS-Core está pensado como un complemento a OWL, ya que proporciona un marco básico

para la construcción de esquemas de conceptos pero sin la definición semántica tan estricta que exige

la utilización de OWL. Se trata en cierta medida una simplificación mayor de la que encontramos ya

en OWL-Lite, lo cual permite acceder a un mayor número de personas a este tipo de tecnologías para

la representación del conocimiento.

La idea base de este schema RDF reside en su capacidad para permitir la definición de

conceptos y esquemas de conceptos. Un concepto se define como una unidad de pensamiento que

puede ser definida o descrita. A su vez, un esquema de conceptos no es otra cosa que una colección de

conceptos. Un concepto puede tener una serie de etiquetas asociadas, donde cada etiqueta es una

palabra, frase o símbolo que suele utilizarse para referirse a ese concepto.

18


<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:skos="http://www.w3.org/2004/02/skos/core#"

xmlns:dc="http://purl.org/dc/elements/1.1/">

<skos:ConceptScheme rdf:about="http:/spines.org/thesaurus">

<dc:title>SPINES</dc:title>

<dc:description>Tesauro de política científica</dc:description>

<dc:creator>UNESCO</dc:creator>

</skos:ConceptScheme>

</rdf:RDF>

Figura 5. Código de ejemplo SKOS-Core.

3. Aplicación del XML en un Sistema de Información

3.1. Ventajas de la utilización de XML en un Sistema Integral de

Gestión de la Información

Con lo visto hasta ahora, se ha elaborado un diseño funcional y operativo de un Sistema

Integral de Gestión de la Información. Se distinguieron en él todos los subsistemas de los que depende

la entrada, el proceso y la salida de información, junto con las relaciones entre los diferentes módulos

que lo componen. Como segundo paso, se ha expuesto la tecnología XML y las diferentes

especificaciones, que vienen a cubrir diferentes necesidades de descripción de recursos web (RDF),

ontologías (OWL) y tesauros (SKOS-Core).

A partir de aquí es necesario plantearse la utilidad de implementar estas tecnologías al diseño

de los Sistemas de Información, esto es, determinar en qué grado mejorarán la descripción, la gestión

y el intercambio de información. La decisión de implementar una tecnología u otra no es una decisión

que deba tomarse a la ligera. Ha de seleccionarse un estándar que cubra las necesidades arriba

descritas y al mismo tiempo disponga de aceptación general, garantizándose que no quede obsoleto en

un breve espacio de tiempo.

Como se ha dicho anteriormente, la principal virtud de XML se encuentra en su capacidad para

definir el contenido de los documentos de forma jerárquica, estructurando sus unidades informativas

de forma lógica. Dicho de otra forma, permite “estructurar” la información contenida en los

documentos. Esta cualidad, aplicada a los documentos de nuestro sistema, nos permitirá:

19


Crear una base de datos de componentes de documentos. Ya que XML es una notación que

preserva las abstracciones, los datos de los documentos XML pueden tratarse como el resto

de datos, esto es, automatizarse, procesarse, reutilizarse, clasificarse y recuperarse.

Salidas múltiples. Los datos en un documento XML se almacenan independientemente del

medio utilizado. Esto permite que las organizaciones documentales entreguen su

información automáticamente desde un sólo depósito a la Web, por medio de un disco

óptico, para su impresión o cualquier otro medio. Por lo tanto, XML facilita el intercambio

de información por tratarse de un estándar donde la presentación es independiente de los

datos.

Reutilización de la información. En ocasiones las organizaciones vuelven a crear

información ya existente en lugar de reutilizarla. Esta gestión ineficaz provoca

imprecisiones, versiones erróneas, fallos de entrega y, por supuesto, un aumento en los

costes. Estos costes superfluos pueden evitarse construyendo un depósito de documentos

estructurado, que permitirá el mayor número posible de reutilizaciones de la información ya

existente. Esta base de datos permitirá mantener la integridad de los datos que contiene

independientemente del momento, lugar o frecuencia con que se utilicen.

Automatización. Si se representan los documentos en XML y se almacenan en un depósito,

se pueden obtener mejoras mediante una automatización intensiva que genera el mismo tipo

de ventajas que si se implantaran bases de datos relacionales para reemplazar registros

introducidos de forma manual.

3.2. Infraestructura

El hardware, junto con el software de base, constituye la infraestructura de trabajo de un

sistema integral de gestión de la información. Está integrada tanto por los computadores que utilizan

los usuarios (clientes del sistema) como por los que centralizan las bases de datos documentales /

relacionales (servidores); además de la red que interconecta todas las máquinas y el sistema operativo

sobre el que funciona el software de gestión de la información.

3.3. Los subsistemas de base de datos documental y relacional

Una vez enumeradas las ventajas de la aplicación de XML y sus especificaciones a un sistema de

información, podemos estudiar su aplicación en la base de datos documental y en la relacional. En este

punto será de vital importancia tratar aspectos como:

La caracterización de los documentos en el momento de su entrada (carga) en el sistema,

20


teniendo en cuenta el formato en que llegan (si se precisa la conversión a otro) y la

correspondiente estructuración de la información contenida en ellos.

El almacenamiento en la base de datos, tanto los clásicos registros de la base de datos

relacional como el repositorio de componentes XML que formará nuestra base de datos

documental.

La recuperación de información, acercándonos a las diferentes opciones en lo relativo a

lenguajes de consulta y la interfaz de usuario

La conectividad entre la base de datos documental y la relacional, que se efectuará también a

través de XML y será clave en el momento de la recuperación de información y para el

subsistema de publicación de contenidos y DSI.

3.3.1. La entrada o carga de documentos

Los documentos llegan al sistema por muchas vías: el clásico OCR integrado en el subsistema

de imágenes, documentos electrónicos recibidos desde la web o generados en la misma organización,

procedentes de discos ópticos u otros dispositivos de almacenamiento, etc. El problema no se

encuentra en las múltiples vías de llegada de documentos, sino en la diversidad de formatos, que

obliga a una conversión de éstos al formato propio de carga en el sistema, de manera que puedan

aplicarse a los mismos las modificaciones pertinentes.

Se dice que, en una base de datos relacional, sólo se encuentran datos abstractos, es decir,

información estructurada. Sin embargo, en el archivo informático de un procesador de texto, por

ejemplo, se encontrará la información de estilo mezclada con la información real -el contenido de los

datos- del documento.

Por tanto, se puede decir que los documentos tienen estructura, aunque la forma en que están

almacenados “oculta” los datos abstractos que indican el aspecto que deberían tener en su

presentación.

Dicho de otro modo, las bases de datos relacionales contienen abstracciones y los archivos

documentales contienen, generalmente, reproducciones. La idea aquí, por tanto, es almacenar los

documentos de manera que su estructura natural y los datos que contienen puedan distinguirse

siempre, gestionar los documentos como si se tratara de datos.

Evidentemente, el proceso de “etiquetado” XML es una tarea que se debe realizar de forma

automática, siendo la aplicación la que reconozca los campos de los documentos que previamente se

le han especificado.

Está claro que esto supone un problema de formalización de los documentos cargados en el

sistema: no todos lo documentos tendrán los mismos campos (capítulo, título, sección, subsección,

etc.), por lo que en ocasiones será precisa la intervención manual. De todos modos, hasta en los casos

donde sea más difícil la estructuración por XML, siempre se podrán efectuar búsquedas a texto

completo.

21


3.3.2. El almacenamiento

En el actual panorama de los sistemas de gestión documental, se tiende hacia la orientación a

objetos como paradigma de almacenamiento5, considerando que un documento se compone de objetos

de información (fotos, capítulos, secciones, etc.), que además incluye información sobre cómo estos

objetos deben ensamblarse.

En el momento de la presentación de resultados de una búsqueda, debe poder mostrarse a los

usuarios documentos virtuales diferentes, adaptando el ensamblaje de las partes a las características de

cada usuario.

En definitiva, se trataría de evolucionar desde el clásico almacenamiento estático de los

documentos hacia un almacenamiento que permita su composición en el mismo momento en que van

a ser utilizados por los usuarios6.

Figura 6. Evolución en la estructura de los documentos electrónicos.

La propuesta de este trabajo consiste en la construcción de una base de datos de componentes

de documentos XML, de manera que cada documento individual contenido en la misma se encuentre

estructurado jerárquicamente a partir de los campos predefinidos en él. Un componente, por tanto, es

un fragmento de información que puede utilizarse de forma independiente, como un párrafo, un

capítulo, un procedimiento con instrucciones, una nota de aviso, un número de parte, una cantidad de

un pedido, un gráfico, una historia parcial, secuencias de vídeo y una variedad infinita de tipos de

información. Tratados mediante un sistema de gestión de contenidos, estos fragmentos pueden

controlarse, revisarse, reutilizarse y agruparse en documentos nuevos.5 MARTÍNEZ, José Manuel; HILERA, José Ramón; MARTÍNEZ, Javier y GUTIÉRREZ, José A. (1996): "Orientación a Objetos en la

Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.

6 MARTÍNEZ José Manuel; HILERA José Ramón. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista General De Información y Documentación, 1997;7:237-255.

22


Por lo tanto, nuestra base de datos documental no contendrá realmente documentos

“completos”, sino componentes de los mismos con información acerca de su ensamblaje. Esto

permitirá recuperar los documentos enteros, o bien sólo secciones de los mismos que sean de nuestro

interés, pudiendo incluso generar documentos nuevos a partir de los fragmentos que seleccionemos.

Cuanto más pequeños y específicos sean estos componentes, más manipulables y reutilizables

resultarán. Junto con este repositorio de componentes, la base de datos documental también contendrá

la “colección” de DTD's de las diferentes tipologías de documentos XML.

La base de datos relacional, en nuestro modelo, puede servir tanto para almacenar registros de

datos de importancia para la organización, como para localizar los objetos de información situados en

la base de datos documental, sobre todo cuando se trate de imágenes, vídeos, gráficos u otros. Así

pues, nuestro Sistema Integral de Gestión de la Información almacenará una colección de “objetos” de

los tipos descritos arriba. Desde la perspectiva del usuario, debe poder recuperarse de igual manera un

vídeo que un documento completo o un registro de la base de datos. Aunque este aspecto se abordará

en mayor profundidad en el siguiente punto, lo fundamental en este punto es que se recupere la

información sin tener en cuenta en qué forma se encuentre esta.

3.3.3. La recuperación de información

Un punto clave en el diseño de una base de datos documental es el relativo al sistema de

recuperación de información. Por muy bien que la base de datos almacene sus registros, si estos no

pueden ser recuperados de forma eficiente, ésta carecerá de utilidad. En el Sistema Integral de Gestión

de Información tenemos tanto bases de datos documentales como de tipo relacional. En este segundo

supuesto la recuperación de información (datos más bien en este caso) se efectuará mediante el

lenguaje más apropiado, SQL. Este lenguaje es perfecto para realizar búsquedas en una base de datos

relacional, al tiempo que permite el almacenamiento de consultas. No es preciso que nos extendamos

en detalles acerca de la recuperación de información con SQL, ya que no es el lugar apropiado y la

bibliografía es abundante; resulta de mayor interés tratar la recuperación en la base documental y la

interfaz de consulta.

XQUERY

De manera rápida podemos definir XQuery con un símil en el que XQuery es a XML lo

mismo que SQL es a las bases de datos relacionales.

XQuery es un lenguaje de consulta diseñado para escribir consultas sobre colecciones de datos

expresadas en XML. Abarca desde archivos XML hasta bases de datos relacionales con funciones de

conversión de registros a XML. Su principal función es extraer información de un conjunto de datos

organizados como un árbol n-ário de etiquetas XML. En este sentido XQuery es independiente del

origen de los datos.

23


XQuery es un lenguaje funcional, lo que significa que, en vez de ejecutar una lista de

comandos como un lenguaje procedimental clásico, cada consulta es una expresión que es evaluada y

devuelve un resultado, al igual que en SQL. Diversas expresiones pueden combinarse de una manera

muy flexible con otras expresiones para crear nuevas expresiones más complejas y de mayor potencia

semántica. XQuery está llamado a ser el futuro estándar de consultas sobre documentos XML

Actualmente, XQuery es un conjunto de borradores7 en el que trabaja el grupo W3C. Sin embargo, a

pesar de no tener una redacción definitiva ya existen o están en proceso numerosas implementaciones

de motores y herramientas que lo soportan.

Aunque XQuery y SQL puedan considerarse similares en casi la totalidad de sus aspectos, el

modelo de datos sobre el que se sustenta XQuery es muy distinto del modelo de datos relacional sobre

el que apoya SQL, ya que XML incluye conceptos como jerarquía y orden de los datos que no están

presentes en el modelo relacional. Por ejemplo, a diferencia de SQL, en XQuery el orden es que se

encuentren los datos es importante y determinante, ya que no es lo mismo buscar una etiqueta <B>

dentro de una etiqueta <A> que todas las etiquetas <B> del documento (que pueden estar anidadas

dentro de una etiqueta <A> o fuera).

XQuery ha sido construido sobre la base de Xpath8. Xpath es un lenguaje declarativo para la

localización de nodos y fragmentos de información en árboles XML. XQuery se basa en este lenguaje

para realizar la selección de información y la iteración a través del conjunto de datos.

Una consulta en XQuery es una expresión que lee una secuencia de datos en XML y devuelve

como resultado otra secuencia de datos en XML. Un detalle importante es que, a diferencia de lo que

sucede en SQL, en XQuery las expresiones y los valores que devuelven son dependientes del contexto.

En XQuery, cuando usamos el térmico tupla, nos estamos refiriendo a cada uno de los valores que

toma una variable. A continuación se muestra un ejemplo de consulta con XQuery.

for $b in doc("libros.xml")//libro let $c := $b//autor where count($c) > 2 order by $b/titulo return $b/ titulo

Figura 7. Ejemplo de consulta con XQuery: devuelve los títulos de los libros que tengan más de dos autores,

ordenados por su título.

<title>Data on the Web</title>

Figura 8. Resultado de la consulta anterior.

7 Documento principal del grupo de trabajo Xquery: http://www.w3.org/TR/xmlquery-req8 Documentación sobre Xpath: http://www.w3.org/TR/xpath20/

24


La propuesta de este trabajo se centra en la posibilidad de un único lenguaje de consulta para

ambas bases de datos, esto es, aprovechar la potencia de XQuery para consultar al mismo tiempo y de

forma transparente la base documental y la relacional. Como se comentó anteriormente, se busca

diseñar un sistema dotado de una integración total de la información contenida en el mismo, donde el

usuario realice consultas con independencia del formato de la información buscada. XQuery actuará

como lenguaje-interfaz para unificar todas las consultas a las bases de datos del sistema, recuperando

de forma transparente al usuario cualquier información en cualquier formato.

La interfaz de usuario debe permitir buscar de la forma tradicional, por medio de los clásicos

operadores booleanos o por frase exacta, como en cualquier sistema de búsqueda de propósito general.

En un sistema como este, sería fundamental implementar una opción de incluir campos por los que

recuperar la información. Pero ese sólo sería el primer paso. Tras esta búsqueda inicial, los resultados

se mostrarán al usuario por medio de un ranking con enlaces a los documentos. A partir de la selección

de un documento resultado comenzará un proceso de browsing, desde los documentos seleccionados

hasta otros que tengan semántica similar, es decir, que traten temas similares. Esta navegación por la

red semántica se apoya en la existencia de un tesauro subyacente que al mismo tiempo tiene la función

más clásica de lenguaje del sistema.

3.3.4. Conectividad entre la base de datos documental y relacional

De lo expuesto en el punto anterior, puede desprenderse que para lograr una total eficiencia en

la recuperación de información de forma integrada es preciso un alto grado de conectividad entre las

dos bases de información del sistema.

Debe proporcionarse tanto un lenguaje que sirva de interfaz común a la recuperación de

información, como un medio de comunicación de registros entre ambas. Por supuesto, ha de tenerse en

cuenta las particularidades de ambas bases de datos, ya que proporcionan diferentes niveles de

flexibilidad a la hora de emplear lenguajes de programación sobre ellas.

Por un lado, las bases de datos, ya sean comerciales o libres, suelen estar dotadas de conexión

a diversos lenguajes de programación y poseen herramientas de desarrollo de aplicaciones compatibles

con ellas. Sin embargo, el caso de las bases de datos documentales es diferente: aquí el margen de

maniobra es menor, no suele proporcionarse el código de la aplicación y disponen de conexiones muy

limitadas con lenguajes de programación.

De nuevo, XML es la respuesta a las necesidades de intercambio de información entre

aplicaciones. XML funciona perfectamente como interfaz de exportación e intercambio de registros

entre las dos bases de datos, si bien normalmente se precisa de algún lenguaje de script que exporte

primero esa información a XML. En el caso de la base de datos relacional, PHP o Perl pueden ser una

buena solución como lenguaje de exportación a XML; en el caso de la base de datos documental

dependerá de la aplicación concreta (por ejemplo, en el caso de Lotus Domino, “Lotus Script”).

25


Figura 9. Modelo de conectividad base de datos relacional / documental.

3.4. El subsistema de tesauro

La definición más aceptada de tesauro es la de “un lenguaje documental de estructura

combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas

descriptores, provistas de relaciones semánticas de tres tipos: equivalencia, asociación y jerarquía9”.

Los tesauros son realmente instrumentos de control terminológico en entornos de RI y, aunque

se pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de los

tesauros suele ser más mucho más simple y menos definida, además de contar con una menor

diferenciación léxico-semántica.

El tesauro servirá como base al lenguaje del sistema, siendo de utilidad tanto en el momento

de la selección de términos de indización como en el momento de la recuperación de información.

Como se comentó anteriormente, la especificación XML elegida para trabajar con el tesauro

del sistema es SKOS-Core. Este lenguaje a día de hoy es la propuesta más concreta para la

representación de tesauros en el entorno de la web semántica.

SKOS-Core permitirá diseñar la estructura del tesauro de forma eficiente y ofrece todas las

ventajas en gestión de la información que cualquier especificación XML. Este tesauro será la base de 9 PÉREZ AGÜERA, JOSÉ RAMÓN (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris

de biblioteconomía i documentació, 2004, 13.

26


toda las estructura de browsing del sistema de recuperación, guiando al usuario desde los documentos

obtenidos en respuesta a una consulta hasta otros semánticamente relacionados.

Los documentos, además de estar fragmentados en componentes XML, han de ser indizados

de acuerdo a la terminología elegida para este tesauro. Los descriptores definientes de la semántica de

los documentos se convierten en nuestro sistema en enlaces a otros nuevos documentos, que quizá no

aparecieron en la consulta original, pero que tienen alguno de éstos términos en común.

De este modo, el tesauro puede guiar la navegación del usuario, llevándole a encontrar

documentos que, o bien no supo encontrar en la formulación de la búsqueda inicial, o bien abren

nuevas vías o interrogantes a su investigación.

Esta idea nos lleva de nuevo a la propuesta del hipertexto a dos niveles de Pastor y Saorín: la

abstracción de la semántica de los documentos en una red conceptual subyacente (en este caso el

tesauro), accesible a través de enlaces mediante una interfaz de browsing.

Figura 10. Hipertexto a dos niveles: un mismo concepto puede aparecer en varios documentos.

3.5. El subsistema de publicación de contenidos y DSI

La sindicación de contenidos se presenta como una forma de aunar lo mejor de las tecnologías

push y pull. Se trata de una enorme ganancia que combina la tecnología push (de empujar contenidos a

los portales) pero también la pull porque agrega información dispersa y la presenta de modo

consolidado en múltiples sitios. Todos estos aspectos tienen que ver con la denominada gestión de

contenidos, encargada de capturar información desde diferentes fuentes (en este caso las más

27


importantes serán las bases de datos documentales y relacionales del sistema), analizándola,

categorizándola y finalmente entregándola a los usuarios de forma personalizada si se requiere así.

Efectivamente, el sistema de sindicación de contenidos debe estar dotado de una metodología

de personalización de la información que publica, o de canales temáticos que reúnan a determinados

grupos de usuarios con intereses comunes. Llegados a este punto, debe destacarse también que, en un

sistema de sindicación de contenidos, la presentación de la información se encuentra separada de los

datos mismos, para esto se pueden emplear hojas de estilo, como XSL, que definan la forma en que se

muestra al usuario. La información publicada en este subsistema puede ser reutilizada posteriormente,

lo que añade al mismo un nuevo valor añadido.

El lenguaje a emplear para la difusión de la información en este sistema de gestión de

contenidos es RDF. Ya que vamos a trabajar con datos heterogéneos procedentes en su mayor parte de

las bases de datos relacionales y documentales del sistema, RDF es la solución para describir estos

recursos.

A partir del repositorio de información que constituyen las dos bases de información del

sistema, el Subsistema de Publicación de Contenidos va actualizándose periódicamente. La

información es servida en distintos niveles, desde la página principal del portal de la organización con

información general hasta el espacio propio de un usuario concreto. Aquí se hace patente el concepto

de Difusión Selectiva de la Información (DSI), ya que la sindicación de contenidos se adaptará a las

necesidades informativas concretas del usuario.

El proceso de sindicación de contenidos tiene lugar tras la entrada y descripción de los

documentos nuevos en el sistema. Tras haberlos indizado y convertido a XML, el subsistema de

publicación de contenidos actuará como “filtro” a partir del contenido semántico de los mismos

(descriptores).

La publicación en el portal corporativo se efectuará mediante RDF, pudiendo crear pequeños

resúmenes del sitio mediante RSS si es preciso. Aquí es donde entra en juego el método push, ya que

la información de interés se “empuja” hacia el espacio del usuario o hacia los canales temáticos. La

información servida se ordenará por ranking de importancia para el usuario, dejando en la parte

superior los nuevos documentos entrantes que coincidan más con el perfil de interés informativo.

El correo electrónico es también interesante para efectuar avisos sobre la entrada de

información nueva de interés, implementado un mecanismo de envío automático de mensajes de alerta

a los usuarios.

28


Figura 11. Proceso de subsistema de publicación de contenidos.

V. Conclusiones

El presente trabajo ha mostrado que es posible el empleo de XML y lenguajes derivados en el

diseño de documentos y sistemas de información, y que esto trae consigo una serie de ventajas. La

potencia de este lenguaje para la descripción de los documentos y la facilidad que ofrece para el

intercambio de información, lo hace ideal para el diseño de sistemas de información.

Se ha demostrado que, desde el momento de la entrada en el sistema, los documentos pueden

ser estructurados y gestionados de forma modular según sus partes constituyentes, facilitando de este

modo su almacenaje y una recuperación más inteligente. Este último aspecto, el de la recuperación, ha

sido cubierto con el empleo del lenguaje de consulta XQuery, aún en fase de desarrollo, aunque su

capacidad de consulta en bases de datos relacionales y documentales lo hacen sumamente interesante.

De los diversos derivados de XML, se han analizado aquellos que podían ser aplicados al

diseño de los subsistemas de nuestro sistema de información. SKOS-Core se presenta como la mejor

opción para el diseño del Lenguaje del Sistema, el Tesauro, facilitando en gran medida su modelado y

la reutilización de sus contenidos. En referencia al Subsistema de Publicación de Contenidos, se ha

presentado RDF como la mejor propuesta para la sindicación de los objetos de información, de

acuerdo a los perfiles de interés de los usuarios.

Con todo lo visto, cabe destacar que, el empleo de XML en sistemas de información aporta

importantes mejoras en el ámbito de la gestión de la información documental, su intercambio y

difusión.

Sin embargo, las dificultades se centran en la multiplicidad de derivados de XML, las

diferentes versiones de los lenguajes (que pueden crear incompatibilidades) y la falta de desarrollo de

algunas de las propuestas. A pesar de ello, una vez salvados estos escollos, se facilitará enormemente

el diseño de sistemas de información totalmente integrados, donde los documentos,

29


independientemente del formato, sean tratados como objetos de información.

Estos objetos podrán ser tratados, recuperados y difundidos con independencia de su forma y

de manera transparente al usuario. Esta integración entre los diferentes subsistemas también ayudará a

eliminar las tareas duplicadas, permitiendo la reutilización de los objetos de información, y mejorará la

fluidez en el intercambio de los mismos.

VI. Bibliografía

ABAITUA, J.; BARRUTIETA, G.; DÍAZ, J.; JACOB, I.; QUINTANA, F., 2003, Contenidos y

metacontenidos en la edición digital. Letras de Deusto, núm. 100, vol. 33. Págs11-52. Bilbao.

Universidad de Deusto, 2003.

ANGOS ULLATE, J.M.; FERNANDEZ RUIZ, M.J.; SALVADOR OLIVÁN, J.A.; VILAS LARRÉ,

M. Necesidad de una metodología que optimice la gestión documental: estudio de un caso práctico.

Valencia, FESABID, 1998. 13 p. (VI Jornadas Españolas de Documentación).

MARTÍN GALÁN, B.; RODRÍGUEZ MATEOS, D. "Estructuración de la información mediante

XML: un nuevo reto para la gestión documental". En: Jornadas de Documentación (7ª. Bilbao. 2000).

Bilbao: Universidad del País Vasco; FESABID, 2000, pp. 113-123.

MÉNDEZ RODRÍGUEZ, E.M. Metadatos y Tesauros: aplicación de XML/RDF a los sistemas de

organización del conocimiento en Intranets. En: Jornadas Españolas de Documentación (7. 2000.

Bilbao) . La gestión del conocimiento: Retos y soluciones de los profesionales de la información.

[Bilbao]: Universidad del País Vasco, 2000, p. 211-219.

GOLDFARB, C.F. Manual de XML / Charles F. Goldfarb y Paul Prescod. -- Madrid, [etc.] : Prentice-

Hall, 1999.

HILERA GONZÁLEZ, J. R; MARTÍNEZ SÁNCHEZ, J. M. El papel de la documentación en la

gestión automatizada de flujos de trabajo. Revista General de Información y Documentación, 1998,

vol. 8, nº 2, p. 141-147.

NOGALES FLORES, J. T.; MARTÍN GALÁN, B.; ARELLANO PARDO, M.C. "Informática,

Derecho y Documentación. Experiencias y posibilidades de aplicación de los lenguajes de marcado de

texto (SGML, HTML y XML) a los documentos jurídicos". En: Encuentro sobre Informática y

Derecho. (16º. Madrid. 2002). Madrid: Instituto de Informática Jurídica, Universidad Pontificia de

Comillas, 2003.

30


MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de gestión documental en

el ámbito del trabajo corporativo. Revista General De Información y Documentación. 1997;7:237-255.

MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R.; MARTÍNEZ, J. Y GUTIÉRREZ, J. A.

(1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre

Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.

MORRISON, M. XML al descubierto : la solución más completa / Michael Morrison...[et al.]. --

Madrid, [etc.] : Prentice-Hall, 2000.

PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. “El hipertexto documental como solución a la crisis

conceptual del hipertexto: El reto de los documentos cooperativos en redes”. En: Cuadernos de

Documentación Multimedia, nº 4, 1995.

PASTOR SÁNCHEZ, J. A.; SAORÍN PÉREZ, T. “La escritura hipermedia”. Cuadernos de

Documentación Hipermedia , 1997-8, nº 6-7, p. 221-238.

PÉREZ AGÜERA, J.R. (2004): “Automatización de tesauros y su utilización en la web semántica”,

BiD: textos universitaris de biblioteconomía i documentació, 2004, 13.

SENSO, J. A.; ROSA, A. DE LA. Especificaciones XML aplicadas a la documentación. En:

FUENTES I PUJOL, María Eulàlia (dir.). Bibliodoc 1999. Anuario de biblioteconomía,

documentación e información. Barcelona: Col•legi oficial de bibliotecaris-documentalistes de

Catalunya, 1999.

SIMINIANI, M. Intranets, empresa y gestión documental : cómo enfocar en la práctica la tecnología

desde la necesidad de eficiencia en todo tipo de empresas / Mariano Siminiani. -- Madrid [etc.] :

McGraw-Hill, D.L. 1997.

31

Modelado de Documentos y Sistemas de Información con XML

Technology

Transcript of Modelado de Documentos y Sistemas de Información con XML