Perspectivas del uso de la web semántica en el tratamiento...
Transcript of Perspectivas del uso de la web semántica en el tratamiento...
2007 © Javier García Marco 1
Perspectivas del usode la web semántica
en el tratamiento de informacióny documentación legislativa
García Marco, Francisco JavierUniversidad de Zaragoza
Legal Framework for the Information Society (LEFIS)
Valladolid, 16 de noviembre de 2007
2007 © Javier García Marco 2
Contenido
• Introducción– El campo de acción– Posibilidades– La web semántica
• La arquitectura de la web semántica y ladocumentación legislativa
• Web semántica y Web 2.0:– la web de los datos y la web social
• El ciclo legislativo y la web semántica• Conclusiones
2007 © Javier García Marco 3
Interés creciente
• En reuniones y revistas generales: ICW3,IP&M, etc.
• International Conferences on ArtificialIntelligence and Law (ICAIL)
• Seminarios– International Seminar on Law and the Semantic
Web, Barcelona, Spain in November 2003– International Workshop on Legal Ontologies and
web based legal Information Management, 28 June2003, Edinburgh
2007 © Javier García Marco 4
Conceptos previos
• Información– Todo el proceso de adquisición e intercambio de mensajes de
cara a la concrección de un modelo mental y, eventualmente,de una acción conjunta.
• Documentación– Mensajes que por su valor (potencial de reutilización) han sido
almacenados en un soporte “permanente”.
• Legislativa– Regulaciones la vida social aprobadas por una autoridad
competente y —en nuestras sociedades— en un proceso departicipación democrática.
2007 © Javier García Marco 5
Conceptos previos
• Interoperabilidad– Combinatoriedad, integrabilidad e intercambiabilidad de
sistemas…– … que favore las alternativas y la competencia– Y que requiere protocolos y formatos de intercambio comunes
• Web Semántica– Conjunto de soluciones que permiten identificar datos
interoperables dentro de ficheros publicados en la web (o unaIntranet)
– Autorizados como estándares abiertos por el W3– Que contemplan los diferentes niveles de abstracción del
procesamiento: datos, metadatos, ontologías.
2007 © Javier García Marco 6
Conceptos previos
• Concurrencia (publicidad)– Un aspecto clave de la WWW es que ningún agente
posee el monolopolio de la información y de laacción comunicativa, sino que cualquier agentepuede realizar comprobaciones y propuestas deforma independiente.
2007 © Javier García Marco 7
La web semántica como entorno interoperable
De la WWW a la SW
• Proyecto del W3C, descrito en BernersLee et al., 2001, totalmente abierto
• La WWW maneja documentos, noautomatiza el uso de la información, solosu transferencia.
• La sWWW manejará datos, paraautomatizar su uso, haciéndolosprocesables.
2007 © Javier García Marco 8
Por qué la WS
Sentar las basespara una integración “fuerte”
de la redcomo sistema mundial de información
sin perjuiciode su dinamicidad
y de su carácter distribuido.
2007 © Javier García Marco 9
Arquitectura global(Tim Berners)
2007 © Javier García Marco 10
Las bases conceptualesDe los datos al conocimiento
datos
información
conocimiento
Instituto Universitario, Universidad
Entidadconstitutiva
Entidades (par)
=>1
Relación Cardinalidad
Los Institutos Universitarios de Investigación podrán serconstituidos por una o más universidades
relaciones
marcos decomprensión
2007 © Javier García Marco 11
Documentos (ficheros)
Metadatos
Ontologías
Esquemas de metadatos
Dublin Core (DC)
DC:Title
http://www.cabinetoffice.gov.uk/e-
government/
DatoE-Government
Unit
<meta name="DC.title" content="E-Government Unit" />
Dato etiquetado
OWL
XML
RDF
RDF-S
Vocabularios
Integrated Public Sector
Vocabulary (IPSV)
CaracteresUnicode
URI
Lenguajes de inferencia
XML SchemaDTD
Metadato validado y tipificado
http://dublincore.org/documents/
2002/07/31/dcmes-xml/dcmes-xml-
dtd.dtd
DatosNivel de datos
elementales
MensajesNivel de datos
estructurados en documentos
ConocimientoNivel de datos
conectados con modelos de validez general
RazonamientoNivel de procesamiento
lógicoPROLOG, etc.
¿Cómo?
Arquitecturade datos
2007 © Javier García Marco 12
Arquitectura de la información
Información estructurada/no• Los lenguajes de marcado han resuelto
la oposición tradicional entreinformación estructurada (conmetadatos) que podían gestionar lasbases de datos y los programas y noestructurada (documentos brutos),convirtiendo a los documentos eninformación estructura y viceversa.
2007 © Javier García Marco 13
Universal Resource Locators
• Identificar todas las ediciones de un mismodocumento legal
• Asignar a cada una de ellas diferentesfunciones:– Patrón– Edición enlazable– Edición anotada libre– Edición anotada experta– Cachés, etc.
• Y convertirlas en un sistema de documentosfiable, seguro e interrelacionado.
2007 © Javier García Marco 14
XML: Aplicaciones (1)
• Recuperación de información• Navegación
– A través de sumarios (dentro de documentos)– A través de referencias (entre documentos legales)– Hacia recursos complementarios (diccionarios,
sitios web de instituciones, literatura, etc.)• Anotación
– Por documentalistas de cara a la recuperación– Por expertos– Por interesados
2007 © Javier García Marco 15
XML: aplicaciones (2)
• Síntesis de documentos e informes apartir de un corpus distribuido– Por ejemplo, legislación referida a juguetes
articulada por niveles, con especificación de losartículos y con relaciones internas
2007 © Javier García Marco 16
Relacionando elementos para su explotaciónResource Description Framework
tiene como
"dc:creator" a
http://www.aragon.es/
consumo
Gobierno de Aragón.
Dirección General de Consumo
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://www.aragon.es/consumo"
dc:creator="Gobierno de Aragón. Dirección General de Consumo" dc:title="Dirección General de Consumo del Gobierno de Aragón" dc:description="Página principal de la Dirección General de Consumo del Gobierno de Aragón" dc:date="2000-10-12" /> </rdf:R D F >
Objetivo: relacionar dos datos etiquetadosmediante triples
2007 © Javier García Marco 17
Arquitectura de la información
Metadatos y esquemas• Datos que proporcionan una comprensión universal de
lo que son los datos (datos sobre datos)– Alfredo es un nombre– 2006-10-02 es la fecha de terminación del expediente
• “Información sobre la información”, “semántica”• La etiqueta que describe un elemento XML es un
metadato• Los esquemas son conjuntos de metadatos estables y
compartidos para describir datos (por ejemplo, fichabibliográfica).
• Pueden ser entendidos por otros sistemas que tienenesas mismas etiquetas incorporadas.– Bien porque comparten un mismo esquema de metadatos– Bien porque se conectan mediante grafos RDF
2007 © Javier García Marco 18
La websemántica como
entornointeroperable
ResourceDescriptionFramework
Schema
Objetivo: ficheros que especificansistemas de triples.
<rdf:RDF xml:lang="en" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"> <rdfs:Class rdf:ID="Person"> <rdfs:comment>The class of people.</rdfs:comment> <rdfs:subClassOf
rdf:resource="http://www.w3.org/2000/03/example/classes#Animal"/> </rdfs:Class> <rdf:Property ID="maritalStatus"> <rdfs:range rdf:resource="#MaritalStatus"/> <rdfs:domain rdf:resource="#Person"/> </rdf:Property>
<rdf:Property ID="ssn"> <rdfs:comment>Social Security Number</rdfs:comment> <rdfs:range rdf:resource="http://www.w3.org/2000/03/example/classes#Integer"/> <rdfs:domain rdf:resource="#Person"/> </rdf:Property> <rdf:Property ID="age"> <rdfs:range
rdf:resource="http://www.w3.org/2000/03/example/classes#Integer"/> <rdfs:domain rdf:resource="#Person"/> </rdf:Property> <rdfs:Class rdf:ID="MaritalStatus"/> <MaritalStatus rdf:ID="Married"/> <MaritalStatus rdf:ID="Divorced"/>
<MaritalStatus rdf:ID="Single"/> <MaritalStatus rdf:ID="Widowed"/>
</rdf:R D F >
2007 © Javier García Marco 19
La web semántica como entorno interoperableDublin Core: un RDFS en acción
Elementos básicos
Elementos complementarios
Elementos de precisió n Esquemas de codificació n
Tipos de medios (DCMType)
contributor abstrac t available issued Box Collectio n
coverage accessRights bibliographicCitation isVersionOf DCMIType Dataset
creat o r accrualMethod conformsT o license D D C Even t
date accrualPeriodicity created mediat o r IM T Image
descriptio n accuralPolicy dateAccepted mediu m ISO3166 InteractiveResource
format alternative dateCopyrighted modified ISO639-2 MovingImage
identifier audience dateSubmitted provenance L C C PhysicalObjec t
language educationLevel references LCSH Service
publisher exten t replaces MESH Sofware
relatio n hasFormat requires N L M Sound
rights hasPar t rightsHolder Perio d StillImage
source hasVersio n spatial Poin t Text
subjec t instructionalMethod tableOfContents RFC1766
title isFormat O f temporal RFC3066
type isPar tOf valid T G N
isReferencedBy U D C
isReplacedBy URI
isRequiredBy W3CDTF
2007 © Javier García Marco 20
La web semántica como entorno interoperableDublin Core: ejemplo
<head> <title>E-Government Unit</title>
<meta name="author" content="E-Government Unit" /> <meta name="description" content="E-Government Unit homepage" /> <meta name="keywords" content="E-Government Unit, e-government, unit,
homepage" /> <meta http-equiv="title" content="E-Government Unit" /> <meta name="DC.title" content="E-Government Unit" />
<meta name="DC.date.created" scheme="W3CDTF" content="2005-03-01" /> <meta name="DC.description" content="E-Government Unit homepage" /> <meta name="eGMS.subject.keyword" scheme="CurriculumOnline"
content="public administration" />
2007 © Javier García Marco 21
Dublin Core y XMLeg
• Es una estrategia que permite describirrecursos de manera que– pueden ser recuperados por sus características
estables objeto del interés de los usuarios– Pueden anidarse para describir las jerarquías de
elementos XML, permitiendo su relación yestableciendo un mecanismo para su recuperacióna diferentes niveles de profundidad,
– De cara a su posterior tratamiento
2007 © Javier García Marco 22
Ontologíasla configuración de un campo de investigación
Fuente :SCI
2007 © Javier García Marco 23
Ontologíasla configuración de un campo de investigación
Fuente :SCI
2007 © Javier García Marco 24
OntologíasEcología de la investigación
2007 © Javier García Marco 25
OntologíasCampos de investigación
2007 © Javier García Marco 26
Ontologías: concepto
• Un concepto ambicioso, abstracto y filosófico– Representar integramente los sistemas conceptuales
(Knowledge Representation) compartidos (compromisoontológico)
– Interrelacionar distintos sistemas a partir de unas reglasontológicas y lógicas comunes
• Fines múltiples de distinta entidad– Recuperación de la información (limitado)– Razonamiento automatizado (ilimitado)
• Incorporar la investigación en IA a la W3
2007 © Javier García Marco 27
Ontologías: diversos niveles
• Descripción formal del vocabulario de undominio, incluyendo las relaciones entresus términos, con sus restricciones, etc.,– Wordnet
• Distintos niveles– Definición de la jerarquía de conceptos– Establecimiento de primitivos y constructos– Representación de las relaciones específicas
mediante axiomas más complejos
2007 © Javier García Marco 28
Web O
ntology Language(O
WL)
2007 © Javier García Marco 29
Ontologías: usos
• Documentación– Recuperación de la información– Navegación
• (subsumiendo alternativas como Topic Maps)
• Observatorios– Minería de datos
• Razonamiento automático o supervisado
2007 © Javier García Marco 30
Ontologías para la RI
• Aplicaciones inmediatas– SKOS como herramienta para interconectar
vocabularios de descripción legal para facilitar larecuperación entre sistemas.
• Algunas perspectivas– Sería necesaria una “espina” que sirviera para
interconectar los vocabularios diversos, aunquefuera a un nivel de generalidad más alto
• (lenguaje de interconexión)
2007 © Javier García Marco 31
Ontologías y razonamiento
• Coherencia intertextual– Avisar de todas las legislaciones afectadas por una
que cambia de forma recursiva (en todas lasrelacionadas en segundo, tercer, etc., orden).
• Coherencia conceptual– Potencial para que agentes automáticos
comprueben la coherencia conceptual y avisen decambios a legislaciones suscritas.
2007 © Javier García Marco 32
Confiabilidad
• Textos seguros (autenticidad)– Mantenimiento de fuentes autorizadas– Comprobación de la integridad de las copias
• Responsabilidad– Anotación trazable si es necesario– Requiere protección de la identidad
• Acceso diferencial a la información– Protección de la intimidad (personal)– Confidencialidad (interpersonal)
2007 © Javier García Marco 33
Confiabilidad: soluciones
• Tecnologías informáticas– Encriptación– Firma electrónica de doble clave– Huellas digitales únicas
• Tecnologías sociales– Códigos– Terceras partes confiables
2007 © Javier García Marco 34
WS + Web 2.0: bases filosóficas
• Dos visiones del Derecho (Benjamins)– “Legalista”:
• Estatica• Orientada a resultados - normas (fuentes del Derecho)• Énfasis en el método: razonamiento deductivo• Centrada en el método
– “Constitucionalista”• Dinámica• Orientada a los procesos - actos• Énfasis en la toma de decisiones• Centrada en las relaciones de poder
• ¿La dos caras del Derecho?
2007 © Javier García Marco 35
WS + Web 2.0: especialización
• La perspectiva legalista se centra en loscontenidos y el razonamiento– Mejor servida por las tecnologías de representación del
conocimento y, por ende, por las de la web semántica másorientadas al procesamiento automático e inferencial.
• La perspectiva constitucionalista se centra enlos procesos y la articulación de las relacionesde poder (al fin y al cabo relaciones sociales)– Mejor servida por las tecnologías de comunicación social (web
2.0), orientadas a la potenciación de las redes socialeshumanas y a su articulación
2007 © Javier García Marco 36
WS + Web 2.0:complementariedad
• La Web Semántica legal, a pesar de su énfasisen los procesos automatizados yautomatizables, es una web al servicio deredes sociales humanas
• La Web 2.0 requiere la racionalización de losprocesos de información y asistenciaautomatizada en la recuperación,procesamiento e integración de la informacióngenerada.
2007 © Javier García Marco 37
WS + Web 2.0: Problemas• La Web 2.0 reproduce el proceso de
información no estructurada característico dela Web 1.0.
• La web 2.0 está enormemente alejada delproyecto de la Web Semántica. En la prácticason dos proyectos independientes.
• Existe la posibilidad de conectar lasfolksonomías con los esquemas másestructurados, pero requiere no solo análisis,sino supervisión y mantenimiento.
• Las tecnologías de detección automáticaofrecen otro acercamiento importante, perolimitado
2007 © Javier García Marco 38
Ciclos de vida
• Un aspecto fundamental de los sistemas es el ciclode vida, que se produce tanto en los físico-químicos y biológicos como en los sociales.
• Conforman estructuras regulares aprehensiblespor los seres humanos para su intervención.
• La asistencia a esos ciclos de vida es una cuestiónfundamental de las ciencias.
• El ciclo de vida legislativo se parece mucho a otrosciclos sociales, como, por ejemplo, el de laevolución-revolución de la Ciencia (Toulmin,Kuhn).
2007 © Javier García Marco 39
El ciclo de vida legislativo• Gestación
– Planteamiento del problema– Documentación– Análisis dentro del marco legal y
político– Discusiones preliminares y lobbying
• Gestación– Redacción y propuesta de
borrador(es)– Discusión, informes, debate y
votación• Nacimiento
– Publicación y puesta en vigor• Desarrollo
– Aplicación– Reproducción: Modificación o
desarrollo de leyes, decretos,reglamentos, etc., subsidiarios
– Problemática
• Enfermedad– Debate, discusión, rupturas de
consensos, reequilibrio de fuerzaspolíticas
• Tratamiento– Modificaciones, dictámenes
interpretativos, legislacióncomplementaria o subsidiaria
• Muerte– Transformación, sustitución, etc.
Concurrencia de múltiplesactores y fuentes de
información
2007 © Javier García Marco 40
Fuentes que intervienen• Cuerpo legislativo• Legislación comparada• Análisis complementarios
– Técnicos, sociales, demográficos, económicos– En monografías, artículos, literatura gris, etc.
• Documentación administrativa directamenterelacionada– Borradores, ponencias, propuestas, actas de reuniones
• Impacto– Medios de comunicación (prensa, TV, radio, blogs…)– Encuestas– Estadísticas relativas a variables sociales relevantes– Sentencias– Peritajes
2007 © Javier García Marco 41
Tareas de carácter general• Inventariar los tipos documentales por actividad• Inventariar las relaciones entre los tipos
documentales• Crear grafos de navegación etiquetados según los
tipos documentales (XLink, etc.)• Desarrollar los XML Schemas para cada tipo• Aplicar (y ajustar) DC para la descripción básica de
los recursos de cara a su recuperación• Comenzar a inventariar las relaciones (aun
parciales) entre esquemas mediante RDF y,eventualmente, RDF Schemas, y desarrollaraplicaciones de interconexión
2007 © Javier García Marco 42
ConclusionesPor qué la WS
• Más WWW– Distribuida– Fácil de usar (sin complicaciones técnicas)– Mundial– Interrelacionada– Dinámica
• Incrementando la interoperabilidad– Compartir información– Integrar
• Mediante– Procesamiento automático de datos marcados– Agentes concurrentes
2007 © Javier García Marco 43
Conclusiones
Aplicaciones• Comunicación e información
– Discusión entorno a la producción, uso e impacto de ladocumentación legislativa.
• Documentación y referencia– Recuperación de información– Navegación
• Conceptual• A través de sumarios• A través de referencias• Con documentos relacionados• Difusión de la información / filtrado
– Multilingüismo• Superación de las barreras del idioma
• Espacialización de la información• Reutilización (XSL/XSLT, etc.) y sindicación
2007 © Javier García Marco 44
Conclusiones
Carácter central de la IL• Potencial de la información legislativa
para integrar y organizar el resto de ladocumentación de carácter legal– Por su carácter de referencia permanente– Por su nivel más alto de generalidad y abstracción
2007 © Javier García Marco 45
Conclusiones
La cuestión social• La interoperabilidad es un esfuerzo consciente
y sostenido de comunidades humanas quebuscan trabajar juntas– Aunque se refiera a sus sistemas automatizados de
información, lo social es un meta-sistema.– Se requiere la construcción de proyectos y consensos, no solo
de soluciones técnicas.• La alianza entre científicos técnicos y sociales
en torno a la informática legal es unaoportunidad en esa dirección– Experiencia de LEFIS– El mundo de la información legislativa ofrece en este sentido
grandes posibilidades de soluciones generalizables por sucentralidad en la vida social.
2007 © Javier García Marco 46
Conclusiones
Realinear los servicios públicos• La realización de la visión de la web
semántica en el ámbito legislativo exigetambién una realineación profunda delos servicios y los agentes públicos ysociales hacia la gestión, supervisión yexplotación de estas redes.
2007 © Javier García Marco 47
¡Muchasgracias porsu atención!
e-mail:jgarcia/unizar.es