Semana de la Ciencia 2014 (Martínez-Prieto)
-
Upload
carlos-cuesta -
Category
Data & Analytics
-
view
51 -
download
2
description
Transcript of Semana de la Ciencia 2014 (Martínez-Prieto)
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Mas alla de la Web...
¿Por que los datos deben viajar en primera?
Miguel A. Martınez [email protected]
XIV Semana de la Ciencia
Universidad Rey Juan Carlos
Mostoles, 13 de Noviembre de 2014
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 1/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Indice
1 Big Data & Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 2/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
– Big Data –
¿Que es Big Data?
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 3/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 4/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Big Data
Big Data
Cualquier coleccion de datos que excede la capacidad de computode un sistema gestor de bases de datos tradicional.
Las colecciones consideradas Big Data acumulan un gran volumen dedatos.
Dentro de estas colecciones se generan y consultan datos a una granvelocidad (en entornos cada vez mas distribuidos).
Existe una gran variedad en la naturaleza de los datos que almacenanestas colecciones (experimentos cientıficos, datos gubernamentales, redessociales...)
La explotacion del Big Data, en diferentes entornos de aplicacion, generaun valor anadido.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 5/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Volumen
El volumen se refiere a la gran cantidad de datos recopilados yalmacenados en conjuntos creados para diferentes usos y propositos.
Segun la International Data Corporation, el volumen de datos digitales en
el ano 2012 es 10 veces mayor que en 2007:
El volumen de los datos crece mas rapido que los recursos de computo(Ley de Moore).
El almacenamiento es el primer reto de escalabilidad en el ambito del
Big Data:
Compresion de datos, almacenamiento distribuido, cloud computing...La decision de como almacenar los datos repercute directamente en elrendimiento de otros procesos: procesamiento, analisis, consulta...
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 6/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Velocidad
La velocidad hace referencia a la frecuencia de generacion,
almacenamiento y consulta de los datos:
Segun IBM, cada dıa se producen dos trillones y medio de bytes querepresentan nuevos datos.
Los entornos de generacion y consumo de los datos son inherentemente
distribuidos:
Tanto los datos nuevos, como los resultados a las consultas sobre los BigData, deben transmitirse por la red.Los recursos de red no crecen en proporcion a la cantidad de datos quefluyen por ella.
Cada vez existen mas aplicaciones que necesitan consultar los datos en el
mismo instante en el que se producen:
Gestionar las necesidades de operar en tiempo real aumenta notablementela complejidad de gestionar los Big Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 7/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Variedad
La variedad refiere los diferentes grados de estructura (o falta de ella)
que pueden encontrarse en el Big Data:
El 80 % de los datos existentes son no estructurados frente al 20 % quepresenta una estructura definida.La cantidad de datos no estructurados crece 15 veces mas deprisa que losestructurados.
Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones
acordes a una semantica particular:
La integracion de datos heterogeneos aumenta el conocimiento potencialque puede extraerse de ellos.Este conocimiento es la clave para la generacion de nuevo valor
La gestion efectiva de la variedad precisa de modelos logicos quepermitan gestionar diferentes tipos de datos en una representacion unicae independiente de la estructura de las colecciones.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 8/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Valor
El valor suele considerarse la cuarta V delBig Data.
Esta dimension enfoca el beneficio quesupone para una organizacion incorporarla explotacion de Big Data.
La descripcion del valor esta ligada alambito particular en el que se utiliza elBig Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 9/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Valor Comercial
El valor comercial tiene que ver con el
grado de satisfaccion de los clientes:
El producto o servicio ofrecido se hamejorado aprovechando elconocimiento extraido del Big Data
Este valor comercial se traduce, en lapractica, en beneficios economicos.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 10/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Valor Comercial
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 11/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Valor Social
El valor social esta relacionado con la
prestacion de servicios mas eficientes para
los ciudadanos:
Tramites burocraticos, servicioseducativos y de salud...Transparencia polıtica.
Ademas, la reutilizacion de los Big Data
publicos se considera un catalizador
potencial de los sistemas economicos:
Nuevas startups, productos y serviciosmas ajustados a las necesidades de laspersonas...
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 12/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Valor Cientıfico
La operativa cientıfica con Big Data trae
consigo:
El descubrimiento de nuevos fenomenosfısicos.La prueba de hipotesis.Avances especıficos en diferentesdisciplinas...
El boson de Higgs es un ejemplo clarode valor cientıfico asociado al Big Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 13/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
En resumen...
Problemas:La tecnologıa relacional no escala (volumen).Informacion altamente distribuida con grandes flujos de transmision(velocidad).La tecnologıa relacional es muy rıgida para adaptarse a la falta deestructura subyacente al Big Data (variedad).
Soluciones:Tecnologıa escalable para el almacenamiento.Infraestructura para la distribucion y comparticion.Modelos flexibles de representacion.
¿A que os “suena” esto? . . . ¿quiza a la WWW?
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 14/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
– ¿La WWW es Big Data? –
La WWW es una fuente de conocimiento universal que ha transformado
desde las relaciones sociales hasta la forma de hacer negocios:
Acumula un volumen gigantesco de informacion.
Genera grandes traficos de contenido que se mueven a una alta velocidad.
Contiene una amplia variedad de informacion que cubre la practicatotalidad de areas de conocimiento.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 15/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Algunos numeros de interes...
Volumen:
759 millones de websites, de los que 103 millones se crearon en 2013.14,3 trillones de paginas web.672 Exabytes (672 ∗ 109 GB) de datos accesibles... aunque el total dedatos en la WWW se estima en 1 Yottabyte (1015 GB).
Velocidad:
Se estima que el trafico de la WWW durante 2013 fue 43.639 Petabytes.Esto supone ≈ 119, 56 Petabytes/dıa ≈ 1451 GB/segundo.
Variedad:
Las primeras posiciones de los rankings las ocupan websites como Google,Facebook, Youtube, Yahoo, Wikipedia, Amazon....
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 16/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estructura (grafo) de la WWW
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 17/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Informacion vs. Datos
Los numeros validan las 3 Vs en la WWW... pero, ¿podemos considerarla WWW como Big Data?
Informacion vs. Datos:
Las paginas web son las unidades mınimas de contenido con identidadpropia dentro de la WWW.
Cada pagina “cocina” un pequeno conjunto de datos y obtiene unadeterminada informacion que publica bajo la identidad de una URL.
Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos(entendibles por humanos), pero “esconde” el raw data.
Big Data → raw data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 18/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Informacion vs. Datos
- Clint Eastwood actuo en “El bueno, el feo y el malo”.
- El tıtulo de “El bueno, el feo y el malo” en italiano es “Il buono il brutto, il cattivo”.
- Clint Eastwood gano el Oscar a mejor director por “Million Dollar Baby”.
...
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 19/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
A pesar de todo...
La irrupcion de las redes sociales ha
roto parcialmente la vision de Web
documental:
Se pueden identificar variasunidades de contenido dentro deuna pagina (URL).
Estamos mas proximos al conceptode raw data.
Cada tweet es una unidad decontenido... y podemos acceder a suraw data mediante la API de Twitter.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 20/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
– Fundamentos de la Web 3.0. –
El objetivo de la Web 3.0. es el de construir una Web de Datos:
Rompe con la vision documental de la WWW y da identidad propia al rawdata.
Obtiene una estructura de grafo comparable a la de la WWW:
Los nodos representan a cada uno de los datos publicados.Las aristas describen la semantica que caracteriza la relacion entre losdatos.
La Web 3.0. se despliega sobre la infraestructura de la WWW:
El acceso a los datos se realiza mediante HTTP, facilitando lareutilizacion de la experiencia adquirida en la WWW.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 21/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Principios Basicos
Tim Berners-LeeCreador de la WWW y uno de los
precursores principales de la Web 3.0.
Utilizar URIs para identificar y nombrar los datos.
Por ejemplo, para identificar a Clint Eastwood podrıamos utilizar la URI:
http://dataweb.infor.uva.es/persona/Clint Eastwood
Hacer las URIs “dereferenceables” vıa HTTP.
Al colocar la URI anterior en un “browser semantico”, se deberıan
recuperar (mediante HTTP) todos los datos enlazados con ella.
Utilizacion de estandares.
La descripcion de los datos, los mecanismos de consulta, etc. deben
implementarse utilizando estandares (RDF, SPARQL ...).
Establecer relaciones entre los datos para facilitar su“navegacion”.
Dado que Clint Eastwood fue el director de Mystic River, su URI podrıa
enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 22/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: RDF
RDF (W3C Recommendation) es un modelo logico que facilita la
descripcion de recursos en forma de triples:
El sujeto denota el recurso que esta siendo descrito.El predicado representa la propiedad que se esta describiendo.El objeto describe el valor que tiene el recurso para la propiedad descrita.
- El siguiente triple RDF describe que “Clint Eastwood es el directorde Mystic River”: http : //dataweb.infor.uva.es/persona/Clint Eastwood
http : //dataweb.infor.uva.es/propiedad/directorhttp : //dataweb.infor.uva.es/pelicula/Mystic River
RDF permite describir cualquier tipo de datos con independencia de cual
sea su semantica:
Esta propiedad lo convierte en una buena opcion para afrontar la variedaddel Big Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 23/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: RDF
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 24/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: SPARQL
SPARQL (W3C Recommendation) es un lenguaje de consulta basado en
patrones de triples:
Estos patrones tienen la misma forma que un triple RDF, pero permiteque cualquiera de sus tres componentes sea una variable.Las variables recuperan los resultados que satisfacen la consulta.
La conjuncion (join) de los patrones es la forma de consulta habitual en
SPARQL:
SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outerjoin) y FILTER (para el establecimiento de condiciones).
SPARQL puede utilizarse para consultar cualquier coleccion RDF:
Su semantica garantiza la expresion de cualquier tipo de consulta,facilitando su uso en entornos Big Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 25/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: SPARQL
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 26/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: SPARQL
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 27/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: SPARQL
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 28/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Estandares y tecnologıas: Triple Stores
Los triple stores son la tecnologıa central de la Web 3.0:
Desempenan el rol de bases de datos semanticas.Virtuoso, Jena, OWLIM...
Ofrecen diferentes variantes para el almacenamiento de RDF:
El almacenamiento basado en tecnologıa relacional resulta demasiadoestricto para el relaxed schema de RDF.
El almacenamiento basado en tecnologıa no relacional (principalmentesoluciones orientadas a grafos) facilita la representacion de los datos yoptimiza los requisitos de espacio.
Soportan consulta SPARQL:
Para obtener un buen rendimiento en la consulta se suelen utilizarmulti-ındices (por sujeto, predicado y objeto).Se requieren configuraciones computacionales muy potentes para grandescolecciones de RDF.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 29/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
– Linked Open Data –
Linked Open Data (LOD) es el proyecto mas activo en el ambito de la
Web 3.0:
Promueve la publicacion de Open Data bajo los principios que definen laWeb 3.0.
La “nube” de LOD ha crecido progresivamente desde sus inicios en 2007:
Segun el observatorio LODStats, existen 2122 colecciones RDFdisponibles actualmente.El tamano de la nube se estima en unos 62 billones de triples1.
DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el
nucleo de LOD:
Comprende triples que describen datos de multitud de areas, lo quefacilita su enlazado con otras colecciones.Destaca la existencia de numerosas colecciones en el ambito de lasciencias medicas, entidades de gobierno, multimedia o geografıa.
1Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 30/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Linked Open Data
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 31/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Clint Eastwood en LOD
http : //dbpedia.org/resource/Clint Eastwoodhttp : //xmlns.com/foaf /0,1/name′Clint Eastwood′@en
http : //dbpedia.org/resource/Clint Eastwoodhttp : //dbpedia.org/ontology/birthDate′1930 − 05 − 31′
http : //dbpedia.org/resource/Mystic River (film)http : //dbpedia.org/property/directorhttp : //dbpedia.org/resource/Clint Eastwood
http : //dbpedia.org/resource/Mystic River (film)http : //dbpedia.org/ontology/abstract′Mystic River is a 2003 American drama film directed, produced and scored by Clint Eastwood...′@en
Nuestra descripcion podrıa enlazarse facilmente con DBpedia...
http : //dataweb.infor.uva.es/persona/Clint Eastwoodhttp : //www.w3.org/2002/07/owl#sameAshttp : //dbpedia.org/resource/Clint Eastwood
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 32/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data
Clint Eastwood en LOD
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 33/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Indice
1 Big Data & Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 34/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
– Escenario Objetivo –
Publicacion de Linked Data en tiempo real:
Gestion de una gran base de conocimiento RDF en crecimiento progresivo(Big Semantic Data).
Captura y exposicion de nuevos fragmentos de RDF en tiempo real:
- Sensores meterorologicos/estado del trafico/contaminacion.- Transacciones bancarias/transporte/turismo.- Publicaciones en redes sociales...
Exposicion de los datos (“historicos” y “recientes”) para su reutilizacion:
- Dereferenciacion de URIs.- Consulta SPARQL.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 35/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Escenario Objetivo
¿Donde podrıa ser util una solucion ası?Integracion de diversas fuentes de datos en una base de conocimientocentral.Reutilizacion de los datos por diferentes tipos de aplicaciones.
– Intranets: los diferentes departamentos/unidades de negocio publican sus datos(de acuerdo a su operativa habitual), quedando disponibles para su utilizacionen aplicaciones corporativas de diferente naturaleza.
– Sistemas de toma de decisiones: capturan los datos provistos por las fuentes deinteres y los integran en su almacen para obtener “respuestas” actualizadasutilizando las consultas SPARQL correspondientes.
– Instituciones publicas: implementan sus Open Data de forma que los datosesten accesibles en tiempo real, facilitando su reutilizacion vıa derenferenciacionde URIs o consulta SPARQL.
– Proyectos de Smart-cities, Internet of Things...
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 36/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
– Problematica General –
La publicacion de Linked Data en tiempo real es un problema complejo:
El volumen de las colecciones RDF crece progresivamente.
La velocidad de generacion de nuevos triples puede ser bastante alta.
Se reciben numerosas consultas SPARQL que deben resolverse a lavelocidad mas alta posible.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 37/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Los problemas “Big”
Almacenamiento:
RDF fue disenado, en sus orıgenes, para describir individualmente
pequenos recursos:
Los formatos de serializacion utilizados para almacenar RDF estanorientados al “consumo humano”.
RDF se utiliza, actualmente, para describir grandes colecciones de
recursos enlazados entre sı:
Los formatos de serializacion resultan demasiado redundantes para estenuevo proposito.
Incremento innecesario de los costes de almacenamiento... y de loscostes de intercambio en red.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 38/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Los problemas “Big”
Consulta:
La resolucion eficiente de los patrones SPARQL requiere multi-ındices
(uno o varios para cada uno de los elementos del triple):
Las soluciones mas competitivas suelen utilizar seis tipos diferentes deındices.
El coste de almacenamiento se dispara y el rendimiento de las consultas
esta fuertemente penalizado por las transferencias disco-memoria (E/S):
Las soluciones en cluster tambien pagan importantes costes detransmision.
Las soluciones existentes son poco escalables y eso limita la adopcionde los principios de la Web 3.0. para la resolucion de problemasrelacionados con Big Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 39/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Los problemas “Real-Time”
Captura:
Los fragmentos de RDF llegan de forma continua en el tiempo (la
velocidad a la que lo hacen depende del escenario de aplicacion):
Hay que garantizar un throughput de escritura que asegure que no sepierde ningun dato.
Consulta:
Los nuevos datos deben exponerse una vez capturados:
Estos datos deben integrarse de forma dinamica en los mecanismosutilizados para la dereferenciacion de URIs y la resolucion de SPARQL.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 40/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
– Principios Arquitectonicos –
La arquitectura Lambda establece los principios basicos para lagestion de Big Data en tiempo real:
Inmutabilidad de los datos.
Aislamiento de complejidades.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 41/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Inmutabilidad de los Datos
El almacenamiento del Big Data debe contener exclusivamente raw data:
El raw data describe piezas de informacion que no pueden derivarse deninguna otra.Por lo tanto, cada una de estas piezas de informacion es verdadera por elmero hecho de existir.
Los datos nunca cambian → el almacenamiento del Big Data es
inmutable:
La implementacion del almacenamiento debe permitir la insercion denuevos datos, pero evita las operaciones dinamicas (actualizacion yborrado) sobre ellos.Los datos pueden almacenarse utilizando estructuras basicas de ficheros.Es necesario disponer de mecanismos que permitan realizar computosarbitrarios sobre estos ficheros.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 42/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Aislamiento de Complejidades
Los problemas “big” y “real-time” deben resolverse de forma
independiente para conseguir soluciones menos complejas:
Lambda plantea una arquitectura en tres capas: batch, serving y speed.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 43/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Batch Layer
Almacena la copia maestra con todos los datos
originales:
Es la parte inmutable del sistema.Solo se pueden anadir nuevos datos, por lo que sutamano crece constantemente.
Resuelve operaciones arbitrarias sobre el conjunto
completo de los datos:
Operaciones muy costosas en computo, muchalatencia en su resolucion.Utilizan primitivas de bajo nivel para lamanipulacion de los datos (ej: Map-Reduce).
Obtencion de vistas de los datos:
Representaciones orientadas a la consulta.Simplicidad en su implementacion.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 44/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Serving Layer
Carga las vistas obtenidas en Batch para su consulta:
Las vistas de la capa Batch pueden entender comoficheros que contienen los registros que describen lasvistas.La capa Serving indexa estos ficheros para mejorarel rendimiento de la consulta.Esta decision nos evita tener que procesar el BigData con cada pregunta, mejorando con ello lavelocidad de consulta.
La capa Serving tiene una implementacion sencilla:
Esta centrada en indexacion y resolucion deconsultas.No soporta operaciones dinamicas de escritura (queson las que aumentan la complejidad de la base dedatos).
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 45/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Speed Layer
El proposito de esta capa es asumir las necesidades de
tiempo real:
Es responsable de gestionar (de forma temporal)aquellos datos que llegan al sistema despues dehaber comenzado la obtencion de una vista.Las vistas de esta capa se actualizan al mismotiempo que llegan los datos (actualizacionincremental).
Speed es una capa compleja:
Debe proveer soporte para lectura y escritura denuevos datos en tiempo real.El impacto de esta complejidad esta controladodado que Speed gestiona pequenos volumenes dedatos (que se descartan una vez se integran en lacapa Batch).
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 46/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Consulta en Lambda
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 47/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
– Solid –
Solid es una arquitectura que adapta los principios de Lambda parala publicacion de Linked Data en tiempo real.
Comprende tres componentes principales que asumen diferentes
responsabilidades especıficas dentro de la arquitectura:
Content asume las responsabilidades de organizar y almacenar los datosen tres capas (Data, Index y Online) que diferencian los datos historicos(Big Data) y los recogidos en tiempo de ejecucion (real-time data).
Merge es responsable de integrar conjuntos de datos real-time en elalmacenamiento del Big Data.
Service actua como intermediario entre los almacenes de datos enContent, haciendo transparente al cliente el proceso de consulta.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 48/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Solid
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 49/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Content
La capa Data implementa un almacenamiento inmutable del Big
Semantic Data:
Los triples se almacenan en ficheros acordes a una sintaxis valida de RDF.Provee una interfaz de acceso para la resolucion de patrones SPARQL.
La capa Index auto-indexa la capa data:
Construye estructuras de datos especıficas que permiten resolver lasconsultas SPARQL.
La capa Online captura nuevos triples RDF y los almacena en estructuras
dinamicas que soportan acceso indexado a los dados:
Esta capa actua como un buffer temporal de la capa data.Provee resolucion de consultas SPARQL.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 50/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Implementacion de Content (Data+Index)
Se necesita un nuevo formato de serializacion:
Los humanos no leemos Big Semantic Data: serializacionbinaria.
El acceso al Big Semantic Data se realiza en forma depatrones de triples: serializacion binaria como grafo.
El Big Semantic Data ocupa mucho: serializacioncomprimida como grafo.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 51/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
W3C Submission (HDT)
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 52/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
HDT
¿Cuales son los beneficios de HDT?
I. Menor espacio:
Reduccion de los requisitos de almacenamiento y los tiempos deintercambio.
II. Mejor organizacion:
Mejora en el acceso a los datos: navegacion nativa sujeto → objeto .
III. Consulta eficiente:
La compresion reduce sustancialmente los costes (E/S): mas datos enmemoria. ¡¡ HDT se puede convertir en un multi-ındice con unasobrecarga moderada en espacio !!
- Las representaciones HDT no se pueden actualizar en tiempo real:
- Actualizacion diferida (en batch).
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 53/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
HDT en cifras
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 54/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Proyecto RDF/HDT
http://www.rdfhdt.org
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 55/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Implementacion de Content (Online)
Se necesita un triple store con capacidad para capturar los
datos “al vuelo” y hacerlos directamente consultables:
Alto throughput de escritura y capacidad de re-indexaciondinamica.
Estas propiedades se deterioran progresivamente con elvolumen de datos almacenados y, ademas, el rendimientode los triple stores se reduce tambien en grandescolecciones.
Los datos gestionados en tiempo real nunca debenalcanzar un volumen “Big”.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 56/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Implementacion de Merge
Merge integra los datos “real-time” en el
Big Semantic Data de la capa Data:
Merge es responsable de que la capa Online conservesu rendimiento: cuando el volumen de los datos esgrande, se activa el proceso de integracion.
El proceso se realiza en batch y es potencialmenteparalelizable.
Una vez obtenida la nueva configuracion de la capaData es necesario actualizar la configuracion deestructuras de datos en la capa Index.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 57/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid
Implementacion de Service
Los datos estan repartidos entre los
almacenes “Big” y “Real-Time”:Se necesita un “intermediario” que haga queesta distribucion sea transparente a la consulta.
La capa Service realiza una arquitectura
filtro-tuberıa orientada al procesamiento/
optimizacion de las consultas SPARQL:Implementa filtros para los operandosSPARQL.Combina estos filtros de acuerdo a lasemantica de la consulta.
Resolver las consultas requiere...Resolucion independiente en cada uno de losalmacenes.Resolucion combinada entre cada uno de losalmacenes: la capa Online se utiliza comoındice para el acceso al Big Semantic Data.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 58/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Indice
1 Big Data & Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 59/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
– Hacia donde vamos... –
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 60/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Trabajo Futuro
Triple Store inmutable (capas Data+Index):
Motor de almacenamiento basado en HDT → compresion + velocidad deacceso a los datos.Sistema de consulta basado en Jena/Sesame → resolucion SPARQL dealto rendimiento sobre Big Semantic Data.
Triple Store dinamico (capa Online):
Evaluacion del estado del arte y eleccion de la solucion mas eficiente.
Diseno de un algoritmo Map-Reduce que aproveche el orden interno deHDT (capa Merge).
Implementacion de la capa Service:
Evaluacion de posibles optimizaciones en la consulta combinada de losalmacenes de datos.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 61/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Trabajo Futuro
El objetivo inicial es obtener una implementacion mono-nodo de Solid y
dar el paso hacia su despliegue en cluster:
Distribucion de las capas Data+Index: particionamiento horizontal deHDT y resolucion distribuida de SPARQL.
Desplegar soluciones basadas en Solid y analizar su viabilidad enescenarios que trasciendan a los “casos de estudio de laboratorio”.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 62/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Hacia donde vamos...
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 63/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Direcciones de Interes
Proyecto RDF-HDThttp://www.rdfhdt.org
DataWeb Researchhttp://dataweb.infor.uva.es
@DataWebResearch
∗ Proyecto 4V: Volumen, Velocidad, Variedad y Validez en la Gestion Innovadora de Datos(TIN2013-46238-C4-3-R), Ministerio de Economıa y Competitividad, Espana.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 64/65
Big Data & Web 3.0.Linked Data en Tiempo Real
Trabajo Futuro
Disclaimer
Esta presentacion se difunde unicamente con fines docentes.Las imagenes utilizadas pueden pertenecer a terceros y, por tanto, son propiedad de sus autores.
Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 65/65