Repositorios en la nube

61
Repositorios en la nube Ricard de la Vega Jefe del Servicio de Portales y Repositorios Centre de Supercomputació de Catalunya 4as Jornadas OS-Repositorios Barcelona, 3-5 marzo de 2010

description

Las aplicaciones que se distribuyen a través de Internet como un servicio (Software as a service, SaaS) y el hardware y software de base de los centros de datos (Nube, Cloud) son los dos elementos de la ecuación llamada cloud computing. En este paradigma, se juegan tres roles principales: proveedor del cloud, usuario del cloud que a su vez es proveedor de servicio (como los repositorios) y los usuarios finales del servicio. Los primeros se benefician de la especialización y las economías de escala; mientras que los segundos de una mayor elasticidad en el aprovisionamiento. En este sentido, DuraSpace ha creado un piloto llamado DuraCloud para probar el uso de tecnologías de almacenamiento en la nube para la preservación de contenido digital.El taller pretende describir los conceptos básicos del cloud, con ejemplos de donde se está usando este tipo de tecnología; y el impacto que puede tener en los repositorios digitales.

Transcript of Repositorios en la nube

Page 1: Repositorios en la nube

Repositorios en la nube

Ricard de la Vega Jefe del Servicio de Portales y RepositoriosCentre de Supercomputació de Catalunya

4as Jornadas OS-RepositoriosBarcelona, 3-5 marzo de 2010

Page 2: Repositorios en la nube

Centre de Supercomputació de Catalunya

Consorcio público

Creado en 1991

Formado por:• Generalitat de Catalunya

• Fundació Catalana per a la Recerca i la Innovació

• 9 universidades catalanas

• Consejo Superior de Investigaciones Científicas

Anella Científica creada en 1993

Page 3: Repositorios en la nube

Nuestros servicios

Page 4: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 5: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 6: Repositorios en la nube

Tendencia en las TIC

Page 7: Repositorios en la nube

“Cuanto más cambia una cosa...”

“Cuanto más cambia una cosa, más se convierte en lo mismo. Fijémonos en el cloud computing. En cierto modo, se trata de una extensión natural del time-sharing, inventado en los años setenta. De hecho, por aquel entonces ya se oía hablar del término computing utility”

Vinton Cerf

Page 8: Repositorios en la nube

Mainframes......

Fuente: http://fib.upc.edu/retroinformatica/exposicio/ordinadors.html

VAX 8600 Controladora discos HSC50

Terminal Digital VT220 Impresora LA-36 TA78

Page 9: Repositorios en la nube

Clouds...

El terminal es el navegador Centros de datos

Page 10: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 11: Repositorios en la nube

Definiciones y conceptos clave

“The services themselves have long been referred to as Software as a Service (SaaS). The datacenter hardware and software is what we will 

call a Cloud. When a Cloud is made available in a pay‐as‐you‐go manner to the general public, we call it a Public Cloud; the service 

being sold is Utility Computing.

We use the term Private Cloud to refer to internal datacenters of a business or other organization, not made available to the general 

public.”

Conceptos: “as a Service”, pago por uso, virtualización

Fuente: http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS‐2009‐28.html

Page 12: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 13: Repositorios en la nube

Tipos de cloud

Fuente: http://www.ucar.edu/educ_outreach/webweather/cloud3.html

Page 14: Repositorios en la nube

“as a service”

Software como un servicio (SaaS) • Aplicaciones de Google (Gmail, Calendar...) • Salesforce.com

Plataforma como un servicio (PaaS) • Imagen de Xen con SO, Apache, MySQL y aplicación• Google App Engine• Microsoft Azure

Infraestructura como un servicio (IaaS) • Amazon Web Services

– EC2 para computo– S3 para almacenamiento

Page 15: Repositorios en la nube

Pública, privada...

Una nube pública es el hardware y software de un centro de datos ofrecido en la modalidad de “pago por uso”.

Una nube privada es el hardware y software de un centro de datos de la propia entidad.

Una nube híbrida combina los dos modelos anteriores.

Inconvenientes de la nube pública:• Privacidad y protección de datos

Page 16: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 17: Repositorios en la nube

Participantes y beneficios

Transferencia del riesgo a los proveedores del cloud• Service Level Agreement (SLA)

Proveedores del cloud (hardware y software de base) • Reducción de los costes de operación y amortizaciones• Especialización y economías de escala

Usuarios de la nube, que a su vez, son proveedores de servicios (SaaS), como los repositorios• Elasticidad en el aprovisionamiento de recursos• Sin sobredimensionamiento ni infradimensionamiento (picos)

Usuarios finales, como los investigadores, etc.• Para ellos la nube es transparente

Page 18: Repositorios en la nube

Como el car sharing

Page 19: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 20: Repositorios en la nube

Data deluge

Page 21: Repositorios en la nube

Agenda

Duracloud• DURASPACE• Objetivos• Servicios

• Arquitectura• Pilotos• Roadmap

Page 22: Repositorios en la nube

DURASPACE

DuraCloud es de DURASPACE

• Non-profit-org que da soporte a las comunidades Dspace y Fedora.

• Innovación:– Pensar más allá de las plataformas actuales.– Nuevas estrategias para el acceso y la preservación de

contenidos digitales.

Page 23: Repositorios en la nube

Objetivos

Soporte a la preservación• Replicación de contenido, auditoría (checksums), reparación

Federación de repositorios y ciberinfrastructura• Enlaces entre datos almacenados (linked data)

Colecciones compartidas• Acceso vía un motor JPEG2000 a imágenes almacenadas

Data mining• Grandes trabajos de computación con los datos almacenados

Page 24: Repositorios en la nube

Fuente: http://www.duraspace.org/documents/DuraCloudNDIIPPJune09.ppt

Servicios básicos

Page 25: Repositorios en la nube

Fuente: http://www.duraspace.org/documents/DuraCloudNDIIPPJune09.ppt

Servicios adicionales

Page 26: Repositorios en la nube

Fuente: http://www.duraspace.org/documents/DuraCloudNDIIPPJune09.ppt

Casos de uso con almacenamiento en la nube

Page 27: Repositorios en la nube

Fuente: http://www.duraspace.org/documents/DuraCloudNDIIPPJune09.ppt

Casos de uso con computación en la nube

Page 28: Repositorios en la nube

Servicios de preservación

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Page 29: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Arquitectura

Page 30: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Arquitectura

Page 31: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Arquitectura

Page 32: Repositorios en la nube

Pilotos de casos de uso

Quieren...• Introducción de gran cantidad de contenidos digitales• Replicar a múltiples plataformas de cloud• Gestionar esta replicación y monitorizarla• Desarrollar servicios

Proveedores de cloud• Amazon• EMC• Rackspace• Sun?• Microsoft?

Partners iniciales• New York Public Library• Biodiversity Heritage Library• WGBH Media Library and

Archives

Page 33: Repositorios en la nube

Pilotos de casos de uso

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Page 34: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Pilotos de casos de uso

Page 35: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Pilotos de casos de uso

Page 36: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Pilotos de casos de uso, retos

Page 37: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Pilotos de beta testers

Page 38: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Pilotos de beta testers

Page 39: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Encuesta

Page 40: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Encuesta

Page 41: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Encuesta

Page 42: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Encuesta

Page 43: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Roadmap

Page 44: Repositorios en la nube

Fuente: http://www.slideshare.net/eduserv/duracloud-open-technologies-and-services-for-managing-durable-data-in-the-cloud

Roadmap

Page 45: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 46: Repositorios en la nube

Eprints Cloud Capabilities

Los datos se pueden almacenar en:• En disco local o cabinas de

discos (SAN, NAS) • En el cloud

Mediante storagecontroller se puede elegir a que tipo de disco van los documentos (archivo XML de configuración).

Page 47: Repositorios en la nube

Fuente: http://www.slideshare.net/lescarr/eprints-and-the-cloud

Arquitectura

Page 48: Repositorios en la nube

Fuente: http://www.slideshare.net/lescarr/eprints-and-the-cloud

Plug-ins de almacenamiento en cloud en el API

Page 49: Repositorios en la nube

Fuente: http://www.slideshare.net/lescarr/eprints-and-the-cloud

Objetivos

Page 50: Repositorios en la nube

Fuente: http://www.slideshare.net/lescarr/eprints-and-the-cloud

EPrints Bazaar

Page 51: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 52: Repositorios en la nube

En este contexto (en las nubes), se podría decir que los repositorios cooperativos (TDR, RECERCAT...) están en un private cloud, puesto que las instituciones que los coordinan, CESCA y CBUC, son consorcios de instituciones participantes (más o menos) en estos repositorios.

Muchos de los servicios que ofrece/rá DuraCloud ya se están realizando, como la comprobación de la integridad de los ficheros...

Pasar a un modelo híbrido podría ser interesante por temas de copias desgeolocalizadas, o si se concretara algún servicio de transformación de formatos. Estaremos atentos a la evolución del proyecto.

Reflexión antes de las conclusiones...

Page 53: Repositorios en la nube

Conclusiones

El cloud es una tendencia en auge en las TIC.

Existen diferentes tipos de cloud para distintas necesidades (público, privado, híbrido, SaaS, PaaS, IaaS) .

El data deluge ha ayudado a acercar el cloud a los repositorios.

DuraCloud es la solución de DURASPACE para acercar el cloud a DSpace y Fedora.

Eprints dispone de plug-ins de almacenamiento en cloud.

Page 54: Repositorios en la nube

En DuraCloud, aunque el objetivo son servicios de almacenamiento y computación en la nube, los primeros son los más avanzados con finalidades de preservación.

Estamos aun en el principio de DuraCloud, pilotos, beta. Faltan plug-ins para los repositorios, SLAs, precios, casos de éxito, etc.

Para seguir su evolución, en el próximo Open Repositorios de Madrid seguro que habrán novedades.

Conclusiones

Page 55: Repositorios en la nube

Agenda

Introducción¿Qué es el cloud?Tipología• SaaS, PaaS, IaaS• Público, privado, híbrido

Participantes

Repositorios en el cloud• Duracloud• EPrints storage plug-ins

ConclusionesReferencias

Page 56: Repositorios en la nube

Referencias

Above the Clouds: A Berkeley View of Cloud Computing, Michael Armbrust et alt., UC Berkeley Reliable AdaptativeDistribute Systems Laboratory, febrero 2009 (en línea en http://eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28-pdf) .

Information Factories, George Gilder, Wired, octubre de 2006 (en línea en http://www.wired.com/wired/archive/14.10/cloudware.html) .

Prólogo de Vinton Cerf de Todo va a cambiar, Enrique Dans, Ediciones Desto, 2010 (en línea en http://filesocial.com/937y410) .

Page 57: Repositorios en la nube

DuraCloud http://www.duraspace.org/duracloud.php

DuraCloud: Managing Durable Data in the Cloud. MicheleKimpton. NDIIPP Washington, DC, junio 2009 (en línea enhttp://www.duraspace.org/documents/DuraCloudNDIIPPJune09.ppt).

DuraCloud Frequently asked questions. Michele Kimpton y Bill Branan, octubre 2009 (en línea en http://www.fedora-commons.org/confluence/display/duracloudpilot/Frequently+asked+questions).

Referencias

Page 58: Repositorios en la nube

Referencias

Repositories and the Cloud. 23 febrero de 2010 enLondres (presentaciones y videos en línea en http://userv.org.uk/events/repcloud) .

• Duracloud – Open technologies and services for managing durable data in the cloud, Michele Kimpton, DuraSpace.

• Cloud Services for Repositories, Alex Wade, Microsoft.

• Eprints and the Cloud, Les Carr, University of Southampton.

• Cloud based Projects at Belfast e-Science Centre, Terry Harmer, Belfast e-Science Centre.

Page 59: Repositorios en la nube

Más referencias...

http://www.youtube.com/watch?v=QJncFirhjPg

http://www.youtube.com/watch?v=n9LmzsaO698

http://www.youtube.com/watch?v=XdBd14rjcs0

Page 60: Repositorios en la nube

Más referencias...

http://www.youtube.com/watch?v=Cl6XFZH5aWU

http://www.youtube.com/watch?v=TcTnGAQJ7gE

http://www.youtube.com/watch?v=VjfaCoA2sQk

Page 61: Repositorios en la nube