Curso LOCKSS

40
Sistema LOCKSS Arthur Heleno Lima R de Souza Engenheiro de Computação http:// carniana.ibict.br [email protected] Curso de Preservação Digital

Transcript of Curso LOCKSS

Curso de preservao digital

Sistema LOCKSS

Arthur Heleno Lima R de SouzaEngenheiro de Computao

http://[email protected]

Curso de Preservao DigitalObjetivo do cursoCapacitar profissionais no entendimento da ferramenta de Preservao Digital Distribuda LOCKSS, soluo tecnolgica utilizada na Rede Cariniana.

Compreender as funcionalidades mais importantes, procedimentos e o gerenciamento da ferramenta.SumrioSistema LOCKSSConceitosCaractersticas tcnicas;Caixa LOCKSS;Props Server;Rede Privada LOCKSS (PLN)ConceitosArquitetura distribudaComo criar uma PLN

Processos de Preservao Digital do LOCKSSIngestoTeste de IntegridadeAcessoGerncia

CARACTERSTICASLot Of Copies Keep Stuff Safe(LOCKSS);

Desenvolvido pela Stanford University;

Arquitetura distribuda;

Segue o modelo OAIS.

Association of Computing Machinery Award (2004)Sistema LOCKSS

LOCKSS PluginsRequisitos mnimos do Sistema LOCKSSProcessamentoIntel x86 (ou compatvel),1 GHZ, 1 ncleoMemria1 GBEspao em disco4 TeraByte+ (Cariniana)5

Caixa LOCKSSUma caixa LOCKSS a instalao do software LOCKSS em um hardware apropriado. Capaz de coletar, preservar e reparar danos do contedo preservado. Caixa LOCKSS

+=

+DaemonInterfaceContedo PROPS SERVER um servidor web de apoio s caixas LOCKSS. Fornece dados nos formatos .XML e .JAVA, contendo informaes sobre os ns da rede, dados sobre a preservao e atualizaes.

Props ServerPrivate lockss network (PLN)Rede Privada LOCKSS para preservao do patrimnio cultural;

Uma rede de comunicao entre caixas LOCKSS com capacidade de buscar dados no servidor de suporte (props server)

Estudos apontam que cada rede deve ter no mnimo 6 ns (parceiros);

Geograficamente dispersas;

Comunica-se via P2P, utilizando a rede mundial de computadores (internet).

Rede Privada LOCKSS

Props serverCaixas iro ter a replica dos dados Mas caso ocorra falhas na transmisso, ou perdas de bits, como poderemos garantir a integridade dos dados? (ver prximo slide)11???Mas desta forma, o sistema no se caracterizaria como um sistema centralizado?

NOPE!O Props server age apenas como um repositrio de informaes para que no precise modificar esses dados em cada caixa manualmente. No compete a ele nenhum tipo de processamento de dados.Tracker BitTorrentAnalogia: sistemas distribudos [Bittorrent]

Caixas iro ter a replica dos dados Mas caso ocorra falhas na transmisso, ou perdas de bits, como poderemos garantir a integridade dos dados? (ver prximo slide)13P2pPeer-to-peer uma arquitetura de redes de computadores onde cada um dos pontos ou ns da rede funciona tanto como cliente quanto como servidor, permitindo compartilhamentos de servios e dados sem a necessidade de um servidor central de processamento.Segundo Tanenbaum & Steen, uma das arquiteturas para a construo de sistemas distribudos a arquitetura P2P e sua principal caracterstica a descentralizao.

ARQUITETURA DISTRIBUDA CPIAS GEOGRAFICAMENTE DISPERSAS

Por questes de segurana (Perda de dados por motivos de catstrofes naturais, incndios, erros humanos, etc), as cpias podem ser alocadas em locais dispersos, no limitando-se a regies nacionais. Worldwide stuff.15 Criando uma rede privada LOCKSSPasso 1: Instalar uma caixa LOCKSS.

Criando uma rede privada LOCKSSPasso 2 : Configurar a caixa e apontar para um Props Server

Guia de Instalao LOCKSS Criando uma rede privada LOCKSSPasso 3 : Configurar acesso e redeP2P: 9729 [LCAP]Interface: 8081Proxy: 8080 Criando uma rede privada LOCKSSPasso 4 : Gerencie as caixas LOCKSS via uma interfacehttp://caixalockss.instituicao.br/8081Gerenciamento e configuraoIntuitivo Acesso remoto e seguroGuia da interface administrativa LOCKSSProcessos 5 processos fundamentais do funcionamento, englobando tambm caractersticas do sistema; 20

diagrama OAIS

Harvest & IngestIngestoRepositrio de dadosPlanejamento de PreservaoINGESTO (PERIDICOS SEER/OJS)

Peridico / ContedoBase de dadosCrawlerUnidade de Arquivamento (UA)MetadadosOutros dadosCiencia da InformaoLOCKSS Plugin

A partir das informaes integradas ao plugin lockss, as caixas so capazes de rastrear os dados do Portal que possui peridicos, e encontrar os dados pertinentes preservao: Unidade de arquivamento (objeto), metadados e manifesto lockss (permisso para coleta).23

Teste de integridadeGesto de DadosAdministraoPRESERVAO TESTE DE INTEGRIDADEVotesO teste de integridade com sistemas distribudos muito mais seguro e robusto. No incio do processo, o sistema ir criar seu qurum de comparao, pois segundo estudos (stanford), no necessrio utilizar uma PLN inteira.25PRESERVAO TESTE DE INTEGRIDADEContedo preservadoUAsDAEMONHash8D77GFDGH77SD44SDF66SDG9HJ7SD56FS6DF4SD4G7H88SDF66DF6DF7S5DF5SDF4SD4F79DF8IdentificaoDaemon (processo automativo) ir gerar uma chave identificadora do contedo preservado, um hash (lockss utiliza a codificao SHA)26PRESERVAO TESTE DE INTEGRIDADETeste de integridadeIngestoAps comparar os identificadores hash, o(s) mais destoante(s) do grupo iro proceder com o processo de ingesto novamente. (caso o dado original no esteja disponvel, poder buscar das outras caixas com ndices maiores de acordo)27PRESERVAOHash - IdentificaoPolls - IntegridadeContedo preservadoUA13DAEMONHashIngestoVotes - Quorum128D77GFDGH77SD44SDF66Processo completo28

aCESSOAdministraoPlanejamento de PreservaoAcessoGesto de DadosAcesso - Migration on access LeitorCaixa LOCKSSFormato obsoleto (Sem possibilidade de leitura)On the flyFormato acessvel Contedo213456Estudos indicam que no futuro, alguns formatos podero no ser mais acessados, gerando dificuldades para acessar dados preservados. LOCKSS poder migrar um arquivo com formato obsoleto para um formato acessvel em tempo de execuo.30

GernciaAdministraoPlanejamento de PreservaoAcessoGesto de DadosRepositrio de dadosGERNCIA - INTERFACE GRFICA

GERNCIA ADICIONANDO TTULOS

GERNCIA - SEGURANA

GERNCIA TRANSFERNCIA

GERNCIA TRANSFERNCIA

TRANSFERNCIA (PROXY)

O lockss poder gerar um script para proxies, de diversos sistemas: squid, pac, ez, etc. Desta forma, editores podem configurar seus portais para buscar o contedo nas caixas caso o servidor do contedo original esteja com problemas.37Dvidas?

?RefernciasK. SKINNER AND M. SCHULTZ - A Guide to Distributed Digital Preservation.,Eds. (Atlanta, GA: Educopia Institute, 2010).

LOCKSS TEAM LOCKSS Support pages. Disponvel em: < http://www.lockss.org/support > Acesso: 15 nov. 2013.

MARDERO ARELLANO, Miguel Angel. Critrios para a preservao digital da informao cientfica. 2008. 354 f. Tese (doutorado) - Universidade de Braslia, Departamento de Cincia da Informao, 2008. Disponvel em: . Acesso em: 20 nov. 2013.REICH, Victoria A. Lots of copies keep stuff safe as a cooperative archiving solution for ejournals. Issues in Science and Technology Librarianship, [s.l.], fall 2002. Disponvel em: . Acesso em: 09 out. 2013.

TANENBAUM, A. S., STEEN, M. V. - Distributed Systems: Concepts and Design. 4 Edio (2005).

http://[email protected]

Obrigado!The end