Harvest de Metadados com OAI-PMH / LexML João Lima.

Post on 21-Apr-2015

110 views 0 download

Tags:

Transcript of Harvest de Metadados com OAI-PMH / LexML João Lima.

Harvest de Metadados com OAI-PMH / LexML

João Lima

Introdução Comandos

Exemplos do IBICT OAI-PMH no Projeto LexML

OAI-PMH Open Archives Initiative Protocol

for Metadata Harvesting XML e HTTP Versão 2.0

http://www.openarchives.org/OAI/openarchivesprotocol.html

Criado em Janeiro/2001 Expor metadados descritivos

Data Provider / Service Provider

SF CD STF TCU

LexML

TJ SP

Data Provider / Service Provider

SF CD STF TCU

LexML

ALESP

Pref.SP Estado TJ SP

Registro OAI-PMH Header

Identificador único Timestamp (coleta seletiva) 0 ou + conjuntos (coleta seletiva)

Metadados DC (mínimo): oai_dc Proprietário: oai_lexml-br

About Rights Provenance

Informações sobre a origem do metadado, com identificadores (registro e repositório) e timestamp da origem.

Header – Exemplo<header> <identifier>oai:arXiv:cs/0112017</identifier> <datestamp>2002-02-28</datestamp> <setSpec>cs</setSpec> <setSpec>math</setSpec></header>

Metadata – Exemplo

<metadata> <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/

http://www.openarchives.org/OAI/2.0/oai_dc.xsd"> <dc:title>Using Structural Metadata to Localize Experience of

Digital Content</dc:title> <dc:creator>Dushay, Naomi</dc:creator> <dc:subject>Digital Libraries</dc:subject> <dc:description>With the increasing technical sophistication of

both information consumers and providers, there is increasing

demand for more meaningful experiences of digital information.

</dc:description> <dc:description>Comment: 23 pages including 2 appendices, 8 figures</dc:description> <dc:date>2001-12-14</dc:date> <dc:type>e-print</dc:type> <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier> </oai_dc:dc></metadata

About<about> <provenance xmlns="http://www.openarchives.org/OAI/2.0/provenance" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance http://www.openarchives.org/OAI/2.0/provenance.xsd"> <originDescription harvestDate="2002-02-02T14:10:02Z"

altered="true"> <baseURL>http://the.oa.org</baseURL> <identifier>oai:r2:klik001</identifier> <datestamp>2002-01-01</datestamp>

<metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace>

</originDescription> </provenance></about>

Eliminação de Registros No

O repositório não mantém informações sobre registros eliminados.

status=delete (nunca) Persistent

O repositório sempre manterá informações sobre registros eliminados.

status=delete (sempre) Transient

Não garante o registro persistente das informações eliminadas

status=delete (talvez)

OAI-PMH - comandos

Identify ListMetadataFormats ListSets ListIdentifiers ListRecords GetRecord

Comando Identify

Informações sobre o repositório

ListMetadataFormat

Lista formatos de metadados disponíveis no repositório.

ListSets

Lista os conjuntos de dados disponíveis no repositório

ListIdentifiers

Lista apenas os identificadores Intervalo de timestamp Por prefixo Por set Controle do fluxo (resumptionToken)

ListRecords

Lista os registros Intervalo de timestamp Por prefixo Por set Controle do fluxo (resumptionToken)

GetRecord

Obtém um registro Identificador e prefixo (metadado)

OAI-PMH - LexML Esquema de Metadados

oai_lexml-br Tabelas do Data e Service Providers

Mesma estrutura > agregação Transferência de Dados para Tabelas do Resolver Cadastro do Data-Provider por interface Web Controle de Erros Interface para Consulta no Data-Provider

Alterações pontuais Controle da Coleta (horário da última coleta) SGBDs

MySQL e Oracle (testados) ANSI

Nas organizações

Impacto mínimo nas organizações Manutenção de tabela de

metadados

Cronograma 1 mês

especificação oai_lexml-br 15 dias

modelagem das tabelas 1 mês

Data_provider – interface Serice_provider – registro e coleta

1 mês Relatório de acompanhamento erros

1 mês Rotina de cópia para tabelas do resolver

15 dias Documentação final e Teste integrado