1
Mauro Scanu
Responsabile UO “Sistema integrato di metadati”Servizio: Sviluppo sistema di metadati, Qualità Statistica e Coordinamento progetti europei di R&S ”Direzione: DCIQ
Sistema unitario di metadati
Componente relativa ai metadati strutturali – Uso di SDMX
2
Sistema Unitario di Metadati
Sommario
Relazione con GSBPM e i sistemi in uso in Istituto
Perché il SUM
Alcune possibili estensioni di SDMX
Uso di SDMX nel SUM
3
Perché il SUM
Linee ispiratrici progettazione SUM
Dotarsi di uno strumento di integrazione/armonizzazione e documentazione a supporto dei processi di raccolta, elaborazione e diffusione dei dati
Pertanto, il SUM si dovrà integrare con i sistemi sviluppati o in corso di realizzazione all’Istituto
Tendere all’armonizzazione con gli standard internazionali e, in particolare, europei
4
Sistema Unitario di Metadati - schema
Corporate metadata warehouse
Corporate data warehouse
Documentazione (PAA, PST,
piani metodologici/IT,architettura d’indagine,
piano di campionamento,…)
Dati grezzi (inclusii dati amministrativi)
Dativalidati
Dati didiffusione
Pubblicazioni
Specifica
requisitiDisegno Preparazione Raccolta Trattamento Analisi
Diffusione e
comunicazioneArchiviazione Valutazione
Datiaggregatiintermedi
Report diqualità
Metadati
strutturaliMetadati
referenziali
Metadati
gestionali
Pia
nifica
zion
e stra
tegica
Va
luta
zion
e co
mp
lessiva
5
Sistema Unitario di Metadati
Confronto con altre esperienzeMaggio 2012 – brainstorming DCIQ (in corso collaborazione con gruppo I.Stat)
Giugno 2012 – presentazione DIQR
Febbraio-Luglio 2012 – confronto con Banca d’Italia
Settembre 2012 – incontro con gdl acquisizione dati
Dicembre 2012 – incontro gdl sist. int. stime risultati econ. imprese dati indag. e ammin.
Altri confronti: ABS, SFSO, StatCanada, Eurostat, OCSE. Inserito nell’EA, confronto con sistema di BA, compatibilità con GSIM
6
Sistema Unitario di Metadati
ObiettiviTracciabilità dei processi: Tracciabilità delle informazioni prodotte nel ciclo di vita del dato per diversi scopi interni ed esterni e automatizzazione delle procedure
Supporto alla produzione: Facilità nel recupero dei metadati e possibilità di poterli riusare nelle diverse fasi del processo produttivo
Supporto alla ricerca e al corretto uso dei dati: Assegnazione del corretto significato dei dati, delle definizioni e delle condizioni di utilizzo, importante soprattutto ora che si parla di open data
7
SUM metadati strutturali - Logica incrementale
Macrodati: 1. (entro il 2012) prima modellazione dei metadati strutturali per i dati già presenti in
I.Stat (SDMX 2.0) e individuazione dello standard per la descrizione dei metadati strutturali per la versione a regime, in collaborazione con gruppo I.Stat
2. (entro il 2013/2014) costruzione/adeguamento software a supporto della nuova modellazione proposta e adeguamento dei metadati alla nuova modellazione
Relazioni di trasformazione dei metadati
Metadati per microdati
Metadati per macrodati(inclusa mappatura per SEP)
8
SUM metadati strutturali - Logica incrementale
Microdati1. (entro il 2013) individuazione di uno standard per la descrizione dei
metadati strutturali per i microdati (DDI, SDMX,…)2. (entro il 2014) costruzione/adeguamento software3. (entro il 2015) modellazione dei metadati strutturali per i microdati
Relazioni di trasformazione dei metadati
Metadati per microdati
Metadati per macrodati(inclusa mappatura per SEP)
9
SUM metadati strutturali – schema di relazione
Esempio di relazione fra SUM e una fase del processo produttivo dei dati (raccolta dati)
Relazioni di trasformazione dei metadati
Metadati per microdati
Metadati per macrodati(inclusa mappatura per SEP)
Web Service (I/O) – incluso SEPSDMX + SDMX Esteso
Portali,Sistemi, software
generalizzati per l’acquisizione
dati
Meta
MetadataGUI
Gestione
Consultazione
metadati
in SUM
Caricamento metadati
non presenti in SUM
Modifica metadati
presenti in SUM
Acquisizione metadati
presenti in SUM
Acquisizione metadati
presenti in SUM Per modifica
e caricamento
Per consultazione
e acquisizione
SUM
10
SUM: Uso di SDMX per la modellazione
Prima modellazione concettuale dei metadati di diffusione seguendo la logica SDMX 2.0:
-elenchi di unità statistiche-elenchi di conc. temporali (es: freq. Annuale, mensile,…)-classificazioni, -elenchi di misure-elenchi di operatori statistici,-elenchi di operatori di visualizzazione (num. decimali, fatt. di scala,…)-elenchi di informazioni di supporto alla diffusione dei dati (riservatezza, dati prov.,..)
strutture di metadati relative agli ipercubi di dati
-unità statistica-concetti temporali(frequenza, periodo temporale)-variabile statistica categoriale/qualitativa -variabili numeriche/quantitative-operatore statistico-unità di misura-operatore di visualizzazione-informazione di supporto alla diffusione dei dati
LISTE
CONCETTIDSD
11
Raffinamento rispetto a logica SDMX 2.0
Metadati strutturali
Concetti statistici (variabili)
concetti operativi
(indicatori, misure,Unit multiplier,..)
Lista piatta
Livelli diclassificazione
Raggruppamenti(di output o per questionari)
Classificazionigerarchiche
Operazioni possibili:-Sinonimie nei codici
-Operazioni fra codelist (fusione)- Gestione del “totale”
tempo
concetti geografici
Unità /popolazione
Lista piatta
raggruppamenti Operazioni possibili:-Operazioni fra codelist (fusione)
Rapporti Funzionali fra gli
item di unaCode list
(es: esp-imp=saldo)
frequenza Time format
Lista di unità “standard” (individui, famiglie, imprese,…)
concetti liste
Evoluzionetemporale
12
SUM metadati strutturali: attività in corso
1 concept scheme cross domain (48 concetti)
18 liste di concetti relativi a variabili statistiche sui 19 temi di I.Stat
Le code list usate in 18 temi (272 code list diverse, al netto delle versioni)
Le DSD relative a 18 temi di I.Stat (209 DSD)
Struttura e competitività del sistema delle imprese (8/5) Partecipazione sociale
Ambiente ed energia (9/13) Conti nazionali (23/20)
Popolazione e famiglie Agricoltura
Condizioni economiche delle famiglie e disuguaglianze (35/29) Industria e Costruzioni (5/6)
Salute e sanità (24/12) Servizi (18/12)
Assistenza e previdenza (13/7)Pubbliche amministrazioni e istituzioni private (12/7)
Istruzione e formazione Commercio con l'estero e internazionalizzazione (3/2)
Cultura, comunicazione, tempo libero Prezzi (6/7)
Giustizia e sicurezza Lavoro (22/32)
Opinioni dei cittadini e soddisfazione per la vita
13
SUM metadati strutturali: cosa è disponibile
Il sistema di metadati disponibile interagisce già con i sistemi:
1. SEP
2. I.Stat
Nei prossimi mesi il legame fra il sistema di metadati e questi sistemi verrà esteso, oltre a iniziare la fase di confronto con gli altri sistemi che usano metadati
Relazioni di trasformazione dei metadati
Metadati per microdati
Metadati per macrodati(inclusa mappatura per SEP)
Sistema di interscambio
I.StatMeta
SEP
14
SUM metadati strutturali: regole
E’ necessario definire delle regole di interscambio per gestire il rapporto fra i metadati nel SUM e quelli necessari nelle diverse fasi del processo produttivo dei dati.
15
SUM metadati strutturali: regole
Primo esempio: relazione con I.Stat (in collaborazione con PSS/C)
Per il SUM è necessario organizzare i metadati secondo il loro significato statistico. Questo richiede che i metadati siano dettagliati in un modo da poter essere riusati nelle diverse fasi del processo di produzione del dato.
Al contrario, per la diffusione del dato un eccessivo spacchettamento ed indicazione degli stessi in “campi diversi” renderebbe la lettura di difficile consultazione.
Si sta quindi lavorando con il PSS/C per definire le regole di interconnessione tra I.Stat ed il SUM. La problematica principale riguarda il modo in cui si rappresenta e descrive il “tipo dato”.
Gli elementi statistici che caratterizzano il tipo dato sono molteplici: unità statistica, operatore statistico, alcuni tipi di variabile, informazione di supporto,…
16
Esempio 1
Modellazione I.Stat: omogeneità nella distribuzione del reddito netto familiare
Modellazione SUM
Popolazione: famiglie
Variabile di analisi: reddito netto familiare
Operatore statistico: Indice di omogeneità – Indice di Gini
17
Esempio 2Modellazione I.Stat: produzione lorda di energia elettrica da fonte
rinnovabile - milioni di KWh
Modellazione SUM
Popolazione: operatori del settore elettrico
Variabile di analisi: produzione lorda di energia elettrica da fonte rinnovabile
Operatore statistico: valore totale (totale di variabile)
Unità di misura: KWh
Fattore di scala: in milioni
DA SIDI /SIQual
18
SUM metadati strutturali: SDMX esteso
Le regole di relazione fra i metadati gestiti in SUM e i metadati usati nelle diverse fasi del processo produttivo rendono SDMX 2.0 insufficiente, e richiedono uno standard aggiornato
Esempio: relazione SUM con I.Stat (in collaborazione con PSS/C)
1. Necessità di documentare il legame fra i metadati del SUM e quelli di I.Stat (ad esempio per il “tipo dato”)
2. Possibilità di assegnare a una classificazione più codifiche (ad esempio codifiche OCSE, Eurostat, etc)
3. Estensione alla modellazione dei metadati relativi ai microdati (se necessario)
4. Documentazione sulla storicità delle modalità
Necessità di miglioramenti nei software
1. Necessità di gestire l’ordine di visualizzazione delle modalità delle code list
2. Necessità di gestire relazioni complesse (es: più di un padre per una modalità di classificazione)
19
GRAZIE PER L’ATTENZIONE
20
Survey
unit
Validated
microdata
Questionnaire
Preaggregated data
or output data
Statistical operator (from
micro to m
acro data)
Data structure
Elementary
data
Analysis
unit
Analysis
population
Data structure
Qualitative
variable C
heck, edit, codying disclosure controlsClassification
5. PROCESS
6 ANALYSE
Frame data
Data structure
Frame
population
Design
variable
Classification
Sam
ple selection
4.COLLECT
Op
era
tor (b
ala
nce
, ind
ex
nu
mb
er, ra
tio,..)
Statistical output obtained from
two preaggreated data (ratio,
balance,…) or
marginalization
Data structure
7. DISSEMINATION
Ma
rgina
lizatio
n o
f a
cate
gorica
l/qua
litative
varia
ble
Meta
data
Micro
data
Meta
data
Macro
data
Qualitative
variable
Classification
Numerical
question Unit of
measure
Coded
question
Classification
Numerical
variable Unit of
measure
Qualitative
variable
Classification
Numerical
variableUnit of
measure
Num. var.
for prop. design Unit of
measure
Top Related