Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 1/25 autore: ing. R. Perrotta
Business Intelligence e Analisi multidimensionale dei dati
Premessa I sistemi gestionali d’impresa stanno evolvendo sotto la spinta dei sistemi per la qualità verso normative che dettano i criteri per la corretta conduzione degli affari nel contesto ampio dell’economia, della società e dell’ambiente in cui operano. Il fenomeno è diffuso in tutto il mondo e si assiste ad un continuo fiorire di ricerche, iniziative e imprese che si impegnano a definire tali criteri ed a proporre modelli organizzativi e strumenti di gestione, che ne consentano l’applicazione. In campo europeo “il libro verde della Commissione Europea del 20011 identifica chiaramente i fattori che giustificano l’adozione di norme gestionali orientate a obiettivi di qualità in tutte le innumerevoli relazioni d’affari. Il fattore fondamentale è quello di assicurare all’impresa la capacità di produrre reddito nel lungo periodo, adattandosi ed evolvendo sotto la spinta della competizione e della trasformazione dei mercati a livello globale. Gli altri fattori sono da identificare principalmente nei “criteri sociali che influiscono sempre più sulle decisioni di investimento degli individui o delle istituzioni, sia in quanto consumatori che in quanto investitori; nelle inquietudini crescenti suscitate dal deterioramento dell’ambiente provocato dall’attività economica e nella trasparenza arrecata dai mezzi di comunicazione e dalle tecnologie moderne dell’informazione e della comunicazione nell’attività delle imprese”. Altro fattore importante è il mantenimento della buona reputazione dell’impresa, che può soffrire per le critiche formulate nei riguardi delle sue prassi commerciali e si riflette direttamente sul valore del suo marchio e la sua immagine. L’impresa che vuole mantenere nel tempo il suo successo non può più accontentarsi di soddisfare le esigenze esplicite ed implicite dei propri clienti, come prospettato dai sistemi di gestione per la qualità, standardizzati nelle norme ISO 9000:2000, ma deve cercare di soddisfare anche le aspettative di tutte le altri parti interessate, o “stakeholder”: investitori, banche, fornitori, dipendenti, collaboratori, comunità, pubblica amministrazione, ambiente. In particolare deve dimostrare di svolgere un ruolo positivo nella comunità in cui opera, recependo e attuando correttamente le politiche di sviluppo a livello locale, nazionale ed internazionale. Da queste considerazioni deriva la definizione di Responsabilità Sociale d'Impresa (o Corporate Social Responsibility – CSR, per usare la definizione e l’acronimo angloamericano) data nel Libro verde, in cui si afferma che “è l'integrazione volontaria, da parte delle imprese, delle preoccupazioni sociali ed ambientali nelle loro operazioni commerciali e nei loro rapporti con le parti interessate”. Questo concetto si collega strettamente con quello di “sostenibilità”, che si declina principalmente in tre dimensioni2:
“la sostenibilità economica, intesa come capacità di generare reddito, profitti e lavoro;
la sostenibilità sociale, intesa come capacità di garantire condizioni di benessere e opportunità di crescita equamente distribuite e come capacità di rispettare i diritti umani e del lavoro;
1 Libro verde “Promuovere un quadro europeo per la responsabilità sociale delle imprese” – COM (2001)
366
2 Dino Bogazzi, Direttore Qualità e organizzazione del Consorzio Cooperative Costruzioni, Presidente del
Settore Costruzioni Civili dell’AICQ, Vicepresidente ICIC - Istituto Certificazione Imprese di Costruzione -
Responsabilità sociale: Bilancio di Sostenibilità – Rivista AICQ marzo-aprile 2007
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 2/25 autore: ing. R. Perrotta
la sostenibilità ambientale, intesa come capacità di salvaguardare le risorse naturali e la possibilità dell'ecosistema di assorbire e tollerare gli impatti diretti ed indiretti generati dall'attività produttiva”.
Rendere conto dell’impegno e dei risultati ottenuti dall’impresa nel perseguimento dei suoi obiettivi economici, sociali ed ambientali comporta un ampliamento dei suoi documenti di Bilancio da quello puramente Economico-Patrimoniale a quello Sociale. Questo aspetto implica un notevole impegno da parte dell’alta direzione nell’impostazione e attuazione di un sistema gestionale che identifichi tutte le parti interessate alle proprie attività (i famosi “stakeholder”), gli indicatori di risultato degli obiettivi e le politiche che consentano di perseguire tali obiettivi. Inoltre, è necessario sviluppare un sistema informativo che consenta di raccogliere tutti i dati e misurare gli indicatori di risultato in modo da redigere il Bilancio Sociale in modo esauriente e credibile e darne informazione agli interessati. Occorre quindi entrare in contatto con tutte le parti che usufruiscono dei prodotti e servizi dell’impresa o che comunque influiscono a vario titolo sul suo successo, rilevarne le esigenze, prospettare attività che concorrano alla crescita economica, alla coesione sociale ed alla tutela dell’ambiente in modo efficace e convincente e rendicontare i risultati di tale attività nella prospettiva di un miglioramento continuo”
3.
Definizione di Business Intelligence Raccogliere, riepilogare, interpretare, documentare, diffondere le informazioni sui propri affari comporta
un’attività di “intelligence”, cioè di servizio informativo, che, essendo orientata agli affari ed alla gestione
aziendale, è detta propriamente di “Business Intelligence” (BI), che potremmo tradurre come “servizio
informativo sulla gestione aziendale”.
Il termine “Business Intelligence” è stato coniato da Howard Dresner, nei
primi anni ’90, quando era Vice Presidente di Gartner Group e
responsabile dell’area di ricerca in questo campo. Attualmente Dresner è
Chief Research Officer della società indipendente di consulenza da lui
fondata, Dresner Advisory Services, ed è riconosciuto come un’autorità
nelle aree della BI e del BPM - Business Performance Management
(Gestione delle prestazioni aziendali) (http://howarddresner.com/ ).
Da un primo punto di vista la Business Intelligence può essere assimilata
ad una forma di controllo di gestione o di gestione delle prestazioni,
essendo orientata alla rilevazione e valutazione dei principali indicatori
strategici aziendali (KPI – Key Performance Indicator). Tuttavia, valutare
le prestazioni significa avere l’occhio rivolto al passato, cioè alla
valutazione dei risultati ottenuti con le azioni manageriali impostate,
decise ed attuate nel periodo precedente alla data in cui si valuta, e non
dice nulla sul presente e sul futuro. La Business Intelligence, invece, può
rispondere anche a queste esigenze: può dare informazioni sulla struttura del proprio modello di business
e sullo stato degli affari; può cercare di esplicitare, estraendole dalla base dati del sistema informativo
3 Ing. R. Perrotta – La responsabilità sociale d’impresa – Bollettino del Governatore Rotary 2060 - ____
2010
Figura 1 - Howard Dresner
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 3/25 autore: ing. R. Perrotta
aziendale, informazioni nascoste o implicite e produrre nuove conoscenze su tali modelli o suggerirne di
nuovi; può studiare l’andamento storico degli indicatori per rilevare tendenze e formulare previsioni sui
loro andamenti futuri.
Consegue che la Business Intelligence può essere definita in generale come il processo per esplorare e
analizzare informazioni strutturate e non strutturate, specifiche di un dominio, per valutare prestazioni e
rilevare modelli e tendenze di business da cui derivare interpretazioni, trarre conclusioni e prendere
decisioni. Tali domini comprendono clienti, fornitori, prodotti, servizi, concorrenti ed, in genere, tutti gli
stakeholder aziendali. Storicamente la BI ha trattato i dati strutturati, ma negli ultimi anni la ricerca e le
applicazioni hanno esteso il loro campo anche alle informazioni non strutturate.
Architettura dei sistemi di BI – Data Warehouse Il sistema informatico a supporto della BI è detto “Data Warehouse” (DW) (magazzino dei dati). Spesso i
due termini si confondono e si include nel significato di BI anche il riferimento alla tecnologia di supporto.
Il primo professionista che ha parlato esplicitamente
di data warehouse è stato William H. Inmon, che lo
ha definito come una raccolta di dati integrata,
orientata al soggetto, variabile nel tempo e non
volatile di supporto ai processi decisionali. A suo
modo di vedere, l'integrazione dei dati costituisce la
principale caratteristica distintiva del DW rispetto ad
altri sistemi di supporto alle decisioni.
Un altro importante professionista, considerato
pioniere del Data Warehouse accanto ad Inmon, è
Ralph Kimball.
L’architettura caratteristica del Data Warehouse prevede, in genere, che i dati vengano estratti da varie
fonti esterne, costituite dai sistemi informatici che gestiscono le transazioni operative (Operational
Applications), raccolti in un’area di trasformazione (DW Staging Area), caricati nel Data Warehouse vero e
proprio ed infine trasferiti ad un insieme di “Data Mart” (fiere dei dati specializzate, tramite cui i dati
vengono diffusi agli utenti finali), riferiti ai vari domini di interesse per gli analisti. I dati vengono copiati da
un data base all’altro usando una tecnologia denominata genericamente ETL (Extract, Transform, Load)
(Estrai, Trasforma, Carica)4.
4 http://data-warehouses.net
Figura 3 - Ralph Kimball (1944)
Figura 2 - William H. Inmon (San Diego, 20 luglio 1945)
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 4/25 autore: ing. R. Perrotta
Figura 4 - Tipica architettura Data Warehouse
Applicazioni operative (Operational Applications)
La ragione principale per cui le organizzazioni hanno bisogno di creare dei DW è che i loro dati sono
dispersi e frammentati in una molteplicità di sistemi, che utilizzano sistemi operativi e piattaforme
applicative diverse in varie postazioni fisiche.
Alcune informazioni risiedono sui sistemi gestionali aziendali, che presiedono, ad esempio, alla gestione di
Contabilità, Fatturazione, Vendite, Magazzino, Produzione, altre su sistemi dipartimentali quali Qualità,
Risorse Umane, Schedulazione della Produzione, altre su sistemi remoti in outsourcing quali Paghe, SCM
(Supply Chain Management - Gestione della catena di distribuzione), siti di e-commerce. Ogni sistema
gestisce i dati di dettaglio della propria area applicativa, indipendentemente dagli altri; a volte gli stessi dati
vengono trattati in modo ridondante su diversi sistemi, generando problemi di coerenza per effetto di
diversi metodi di trattamento, diverse fonti informative e diverse periodicità di elaborazione (ad esempio
anagrafiche, listini, dati contabili dipartimentali, valutazioni di prestazione); spesso è difficile raccogliere e
visualizzare tutte le informazioni sulla gestione aziendale per prendere le decisioni in tempo utile.
Inoltre, i sistemi informatici per la gestione delle singole transazioni operative non sono progettati in
genere per fornire informazioni rapide sugli indicatori sintetici di risultato che interessano alla direzione ed
agli analisti.
La sfida per il Data Warehousing è di poter consolidare rapidamente, pulire ed integrare dati originati da
svariati data base multipli che girano su piattaforme tecniche diverse in postazioni geografiche differenti.
Processi ETL
Il software ETL è un componente importante dell’architettura, che interconnette i vari data base nelle
diverse fasi del processo di generazione del DW.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 5/25 autore: ing. R. Perrotta
Serve ad estrarre i dati, trasformare i valori di dati incoerenti, pulire, filtrare e caricare i dati nei data base
di destinazione. La schedulazione dei processi ETL deve essere pianificata con accuratezza, essendo
un’attività critica da eseguire in modo coordinato e completo.
Area di trasformazione
L’area di trasformazione (DW Staging Area) è una locazione temporanea in cui vengono copiati i dati dai
sistemi di origine. L’esigenza di quest’area deriva essenzialmente dalla necessità di coordinare i processi
asincroni di estrazione dei dati e renderli tutti disponibili prima dell’inizio della fase di trasformazione.
Ad esempio, potrebbe essere ragionevole estrarre i dati di vendita su base giornaliera, mentre questa
periodicità potrebbe non essere adatta ai dati finanziari, che vengono riconciliati su base mensile.
Analogamente, in un’azienda globalizzata, potrebbe non essere possibile estrarre contemporaneamente i
dati di vendita di filiali che risiedono in continenti diversi con diversi fusi orari.
Alcuni dati del DW possono essere persistenti, soprattutto se si tratta di dati storici, mentre altri possono
essere volatili, se rimangono in vita solo per un breve periodo di tempo.
L’area di trasformazione, tuttavia, non è sempre presente nell’architettura, in quanto a volte i dati vengono
estratti direttamente verso il DW, soprattutto in ambienti in cui siano installati sistemi ERP integrati ed il
fenomeno della frammentazione dipartimentale e geografica sia ridotto.
Data Warehouse
Lo scopo del data base detto propriamente “DW” è di integrare tutti i dati aziendali o dell’organizzazione.
Contiene i “veri5” dati aziendali, che sono stati costruiti attentamente a partire dai vari sistemi gestionali
interni ed esterni all’organizzazione stessa.
La quantità di dati presenti nel DW è di norma massiccia. Essi sono accumulati ad un livello di dettaglio
granulare. Ad esempio, ogni vendita viene registrata e correlata alle dimensioni di classificazione e analisi
che interessano. Ciò consente di riepilogare, raggruppare e correlare i dati in molteplici modi, spesso
inimmaginabili.
Contrariamente a quanto si possa credere, il DW non contiene tutti i dati dell’organizzazione. Il suo scopo è
infatti quello di fornire le metriche chiave che sono necessarie all’organizzazione per le sue decisioni
tattiche e strategiche.
Gli analisti ed i dirigenti che debbono prendere le decisioni non accedono direttamente al DW, ma tramite
vari strumenti di interfaccia (front-end tools) che leggono i dati da specifici Data Mart specializzati per
dominio o argomento applicativo.
5 Il tema della “verità” dei dati o del loro “grado di verità” è ampiamente dibattuto nel campo del Data
Warehousing.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 6/25 autore: ing. R. Perrotta
La struttura del DW può essere “relazionale” oppure “dimensionale” a seconda di come l’organizzazione
intenda usare le informazioni. La discussione di questo aspetto verrà approfondita nei paragrafi successivi.
Data Mart
I Data Mart vengono popolati estraendo i dati dal DW a beneficio dei vari gruppi di decisori
dell’organizzazione.
Ogni Data Mart contiene combinazioni differenti di tabelle, colonne e righe estratte dal DW generale. Ad
esempio, un’unità organizzativa o un gruppo di utenti che non ha bisogno dei dati storici potrebbe chiedere
di inserire nel Data Mart solo le transazioni dell’anno corrente; oppure l’Ufficio del Personale potrebbe
aver bisogno di vedere tutti i dettagli dei dipendenti, mentre i dati della paga o dell’indirizzo potrebbero
non interessare gli analisti del Data Mart delle vendite.
Infine, alcuni Data Mart potrebbero richiedere un aggiornamento giornaliero, mentre altri potrebbero
essere aggiornati solo mensilmente.
Tecnologia di accesso ai DW – OLAP La tecnologia di accesso ai dati, caratteristica dei DW e della BI, è denominata OLAP - OnLine Analytical
Processing perché è orientata in modo specifico all’elaborazione di registrazioni ed interrogazioni per
l’analisi dei dati aziendali. Essa risponde alle esigenze degli analisti di BI, che sono essenzialmente le
seguenti:
ottenere risposte rapide e coerenti ad interrogazioni basate su data base di ampie dimensioni;
usare strumenti facili ed intuitivi per l’interrogazione e l’analisi, che consentano di:
o esaminare i dati aziendali in forma riepilogata, rispetto a varie dimensioni di analisi,
correlabili in modo dinamico, con la possibilità anche di:
o esaminare i dati di dettaglio, che generano tali dati riepilogati.
Questa tecnologia, per certi versi, si contrappone a quella orientata all’elaborazione delle transazioni,
denominata OLTP – OnLine Transaction Processing, che è tipica dei sistemi gestionali operativi per
applicazioni di inserimento di documenti (data entry) e ricerca e reperimento di dati o interrogazioni
operative e gestionali (data retrieval). È possibile ottenere informazioni a supporto delle decisioni e delle
analisi dei dati aziendali anche con la tecnologia OLTP, ma, soprattutto nel caso di grandi basi dati, questa è
meno efficiente dell’OLAP. Quest’ultima d’altra parte è particolarmente efficiente quando venga
implementata su data base di tipo dimensionale anziché relazionale. Per comprendere meglio queste
affermazioni conviene riprendere i concetti fondamentali dei modelli di strutturazione dei dati
“relazionale” e “dimensionale” ed esaminarne le caratteristiche rispetto alle esigenze della BI.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 7/25 autore: ing. R. Perrotta
Dal punto di vista storico i due modelli sono stati teorizzati da Edgar Frank
(Ted) Codd6. I primi studi risalgono agli anni ‘60-’70 del secolo scorso; la
consacrazione del modello relazionale risale agli inizi degli anni ‘80, quella
del modello dimensionale agli inizi degli anni ‘907
Il modello relazionale8
Il modello relazionale è applicato in gran parte dei DBMS (Database
Management System) in uso per le applicazioni gestionali di tipo
transazionale e la sua conoscenza è ampiamente diffusa. In questo
paragrafo, quindi, mi limiterò solo a citare alcuni concetti fondamentali e le
caratteristiche da prendere in considerazione per il confronto con il
modello dimensionale.
La struttura fondamentale di questo modello è la “tabella”, cioè una
struttura bidimensionale costituita da righe (record, tuple) e da colonne
(attributi). La tabella è un insieme di righe, ciascuna delle quali è costituita da una combinazione di valori
degli attributi, posti in “relazione” tra loro (la tabella è una relazione). L’insieme delle tabelle costituisce il
data base.
ID Nome Cognome Luogo nascita
Data nascita
Codice fiscale Qualifica
1 Loris Degano Udine 15/05/1975 LRSDGN75E15L483O Operaio
2 Fulvio Ribis Moggio 25/04/1981 FLVRBS81D25F265K Impiegato
3 Aldo De Stalis Udine 30/05/1978 LDADTL78E30L483F Dirigente
Tabella 1 - Esempio di tabella (Anagrafica dipendenti)
Ogni riga (record) della tabella è un’“istanza” (v. Tabella 2 - Concetti base sulle tabelle) delle combinazioni
di attributi costitutive della tabella, cioè l’insieme dei valori degli attributi, che caratterizzano uno specifico
elemento della tabella considerata. Ad esempio, se consideriamo la tabella anagrafica dei Dipendenti di
un’azienda, ogni istanza si riferisce ad un particolare dipendente dell’azienda.
Per distinguere una riga da un'altra si utilizza il concetto di "chiave primaria", che è l’insieme di attributi
che si sceglie per identificare univocamente una riga della relazione.
6 Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003) era uno scienziato informatico inglese che, mentre
lavorava per IBM, inventò il modello relazionale per la gestione dei data base, la base teorica per i data
base relazionali.
7 http://www.olap.com/w/index.php/Category:OLAP_History
8 Tratto da http://database.html.it/guide/lezione/1308/il-modello-relazionale/ e altri
Figura 5 - Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003)
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 8/25 autore: ing. R. Perrotta
Le tabelle di un data base vengono associate mediante le chiavi. Ad esempio, per specificare che un
dipendente dell’azienda è nato nel comune di Udine si assegnerà all’istanza del dipendente il valore
dell’attributo “Comune di nascita” costituito dalla chiave primaria dell’entità “Comuni” corrispondente ad
Udine. Tale attributo di collegamento viene denominato “chiave esterna”.
Tabella 2 - Concetti base sulle tabelle
Uno dei grandi vantaggi del modello relazionale è che è possibile operare sulle tabelle con l’algebra degli
insiemi. Tutte le manipolazioni possibili sulle tabelle sono ottenibili grazie alla combinazione di cinque soli
operatori: RESTRICT, PROJECT, TIMES, UNION e MINUS. Per comodità sono stati anche definiti tre
operatori addizionali che comunque possono essere ottenuti applicando i soli cinque operatori
fondamentali: JOIN, INTERSECT e DIVIDE. Gli operatori relazionali ricevono come argomento una tabella o
un insieme di tabelle e restituiscono una singola tabella come risultato.
Normalmente, tuttavia, l'utente non utilizza direttamente questi operatori sul database, ma interagisce
mediante l’SQL - Structured Query Language, progettato per leggere, modificare e gestire dati memorizzati
in un data base relazione (RDBMS), per creare e modificare schemi di database, per creare e gestire
strumenti di controllo ed accesso ai dati. Le istruzioni SQL vengono scomposte dal DBMS in una serie di
operazioni propriamente relazionali.
Il DBMS è in grado di effettuare ricerche di record con prestazioni elevate grazie alla definizione di “indici”.
Un indice è una struttura in cui vengono memorizzati e ordinati i valori di uno o più attributi (colonne) di
una tabella di database, associando ad essi i puntatori ai record che li contengono. Se si cerca una
determinata istanza in base al valore di un attributo indicizzato, l'indice agevola la ricerca e la rende più
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 9/25 autore: ing. R. Perrotta
rapida rispetto a una ricerca sequenziale in tutti i record della tabella (mediante una ricerca dicotomica). Il
database utilizza l'indice in modo analogo all'indice di un libro: vi cerca un determinato valore e quindi
segue il puntatore alla pagina che contiene tale valore.
Tali indici migliorano la velocità di ricerca ed estrazione dei dati dalle tabelle, ma rallentano le operazioni di
scrittura, dal momento che comportano anche l’aggiornamento dell’indice, ed aumentano l’occupazione di
spazio su disco.
Il modello dimensionale9
A differenza del modello relazionale, il
modello dimensionale prevede che i dati
vengano memorizzati all’interno di
strutture denominate “cubi”.
Le dimensioni del cubo sono associate
con i “fatti” (detti anche “misure”) così
come, le coordinate x, y e z sono
associate ad un punto nella descrizione
cartesiana dello spazio. Nel nostro caso,
le dimensioni identificano una cella
all’interno della quale sono memorizzate
le misure. In termini relazionali, i fatti
sono in relazione uno-a-molti con le
dimensioni.
Per maggiore chiarezza, facciamo riferimento al seguente caso di studio.
La Cablaggi Forniture SpA vende cavi per cablaggi strutturati e gestisce un data base delle vendite. Le
dimensioni di analisi degli affari sono usualmente: Clienti, Prodotti e Tempo (mese, trimestre, anno, ecc.).
La quantità di vendita per un prodotto specifico (Cavo Cat5e) ad un cliente specifico (Ferrari) durante uno
specifico periodo di tempo (Agosto 2011) è una “misura”. Le dimensioni sono memorizzate in tabelle
individuali separate come lo sono i fatti; nel nostro caso la misura è la quantità di vendita. In questo modo,
la tabella dei fatti, con terminologia relazionale, è una tabella figlio delle tabelle dimensionali e lo schema
della struttura è “a stella”.
Ma qui l’analogia finisce. L’accesso alle misure con la struttura relazionale dovrebbe avvenire mediante gli
indici memorizzati nelle colonne cliente, prodotto o tempo della tabella dei fatti.
9 Tratto da: Data Warehousing and OLAP : Cube-Organized Materialized Views; Posted by Aisyah Runi on
Saturday, January 3, 2009 - http://oraclezine.blogspot.com/2009/01/data-warehousing-and-olap-
cube.html
Figura 6 - Cubo multidimensionale
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 10/25 autore: ing. R. Perrotta
Con l’approccio dimensionale, si accede alle celle specifiche (contenenti le misure) attraverso il cubo: nel
nostro esempio, andando alla sezione che contiene il tempo (Agosto 2011); poi il prodotto (Cavo Cat5e);
ed infine il cliente (Ferrari). L’accesso ai dati viene gestito in modo inverso: nell’approccio “relazionale” si
ricerca il dato (nel nostro caso il “fatto”, la “misura”) e si decodifica la dimensione, facendo uso degli indici,
mentre nell’approccio “dimensionale” si ricercano le dimensioni, si rilevano i puntatori e, tramite le
coordinate così identificate, si individua la misura.
Il software di gestione del data base sa come andare a queste sezioni calcolando la destinazione come se
fosse in una schiera e non in una tabella, cioè mediante le coordinate e non mediante gli indici.
Ad esempio, supponiamo che le dimensioni siano organizzate nel seguente modo:
Dimensione Tempo := {'Maggio','Giugno','Luglio','Agosto'}
Dimensione Cliente := {'ENI','Pirelli','Ferrari','Telecom'}
Dimensione Prodotto := {'Cavo Fibra','Cavo Cat6e','Cavo Cat5e','Cavo Seriale'}
Per trovare la misura per Ferrari + Agosto + Cavo Cat5e il motore sviluppa la navigazione in questo modo:
1. “Agosto 2011” è il quarto elemento della schiera denominata Tempo, così va alla quarta cella della
dimensione tempo del cubo.
2. “Cavo Cat5e” è il terzo elemento della schiera Prodotto, quindi va al terzo elemento.
3. “Ferrari” è il terzo elemento della schiera Cliente, quindi va al terzo elemento.
In questo modo si arriva alla misura desiderata. Tutto viene eseguito senza ricorrere ad indici dal momento
che gli indicatori di dimensione servono come puntatori di schiera. Analogamente, se si vogliono calcolare
le vendite totali a tutti i clienti di Agosto 2011, si opera nello stesso modo appena detto, eccetto che al
passo 3 si totalizzano le misure di tutti gli elementi della schiera senza andare a nessuna cella specifica.
Nell’approccio tipico del data base relazionale, si dovrebbe fare la “join” (unione) della tabella dei “fatti”
con tutte le dimensioni. Ogni volta che si ricercano dati, occorrerebbe selezionare il singolo dato dalla
tabella dei fatti, eventualmente tramite indici, e unirlo con ogni dimensione una a una, ancora tramite
indici. Sebbene sia tecnicamente possibile, questo approccio è quasi irrealizzabile su grandi data base.
In alternativa, per evitare le strutture a cubo, si potrebbe ricorrere alle “viste”, che sono delle tabelle
generate mediante “query” sulle tabelle del data base ed evitano di eseguire “join” a richiesta. Nel caso
precedente, per rispondere a tutte le possibili combinazioni delle tre dimensioni, ognuna di quattro
elementi, occorrerebbe prevedere 4x4x4=64 viste diverse. Ognuna di queste viste dovrebbe essere
aggiornata ogniqualvolta intervenissero cambiamenti nei dati. Consegue che la creazione e la gestione di
queste viste richiederebbe un grande dispendio di spazio su disco e sarebbe molto svantaggiosa nel caso di
grandi masse di dati da analizzare su molte dimensioni.
Da quanto detto, è evidente che le strutture dimensionali sono più prossime a “parallelepipedi” che a veri
e propri cubi, dal momento che le schiere delle dimensioni possono avere ampiezze diverse, ma,
soprattutto, sono dotate in genere di più di tre dimensioni, per cui vengono anche denominate, con
linguaggio iperbolico, “ipercubi”.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 11/25 autore: ing. R. Perrotta
Membri delle Dimensioni 10, Gerarchie11e Formule12
A maggiore chiarimento del funzionamento dei data base dimensionali e delle loro differenze rispetto a
quelli relazionali, è opportuno rilevare che le dimensioni possono essere specificate mediante due tipi di
membri: i Membri di Dettaglio ed i Membri Aggregati. Ad esempio, nella dimensione Tempo potrebbero
essere specificati come Membri di Dettaglio i mesi (Gennaio, Febbraio, Marzo, ecc.) e come Membri
Aggregati 1° Trimestre, 2° Trimestre, ecc., dove il 1° Trimestre sarà definito come somma di Gennaio,
Febbraio e Marzo, il 2° Trimestre come somma di Aprile, Maggio, Giugno e così via. I Membri di dettaglio
sono espressi al livello minimo di granularità disponibile, mentre i Membri Aggregati sono riepiloghi di tali
dati.
Una volta definiti i Membri di una Dimensione, la Gerarchia di questi Membri deve essere definita a sua
volta per determinare l’aggregazione dei Membri delle Dimensioni.
Nel nostro caso, dovremo specificare che i Membri Gennaio, Febbraio e Marzo sono gerarchicamente
dipendenti da 1° Trimestre per definire la regola di aggregazione dei dati dei mesi nel corrispondente
Membro Aggregato.
La formula di base per l’aggregazione dei Membri è la Somma, ma è possibile specificare anche altre
formule per eseguire calcoli matematici tra tutti i membri del cubo. Con tali formule si possono eseguire
calcoli per popolare celle, insiemi di celle e perfino interi nuovi cubi.
10 http://www.olap.com/w/index.php/Example_2
11 http://www.olap.com/w/index.php/Example_3
12 http://www.olap.com/w/index.php/Example_5
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 12/25 autore: ing. R. Perrotta
Analisi multidimensionale dei dati13 Operazioni tipiche previste per manipolare i dati in un modello logico multidimensionale sono le seguenti.
Slice
Figura 7 - Slice
È l’operatore che permette di vedere il cubo trasversalmente (letteralmente “a fette”), fissando un valore
per almeno una delle dimensioni e analizzando i dati relativamente a tutte le altre, cioè concentrando
l’attenzione su un ipercubo (n-1) dimensionale del cubo n-dimensionale (contrazione dimensionale)
Dice
Figura 8 - Dice
È l’operatore per cui fissato un intervallo su ciascuna dimensione, si analizza una riduzione volumetrica,
senza contrazioni del numero di dimensioni.
13 Tratto da Donato Malerba - Business Intelligence Technologies - Dipartimento di Informatica Università
degli Studi, Bari, Italy - http://www.di.uniba.it/˜malerba
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 13/25 autore: ing. R. Perrotta
Drill-down e Roll up
Figura 9 - Drill down e Roll up
Drill down è l’operatore che consente di scendere nel dettaglio lungo una o più dimensioni gerarchiche.
Esempio: mediante un’operazione di drill-down è possibile passare da un’analisi delle vendite per provincia
ad un’analisi più particolareggiata, distinguendo in base alle differenti città. Questo operatore è utile
quando si vuole analizzare una causa o un effetto per qualche fenomeno osservato nei dati aggregati.
Roll-up o consolidation o drill-up è l’operatore duale del drill-down, in quanto consente di risalire lungo
una o più dimensioni gerarchiche. Esempio: partendo dall’analisi di un particolare prodotto si potrebbe
passare all’analisi di un’intera gamma di prodotti.
Drill-across è l’estensione dell’operatore di drilldown, che consente di scendere nel dettaglio
contemporaneamente su più dimensioni.
Pivot
Figura 10 - Pivot
L’operazione, detta anche Rotate (rotazione), consente di riorientare la vista multidimensionale dei dati,
ovvero di poter cambiare la dimensione di analisi. Se lo spazio di analisi è m-dimensionale, sono possibili
m! prospettive diverse di analisi dei dati.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 14/25 autore: ing. R. Perrotta
Tipi di sistemi OLAP
La tecnologia OLAP può essere implementata sia sulla base di data base dimensionali che relazionali, anche
se dalla discussione precedente è evidente che il modello nativo per l’OLAP è quello dimensionale. In
commercio, infatti, esistono tre tipologie di sistemi OLAP: multidimensionale (MOLAP - Multidimensional
OLAP), relazionale (ROLAP - Relational OLAP) e ibrido (HOLAP - Hybrid OLAP) 14
.
MOLAP
È la tipologia che realizza il modello dimensionale vero e proprio. Lavora con un database di riepilogo
avente un motore specifico per l'analisi multidimensionale e crea le "dimensioni" con un misto di dettaglio
ed aggregazioni.
Le interrogazioni sono ottimizzate tramite strumenti di query proprietari.
Vantaggi
elevata efficienza nell’esecuzione di query complesse
stretta aderenza al modello concettuale
Svantaggi
elevata occupazione di spazio (viene allocato lo spazio per ogni possibile ennupla dimensionale)
mancanza di standard, sia di rappresentazione dei dati che di interrogazione
scarsa familiarità con il modello da parte degli operatori
Per tutti questi motivi non è comunemente usato.15
ROLAP
Lavora direttamente con database relazionali; i dati e le tabelle delle dimensioni sono memorizzati come
tabelle relazionali e nuove tabelle sono create per memorizzare le informazioni di aggregazione.
Le interrogazioni sono realizzate mediante query SQL standard.
Vantaggi
minima occupazione di spazio
elevata conoscenza degli strumenti relazionali da parte degli operatori
Svantaggi
esecuzione di query poco efficiente
14 http://it.wikipedia.org/wiki/OLAP
15 Lorenzo Sarti – Datawarehousing – Università di Siena – Sistemi informativi per la Gestione Aziendale
2009-10
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 15/25 autore: ing. R. Perrotta
le soluzioni per il miglioramento della velocità di risposta implicano un aumento della complessità
e dell’occupazione di spazio
HOLAP
È una soluzione intermedia che combina i vantaggi di MOLAP e ROLAP
Data warehouse realizzato su base relazionale
o semplicità di sviluppo e di manutenzione delle procedure di popolamento dei fatti
o scalabilità del sistema
Data mart realizzati su base multidimensionale
o efficienza nelle interrogazioni
o dimensioni contenute
Schemi multidimensionali su basi di dati relazionali Lo schema relazionale comunemente usato per rappresentare un “cubo” è detto “a stella”. Lo schema
deriva immediatamente dal diagramma ER (Enti-relazioni) rappresentativo del modello concettuale dei
dati.
Figura 11 - Modello ER
Al centro della stella viene posta una tabella, detta del “fatto”, contenente gli attributi caratteristici del
fatto da analizzare, che sono i campi delle misure (un campo per ogni misura) e le chiavi delle dimensioni
(una chiave esterna per ogni dimensione); sulle punte della stella vengono poste le tabelle delle
dimensioni: una per ogni dimensione di analisi, contenente un campo per ogni attributo dimensionale
della gerarchia che ha radice nella dimensione rappresentata (denormalizzazione completa). Il vantaggio
dello schema è la massima velocità nel reperimento delle informazioni; gli svantaggi sono la ridondanza
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 16/25 autore: ing. R. Perrotta
delle tabelle delle dimensioni, lo spazio occupato, le anomalie e l’elevata complessità di aggiornamento in
caso di cambiamento delle gerarchie (che sono i difetti tipici delle tabelle denormalizzate).
Figura 12 - Schema a stella per un Data Mart delle Vendite
Nel caso in cui le tabelle delle dimensioni siano normalizzate, lo schema assume la forma del “fiocco di
neve”, in quanto la tabella delle dimensioni viene decomposta in tante tabelle normali (in genere in terza
forma normale) quanti sono i livelli della gerarchia, e la stella perde la sua forma.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 17/25 autore: ing. R. Perrotta
Figura 13 - Schema a fiocco di neve per un Data Mart delle Vendite
Nel caso estremo della massima denormalizzazione dello schema, il cubo sarà rappresentato da una sola
tabella (detta in gergo “flat file” (v. Tabella 3 - Flat File per un Data Mart delle Vendite)), in cui le misure e
le dimensioni sono attributi della stessa unica tabella. Le istanze delle dimensioni vengono registrate in
modo esplicito su ogni record (tupla) contenente le misure dei fatti, amplificando al massimo la ridondanza
e le anomalie di aggiornamento. Questa struttura, d’altra parte, rende immediato l’accesso alle decodifiche
dimensionali per ogni misura. Tuttavia, nel caso specifico della BI, in cui i dati da analizzare sono, in genere,
statici e non soggetti ad aggiornamenti, questi difetti non sono molto gravi e giustificano anche l’uso di
questa soluzione. Vedremo, anzi, che questa è la soluzione di base per le analisi di BI fatta tramite Excel
con tecnologia push.
Nel caso in cui alcune dimensioni siano comuni a più tabelle dei fatti, lo schema complessivo assume la
forma della “costellazione” di stelle.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 18/25 autore: ing. R. Perrotta
Giorno Mese Trimestre
Anno Filiale Comune
Provincia
Regione Stato CodiceAg
Agente Area CodiceCli Cliente TipoCliente CodiceArt
Articolo TipoArticolo Materiale
Quantità
13 1 1 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100023 Viti 4 mm
Fer01 Acciaio 2.000
13 1 1 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100023 Viti 4 mm
Fer01 Acciaio 5.000
13 1 1 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100023 Viti 4 mm
Fer01 Acciaio 1.500
14 1 1 2012 Napoli Napoli NA Campania
Italia 467 Cacace Sud 254912 D coop Aziendale 100023 Viti 4 mm
Fer01 Acciaio 10.000
15 4 2 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100234 Viti 2 mm
Fer01 Acciaio 2.000
23 5 2 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100724 Viti 9 mm
Fer01 Acciaio 5.000
31 7 3 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100127 Viti 6 mm
Fer03 Ottone 1.500
25 10 4 2012 Napoli Napoli NA Campania
Italia 467 Cacace Sud 254912 AZ srl Aziendale 200425 Viti 8 mm
Fer03 Ottone 10.000
Tabella 3 - Flat File per un Data Mart delle Vendite
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 19/25 autore: ing. R. Perrotta
Strumenti di presentazione dei dati di BI16 Esistono vari strumenti di presentazione dei dati di BI residenti nei DW e nei Data Mart, che ne rendono
fruibile il contenuto ad analisti e decisori. Questi, in genere, sono inesperti delle tecnologie informatiche e
hanno bisogno di strumenti intuitivi, semplici e flessibili per eseguire i loro controlli, studi e indagini. L’uso
di strumenti appropriati può garantire che le informazioni giuste arrivino alle persone giuste al tempo
giusto attraverso i canali giusti e per questo motivo sono stati messi a punto diversi strumenti che
rispondono alle varie esigenze degli utenti.
Allarmi automatici
Gli allarmi automatici sono messaggi di attenzione che vengono generati automaticamente da programmi
di monitoraggio studiati per controllare che alcuni parametri critici presenti nel DW non superino una
soglia prefissata oppure che non vengano raggiunti secondo le attese. Questi allarmi possono essere
comunicati al responsabile via e-mail, messaggi telefonici o altri tipi di notifiche elettroniche. In genere i
sistemi di monitoraggio sono progettati in modo che sia agevole modificare le regole di controllo,
adattandole alle mutevoli esigenze dell’organizzazione. Si facilita in questo modo l’attività di supervisione
dei responsabili, che possono intervenire tempestivamente per evitare problemi più gravi.
A volte è possibile associare alla rilevazione dei valori critici dei parametri di controllo anche delle azioni di
telecomando per l’esecuzione di procedure di sicurezza. Queste azioni di controllo e comando sono simili a
quelle offerte dai sistemi SCADA (dall'inglese "Supervisory Control And Data Acquisition", cioè "controllo di
supervisione e acquisizione dati" ) o nei sistemi di livello superiore DCS (Distributed Control System) per il
controllo e comando automatico di sistemi industriali di produzione.
Strumenti di Data Mining
Questi strumenti sono motori analitici che vengono usati per scoprire relazioni nascoste tra i dati del DW.
Gli analisti se ne avvalgono per acquisire nuove conoscenze attraverso l’identificazione e l’osservazione di
tendenze, problemi e anomalie.
Dal momento che l’ambiente gestionale è molto dinamico, risulta spesso difficoltoso riconoscere
velocemente nuovi modelli e tendenze di affari. Gli strumenti di Data Mining aiutano le aziende a
identificare prontamente problemi e opportunità e prendere tempestivamente le decisioni appropriate
sulla base delle nuove conoscenze acquisite.
Questi strumenti sono spesso utilizzati nel campo del marketing. Ad esempio, la rilevazione che l’acquisto
di un prodotto di marca risulta statisticamente associato ad una serie di altri prodotti meno conosciuti, può
indurre la direzione a lanciare una campagna di “sottocosto” sul prodotto di marca per attrarre compratori
che compenseranno la perdita di margine nella vendita di questo prodotto con i maggiori margini
conseguiti sui prodotti sconosciuti, ma di largo consumo.
16 http://data-warehouses.net/tools/index.html
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 20/25 autore: ing. R. Perrotta
OLAP
Della tecnologia OLAP abbiamo già parlato in precedenza. In questa sede ricordiamo che OLAP è l’acronimo
di On-Line Analytical Processing (Elaborazione analitica on-line). Questi strumenti offrono agli utenti mezzi
molto potenti per identificare e osservare tendenze e per scavare in profondità (drill-down) nella massa dei
dati per rivelare i dettagli che sottendono a tali tendenze, utilizzando gli operatori tipici dell’analisi
multidimensionale.
Come dice il nome stesso, sono strumenti orientati all’”analisi” dei dati e non alla gestione di “transazioni”
operative mediante elaborazioni on-line. Molte organizzazioni stanno abbandonando la reportistica
cartacea, statica sui dati aziendali a favore di questi strumenti di accesso on-line.
Cruscotti aziendali (Performance Dashboards)
I cruscotti aziendali sono strumenti di presentazione dei dati del DW che consuntivano in forma grafica le
prestazioni gestionali e le confrontano con gli obiettivi misurabili.
Sono rivolti ai decisori di alto livello che hanno bisogno di vedere a colpo d’occhio come stanno andando gli
affari. Tipicamente vengono mostrati gli obiettivi strategici dell’organizzazione, i loro andamenti storici e le
tendenze. Questi indicatori vengono spesso detti “key performance indicators (KPI)” (indicatori chiave di
prestazione) e si riferiscono agli aspetti finanziari, marketing, produttivi, commerciali, di crescita e ad altre
metriche importanti.
Fogli di calcolo Excel
I fogli di calcolo di Excel sono spesso usati nelle applicazioni di BI per accedere ai dati e presentarli
all’utente. Questi fogli sono strumenti potenti, flessibili, relativamente economici e comodi da usare per
molti analisti e responsabili. Essi possono sfruttare due diverse tecnologie, che potremmo definire
rispettivamente “pull” e “push”17
Tecnologia pull
Prima che si diffondessero i DW, I vari responsabili avevano difficoltà ad accedere ai dati aziendali. Era
necessario riempire tabelle da molteplici fonti informative e integrare manualmente i dati raccolti. Questo
processo era molto lento e soggetto ad errori. Inoltre, nel momento in cui gli utenti iniziarono a registrare
copie personali dei dati sensibili aziendali nei propri PC nacquero anche problemi di privacy, ridondanza e
aggiornamento dei dati.
In ambiente DW, un sottoinsieme di dati aziendali puliti e integrati viene copiato nei Data Mart. Se il
motore OLAP utilizzato lo consente, il foglio di calcolo accede direttamente al Data Mart ed opera quindi
sempre su dati aggiornati. Solo se strettamente necessario, sarà consentito di registrare questi dati sul
proprio PC. Il foglio di calcolo viene utilizzato sia per presentare che per inserire dati nei cubi, secondo le
politiche di riservatezza e integrità stabilite.
17 http://www.olap.com/w/index.php/Category:OLAP_and_Excel
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 21/25 autore: ing. R. Perrotta
Tecnologia push
Nel caso in cui il motore OLAP non sia integrato con Excel, gli utenti devono utilizzare l’interfaccia utente
del data base, da cui estrarre i dati, per sceglierli e scriverli in blocco su Excel. In questo caso, come già
detto nel paragrafo “Schemi multidimensionali su basi di dati relazionali”, si adotta lo schema relazionale
del “flat file”, costituito da una tabella unica denormalizzata, in cui le righe (tuple, record) sono costituite
da attributi contenenti sia i fatti da analizzare che la decodifica delle dimensioni di analisi. Tale “flat file”
può essere costruito anche direttamente, senza necessariamente prelevare dati da altre fonti digitali: ad
es. quando si parte da una raccolta di questionari strutturati per la rilevazione e la misurazione di fatti
specifici, quali, ad esempio, questionari sulla Customer Satisfaction, sul gradimento di Corsi di Formazione,
sugli Exit Poll ed altri analoghi.
Excel offre le funzioni di Tabella Pivot che consentono agli utenti di separare i “fatti” dalle “dimensioni” ed,
inoltre, di filtrare, riordinare e aggregare i fatti misurati. È possibile in questo modo eseguire le operazioni
tipiche dell’analisi multidimensionale dei cubi (SLICE, DICE, DRILL DOWN, ROLL UP), oltre al “pivoting”
propriamente detto.
Excel fornisce anche rappresentazioni grafiche che permettono all’utente finale di presentare le
informazioni in svariate forme. Queste possono essere facilmente inserite in documenti MS Word,
PowerPoint, presentazioni, pagine web, ecc.
La BI all’Ordine degli Ingegneri
Sistema informatico dell’Ordine
Il sistema informatico dell’Ordine degli Ingegneri della Provincia di Udine è composto dai seguenti
sottosistemi:
Gestionale, che supporta i processi di:
o Manutenzione dell’Albo professionale
o Contabilità economica e finanziaria
Office:
o Posta elettronica
o Elaborazione dei documenti di testo
o Valutazione di Gradimento dei Corsi di formazione
Sito Web istituzionale:
o Area Pubblica:
Pubblicazione Albo
News
Portale della Formazione
o Aree Riservate:
Agli Iscritti per la manutenzione delle Competenze professionali
Alle PA locali per la interrogazione degli Elenchi PEC degli Iscritti (Posta Elettronica
certificata)
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 22/25 autore: ing. R. Perrotta
Il Data base dell’Albo per il Sito istituzionale è aggiornato periodicamente mediante un processo “batch”
asincrono a partire dal Data Base gestionale, a cui è attribuita la responsabilità della manutenzione
corrente dell’Albo.
Applicazioni BI
Le applicazioni di BI dell’Ordine sono state progettate per supportare:
La Funzione designativa mediante il Data Mart dell’Albo, e
La Formazione, mediante il Data Mart della Valutazione di Gradimento dei Corsi.
I due Data Mart non sono integrati in un vero e proprio DW, né sono integrati tra loro, sebbene sia
possibile, in via teorica, integrarli in una costellazione, che condivida la dimensione degli Iscritti.
Il Data Mart dell’Albo per la Funzione designativa
“In forza di alcune norme di legge o regolamentari, ovvero per prassi invalsa presso diverse
Amministrazioni, oppure per iniziativa di privati, il Consiglio dell’Ordine è spesso investito del compito di
designare terne o singoli iscritti all’Albo per lo svolgimento di funzioni da assolvere per diretto mandato del
soggetto richiedente.”18 Per svolgere questa funzione il Consiglio dell’Ordine deve effettuare una
valutazione dei titoli, della formazione e dell’esperienza in capo ai designandi. Le risorse informative a
disposizione dei Consigli sono, in genere, scarse, essendo limitate ai titoli di studio, dichiarati all’atto
dell’iscrizione, alle informazioni che il Consiglio raccoglie attraverso i propri membri per i contatti di lavoro
che intervengono con gli iscritti o per la notorietà pubblica delle opere di questi. Allo scopo di estendere la
conoscenza delle competenze a tutti i propri iscritti, l’Ordine di Udine ha messo a loro disposizione, in
un’apposita area riservata del sito istituzionale, la possibilità di dichiarare le proprie competenze, acquisite
tramite i corsi di formazione e l’esperienza professionale, ed inserire il proprio curriculum professionale. Al
momento attuale, le competenze che è possibile dichiarare si riferiscono ad un insieme strutturato e finito
di conoscenze e capacità tecniche. Non vengono trattate le competenze trasversali, relazionali e gestionali,
che sono parte essenziale del profilo professionale dell’ingegnere, ma, in genere, non sono specificate nelle
richieste di designazione.
A partire dal Data Base del sito, tramite un processo ETL di estrazione dei dati, viene generato un Data
Mart, riferibile allo schema relazionale di Figura 14, ma in realtà costituito da un “flat file” completamente
denormalizzato, analizzabile tramite Tabelle Pivot di Excel.
18 Giancarlo Modonesi, La professione di ingegnere, Editrice Clueb Bologna, 1992, pag. 46
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 23/25 autore: ing. R. Perrotta
Figura 14 - Il Data Mart dell'Albo dell'Ordine degli Ingegneri di Udine
La funzione principale del Data Mart è quella di misurare il numero di iscritti in possesso di una o più
competenze, mediante operazioni di “Slice and Dice” sull’ipercubo delle Competenze degli Iscritti, e
produrre l’elenco di quelli che rispondono ai requisiti mediante un’operazione di “Drill down”. L’elenco può
essere ordinato per Sezione, Settore, Posizione e Luogo di lavoro in modo da rilevare sia l’anzianità di
iscrizione che la vicinanza alla sede del richiedente.
Il Data Mart della Valutazione di Gradimento dei Corsi
A partire dal 2010 l’Ordine degli Ingegneri ha iniziato a rilevare in modo sistematico le valutazioni di
gradimento dei Corsi di formazione da parte degli iscritti partecipanti. La rilevazione viene effettuata a fine
corso mediante la somministrazione di un modulo che richiede i seguenti dati:
Nome e Cognome dell’iscritto partecipante
Titolo del Corso (Evento)
Data dell’edizione del Corso
Nome e Cognome del Docente
Rilevanza dell’evento per la propria professione;
Efficacia dell’azione formativa;
Capacità didattica del o dei docenti;
Durata dell’evento;
Calendario della programmazione;
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 24/25 autore: ing. R. Perrotta
Orario delle sessioni formative;
Organizzazione generale dell’evento;
Valutazione sintetica globale;
Domanda 9
Domanda 10
Commenti
I dati vengono registrati nel Data Base delle Valutazioni di Gradimento su cui è fondato un Data Mart,
riferibile allo schema relazionale di Figura 15, ma in realtà costituito da un “flat file” completamente
denormalizzato, analizzabile tramite Tabelle Pivot di Excel.
Figura 15 - Il Data Mart della Valutazione di Gradimento dei Corsi dell'Ordine degli Ingegneri di Udine
Le analisi principali a favore della Commissione Formazione, che presiede alla pianificazione e
programmazione della Formazione, sono le seguenti:
Valutazione media di gradimento della Formazione per tutti, parte o singoli Corsi, con “Drill down”
sulle valutazioni dei singoli partecipanti;
Valutazione media di gradimento dei Docenti per tutti, parte o singoli Corsi;
Trend di evoluzione del gradimento nel tempo;
Analisi dei Mezzi di Informazione per la promozione dei Corsi.
La costellazione dei Data Mart dell’Ordine
A titolo puramente esemplificativo la Figura 16 mostra lo schema relazionale della costellazione di Data
Mart che si potrebbe ottenere mediante la condivisione della tabella dimensionale degli Iscritti. In questo
caso sarebbe possibile estendere le funzioni del Data Mart della Formazione con la possibilità di analizzare
le pricipali misure anche per Sezione, Settore e Luogo di lavoro.
Raffaele Perrotta Ingegnere dell’informazione
P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]
bi ed analisi multidimensionale dei dati.docx 25/25 autore: ing. R. Perrotta
Figura 16 - La costellazione dei Data Mart dell’Ordine degli Ingegneri di Udine
Top Related