Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi...

26
1 Universita' degli Studi di Padova Facolta' di Medicina e Chirurgia Corso di Laurea in Tecniche della Prevenzione lez(03) Il foglio elettronico come strumento per l’elaborazione e l’analisi dei dati Un semplice grafico Il foglio elettronico, o foglio di calcolo, o spreadsheet è uno strumento dai molteplici usi, dalla redazione di complicate tabelle, alle elaborazioni di grandi quantità di dati, alla gestione di piccoli archivi di informazioni o di indirizzi.. Non abbiamo la possibilità di approfondire tutte le sue caratteristiche, possiamo però avvicinarci agli usi principali che gli sono specifici analizzando brevi elenchi di dati, realizzando vari tipi di grafici, ed infine utilizzandolo come flat-database, come indirizzario in un piccolo esempio di archivio elettronico. Il concetto base di un foglio elettronico è la possibilità di inserire i dati grezzi in una griglia di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle dinamiche, in cui compiere operazioni e istituire relazioni tra i dati. Vediamo nel dettaglio un semplice esempio di grafico realizzato con dati fittizi, organizzando prima i dati, e generando successivamente il grafico a partire dagli stessi. I titoli sono semplicemente delle scritte di testo inserite nelle caselle B2, B3, C2 e C3. La serie di numeri nella colonna B viene costruita in modo automatico. Dopo aver inserito i primi due

Transcript of Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi...

Page 1: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

1

Universita' degli Studi di Padova Facolta' di Medicina e Chirurgia Corso di Laurea in Tecniche della Prevenzione

lez(03) Il foglio elettronico come strumento per l’elaborazione e l’analisi dei dati Un semplice grafico Il foglio elettronico, o foglio di calcolo, o spreadsheet è uno strumento dai molteplici usi, dalla redazione di complicate tabelle, alle elaborazioni di grandi quantità di dati, alla gestione di piccoli archivi di informazioni o di indirizzi..

Non abbiamo la possibilità di approfondire tutte le sue caratteristiche, possiamo però avvicinarci agli usi principali che gli sono specifici analizzando brevi elenchi di dati, realizzando vari tipi di grafici, ed infine utilizzandolo come flat-database, come indirizzario in un piccolo esempio di archivio elettronico.

Il concetto base di un foglio elettronico è la possibilità di inserire i dati grezzi in una griglia di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle dinamiche, in cui compiere operazioni e istituire relazioni tra i dati.

Vediamo nel dettaglio un semplice esempio di grafico realizzato con dati fittizi, organizzando prima i dati, e generando successivamente il grafico a partire dagli stessi.

I titoli sono semplicemente delle scritte di testo inserite nelle caselle B2, B3, C2 e C3. La

serie di numeri nella colonna B viene costruita in modo automatico. Dopo aver inserito i primi due

Page 2: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

2

numeri della sequenza, in modo da definire il passo, si trascina con il puntatore del mouse il piccolo riquadro in basso a destra della cornice di selezione (quadratino di riempimento) sino a raggiungere la lunghezza desiderata, aiutati dalla indicazione del numero finale che compare in sovraimpressione.

In alternativa si seleziona l’area da riempire, e si inseriscono i dati utilizzando la procedura

guidata che compare scegliendo da menu la voce Modifica – Riempimento – Serie... Da qui è possibile inserire vari tipi di serie, potendo indicare anche il valore con cui

completare la serie. Per realizzare il grafico affianchiamo ai valori della variabile indipendente X, una ulteriore

serie, che rappresenta gli stessi valori elevati al quadrato, preparando così i dati per la funzione esponenziale

2XY =

Per fare questo è sufficente inserire nella casella C5 la formula [=B5^2], come si nota nella riga di stato, in alto.

Page 3: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

3

La formula inserita va poi successivamente copiata nelle altre 19 caselle, da C6 a C24. Al

termine della copia, il software provvede automaticamente ad effettuare i calcoli necessari e ad inserirli nelle opportune caselle.

Ora possiamo iniziare a produrre il grafico, selezionando la colonna dei dati da visualizzare, da C5 a C24, ove appaiono i valori della variabile dipendente. Proseguiamo selezionando da menù la voce Inserisci – Grafico ..., oppure la apposita icona che rappresenta un piccolo grafico.

La finestra che appare propone una serie di grafici, tra cui scegliamo quello a linee, con i punti che rappresentano i valori dei dati di origine.

Page 4: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

4

Notiamo come per i ‘Valori’ vi siano le caselle delle ordinate Y e per le ‘Etichette asse categorie’ inseriamo i valori delle ascisse X.

Il risultato finale, con alcuni aggiustamenti per migliorare la leggibilità, come l’esclusione dei colori e la eliminazione del colore di sfondo.

Page 5: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

5

Se il grafico contiene molti dati è conveniente salvarlo in un foglio a parte, ottenendo una immagine che può essere meglio controllata, si può valutare il risultato finale con più accuratezza, ed intervenire ove si rende necessario, come le dimensioni dei numeri sugli assi, che sembrano eccessivi; con l’inserimento di eventuali caselle di testo, sempre utili a delineare ed approfondire il significato del grafico, segnalando anche particolarità della curva che possono essere di interesse.

La regressione lineare

Per delineare un modello altezza-peso utilizziamo i dati ipotetici di alcuni studenti universitari.

Genere Peso Altezza 1 M 74 180 2 M 62 175 3 M 95 195 4 F 50 170 5 F 42 151 6 F 58 167 7 F 65 175 8 F 65 172 9 M 85 183

10 F 48 160 11 F 66 172 12 F 58 168 13 F 60 165 14 M 90 180 15 M 103 185 16 F 52 165 17

Inseriamo i dati nel tabellone del foglio elettronico

Page 6: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

6

Per calcolare il modello di regressione lineare inseriamo nelle caselle E21-F21 la formula riportata sulla barra formula, scegliendo dall’elenco delle funzioni del foglio di calcolo la voce REGR.LIN. Appare la finestra indicata di seguito, ove vanno inseriti gli intervalli dati per la variabile dipendente (peso) in Y_nota e indipendente (altezza) X_nota.

La regressione lineare è una funzione interpolante che ha la proprietà di rendere minima la somma delle distanze al quadrato intese come scarto tra i valori del campione ed i corrispondenti valori stimati misurati sull’asse della variabile dipendente (Y). E’ una funzione del primo ordine, rappresenta una retta, e per questo è denominata ‘lineare’.

La casella costante va posta a 0 per imporre un modello che passa per lo 0 e Stat dà la possibilita di determinare alcune statistiche accessorie.

Page 7: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

7

La funzione REGR.LIN fornisce come risultato non un solo valore, ma un insieme di valori, pendenza ed intercetta nel caso in esame.

In Excel questi casi vengono risolti fornendo i risutati sotto forma di matrice, e questo si

ottiene selezionando l’area di destinazione e premendo contemporaneamente i tasti [Ctrl + Shift + Invio], al posto del semplice invio.

Calcolato il modello, ovvero le variabili m e q della funzione y=mx+q, possiamo calcolare i

punti associati alle altezze note, che giacciono sulla retta, ovvero i valori teorici stimati o attesi, del peso per ogni singola altezza misurata.

Per poter agevolmente disegnare il grafico del modello ricopiamo la serie delle altezze in F2

– F17 e la poniamo in ordine crescente selezionando l’intervallo e richiamando il menù Dati – Ordina, oppure selezionando l’icona apposita sulla barra strumenti.

Nella casella G2 inseriamo la formula y=mx+q = $E$21*F2+$F$21, ove il segno di dollaro è utile per bloccare le caselle E21 (m) ed F21 (q), permettendoci di copiare la formula ed inserirla velocemente nell’intervallo G3 – G17.

Page 8: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

8

Selezioniamo l’intervallo F2 – G17 ed attiviamo la procedura per realizzare il grafico come visto precedentemente.

Scegliamo il grafico a dispersione, con i punti uniti da una linea, e proseguiamo nella Creazione Guidata Grafico sino a completare lo stesso.

Ci sono diversi interventi da fare per ottenere la rappresentazione desiderata, come la

variazione della scala per gli assi, come indicato di seguito, ma questi sono interventi che sempre si devono effettuare per ottenere il risultato richiesto.

Page 9: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

9

Di seguito si aggiunge una seconda serie, posizionando sul grafico dei punti, dei simboli che riportano la posizione dei dati originali, ponendo per X l’intervallo D2 – D17, e per Y l’intervallo C2 – C17. I dati non sono ordinati, e questo porta ad una rappresentazione confusa sul grafico.

Page 10: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

10

Per questo motivo modifichiamo successivamente il ‘Formato serie dati’ togliendo la linea che unisce i punti, e modificando colore e forma dei punti stessi.

Vanno inserite le usuali diciture come Titolo del grafico ed Asse dei valori X e Y, dando comprensibilità ad una figura che altrimenti diviene difficile da interpretare.

Page 11: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

11

Modello per il rapporto altezza - peso

0

20

40

60

80

100

120

150 160 170 180 190 200

altezza in cm

Peso

in k

g

I parametri della regressione vengono stimati direttamente da Excel attraverso la funzione REGR.LIN, utilizzando il metodo dei minimi quadrati, ovvero cercando di identificare la retta che rende minime le distanze al quadrato tra i valori del peso misurati, rilevati sul campione di persone, ed i valori teorici ottenuti a partire dal modello.

( ) ( )[ ]

PendenzaIntercetta

cm.in AltezzaKg.in Peso

minˆmin1

2,1

2,

====

⋅+−=− ∑∑ ==

ba

XY

xbayyy n

i iiban

i iba

( ) ( )( ) ( )

xbya

xVaryxCov

xxn

yyxxnb

x

yx

n

i i

n

i ii

⋅−=

⋅==

−⋅−=

=

=

ˆˆ

)(1

2

1

2

1

σσ

Page 12: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

12

Verifichiamo il risultato ottenuto attraverso alcuni semplici calcoli

Regressione Lineare

Num X X-M(X) (X-M(X))^2 Y Y-M(Y) (X-M(X))(Y-M(Y))

1 180 7,31 53,47 74 6,94 50,73

2 175 2,31 5,35 62 -5,06 -11,71

3 195 22,31 497,85 95 27,94 623,36

4 170 -2,69 7,22 50 -17,06 45,86

5 151 -21,69 470,35 42 -25,06 543,54

6 167 -5,69 32,35 58 -9,06 51,54

7 175 2,31 5,35 65 -2,06 -4,77

8 172 -0,69 0,47 65 -2,06 1,42

9 183 10,31 106,35 85 17,94 184,98

10 160 -12,69 160,97 48 -19,06 241,86

11 172 -0,69 0,47 66 -1,06 0,73

12 168 -4,69 21,97 58 -9,06 42,48

13 165 -7,69 59,10 60 -7,06 54,29

14 180 7,31 53,47 90 22,94 167,73

15 185 12,31 151,60 103 35,94 442,48

16 165 -7,69 59,10 52 -15,06 115,79

Somma 2763,00 1685,44 1073,00 2550,31

Media 172,69 105,34 67,06 159,39

M(X) Var(X) M(Y) Cov(XY)

24,19469,17251,106,67)(ˆ)(ˆ

51,134,10539,159

)()(ˆ

−=⋅−=⋅−=

===

XMbYMa

XVARXYCovb

Page 13: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

13

Foglio elettronico – parte 2 Tabella a doppia entrata

Il foglio elettronico può essere uno strumento molto valido nella analisi esplorativa dei dati, come vedremo suddividendo le due variabili, peso ed altezza degli studenti in classi, e costruendo una distribuzione di frequenze in una tabella di contingenza, o tabella a doppia entrata.

I dati di origine vengono raggruppati, o suddivisi in opportune classi, creando una classificazione che ci permette di meglio approfondire il fenomeno sottostante la realtà che stiamo indagando.

Anche in presenza di strumenti di analisi dei dati più sofisticati, come può essere la regressione lineare vista a suo tempo, osservare i dati raggruppati in classi, e confrontate tra di loro a due a due, o confrontate in subordine, ovvero “condizionate” ad una terza, ad una quarta variabile, diventa una procedura preliminare che dobbiamo sembre tenere presente.

Il caso che noi affrontiamo è semplice, e sappiamo già che esiste una relazione di un qualche tipo tra altezza e peso, o che condizionando l’analisi al genere degli individui sicuramente avremo una qualche forma di dipendenza, ovvero sappiamo gia che vi è dipendenza tra genere e distribuzione altezza – peso.

Ma in generale, quando si fanno delle indagini, siano queste ambientali, o sociali, o altro, solitamente si hanno a disposizione un elevato numero di variabili, e sicuramente tra tutte queste vi sono una quantità di collegamenti, di dipendenze, quasi mai semplici.

Il più delle volte ci troviamo di fronte a interconnessioni complesse, in quanto complessa è la realtà in cui operiamo.

Page 14: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

14

Figura 1. Inserimento dei dati nel foglio elettronico

Nel momento in cui ci avviciniamo ai dati, sicuramente la prima cosa da fare è una analisi

esplorativa, e la bravura del ricercatore stà proprio nel saper estrarre dai dati le dipendenze, le relazioni che meglio spiegano il o i fenomeni indagati.

Sono queste ricerche iniziali che danno nel seguito la possibilità di formulare delle ipotesi e suggeriscono gli strumenti e i mezzi più idonei da utilizzare per una analisi confermativa piu’ approfondita.

In figura 1 vediamo l’inserimento dei dati nel foglio elettronico, con la usuale disposizione in cui la prima riga rappresenta i metadati, le descrizioni dei vari campi che compongono l’archivio, mentre dalla seconda in poi, si inseriscono i dati, mantenendo l’ordine per cui alla colonna ‘Cognome’ compaiono solo i cognomi degli studenti, e nella riga 2 compare il primo record di dati, ossia tutte le variabili associate, ordinatamente, al primo studente della lista.

Il passo successivo è quello di suddividere in classi le due variabili Peso e Altezza. La suddivisione in intervalli discreti di una variabile continua, o meglio continua ad intervalli è un procedimento indispensabile per poter ottenere delle frequenze, per contare quante persone appartengono ad un intervallo fissato per il peso o per l’altezza.

Figura 2. Suddivisione in classi.

Page 15: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

15

Trasformare una variabile continua in una discreta implica sempre perdita di informazione, per questo il procedimento si applica se effettivamente ne vale la pena.

Le variabili peso e altezza sono del tipo continuo in un intervallo, in quanto possono apparire solo all’interno di un determinato intervallo dell’asse dei numeri reali. Non vi sono ad esempio, valori negativi, o valori molto elevati.

Il confronto in una tabella a due entrate non implica un rapporto di dipendenza diretta, non appare una variabile esplicativa o indipendente ed una variabile obiettivo o dipendente.

Si ha invece, un rapporto di associazione, di mutua dipendenza simmetrica, una correlazione

con una intensità che và dal valore 0, quando le due variabili sono tra loro completamente ortogonali, indipendenti, al valore 1 se vi è proporzionalità totale, o –1 se vi è proporzionalità inversa totale.

Il primo caso, lo vedremo, si ha per dati sparsi omogeneamente sulla tabella di frequenze, mentre il secondo si ha per frequenze nulle fuori dalla diagonale principale, o secondaria nel caso di proporzionalità inversa.

La scelta delle classi in cui suddividere i dati appartiene alla sensibilità e alle conoscenze note a priori sul fenomeno.

Peso in classi Altezza in classi

<= 58 >58, <=66 >66 Totale

<= 167

>167, <=175

>175

Totale 100 %

Tabella 1. Suddivisione delle variabili in classi.

Nello scegliere gli intervalli si deve tener presente che la prima classe è aperta verso il

basso, ovvero contiamo tutti quelli con altezza minore o uguale a 167 cm. mentre l’ultima è aperta verso l’alto. Le classi intermedie sono invece realizzate senza lasciare spazi vuoti tra un intervallo e l’altro. Si utilizza convenzionalmente questa metodologia, in modo da avere una classificazione robusta, la quale può continuare ad operare anche se cambiano i dati, o se ne aggiungono di nuovi.

La formula inserita nella casella F2 della figura 2 è quella che determina questa suddivisione, e la vediamo nel dettaglio.

La funzione utilizzata è del tipo = SE (test; se_vero; se_falso)

Con questa funzione effettuiamo un test sul valore inserito nella casella C2, indicando come condizione del test ‘C2<=58’, se la condizione è vera la funzione dà come risultato quanto indicato al posto di ‘se_vero’, altrimenti dà quanto indicato in ‘se_falso’.

Per la condizione vera poniamo il valore 1, per indicare che il peso appartiene al primo intervallo, altrimenti inseriamo una nuova condizione per testare la classe successiva. Questo modo di procedere, di per sè assai macchinoso, si indica con il termine di selezione nidificata, e può proseguire, in Excel, sino a 7 livelli successivi.

Page 16: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

16

Per i livelli successivi al primo si deve effettuare il confronto su un intervallo chiuso, ovvero limitato sia verso il basso che verso l’alto, e per ottenere questo risultato si utilizza la funzione logica AND, l’operatore di intersezione logica, che in Excel si definisce con

= E ( logico1 ; logico2 ; . . .) Il test viene effettuato sual valore inferiore con la condizione logico1, e con il valore

superiore con logico2. Se entrambi sono veri, ovvero se il peso ricade internamente all’intervallo, allora il risultato è un valore logico vero.

Le due formule finali divengono pertanto

=SE(C2<=58 ; 1 ; SE( E(58<C2; C2<=66); 2 ; SE(C2>66;3)))

=SE(D2<=167; 1; SE( E(167<D2; D2<=175); 2; SE(D2>175;3)))

Sarà sufficente ricopiare la formula nelle caselle corrispondenti per il peso in classi e per l’altezza in classi, per ottenere le due serie cercate.

Figura 3. Creazione guidata tabella Pivot.

Per realizzare la tabella a campi incrociati selzioniamo i dati da rappresentare, e da Menu – Dati selezioniamo ‘Rapporto tabella Pivot e Grafico Pivot”. Appare la procedura guidata della figura 3

Page 17: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

17

Figura 4. Creazione guidata tabella Pivot, passo2. In Excel si intende per tabella Pivot (= perno) un report che consente di elaborare e

riassumere una grande quantità di dati, secondo diversi criteri, tra cui anche il conteggio di frequenze, sia come valore assoluto, sia in percentuale per riga, per colonna o per totale.

Figura 5. Creazione guidata tabella Pivot, passo3.

Figura 6. Creazione guidata tabella Pivot, inserimento della tabella

Page 18: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

18

. Figura 7. Creazione guidata tabella Pivot, definizione di righe e colonne

In figura 7 si vede la finestra che compare al termine della procedura guidata. Nella

intestazione delle righe trasciniamo con il mouse la voce AltCl e nelle colonne la voce PesoCl. I dati internamente alla tabella sono valutati sulla variabile peso, quindi trasciniamo

l’etichetta PesoCl anche nella casella in alto a sinistra. Appaiono subito dei valori a riempire la tabella, ma questi non sono frequenze, bensì somme

dei ranghi. Dalla finestra ‘Tabella pivot’ selezioniamo il menù Tabella pivot – Impostazioni campo, ed

appare la finestra di figura 8, dove selezioniamo ‘Riepiloga per – Conta (Conteggio)’. La stessa finestra può essere raggiunta premendo il tasto destro del mouse sulla prima

casella in alto della tabella Pivot.

Figura 8 . Creazione guidata tabella Pivot, impostazioni campo.

La terminologia usata vuole indicare il conteggio dei valori uguali dei dati inseriti, ed il risultato lo vediamo in figura 7.

Page 19: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

19

Figura 9 . Creazione guidata tabella Pivot, valori percentuali. In figura 9 vediamo i valori da selezionare per ottenere una rappresentazione per valori

percentuali, ovvero nella finestra Campo PivotTable selezioniamo Conta e dalla casella Mostra dati - % del totale (dopo aver selezionato Opzioni >>).

La tabella risultante mostra una forte associazione tra le variabili peso ed altezza, essendo la maggior parte dei casi, 81,25% disposti sulla diagonale principale, ovvero una correlazione diretta molto elevata. Solo pochi casi si discostano, ovvero solo il 18,75%.

La riduzione così drastica in sole 3 classi ha però tolto molte informazioni, ed evidentemente, aumentando il numero dei gruppi, si otterrebbero ulteriori informazioni. Inoltre le classi marginali coprono, per costruzione, i casi che cadono agli estremi.

Esercizio 1.

Determinare una tabella a campi incrociati suddividendo le informazioni in quattro gruppi

approssimativamente equidistanziati e confrontare i risultati con la analisi di regressione lineare, in particolar modo per i casi lontani dai valori medi, gli outlier.

Esercizio 2.

Determinare la tabella a doppia entrata che confronta il genere con il peso o l’altezza, a

scelta, suddivise in 3 o 4 classi. Indicare le caratteristiche della associazione ottenuta.

Page 20: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

20

Indipendenza in una tabella di contingenza

Attraverso una tabella di contingenza è anche possibile definire, a mezzo di opportuni indici, quanto forte sia il vincolo che lega tra di loro due variabili.

Tabella di Contingenza

Y X 1 2 3 Totale

1 N11 N12 N13 N1•

2 N21 N22 N23 N2•

3 N31 N32 N33 N3•

Totale N•1 N•2 N•3 N••=N

Affermiamo che il peso non dipende dall’altezza quando le tre classi di peso hanno uguale

distribuzione percentuale al variare dell’altezza, e questa equivale alla distribuzione percentuale di tutte le persone osservate.

Nel nostro caso l’intero campione si distribuisce con il 31,25% di persone nella classe di altezza inferiore, 37,50% nella classe intermedia e 31,25% nella classe più elevata, per un totale di 100%.

Tabella di Contingenza

Y X 1 2 3 Totale

1 %25,31100165

=⋅

2 %50,37100166

=⋅

3 %25,31100165

=⋅

Totale 6 5 5 %1001001616

=⋅

Le frequenze che dobbiamo inserire in ogni singola casella devono quindi suddividere i

totali di ogni singola colonna secondo la proporzione indicata nella colonna dei totali. In questo modo avremo N11 = 31,25% di 6 = (5/16)•6=1,875; N21 =37,50% di 6 6 =

(6/16)•6=2,25; N31 =31,25% di 66 = (5/16)•6=1,875. Definiti i termini da inserire nelle varie caselle come indicato nella tabella precedente, la

formula per trovare le frequenze dei singoli casi quando siamo in presenza di perfetta indipendenza sono pertanto:

NNNN

NNAN 11

11

11)( •••

• ⋅=⋅=

Page 21: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

21

I valori trovati prendono il nome di Frequenze Attese, mentre i valori originali prendono il nome di Frequenze Osservate.

Frequenze osservate e frequenze attese

Y X 1 2 3 Totale

1 4 1,875

1 1,5625

0 1,5625 5

2 2 2,25

4 1,875

0 1,875 6

3 0 1,875

0 1,5625

5 1,5625 5

Totale 6 5 5 16

I valori delle frequenze attese sono i medesimi, sia che si valuti l’indipendenza per righe,

che quella per colonne. Quanto più i valori rilevati sono vicini ai valori attesi, tanto più il peso è indipendente dalla

altezza delle persone osservate. Un indice molto noto che riassume l’intensità di questa connessione è il seguente

( ) ( )[ ]( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

49,1956,788,156,156,141,220,088,103,041,25625,1

82,11875,152,3

5625,144,2

5625,144,2

875,152,4

5625,132,0

875,152,3

25,206,0

875,152,4

5625,14375,3

875,1875,1

5625,15625,1

5625,15625,1

875,1125,2

5625,15625,0

875,1875,1

25,225,0

875,1125,2

5625,15625,15

875,1875,10

5625,15625,10

5625,15625,10

875,1875,14

5625,15625,11

875,1875,10

25,225,22

875,1875,14

222

222

222

222

222

222

3

1

3

1

22

=++++++++=

=++++++++=

+−

+−

+

+−

+−

+−

+

+−

+−

+=

−+

−+

−+

+−

+−

+−

+

+−

+−

+−

=

=−

=∑ ∑= =i j ANANONX

Le singole differenze vengono prese al quadrato, per evitare che scostamenti positivi

vengano annullati da scostamenti negativi, mentre ogni singolo scostamento viene standardizzato dividendolo per il valore assunto dalla frequenza attesa.

Questo indice assume valori da 0 (perfetta indipendenza) a valori via via crescenti al crescere della dipendenza tra X e Y.

Page 22: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

22

Cramer ha dimostrato che il limite massimo ottenibile dall’indice è eguale al valore di N (16 nel nostro caso) moltiplicato il valore più piccolo tra il numero di righe -1 ed il numero di colonne -1, ovvero 2 nel nostro caso.

L’indice che ha così ottenuto viene correntemente indicato come V di Cramer:

( ) ( ){ }

( ) ( )[ ]( )

( ) ( ){ }

78,0609,032

49,19216

49,19

1;1min1;1min

1 1

2

2

===⋅

=

−−⋅

=−−⋅

=∑ ∑= =

V

colonnerigheNAN

ANON

colonnerigheNXV

r

i

s

j

L’indice varia tra 0 ed 1, e si assume correntemente una elevata associazione quando supera

0,6 – 0,7 da un lato, ed una scarsa o blanda connessione per valori inferiori a 0,3.

Il foglio elettronico come database

Il foglio elettronico in generale, ed Excel in particolare, può essere utilizzato per gestire in modo semplice piccoli archivi di dati. L’uso non è del tutto proprio, ma la consuetudine di raccogliere e condividere elenchi di dati è oramai talmente diffusa, che non possiamo esimerci dall’affrontare, velocemente, l’argomento.

Strutturando un foglio coma un database (in italiano “base di dati”) , è possibile mettere in relazione i dati utilizzando determinati criteri, cercare informazioni e riorganizzarle secondo nuovi criteri di ordinamento.

Per organizzare un foglio elettronico come un database, è necessario creare delle categorie di ordinamento in base alla quale raccogliere i dati. Nel nostro esempio poniamo le stringhe ‘Numero’,‘Cognome’,’Nome’,’Peso’ e ‘Altezza’ in modo che ogni categoria costituisca l’etichetta di una colonna.

In questo modo costruiamo i metadati della base di dati, con ogni singola colonna che raccoglie dati omogenei tra di loro, definiti nel senso che corrispondono ad una tipologia di valori che implicitamente definiamo assegnando una etichetta. Un esempio è la colonna ‘Cognome’, che viene utilizzata par raccogliere un valore appartenente alla categoria o classe comprendente tutti i valori che esistono in quanto Cognome di una qualche persona. Se il dato inserito è un numero, o una stringa (insieme di vocali e consonanti) che non corrisponde ad alcun cognome, siamo in presenza di un errore.

I metadati definiscono implicitamente anche le righe che, per il semplice fatto di porre un ordinamento ed una relazione tra i dati inseriti, costituiscono le cosidette tuple, o record della base di dati. La relazione che si instaura tra i dati di una riga è che questi condividono la condizione di essere associati ad uno stesso individuo, e ne definiscono l’esistenza ( e talvolta l’unicità) attraverso un insieme di proprietà che compaiono in ognuno dei campi (o attributi).

Nell’inserire i dati è importante non lasciare alcuna riga vuota, e dare alle informazioni una impostazione omogenea, per esempio scrivendo date ed indirizzi sempre allo stesso modo. Il foglio elettronico non attua alcun controllo su quanto viene inserito, lasciando all’utente tutte le responsabilità sulla correttezza dei dati, sia sostanziale che formale.

Vediamo nel seguito due operazioni tipiche delle basi di dati, l’ordinamento e la selezione.

Page 23: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

23

Figura 10 . Foglio elettronico come base di dati.

Figura 10 . Foglio elettronico come base di dati.Ordinamento per nome.

L’ordinamento si ottiene selezionando dal menù le voci Dati – Ordina. Dalla finestra che appare possiamo scegliere vari tipi di ordinamento, anche su più colonne. Ad esempio per lunghi

Page 24: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

24

elenchi si è soliti ordinare per cognome prima, e per nome poi, ordinando anche persone che hanno lo stesso cognome.

E’ importante selezionare l’intera lista, in tutti i suoi attributi (colonne), per evitare la spiacevole, e frequente, occasione di ordinare la singola colonna, provocando un completo rimescolamento dei dati e rendendo inutilizzabile l’archivio.

Nella finestra di ordinamento compare la voce con o senza intestazione, evitando così di comprendere anche la prima riga delle etichette dei dati nella elaborazione.

Vediamo ora una semplice operazione di selezione.

Figura 10 . Foglio elettronico come base di dati. Selezione per intervallo di altezza.

Selezioniamo l’area che comprende l’intera lista, includendo anche le etichette, e dal menu

Dati – Filtro – Filtro automatico. Con questa operazione si inseriscono a fianco di ogni nome di campo delle piccole caselle con una freccia verso il basso, ovvero dei pulsanti di selezione per il filtro. Premendo il pulsante nella colonna altezza, compare un elenco da cui scegliamo (Personalizza . . .).

La finestra che appare (‘Personalizza filtro automatico’) mostra delle caselle in cui inseriamo sino a due criteri di selezione sulla sinistra ed i relativi valori sulla destra.

Per tornare a vedere l’intera lista selezioniamo (Tutto) dal pulsante di selezione.

Page 25: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

25

Figura 11 . Foglio elettronico come base di dati. Selezione avanzata.

Figura 12 . Foglio elettronico come base di dati. Selezione avanzata con caratteri jolly.

Page 26: Universita' degli Studi di Padova - Formazione e Sicurezza 04... · di caselle di grandi dimensioni, con 65.536 righe e 256 colonne, con la possibilità di creare tabelle ... serie

26

In figura 11 e 12 vediamo un esempio di selezione avanzata degli studenti con altezza superiore a 180 cm e di studenti con nome che inizia per D. Nella selezione avanzata il criterio di selezione deve essere costruito utilizzando un artificio, ovvero riportando i nomi dei campi, le etichette delle colonne in uno spazio che ha almeno tre righe vuote sopra di sè.

Al di sotto di questa intestazione si inseriscono le regole da rispettare per ottenere la selezione, con la attenzione ad alcuni aspetti:

- regole sulla stessa riga indicano un AND logico - regole su righe successive indicano OR logico - i casi AND e OR possono coesistere - non devono esserci righe vuote - le regole su valori numerici si inseriscono direttamente, es. >170 - le regole su stringhe vanno tra apici, es. =”=D*” - l’asterisco * indica uno o più caratteri alfanumerici qualsiasi - il punto di domanda ? indica un singolo carattere qualsiasi - l’intervallo criteri comprende le etichette di intestazione - le condizioni AND sulla stessa colonna richiedono un intervallo criteri con la colonna

ripetuta più volte. Esercizio 3.

Trovare il Codice degli studenti il cui nome inizia per S con altezza superiore a 170 cm.