Vqr maneggiare con cura
-
Upload
giuseppe-de-nicolao -
Category
Education
-
view
397 -
download
1
description
Transcript of Vqr maneggiare con cura
VQR: maneggiare con cura
Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione
Università di Pavia
Capitoli
1. La cerimonia del tè ... e della >sana 2. La parete nord della valutazione 3. Classifiche à la carte 4. Le verità nascoste 5. Che fare?
Capitolo 1 La cerimonia del tè ... e della <sana
L’infuso è ...
un prelibato tè inglese o ...
una <sana lassa<va?
Per rispondere andiamo alle fon<
“Research Excellence Framework”: è il nuovo nome del “Research Assessment Exercise, l’esercizio di valutazione inglese
NO RANKINGS PLEASE!WE’RE BRITISH!!
“RAE2008 results are in the form of a quality profile for each submission made by an HEI [Higher Education Institution]. We have not produced any ranked lists of single scores for institutions or Units of Assessment, and nor do we intend to.”
Niente classifiche? Non è possibile!
“Ogni valutazione deve me4ere capo a una classifica. Questa è la logica della valutazione. Se non c' è una classifica, non c' è neanche una reale valutazione” Giulio Tremon>, “Il passato e il buon senso” CdS 22-‐08-‐08
vediamo come fanno gli inglesi ...
5 livelli di qualità (assolu<)
La chiave di volta: i “quality profiles”
Dai livelli ai numeri
9 (dal 2011)
Volume: a measure of research staff
La formula
Score = Volume Cost (9 p4 + 3 p3 + p2)
p4 = % prodo[ in classe 4 p3 = % prodo[ in classe 3 p2 = % prodo[ in classe 2
Capitolo 2 La parete nord della valutazione
VeOa: valutazione nazionale della ricerca
Vie classiche: peer review, sta>s>che bibliometriche
Parete nord: valutazione bibliometrica dei singoli ar>coli
Tre spedizioni:
UK - RAE/REF Australia - ERA Italia - VQR
Bri<sh REF (Research Excellence Framework)
Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF
Report on the pilot exercise to develop bibliometric indicators for the Research Excellence Framework, September 2009
Australian ERA (Excellence of Research in Australia)
There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes
Ministro K. Carr, 30 Maggio 2011
20
Italia -‐ VQR
Atenei
GEV
ANVUR
Fonte: Servizio Studi, Politecnico di Milano
Definizione criteri: 3 mesi
14 GEV ⇒ 14 Bibliometrie fai-‐da-‐te
I “QVADRATI
MAGICI”
BIBLIOMETRICI
For the matrix entries labeled IR we rely on the informed peer review
ANVUR proposal: Use bibliometry, # of cita<ons (and informed peer review)
22
A
B
C
D
Cita>o
ns
A
B
C
D
A B C D
A
B
C
D
Cita>o
ns
A
B
C
D
A B C D
A A A?
D D
D
A
A
A?
D
IR
IR
IR
IR IR
IR IR
IR IR
IR
IR
IR IR IR
Bibliometry (IF,…) Bibliometry (IF,…)
Recent articles
Old articles
DEI FURBETTI DELLA VQR
I due vol< del quadrato magico del GEV09
BEST
WORST
Lo schema base ...
... ha due varian< ...
Quale bersaglio preferite?
0 punti 0 punti
ING-‐INF/05 Resto del GEV 09
JOURNAL RANKING JOURNAL RANKING
CITATIONS
BEST BEST
WORST WORST
0,5 pti
1 punto 1 punto
0,8 punti 0,8 punti
0,5 pti
Che vantaggio offre il bersaglio facile? Ipotesi: ar>colo estraho a caso da produzione mondiale, assumendo quahro diverse
distribuzioni, vedi: hhp://www.roars.it/online/?p=6280
Vantaggio = + 40%
Come mai il sub-‐GEV ING-‐INF/05 ha voluto farsi del male?
“Nel caso parPcolare del SSD ING-‐INF/05 (Sistemi di Elaborazione delle Informazioni), la graduatoria è stata definita congiuntamente dai membri dei GEV delle aree 01 e 09, uPlizzando criteri differenP da quelli degli altri SSD dell’Area 09, ma comuni con il SSD INF/01 (InformaPca), con il ragionevole obie,vo di ado4are lo stesso metodo di valutazione per tu4e le pubblicazioni scienPfiche del se4ore dell’informaPca.”
Rapporto Finale di Area 09, pp. 4-‐5
and the loser is ... ING-‐INF/05!
and the loser is ... ING-‐INF/05!
Università di Pavia: confronto dei dipar<men< pre-‐240 and the loser is ... ING-‐INF/05!
Università di Pavia: confronto dei dipar<men< pre-‐240 and the loser is ... ING-‐INF/05!
peccato che gli ingegneri informa<ci fossero ...
Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?
Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?
Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR
Proviamo a visualizzare la Tabella A1.1 aBraverso la metafora del Dro con l’arco
Le basi di tiro
bibliometrico
E = 1 B = 0,8 A = 0,5 L = 0
20%
20%
10%
50%
Ma come sono fak i bersagli veri?
Ce lo dice l’ANVUR: infa[, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN
I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area
AREA1 AREA2 AREA3 AREA4
AREA5 AREA6 AREA7 AREA8
AREA9 AREA11 BERSAGLIO TEORICO
Ti piace vincere facile?
40%
25%
14%
21%
22%
21%
13%
44% Ingegneria Industriale e
dell’Informazione
Scienze
Mediche
Morale: Le forP variazioni inter-‐area rendono i voP
incomparabili tra aree diverse
L’ANVUR lo sa e predica bene ...
L’ANVUR ha le idee molto chiare ...
Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.
Rapporto Finale ANVUR – Parte I, p. 7
... ma razzola male e diffonde alla stampa la
graduatoria delle aree i cui punteggi erano sta< dichiara<
“incomparabili”
1° 2°
3°
Il “bersaglio facile” porta l’area 09 sul podio: terzi dopo chimici e fisici
... e il Sole 24 Ore abbocca subito
ma questo è folklore (anche se fino ad un certo punto, vedi dopo)
La vera ques<one è un’altra ...
Cosa manca nell’Appendice A?
• Mancano le % nella produzione mondiale di E, B, A, L per i diversi SSD (i bersagli di ogni SSD)
• Conoscere le variazioni intra-‐area permeherebbe di valutare se e quanto sono scalibrate tra loro le valutazioni degli SSD
• Perché non sono riportate? • NOTA: Con variazioni intra-‐area simili a quelle inter-‐area l’intera VQR sarebbe invalidata
Domanda da 100 milioni: i bersagli sono (quasi) uguali per tuk gli SSD di un’area?
Ci vorrebbe una misura “esterna” alla VQR: nell’area 09 ce ne sono due (WoS Top 1% e 5%)
Domanda da 100 milioni: i bersagli sono (quasi) uguali per tuk gli SSD di un’area?
Ci vorrebbe una misura “esterna” alla VQR: nell’area 09 ce ne sono due (WoS Top 1% e 5%)
0"
1"
2"
3"
4"
5"
6"
7"
8"
0" 5" 10" 15" 20" 25"
% E
CC
ELLE
NTI
WoS
(Top
1%
)
% ECCELLENTI WoS (Top 5%)
Area 09: correlazione tra due indicatori WoS
Le due misure esterne sono coerenti tra di loro ...
% ECCELLENTI VQR
% E
CC
ELLE
NTI
WoS
(Top
5%
) Area 09: confronto Web of Science vs VQR
... ma la misura esterna Top 5% non è troppo coerente con la % Eccellenti della VQR ...
VOTO MEDIO VQR
% E
CC
ELLE
NTI
WoS
(Top
5%
)
... e nemmeno con il voto medio VQR
• A livello di SSD, la misura “esterna” di impatto (basata su WoS) è poco correlata agli esiti VQR.
• Colpa dei SSD poco numerosi?
• Per verificarlo, vediamo cosa succede se teniamo solo SSD con più di 100 prodotti valutati bibliometricamente
% E
CC
ELLE
NTI
WoS
(Top
1%
)
% ECCELLENTI WoS (Top 5%)
Area 09: correlazione tra due indicatori WoS (SSD > 100 prodotti)
Le due misure esterne sono ancora coerenti tra di loro
% E
CC
ELLE
NTI
WoS
(Top
5%
) Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)
% ECCELLENTI VQR
... ma la misura esterna Top 5% resta non troppo coerente con la % Eccellenti della VQR ...
% E
CC
ELLE
NTI
WoS
(Top
5%
) Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)
VOTO MEDIO VQR
... e con il voto medio VQR
Morale
• Analisi limitata ad Area 09 (mancano i daD per gli altri GEV)
• Ci vorrebbero i bersagli degli SSD • Indizi non rassicuranD sulla tenuta metodologica della bibliometria della VQR
• Mescolanza bibliometria + peer review: che (dis)omogeneità c’è tra i SSD?
Capitolo 3 Classifiche à la carte
Il santo Graal della valutazione
Queste del Saint Graal
L’Appendice D della Relazione VQR • Per dividere la torta (quota premiale) bisogna decidere che peso hanno le 16 aree (altrimen> incomparabili)
• ANVUR esamina 4 + 1metodi 1. numerosità di ricercatori non completamente
ina[vi (costo uniforme) 2. costo di Area un valore desunto dall’analisi
dell’insieme dei proge[ ERC 3. media dei finanziamen> PRIN ohenu> dalle Aree 4. Cos> dedo[ dal RAE2008
5. Mediare i preceden> quahro criteri
L’Appendice D della Relazione VQR
Per la natura stessa del problema, osservazioni più tecniche e metodologiche si fondono necessariamente con valutazioni di indirizzo poliPco generale che esulano dal compito dell’ANVUR e rimangono pienamente in capo al MIUR, in parPcolare nel momento in cui vi si facesse riferimento per la riparPzione di risorse finanziarie.
Morale: trovare la Formula (il Graal) spe4a al Ministro
Domanda: influenza (psicologica) della classifica delle aree? Se cerca di premiare le aree internazionalmente più valide, il Ministro
rischia di premiare i “furbe[ del quadra>no“
L’ANVUR predica bene, ma ...
... fornisce alla stampa una classifica che usa una quota premiale calcolata in modo
diverso dall’esperimento riportato nella Relazione Finale VQR
PRESENTAZIONE ALLA STAMPA 16 LUGLIO 2013 (SLIDE 69)
VQR: RAPPORTO FINALE PARTE I (TABELLA 6.10a)
Tabella 6.10a. Elenco delle università in ordine alfabetico con i valori degli indicatori finali di struttura IRFS1 e IRFS2 (vedi formule (8) e (9) confrontati con la percentuale di prodotti attesi sul totale delle Università. I valori di IRFS1 e IRFS2 si riferiscono ai pesi di Area w proposti nell’ultima tabella dell’Appendice D . I valori di α e β per il calcolo di IRFS2 (vedi formula (9)) sono 0.95 e 0.05
rispettivamente. In rosso i valori inferiori alla percentuale di prodotti attesi, in verde i valori superiori.
Università Prodotti attesi
% Prodotti attesi sul totale ENTI
IRFS1 x100 16 aree
Firenze 5.311 3,45123 3,67071
Roma Tre 2.349 1,52644 1,36813
Perugia 2.962 1,92479 2,06630
Roma Tor Vergata 3.945 2,56357 2,53531
Pisa 4.291 2,78841 2,80840
Modena e Reggio Emilia 2.221 1,44327 1,47937
Calabria (Arcavacata di Rende) 2.156 1,40103 1,39103
Parma 2.618 1,70125 1,70396
In maniera erronea, si è creata confusione. Era di più facile comprensione per la stampa. [...] Essere primo, secondo o terzo in queste classifiche non conta nulla a meno che il ministro decida di dare tutti i fondi ai primi cinque atenei. Ma io credo che ci sarà un uso saggio della ripartizione.
il Manifesto, 26 luglio 2013
«Delle due valutazioni abbiamo scelto di dare ai giornalisti quella che usa l’indicatore più semplice, non contestabile». L’altra, quella contenuta solo nel rapporto, si basa invece su «indicatori poco definiti» e quindi esposti a critiche. «Non c’è stato alcun trucco», sottolinea Benedetto.
Università, il bluff della classifica ANVUR , Secolo XIX, 26 luglio 2013
Intermezzo ar<s<co Daniele da Volterra deho “Braghehone” e il Giudizio Universale della Sis>na
Torniamo ad argomen< meno sublimi
La “legge dell’imbuto”
Area 9: Ingegneria Industriale e dell’informazione
Area 8b: Architehura
Messina meglio di Milano Politecnico?
È possibile confrontare struOure di dimensioni eterogenee?
La “legge dell’imbuto”
Ma l’ANVUR smen<sce
“Lasciamo alla fantasia dei lettori la definizione della forma dei grafici, ma sembra che in tutte le aree vi sia una forte dispersione della qualità, anche per gli atenei di maggiori dimensione [...] Il caso non ha dunque nulla a che fare con i risultati della Vqr”
S. Benedetto e R. Torrini http://www.lavoce.info/una-valutazione-molto-chiara/
Ogni giudizio universale (VQR inclusa) è des<nato
ad avere i suoi “BragheOoni”
Per nascondere gli imbu<, BenedeOo e Torrini hanno “bragheOato” le sedi piccole
Ogni giudizio universale (VQR inclusa) è des<nato
ad avere i suoi “BragheOoni”
Per nascondere gli imbu<, BenedeOo e Torrini hanno “bragheOato” le sedi piccole
et voilà ... l’imbuto non c’è più
et voilà ... l’imbuto non c’è più
et voilà ... l’imbuto non c’è più
et voilà ... l’imbuto non c’è più
Come < cambio le classifiche giocando sulle demarcazioni dei segmen< dimensionali
DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “GRANDI” PER LA STAMPA
DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “PICCOLE” PER LA STAMPA
GRA
NDI
MED
IE
PICC
OLE I SEG
MEN
TI DIM
ENSIONALI DEL RAPP
ORT
O FINALE
COME RIPO
RTAT
I NELLE Tab
elle 7.3a-‐7.3d
La classifica delle “università al top”
VERSIONE ORIGINALE
VERSIONE ORIGINALE
VERSIONE ORIGINALE
VERSIONE ORIGINALE
VERSIONE PER LA STAMPA
VERSIONE ORIGINALE
RE-‐RANKED BY FOR
Gli errori architeOurali della VQR
• La confusione tra progeks< dei criteri e valutatori
• La confusione tra eccellenza scien<fica e competenza nel ges>re e condurre processi divalutazione
• La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici
Problemi bibliometrici della VQR
• Cade l’uniformità del metro di giudizio bibliometrico dentro le aree
• Il mix bibliometria/peer review introduce ulteriori disuniformità
• Procedura contorta che mehe in crisi i singoli e le struhure nella selezione dei prodo[ migliori
• Conseguenza: risulta> inaffidabili e spreco di risorse (e credibilità)
• Chi sta remando contro la valutazione (seria)?
Capitolo 4 Le verità nascoste
SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)
4–02-2012!
Un ANVUR tecnicamente inadeguata: perché?
il ministro, per nascondere la sua le4era, era ricorso all’espediente più ingegnoso che si possa concepire da mente umana, il quale consisteva addiri4ura nel non tentare affa4o di nasconderla
E.A. Poe
SPESA IN RICERCA E SVILUPPO (% PIL)
ITALIA
0
0,1
0,2
0,3
0,4
0,5
0,6
2006 2007 2008 2009 2010
France
Germany
Italy
Japan
UK
USA
China
SPESA R&D (COME % DEL PIL) NEL SETTORE DI IMPIEGO “ISTRUZIONE SUPERIORE”
FONTE: OECD
RICERCATORI PER MILLE UNITÀ DI FORZA LAVORO
ITALIA
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
1985 1990 1995 2000 2005 2010
Regno Unito
Germania
Giappone
Francia
Canada
Italia
Spagna
Olanda
Svizzera
Svezia
PUBBLICAZIONI (WoS)
PUBBLICAZIONI 2004-2010: CRESCITA MEDIA ANNUA (%)
-‐1
0
1
2
3
4
5
6
7
8
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
0
1000000
2000000
3000000
4000000
5000000
6000000
PUBBLICAZIONI 2004-2010: NUMERO DI CITAZIONI
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 4.1) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
0"
1"
2"
3"
4"
5"
6"
7"
8"
9"
Svizzera"
Regno"Unito"
Svezia"
Italia"
Spagna"
Olanda"
Australia"
Canada"
Francia"
Germania"
Corea"del"Sud"
Russia"
Cina"
USA"
Giappone"
n.#pubblicazioni#(2010)#per#unità#di#spesa#pubblica#in#R&S#
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.1) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
# pa
pers
/mill
ion
USD
(PPP
)
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.3) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
0"
50"
100"
150"
200"
250"
300"
Svizzera"
Regno"Unito"
Svezia"
Olanda"
Australia"
Spagna"
Canada"
Italia"
Germania"
USA"
Francia"
Corea"del"Sud"
Giappone"
Russia"
Cina"
n.#citazioni#(ar,coli#2004)#per#unità#di#spesa#pubblica#in#R&S##
cite
s/m
illio
n U
SD (P
PP)
0"
0,2"
0,4"
0,6"
0,8"
1"
1,2"
1,4"
Svizzera"
Olanda"
USA"
Svezia"
Canada"
Italia"
Corea"del"Sud"
Francia"
Germania"
Regno"Unito"
Australia"
Spagna"
Giappone"
Russia"
Cina"
Numero'di'pubblicazioni'per'ricercatore'se3ore'pubblico'(Amministrazione'centrale,'Istruzione'superiore'e'se3ore'no'profit)':'2010'
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.2) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.4) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
Cosa dicono i confron< internazionali?
• L’Italia è tra i paesi che investono meno in ricerca e sviluppo ...
• .. ma tra quelli la cui produzione ed impaho crescevano più rapidamente
• Efficienza superiore a Germania, Francia e Giappone
• La “stregoneria” bibliometrica e valuta>va non trova gius>ficazione in un presunto “stato di eccezione”
Capitolo 5 Che fare?
A parte gli scherzi, che fare?
• Semplice: seguire le indicazioni dell’ANVUR!
• Ci sono due ques>oni chiave
1. Valutazione interdipar>mentale della ricerca finalizzata al riparto intra-‐ateneo
2. Valutazione intra-‐dipar>mento
Valutazione inter-‐dipar<mentale
• Senza Santo Graal (pesi assegna> alle diverse aree) il MIUR non può assegnare la quota premiale
• ANVUR: trovare il Graal è un aho poli>co che speha al ministro
• Aspehare che Parsifal-‐Carrozza esponga il Graal e applicare gli stessi pesi nell’ateneo
Valutazione intra-‐dipar<mentale Last but not least, l’ANVUR so4olinea che i risultaD della VQR non possono e non devono essere uDlizzaD per valutare i singoli soggei. I moPvi sono molteplici, e qui ne ciPamo alcuni rilevanP: la scelta dell’associazione prodoi-‐soggei valutaP, de4ata dall’oimizzazione del risultato di stru4ura e non del singolo sogge4o, la richiesta di conferire solo tre prodoi di ricerca pubblicaP in se4e anni, che cosPtuiscono in molP se4ori della scienza un’immagine della produzione complessiva dei singoli soggei molto parziale, la non considerazione del contributo individuale al prodo4o nel caso di presenza di coautori, e, infine, l’uPlizzo di metodi di valutazione la cui validità dipende fortemente dalla dimensione del gruppo di ricerca cui sono applicaP.
Relazione Finale VQR – Parte Prima, pag. 9
Grazie per l’ahenzione!