Vqr maneggiare con cura

VQR: maneggiare con cura

Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione

Università di Pavia

Capitoli

1.  La cerimonia del tè ... e della >sana 2.  La parete nord della valutazione 3.  Classifiche à la carte 4.  Le verità nascoste 5.  Che fare?

Capitolo 1 La cerimonia del tè ... e della <sana

L’infuso è ...

un prelibato tè inglese o ...

una <sana lassa<va?

Per rispondere andiamo alle fon<

“Research Excellence Framework”: è il nuovo nome del “Research Assessment Exercise, l’esercizio di valutazione inglese

NO RANKINGS PLEASE!WE’RE BRITISH!!

“RAE2008 results are in the form of a quality profile for each submission made by an HEI [Higher Education Institution]. We have not produced any ranked lists of single scores for institutions or Units of Assessment, and nor do we intend to.”

Niente classifiche? Non è possibile!

“Ogni valutazione deve me4ere capo a una classifica. Questa è la logica della valutazione. Se non c' è una classifica, non c' è neanche una reale valutazione” Giulio Tremon>, “Il passato e il buon senso” CdS 22-‐08-‐08

vediamo come fanno gli inglesi ...

5 livelli di qualità (assolu<)

La chiave di volta: i “quality profiles”

Dai livelli ai numeri

9 (dal 2011)

Volume: a measure of research staff

La formula

Score = Volume Cost (9 p4 + 3 p3 + p2)

p4 = % prodo[ in classe 4 p3 = % prodo[ in classe 3 p2 = % prodo[ in classe 2

Capitolo 2 La parete nord della valutazione

VeOa: valutazione nazionale della ricerca

Vie classiche: peer review, sta>s>che bibliometriche

Parete nord: valutazione bibliometrica dei singoli ar>coli

Tre spedizioni:

UK - RAE/REF Australia - ERA Italia - VQR

Bri<sh REF (Research Excellence Framework)

Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF

Report on the pilot exercise to develop bibliometric indicators for the Research Excellence Framework, September 2009

Australian ERA (Excellence of Research in Australia)

There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes

Ministro K. Carr, 30 Maggio 2011

20

Italia -‐ VQR

Atenei

GEV

ANVUR

Fonte: Servizio Studi, Politecnico di Milano

Definizione criteri: 3 mesi

14 GEV ⇒ 14 Bibliometrie fai-‐da-‐te

I “QVADRATI

MAGICI”

BIBLIOMETRICI

For the matrix entries labeled IR we rely on the informed peer review

ANVUR proposal: Use bibliometry, # of cita<ons (and informed peer review)

22

A

B

C

D

Cita>o

ns

A

B

C

D

A B C D

A

B

C

D

Cita>o

ns

A

B

C

D

A B C D

A A A?

D D

D

A

A

A?

D

IR

IR

IR

IR IR

IR IR

IR IR

IR

IR

IR IR IR

Bibliometry (IF,…) Bibliometry (IF,…)

Recent articles

Old articles

DEI FURBETTI DELLA VQR

I due vol< del quadrato magico del GEV09

BEST

WORST

Lo schema base ...

... ha due varian< ...

Quale bersaglio preferite?

0 punti 0 punti

ING-‐INF/05 Resto del GEV 09

JOURNAL RANKING JOURNAL RANKING

CITATIONS

BEST BEST

WORST WORST

0,5 pti

1 punto 1 punto

0,8 punti 0,8 punti

0,5 pti

Che vantaggio offre il bersaglio facile? Ipotesi: ar>colo estraho a caso da produzione mondiale, assumendo quahro diverse

distribuzioni, vedi: hhp://www.roars.it/online/?p=6280

Vantaggio = + 40%

Come mai il sub-‐GEV ING-‐INF/05 ha voluto farsi del male?

“Nel caso parPcolare del SSD ING-‐INF/05 (Sistemi di Elaborazione delle Informazioni), la graduatoria è stata definita congiuntamente dai membri dei GEV delle aree 01 e 09, uPlizzando criteri differenP da quelli degli altri SSD dell’Area 09, ma comuni con il SSD INF/01 (InformaPca), con il ragionevole obie,vo di ado4are lo stesso metodo di valutazione per tu4e le pubblicazioni scienPfiche del se4ore dell’informaPca.”

Rapporto Finale di Area 09, pp. 4-‐5

and the loser is ... ING-‐INF/05!

Università di Pavia: confronto dei dipar<men< pre-‐240 and the loser is ... ING-‐INF/05!

Università di Pavia: confronto dei dipar<men< pre-‐240 and the loser is ... ING-‐INF/05!

peccato che gli ingegneri informa<ci fossero ...

Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?

Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?

Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR

Proviamo a visualizzare la Tabella A1.1 aBraverso la metafora del Dro con l’arco

Le basi di tiro

bibliometrico

E = 1 B = 0,8 A = 0,5 L = 0

20%

20%

10%

50%

Ma come sono fak i bersagli veri?

Ce lo dice l’ANVUR: infa[, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN

I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area

AREA1 AREA2 AREA3 AREA4

AREA5 AREA6 AREA7 AREA8

AREA9 AREA11 BERSAGLIO TEORICO

Ti piace vincere facile?

40%

25%

14%

21%

22%

21%

13%

44% Ingegneria Industriale e

dell’Informazione

Scienze

Mediche

Morale: Le forP variazioni inter-‐area rendono i voP

incomparabili tra aree diverse

L’ANVUR lo sa e predica bene ...

L’ANVUR ha le idee molto chiare ...

Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.

Rapporto Finale ANVUR – Parte I, p. 7

... ma razzola male e diffonde alla stampa la

graduatoria delle aree i cui punteggi erano sta< dichiara<

“incomparabili”

1° 2°

3°

Il “bersaglio facile” porta l’area 09 sul podio: terzi dopo chimici e fisici

... e il Sole 24 Ore abbocca subito

ma questo è folklore (anche se fino ad un certo punto, vedi dopo)

La vera ques<one è un’altra ...

Cosa manca nell’Appendice A?

•  Mancano le % nella produzione mondiale di E, B, A, L per i diversi SSD (i bersagli di ogni SSD)

•  Conoscere le variazioni intra-‐area permeherebbe di valutare se e quanto sono scalibrate tra loro le valutazioni degli SSD

•  Perché non sono riportate? •  NOTA: Con variazioni intra-‐area simili a quelle inter-‐area l’intera VQR sarebbe invalidata

Domanda da 100 milioni: i bersagli sono (quasi) uguali per tuk gli SSD di un’area?

Ci vorrebbe una misura “esterna” alla VQR: nell’area 09 ce ne sono due (WoS Top 1% e 5%)

0"

1"

2"

3"

4"

5"

6"

7"

8"

0" 5" 10" 15" 20" 25"

% E

CC

ELLE

NTI

WoS

(Top

1%

)

% ECCELLENTI WoS (Top 5%)

Area 09: correlazione tra due indicatori WoS

Le due misure esterne sono coerenti tra di loro ...

% ECCELLENTI VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR

... ma la misura esterna Top 5% non è troppo coerente con la % Eccellenti della VQR ...

VOTO MEDIO VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

)

... e nemmeno con il voto medio VQR

•  A livello di SSD, la misura “esterna” di impatto (basata su WoS) è poco correlata agli esiti VQR.

•  Colpa dei SSD poco numerosi?

•  Per verificarlo, vediamo cosa succede se teniamo solo SSD con più di 100 prodotti valutati bibliometricamente

% E

CC

ELLE

NTI

WoS

(Top

1%

)

% ECCELLENTI WoS (Top 5%)

Area 09: correlazione tra due indicatori WoS (SSD > 100 prodotti)

Le due misure esterne sono ancora coerenti tra di loro

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)

% ECCELLENTI VQR

... ma la misura esterna Top 5% resta non troppo coerente con la % Eccellenti della VQR ...

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)

VOTO MEDIO VQR

... e con il voto medio VQR

Morale

•  Analisi limitata ad Area 09 (mancano i daD per gli altri GEV)

•  Ci vorrebbero i bersagli degli SSD •  Indizi non rassicuranD sulla tenuta metodologica della bibliometria della VQR

•  Mescolanza bibliometria + peer review: che (dis)omogeneità c’è tra i SSD?

Capitolo 3 Classifiche à la carte

Il santo Graal della valutazione

Queste del Saint Graal

L’Appendice D della Relazione VQR •  Per dividere la torta (quota premiale) bisogna decidere che peso hanno le 16 aree (altrimen> incomparabili)

•  ANVUR esamina 4 + 1metodi 1.  numerosità di ricercatori non completamente

ina[vi (costo uniforme) 2.  costo di Area un valore desunto dall’analisi

dell’insieme dei proge[ ERC 3.  media dei finanziamen> PRIN ohenu> dalle Aree 4.  Cos> dedo[ dal RAE2008

5.  Mediare i preceden> quahro criteri

L’Appendice D della Relazione VQR

Per la natura stessa del problema, osservazioni più tecniche e metodologiche si fondono necessariamente con valutazioni di indirizzo poliPco generale che esulano dal compito dell’ANVUR e rimangono pienamente in capo al MIUR, in parPcolare nel momento in cui vi si facesse riferimento per la riparPzione di risorse finanziarie.

Morale: trovare la Formula (il Graal) spe4a al Ministro

Domanda: influenza (psicologica) della classifica delle aree? Se cerca di premiare le aree internazionalmente più valide, il Ministro

rischia di premiare i “furbe[ del quadra>no“

L’ANVUR predica bene, ma ...

... fornisce alla stampa una classifica che usa una quota premiale calcolata in modo

diverso dall’esperimento riportato nella Relazione Finale VQR

PRESENTAZIONE ALLA STAMPA 16 LUGLIO 2013 (SLIDE 69)

VQR: RAPPORTO FINALE PARTE I (TABELLA 6.10a)

Tabella 6.10a. Elenco delle università in ordine alfabetico con i valori degli indicatori finali di struttura IRFS1 e IRFS2 (vedi formule (8) e (9) confrontati con la percentuale di prodotti attesi sul totale delle Università. I valori di IRFS1 e IRFS2 si riferiscono ai pesi di Area w proposti nell’ultima tabella dell’Appendice D . I valori di α e β per il calcolo di IRFS2 (vedi formula (9)) sono 0.95 e 0.05

rispettivamente. In rosso i valori inferiori alla percentuale di prodotti attesi, in verde i valori superiori.

Università Prodotti attesi

% Prodotti attesi sul totale ENTI

IRFS1 x100 16 aree

Firenze 5.311 3,45123 3,67071

Roma Tre 2.349 1,52644 1,36813

Perugia 2.962 1,92479 2,06630

Roma Tor Vergata 3.945 2,56357 2,53531

Pisa 4.291 2,78841 2,80840

Modena e Reggio Emilia 2.221 1,44327 1,47937

Calabria (Arcavacata di Rende) 2.156 1,40103 1,39103

Parma 2.618 1,70125 1,70396

In maniera erronea, si è creata confusione. Era di più facile comprensione per la stampa. [...] Essere primo, secondo o terzo in queste classifiche non conta nulla a meno che il ministro decida di dare tutti i fondi ai primi cinque atenei. Ma io credo che ci sarà un uso saggio della ripartizione.

il Manifesto, 26 luglio 2013

«Delle due valutazioni abbiamo scelto di dare ai giornalisti quella che usa l’indicatore più semplice, non contestabile». L’altra, quella contenuta solo nel rapporto, si basa invece su «indicatori poco definiti» e quindi esposti a critiche. «Non c’è stato alcun trucco», sottolinea Benedetto.

Università, il bluff della classifica ANVUR , Secolo XIX, 26 luglio 2013

Intermezzo ar<s<co Daniele da Volterra deho “Braghehone” e il Giudizio Universale della Sis>na

Torniamo ad argomen< meno sublimi

La “legge dell’imbuto”

Area 9: Ingegneria Industriale e dell’informazione

Area 8b: Architehura

Messina meglio di Milano Politecnico?

È possibile confrontare struOure di dimensioni eterogenee?

La “legge dell’imbuto”

Ma l’ANVUR smen<sce

“Lasciamo alla fantasia dei lettori la definizione della forma dei grafici, ma sembra che in tutte le aree vi sia una forte dispersione della qualità, anche per gli atenei di maggiori dimensione [...] Il caso non ha dunque nulla a che fare con i risultati della Vqr”

S. Benedetto e R. Torrini http://www.lavoce.info/una-valutazione-molto-chiara/

Ogni giudizio universale (VQR inclusa) è des<nato

ad avere i suoi “BragheOoni”

Per nascondere gli imbu<, BenedeOo e Torrini hanno “bragheOato” le sedi piccole

et voilà ... l’imbuto non c’è più

Come < cambio le classifiche giocando sulle demarcazioni dei segmen< dimensionali

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “GRANDI” PER LA STAMPA

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “PICCOLE” PER LA STAMPA

GRA

NDI

MED

IE

PICC

OLE I SEG

MEN

TI DIM

ENSIONALI DEL RAPP

ORT

O FINALE

COME RIPO

RTAT

I NELLE Tab

elle 7.3a-‐7.3d

La classifica delle “università al top”

VERSIONE ORIGINALE

VERSIONE ORIGINALE

VERSIONE PER LA STAMPA

VERSIONE ORIGINALE

RE-‐RANKED BY FOR

Gli errori architeOurali della VQR

•  La confusione tra progeks< dei criteri e valutatori

•  La confusione tra eccellenza scien<fica e competenza nel ges>re e condurre processi divalutazione

•  La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici

Problemi bibliometrici della VQR

•  Cade l’uniformità del metro di giudizio bibliometrico dentro le aree

•  Il mix bibliometria/peer review introduce ulteriori disuniformità

•  Procedura contorta che mehe in crisi i singoli e le struhure nella selezione dei prodo[ migliori

•  Conseguenza: risulta> inaffidabili e spreco di risorse (e credibilità)

•  Chi sta remando contro la valutazione (seria)?

Capitolo 4 Le verità nascoste

SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)

4–02-2012!

Un ANVUR tecnicamente inadeguata: perché?

il ministro, per nascondere la sua le4era, era ricorso all’espediente più ingegnoso che si possa concepire da mente umana, il quale consisteva addiri4ura nel non tentare affa4o di nasconderla

E.A. Poe

SPESA IN RICERCA E SVILUPPO (% PIL)

ITALIA

0

0,1

0,2

0,3

0,4

0,5

0,6

2006 2007 2008 2009 2010

France

Germany

Italy

Japan

UK

USA

China

SPESA R&D (COME % DEL PIL) NEL SETTORE DI IMPIEGO “ISTRUZIONE SUPERIORE”

FONTE: OECD

RICERCATORI PER MILLE UNITÀ DI FORZA LAVORO

ITALIA

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000

1985 1990 1995 2000 2005 2010

Regno Unito

Germania

Giappone

Francia

Canada

Italia

Spagna

Olanda

Svizzera

Svezia

PUBBLICAZIONI (WoS)

PUBBLICAZIONI 2004-2010: CRESCITA MEDIA ANNUA (%)

-‐1

0

1

2

3

4

5

6

7

8

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

0

1000000

2000000

3000000

4000000

5000000

6000000

PUBBLICAZIONI 2004-2010: NUMERO DI CITAZIONI


0"

1"

2"

3"

4"

5"

6"

7"

8"

9"

Svizzera"

Regno"Unito"

Svezia"

Italia"

Spagna"

Olanda"

Australia"

Canada"

Francia"

Germania"

Corea"del"Sud"

Russia"

Cina"

USA"

Giappone"

n.#pubblicazioni#(2010)#per#unità#di#spesa#pubblica#in#R&S#


# pa

pers

/mill

ion

USD

(PPP

)


0"

50"

100"

150"

200"

250"

300"

Svizzera"

Regno"Unito"

Svezia"

Olanda"

Australia"

Spagna"

Canada"

Italia"

Germania"

USA"

Francia"

Corea"del"Sud"

Giappone"

Russia"

Cina"

n.#citazioni#(ar,coli#2004)#per#unità#di#spesa#pubblica#in#R&S##

cite

s/m

illio

n U

SD (P

PP)

0"

0,2"

0,4"

0,6"

0,8"

1"

1,2"

1,4"

Svizzera"

Olanda"

USA"

Svezia"

Canada"

Italia"

Corea"del"Sud"

Francia"

Germania"

Regno"Unito"

Australia"

Spagna"

Giappone"

Russia"

Cina"

Numero'di'pubblicazioni'per'ricercatore'se3ore'pubblico'(Amministrazione'centrale,'Istruzione'superiore'e'se3ore'no'profit)':'2010'


Cosa dicono i confron< internazionali?

•  L’Italia è tra i paesi che investono meno in ricerca e sviluppo ...

•  .. ma tra quelli la cui produzione ed impaho crescevano più rapidamente

•  Efficienza superiore a Germania, Francia e Giappone

•  La “stregoneria” bibliometrica e valuta>va non trova gius>ficazione in un presunto “stato di eccezione”

Capitolo 5 Che fare?

A parte gli scherzi, che fare?

•  Semplice: seguire le indicazioni dell’ANVUR!

•  Ci sono due ques>oni chiave

1.  Valutazione interdipar>mentale della ricerca finalizzata al riparto intra-‐ateneo

2.  Valutazione intra-‐dipar>mento

Valutazione inter-‐dipar<mentale

•  Senza Santo Graal (pesi assegna> alle diverse aree) il MIUR non può assegnare la quota premiale

•  ANVUR: trovare il Graal è un aho poli>co che speha al ministro

•  Aspehare che Parsifal-‐Carrozza esponga il Graal e applicare gli stessi pesi nell’ateneo

Valutazione intra-‐dipar<mentale Last but not least, l’ANVUR so4olinea che i risultaD della VQR non possono e non devono essere uDlizzaD per valutare i singoli soggei. I moPvi sono molteplici, e qui ne ciPamo alcuni rilevanP: la scelta dell’associazione prodoi-‐soggei valutaP, de4ata dall’oimizzazione del risultato di stru4ura e non del singolo sogge4o, la richiesta di conferire solo tre prodoi di ricerca pubblicaP in se4e anni, che cosPtuiscono in molP se4ori della scienza un’immagine della produzione complessiva dei singoli soggei molto parziale, la non considerazione del contributo individuale al prodo4o nel caso di presenza di coautori, e, infine, l’uPlizzo di metodi di valutazione la cui validità dipende fortemente dalla dimensione del gruppo di ricerca cui sono applicaP.

Relazione Finale VQR – Parte Prima, pag. 9

Grazie per l’ahenzione!

Vqr maneggiare con cura

Education

Transcript of Vqr maneggiare con cura