Le slides del seminario “VQR: Maneggiare con cura“ tenuto a Pavia il 9 ottobre 2013 da Giuseppe De Nicolao
Abstract. L’ANVUR ha da poco concluso un esercizio nazionale di valutazione della ricerca, la VQR 2004-2010. Nonostante le grandi aspettative riposte in tale valutazione, non sono mancate le controversie, riassumibili lungo tre direzioni principali: la comunicazione dei risultati sotto forma di classifiche, l’adeguatezza della metodologia scientifica e la tendenza dell’ANVUR a travalicare un ruolo meramente tecnico. Per mettere nella giusta prospettiva il dibattito, è bene far riferimento allo stato dell’arte della letteratura scientometrica e all’esperienza di altre agenzie di valutazione, come per esempio l’HEFCE inglese. Un approccio scientifico è altrettanto necessario per valutare se i risultati della VQR possano essere impiegati – e con quali caveat – nella ripartizione delle risorse all’interno degli atenei.
8. Per
rispondere
andiamo
alle
fon<
“Research
Excellence
Framework”:
è
il
nuovo
nome
del
“Research
Assessment
Exercise,
l’esercizio
di
valutazione
inglese
9. NO RANKINGS PLEASE!
WE’RE BRITISH!!
“RAE2008 results are in the form of a
quality profile for each submission made
by an HEI [Higher Education Institution].
We have not produced any ranked lists of
single scores for institutions or Units of
Assessment, and nor do we intend to.”
10. Niente
classifiche?
Non
è
possibile!
“Ogni
valutazione
deve
me4ere
capo
a
una
classifica.
Questa
è
la
logica
della
valutazione.
Se
non
c'
è
una
classifica,
non
c'
è
neanche
una
reale
valutazione”
Giulio
Tremon>,
“Il
passato
e
il
buon
senso”
CdS
22-‐08-‐08
vediamo
come
fanno
gli
inglesi
...
17. VeOa:
valutazione
nazionale
della
ricerca
Vie
classiche:
peer
review,
sta>s>che
bibliometriche
Parete
nord:
valutazione
bibliometrica
dei
singoli
ar>coli
Tre
spedizioni:
UK - RAE/REF
Australia - ERA
Italia - VQR
18. Bri<sh
REF
(Research
Excellence
Framework)
Bibliometrics
are
not
sufficiently
robust
at
this
stage
to
be
used
formulaically
or
to
replace
expert
review
in
the
REF
Report
on
the
pilot
exercise
to
develop
bibliometric
indicators
for
the
Research
Excellence
Framework,
September
2009
19. Australian
ERA
(Excellence
of
Research
in
Australia)
There
is
clear
and
consistent
evidence
that
the
rankings
were
being
deployed
inappropriately
…
in
ways
that
could
produce
harmful
outcomes
Ministro
K.
Carr,
30
Maggio
2011
20. Italia
-‐
VQR
Definizione
criteri:
3
mesi
Fonte:
Servizio
Studi,
Politecnico
di
Milano
Atenei
GEV
ANVUR
20
14
GEV
⇒
14
Bibliometrie
fai-‐da-‐te
22. ANVUR
proposal:
Use
bibliometry,
#
of
cita<ons
(and
informed
peer
review)
Bibliometry
(IF,…)
Cita>ons
A
A
B
C
D
A
A
A?
B
IR
B
IR
IR
C
IR
IR
C
IR
D
IR
D
D
D
A
Old
articles
Recent
articles
B
C
D
A
A
IR
IR
IR
Cita>ons
A
Bibliometry
(IF,…)
B
A
B
IR
D
C
A
IR
C
D
D
A?
IR
IR
D
For
the
matrix
entries
labeled
IR
we
rely
on
the
informed
peer
review
22
24. I
due
vol<
del
quadrato
magico
del
GEV09
BEST
Lo
schema
base
...
...
ha
due
varian<
...
WORST
25. Quale
bersaglio
preferite?
ING-‐INF/05
Resto
del
GEV
09
BEST
BEST
1 punto
1 punto
0,8 punti
CITATIONS
0,8 punti
0,5 pti
0,5 pti
0 punti
JOURNAL RANKING
0 punti
WORST
JOURNAL RANKING
WORST
26. Che
vantaggio
offre
il
bersaglio
facile?
Ipotesi:
ar>colo
estraho
a
caso
da
produzione
mondiale,
assumendo
quahro
diverse
distribuzioni,
vedi:
hhp://www.roars.it/online/?p=6280
Vantaggio
=
+
40%
27. Come
mai
il
sub-‐GEV
ING-‐INF/05
ha
voluto
farsi
del
male?
“Nel
caso
parPcolare
del
SSD
ING-‐INF/05
(Sistemi
di
Elaborazione
delle
Informazioni),
la
graduatoria
è
stata
definita
congiuntamente
dai
membri
dei
GEV
delle
aree
01
e
09,
uPlizzando
criteri
differenP
da
quelli
degli
altri
SSD
dell’Area
09,
ma
comuni
con
il
SSD
INF/01
(InformaPca),
con
il
ragionevole
obie,vo
di
ado4are
lo
stesso
metodo
di
valutazione
per
tu4e
le
pubblicazioni
scienPfiche
del
se4ore
dell’informaPca.”
Rapporto
Finale
di
Area
09,
pp.
4-‐5
43. Ma
come
sono
fak
i
bersagli
veri?
Ce
lo
dice
l’ANVUR:
infa[,
la
Tabella
A1.1
ci
fornisce
proprio
le
dimensioni
degli
anelli
del
bersaglio
per
ciascuna
area
CUN
44. I
veri
“bersagli
VQR”
sono
diversi
da
quello
teorico
e
cambiano
da
area
ad
area
AREA1
AREA2
AREA3
AREA4
AREA5
AREA6
AREA7
AREA8
AREA9
AREA11
BERSAGLIO TEORICO
45. Ti
piace
vincere
facile?
22%
40%
21%
13%
44%
25%
Scienze
Mediche
Ingegneria
Industriale
e
dell’Informazione
14%
21%
46. Morale:
Le
forP
variazioni
inter-‐area
rendono
i
voP
incomparabili
tra
aree
diverse
L’ANVUR
lo
sa
e
predica
bene
...
47.
48. L’ANVUR
ha
le
idee
molto
chiare
...
Pertanto, le tabelle che per comodità di
visualizzazione riuniscono nel rapporto i
risultati delle valutazioni nelle varie Aree
non devono essere utilizzate per costruire
graduatorie di merito tra le aree stesse, un
esercizio senza alcun fondamento
metodologico e scientifico.
Rapporto Finale ANVUR – Parte I, p. 7
49. ...
ma
razzola
male
e
diffonde
alla
stampa
la
graduatoria
delle
aree
i
cui
punteggi
erano
sta<
dichiara<
“incomparabili”
50.
51. 2°
1°
Il
“bersaglio
facile”
porta
l’area
09
sul
podio:
terzi
dopo
chimici
e
fisici
3°
53. ma
questo
è
folklore
(anche
se
fino
ad
un
certo
punto,
vedi
dopo)
La
vera
ques<one
è
un’altra
...
54. Cosa
manca
nell’Appendice
A?
• Mancano
le
%
nella
produzione
mondiale
di
E,
B,
A,
L
per
i
diversi
SSD
(i
bersagli
di
ogni
SSD)
• Conoscere
le
variazioni
intra-‐area
permeherebbe
di
valutare
se
e
quanto
sono
scalibrate
tra
loro
le
valutazioni
degli
SSD
• Perché
non
sono
riportate?
• NOTA:
Con
variazioni
intra-‐area
simili
a
quelle
inter-‐area
l’intera
VQR
sarebbe
invalidata
55. Domanda
da
100
milioni:
i
bersagli
sono
(quasi)
uguali
per
tuk
gli
SSD
di
un’area?
Ci vorrebbe una misura “esterna” alla VQR:
nell’area 09 ce ne sono due (WoS Top 1% e 5%)
56. Domanda
da
100
milioni:
i
bersagli
sono
(quasi)
uguali
per
tuk
gli
SSD
di
un’area?
Ci vorrebbe una misura “esterna” alla VQR:
nell’area 09 ce ne sono due (WoS Top 1% e 5%)
57. % ECCELLENTI WoS (Top 1%)
Area 09: correlazione tra due indicatori WoS
8"
7"
6"
Le due misure
esterne sono
coerenti tra di
loro ...
5"
4"
3"
2"
1"
0"
0"
5"
10"
15"
20"
25"
% ECCELLENTI WoS (Top 5%)
58. % ECCELLENTI WoS (Top 5%)
Area 09: confronto Web of Science vs VQR
... ma la misura
esterna Top 5%
non è troppo
coerente con la
% Eccellenti
della VQR ...
% ECCELLENTI VQR
59. % ECCELLENTI WoS (Top 5%)
... e nemmeno
con il voto
medio VQR
VOTO MEDIO VQR
60. • A livello di SSD, la misura “esterna” di
impatto (basata su WoS) è poco
correlata agli esiti VQR.
• Colpa dei SSD poco numerosi?
• Per verificarlo, vediamo cosa succede
se teniamo solo SSD con più di 100
prodotti valutati bibliometricamente
61. % ECCELLENTI WoS (Top 1%)
Area 09: correlazione tra due indicatori WoS (SSD > 100 prodotti)
Le due misure
esterne sono
ancora coerenti
tra di loro
% ECCELLENTI WoS (Top 5%)
62. % ECCELLENTI WoS (Top 5%)
Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)
... ma la misura
esterna Top 5%
resta non troppo
coerente con la
% Eccellenti
della VQR ...
% ECCELLENTI VQR
63. % ECCELLENTI WoS (Top 5%)
Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)
... e con il
voto medio
VQR
VOTO MEDIO VQR
64. Morale
• Analisi
limitata
ad
Area
09
(mancano
i
daD
per
gli
altri
GEV)
• Ci
vorrebbero
i
bersagli
degli
SSD
• Indizi
non
rassicuranD
sulla
tenuta
metodologica
della
bibliometria
della
VQR
• Mescolanza
bibliometria
+
peer
review:
che
(dis)omogeneità
c’è
tra
i
SSD?
69. L’Appendice
D
della
Relazione
VQR
• Per
dividere
la
torta
(quota
premiale)
bisogna
decidere
che
peso
hanno
le
16
aree
(altrimen>
incomparabili)
• ANVUR
esamina
4
+
1metodi
1. numerosità
di
ricercatori
non
completamente
ina[vi
(costo
uniforme)
2. costo
di
Area
un
valore
desunto
dall’analisi
dell’insieme
dei
proge[
ERC
3. media
dei
finanziamen>
PRIN
ohenu>
dalle
Aree
4. Cos>
dedo[
dal
RAE2008
5. Mediare
i
preceden>
quahro
criteri
70. L’Appendice
D
della
Relazione
VQR
Per
la
natura
stessa
del
problema,
osservazioni
più
tecniche
e
metodologiche
si
fondono
necessariamente
con
valutazioni
di
indirizzo
poliPco
generale
che
esulano
dal
compito
dell’ANVUR
e
rimangono
pienamente
in
capo
al
MIUR,
in
parPcolare
nel
momento
in
cui
vi
si
facesse
riferimento
per
la
riparPzione
di
risorse
finanziarie.
71. Morale:
trovare
la
Formula
(il
Graal)
spe4a
al
Ministro
Domanda:
influenza
(psicologica)
della
classifica
delle
aree?
Se
cerca
di
premiare
le
aree
internazionalmente
più
valide,
il
Ministro
rischia
di
premiare
i
“furbe[
del
quadra>no“
L’ANVUR
predica
bene,
ma
...
72. ...
fornisce
alla
stampa
una
classifica
che
usa
una
quota
premiale
calcolata
in
modo
diverso
dall’esperimento
riportato
nella
Relazione
Finale
VQR
73. PRESENTAZIONE
ALLA
STAMPA
16
LUGLIO
2013
(SLIDE
69)
Tabella 6.10a. Elenco delle università in ordine alfabetico con i valori degli indicatori finali di
struttura IRFS1 e IRFS2 (vedi formule (8) e (9) confrontati con la percentuale di prodotti attesi sul
totale delle Università. I valori di IRFS1 e IRFS2 si riferiscono ai pesi di Area w proposti nell’ultima
tabella dell’Appendice D . I valori di α e β per il calcolo di IRFS2 (vedi formula (9)) sono 0.95 e 0.05
rispettivamente. In rosso i valori inferiori alla percentuale di prodotti attesi, in verde i valori
superiori.
VQR:
RAPPORTO
FINALE
PARTE
I
(TABELLA
6.10a)
Università
Prodotti
attesi
% Prodotti attesi
sul totale ENTI
IRFS1 x100
16 aree
Firenze
5.311
3,45123
3,67071
Roma Tre
2.349
1,52644
1,36813
Perugia
2.962
1,92479
2,06630
Roma Tor Vergata
3.945
2,56357
2,53531
Pisa
4.291
2,78841
2,80840
Modena e Reggio Emilia
2.221
1,44327
1,47937
Calabria (Arcavacata di Rende)
2.156
1,40103
1,39103
Parma
2.618
1,70125
1,70396
74. In maniera erronea, si è creata confusione. Era di
più facile comprensione per la stampa. [...] Essere
primo, secondo o terzo in queste classifiche non
conta nulla a meno che il ministro decida di dare
tutti i fondi ai primi cinque atenei. Ma io credo che ci
sarà un uso saggio della ripartizione.
il Manifesto, 26 luglio 2013
75. «Delle due valutazioni abbiamo scelto di dare ai
giornalisti quella che usa l’indicatore più semplice,
non contestabile». L’altra, quella contenuta solo nel
rapporto, si basa invece su «indicatori poco definiti»
e quindi esposti a critiche. «Non c’è stato alcun
trucco», sottolinea Benedetto.
Università, il bluff della classifica ANVUR , Secolo
XIX, 26 luglio 2013
85. “Lasciamo alla fantasia dei
lettori la definizione della
forma dei grafici, ma sembra
che in tutte le aree vi sia una
forte
dispersione
della
qualità, anche per gli atenei
di maggiori dimensione [...] Il
caso non ha dunque nulla a
che fare con i risultati della
Vqr”
S. Benedetto e R. Torrini
http://www.lavoce.info/unavalutazione-molto-chiara/
86. Ogni
giudizio
universale
(VQR
inclusa)
è
des<nato
ad
avere
i
suoi
“BragheOoni”
Per
nascondere
gli
imbu<,
BenedeOo
e
Torrini
hanno
“bragheOato”
le
sedi
piccole
87. Ogni
giudizio
universale
(VQR
inclusa)
è
des<nato
ad
avere
i
suoi
“BragheOoni”
Per
nascondere
gli
imbu<,
BenedeOo
e
Torrini
hanno
“bragheOato”
le
sedi
piccole
96. Come
<
cambio
le
classifiche
giocando
sulle
demarcazioni
dei
segmen<
dimensionali
97. PICCOLE
MEDIE
GRANDI
I
SEGMENTI
DIMENSIONALI
DEL
RAPPORTO
FINALE
COME
RIPORTATI
NELLE
Tabelle
7.3a-‐7.3d
DA “MEDIE” NEL
RAPPORTO FINALE,
DIVENTANO “GRANDI”
PER LA STAMPA
DA “MEDIE” NEL
RAPPORTO FINALE,
DIVENTANO “PICCOLE”
PER LA STAMPA
109. Gli
errori
architeOurali
della
VQR
• La
confusione
tra
progeks<
dei
criteri
e
valutatori
• La
confusione
tra
eccellenza
scien<fica
e
competenza
nel
ges>re
e
condurre
processi
divalutazione
• La
mancanza
di
tempo
e
trasparenza
nella
definizione
dei
criteri
bibliometrici
110. Problemi
bibliometrici
della
VQR
• Cade
l’uniformità
del
metro
di
giudizio
bibliometrico
dentro
le
aree
• Il
mix
bibliometria/peer
review
introduce
ulteriori
disuniformità
• Procedura
contorta
che
mehe
in
crisi
i
singoli
e
le
struhure
nella
selezione
dei
prodo[
migliori
• Conseguenza:
risulta>
inaffidabili
e
spreco
di
risorse
(e
credibilità)
• Chi
sta
remando
contro
la
valutazione
(seria)?
113. il
ministro,
per
nascondere
la
sua
le4era,
era
ricorso
all’espediente
più
ingegnoso
che
si
possa
concepire
da
mente
umana,
il
quale
consisteva
addiri4ura
nel
non
tentare
affa4o
di
nasconderla
E.A.
Poe
115. SPESA R&D (COME % DEL PIL) NEL SETTORE
DI IMPIEGO “ISTRUZIONE SUPERIORE”
0,6
0,5
France
0,4
Germany
Italy
0,3
Japan
UK
0,2
USA
0,1
China
0
2006
2007
FONTE: OECD
2008
2009
2010
123. Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.4)
(dati ISI Web of Knowledge, Thomson-Reuters)
http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
124. Cosa
dicono
i
confron<
internazionali?
• L’Italia
è
tra
i
paesi
che
investono
meno
in
ricerca
e
sviluppo
...
• ..
ma
tra
quelli
la
cui
produzione
ed
impaho
crescevano
più
rapidamente
• Efficienza
superiore
a
Germania,
Francia
e
Giappone
• La
“stregoneria”
bibliometrica
e
valuta>va
non
trova
gius>ficazione
in
un
presunto
“stato
di
eccezione”
127. A
parte
gli
scherzi,
che
fare?
• Semplice:
seguire
le
indicazioni
dell’ANVUR!
• Ci
sono
due
ques>oni
chiave
1. Valutazione
interdipar>mentale
della
ricerca
finalizzata
al
riparto
intra-‐ateneo
2. Valutazione
intra-‐dipar>mento
128. Valutazione
inter-‐dipar<mentale
• Senza
Santo
Graal
(pesi
assegna>
alle
diverse
aree)
il
MIUR
non
può
assegnare
la
quota
premiale
• ANVUR:
trovare
il
Graal
è
un
aho
poli>co
che
speha
al
ministro
• Aspehare
che
Parsifal-‐Carrozza
esponga
il
Graal
e
applicare
gli
stessi
pesi
nell’ateneo
129. Valutazione
intra-‐dipar<mentale
Last
but
not
least,
l’ANVUR
so4olinea
che
i
risultaD
della
VQR
non
possono
e
non
devono
essere
uDlizzaD
per
valutare
i
singoli
soggei.
I
moPvi
sono
molteplici,
e
qui
ne
ciPamo
alcuni
rilevanP:
la
scelta
dell’associazione
prodoi-‐soggei
valutaP,
de4ata
dall’oimizzazione
del
risultato
di
stru4ura
e
non
del
singolo
sogge4o,
la
richiesta
di
conferire
solo
tre
prodoi
di
ricerca
pubblicaP
in
se4e
anni,
che
cosPtuiscono
in
molP
se4ori
della
scienza
un’immagine
della
produzione
complessiva
dei
singoli
soggei
molto
parziale,
la
non
considerazione
del
contributo
individuale
al
prodo4o
nel
caso
di
presenza
di
coautori,
e,
infine,
l’uPlizzo
di
metodi
di
valutazione
la
cui
validità
dipende
fortemente
dalla
dimensione
del
gruppo
di
ricerca
cui
sono
applicaP.
Relazione
Finale
VQR
–
Parte
Prima,
pag.
9