Vqr maneggiare con cura

VQR:
maneggiare
con
cura

Giuseppe
De
Nicolao

Dip.
Ingegneria
Industriale
e
dell’Informazione

Università
di
Pavia

Capitoli

1. 
2. 
3. 
4. 
5. 

La
cerimonia
del
tè
...
e
della
>sana

La
parete
nord
della
valutazione

Classiﬁche
à
la
carte

Le
verità
nascoste

Che
fare?

Capitolo
1

La
cerimonia
del

tè
...
e
della
<sana

un
prelibato
tè
inglese
o
...

Per
rispondere
andiamo
alle
fon<

“Research
Excellence
Framework”:
è
il

nuovo
nome
del
“Research
Assessment

Exercise,
l’esercizio
di
valutazione
inglese

NO RANKINGS PLEASE!
WE’RE BRITISH!!
“RAE2008 results are in the form of a
quality profile for each submission made
by an HEI [Higher Education Institution].
We have not produced any ranked lists of
single scores for institutions or Units of
Assessment, and nor do we intend to.”

Niente
classifiche?

Non
è
possibile!

“Ogni
valutazione
deve
me4ere
capo
a
una

classifica.
Questa
è
la
logica
della

valutazione.
Se
non
c'
è
una
classifica,
non

c'
è
neanche
una
reale
valutazione”

Giulio
Tremon>,
“Il
passato
e
il
buon
senso”
CdS
22-‐08-‐08

vediamo
come
fanno
gli
inglesi
...

5
livelli
di
qualità
(assolu<)

La
chiave
di
volta:

i
“quality
proﬁles”

Dai
livelli
ai
numeri

9 (dal 2011)

Volume: a measure of research staff

La formula
Score = Volume Cost (9 p4 + 3 p3 + p2)
p4
=
%
prodo[
in
classe
4

p3
=
%
prodo[
in
classe
3

p2
=
%
prodo[
in
classe
2

Capitolo
2

La
parete
nord

della
valutazione

VeOa:
valutazione
nazionale
della
ricerca

Vie
classiche:
peer
review,
sta>s>che
bibliometriche

Parete
nord:
valutazione
bibliometrica
dei
singoli
ar>coli

Tre
spedizioni:

UK - RAE/REF

Australia - ERA

Italia - VQR

Bri<sh
REF
(Research
Excellence
Framework)

Bibliometrics
are
not
suﬃciently
robust
at
this

stage
to
be
used
formulaically
or
to
replace

expert
review
in
the
REF

Report
on
the
pilot
exercise
to
develop
bibliometric
indicators

for
the
Research
Excellence
Framework,
September
2009

Australian
ERA

(Excellence
of
Research
in
Australia)

There
is
clear
and
consistent
evidence
that
the

rankings
were
being
deployed
inappropriately
…

in
ways
that
could
produce
harmful
outcomes

Ministro
K.
Carr,
30
Maggio
2011

Italia
-‐
VQR

Deﬁnizione
criteri:
3
mesi

Fonte:
Servizio
Studi,
Politecnico
di
Milano

Atenei

GEV

ANVUR

20

14
GEV
⇒
14
Bibliometrie
fai-‐da-‐te

I “QVADRATI
MAGICI”
BIBLIOMETRICI

ANVUR
proposal:
Use
bibliometry,
#
of
cita<ons

(and
informed
peer
review)

Bibliometry
(IF,…)

Cita>ons

A
A

B

C

D

A
A
A?

B
IR
B
IR
IR

C
IR
IR
C
IR

D
IR
D
D
D

A

Old
articles

Recent
articles

B

C

D

A
A
IR
IR
IR

Cita>ons

A

Bibliometry
(IF,…)

B
A

B
IR
D

C
A
IR
C
D

D
A?
IR
IR
D

For
the
matrix
entries
labeled
IR

we
rely

on
the
informed
peer
review

22

DEI FURBETTI

DELLA VQR

I
due
vol<
del
quadrato

magico
del
GEV09

BEST

Lo
schema

base
...

...
ha
due

varian<
...

WORST

Quale
bersaglio
preferite?

ING-‐INF/05

Resto
del
GEV
09

BEST

BEST

1 punto

1 punto

0,8 punti

CITATIONS

0,8 punti

0,5 pti

0,5 pti

0 punti
JOURNAL RANKING

0 punti

WORST

JOURNAL RANKING

WORST

Che
vantaggio
oﬀre
il
bersaglio
facile?

Ipotesi:
ar>colo
estraho
a
caso
da
produzione
mondiale,
assumendo
quahro
diverse

distribuzioni,
vedi:
hhp://www.roars.it/online/?p=6280

Vantaggio
=
+
40%

Come
mai
il
sub-‐GEV
ING-‐INF/05

ha
voluto
farsi
del
male?

“Nel
caso
parPcolare
del
SSD
ING-‐INF/05
(Sistemi
di

Elaborazione
delle
Informazioni),
la
graduatoria
è

stata
definita
congiuntamente
dai
membri
dei
GEV

delle
aree
01
e
09,
uPlizzando
criteri
differenP
da

quelli
degli
altri
SSD
dell’Area
09,
ma
comuni
con
il

SSD
INF/01
(InformaPca),
con
il
ragionevole

obie,vo
di
ado4are
lo
stesso
metodo
di
valutazione

per
tu4e
le
pubblicazioni
scienPfiche
del
se4ore

dell’informaPca.”

Rapporto
Finale
di
Area
09,
pp.
4-‐5

and
the
loser
is
...
ING-‐INF/05!

Università
di
Pavia:

confronto
dei
dipar<men<
pre-‐240

and
the
loser
is
...
ING-‐INF/05!

Università
di
Pavia:

confronto
dei
dipar<men<
pre-‐240

and
the
loser
is
...
ING-‐INF/05!

peccato
che
gli
ingegneri

informa<ci
fossero
...

Per
fortuna
la
scalibrazione

tocca
solo
il
GEV
09
...
o
no?

Per
fortuna
la
scalibrazione

tocca
solo
il
GEV
09
...
o
no?

Per
rispondere,

andiamo
a
leggere

l’Appendice
A
del

Rapporto
Finale
VQR

Proviamo
a
visualizzare
la

Tabella
A1.1
aBraverso
la

metafora
del
Dro
con
l’arco

Le basi di tiro
bibliometrico

Ma
come
sono
fak
i
bersagli
veri?

Ce
lo
dice
l’ANVUR:
infa[,
la
Tabella
A1.1
ci

fornisce
proprio
le
dimensioni
degli
anelli
del

bersaglio
per
ciascuna
area
CUN

I
veri
“bersagli
VQR”
sono
diversi
da

quello
teorico
e
cambiano
da
area
ad
area

AREA1

AREA2

AREA3

AREA4

AREA5

AREA6

AREA7

AREA8

AREA9

AREA11

BERSAGLIO TEORICO

Ti
piace
vincere
facile?

22%
40%
21%
13%
44%

25%
Scienze

Mediche

Ingegneria

Industriale
e

dell’Informazione

14%
21%

Morale:
Le
forP
variazioni

inter-‐area
rendono
i
voP

incomparabili
tra
aree
diverse

L’ANVUR
lo
sa
e
predica
bene
...

L’ANVUR
ha
le
idee
molto
chiare
...

Pertanto, le tabelle che per comodità di
visualizzazione riuniscono nel rapporto i
risultati delle valutazioni nelle varie Aree
non devono essere utilizzate per costruire
graduatorie di merito tra le aree stesse, un
esercizio senza alcun fondamento
metodologico e scientifico.
Rapporto Finale ANVUR – Parte I, p. 7

...
ma
razzola
male
e

diﬀonde
alla
stampa
la

graduatoria
delle
aree
i
cui

punteggi
erano
sta<
dichiara<

“incomparabili”

2°

1°

Il
“bersaglio

facile”
porta

l’area
09
sul

podio:
terzi
dopo

chimici
e
ﬁsici

3°

...
e
il
Sole
24
Ore
abbocca
subito

ma
questo
è
folklore
(anche
se

ﬁno
ad
un
certo
punto,
vedi
dopo)

La
vera
ques<one
è
un’altra
...

Cosa
manca
nell’Appendice
A?

•  Mancano
le
%
nella
produzione
mondiale
di
E,

B,
A,
L
per
i
diversi
SSD
(i
bersagli
di
ogni
SSD)

•  Conoscere
le
variazioni
intra-‐area

permeherebbe
di
valutare
se
e
quanto
sono

scalibrate
tra
loro
le
valutazioni
degli
SSD

•  Perché
non
sono
riportate?

•  NOTA:
Con
variazioni
intra-‐area
simili
a
quelle

inter-‐area
l’intera
VQR
sarebbe
invalidata

Domanda
da
100
milioni:
i
bersagli
sono

(quasi)
uguali
per
tuk
gli
SSD
di
un’area?

Ci vorrebbe una misura “esterna” alla VQR:
nell’area 09 ce ne sono due (WoS Top 1% e 5%)

% ECCELLENTI WoS (Top 1%)

Area 09: correlazione tra due indicatori WoS
8"
7"
6"

Le due misure
esterne sono
coerenti tra di
loro ...

5"
4"
3"
2"
1"
0"
0"

5"

10"

15"

20"

25"



Area 09: confronto Web of Science vs VQR

... ma la misura
esterna Top 5%
non è troppo
coerente con la
% Eccellenti
della VQR ...

% ECCELLENTI VQR


... e nemmeno
con il voto
medio VQR

VOTO MEDIO VQR

•  A livello di SSD, la misura “esterna” di
impatto (basata su WoS) è poco
correlata agli esiti VQR.
•  Colpa dei SSD poco numerosi?
•  Per verificarlo, vediamo cosa succede
se teniamo solo SSD con più di 100
prodotti valutati bibliometricamente


Area 09: correlazione tra due indicatori WoS (SSD > 100 prodotti)

Le due misure
esterne sono
ancora coerenti
tra di loro



Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)

... ma la misura
esterna Top 5%
resta non troppo
coerente con la
% Eccellenti
della VQR ...

% ECCELLENTI VQR


Area 09: confronto Web of Science vs VQR (SSD > 100 prodotti)

... e con il
voto medio
VQR

VOTO MEDIO VQR

Morale

•  Analisi
limitata
ad
Area
09

(mancano
i
daD
per
gli
altri
GEV)

•  Ci
vorrebbero
i
bersagli
degli
SSD

•  Indizi
non
rassicuranD
sulla
tenuta

metodologica
della
bibliometria
della
VQR

•  Mescolanza
bibliometria
+
peer
review:
che

(dis)omogeneità
c’è
tra
i
SSD?

Capitolo
3

Classiﬁche

à
la
carte

Il
santo
Graal
della
valutazione

Queste
del
Saint
Graal

L’Appendice
D
della
Relazione
VQR

•  Per
dividere
la
torta
(quota
premiale)
bisogna

decidere
che
peso
hanno
le
16
aree
(altrimen>

incomparabili)

•  ANVUR
esamina
4
+
1metodi

1.  numerosità
di
ricercatori
non
completamente

ina[vi
(costo
uniforme)

2.  costo
di
Area
un
valore
desunto
dall’analisi

dell’insieme
dei
proge[
ERC

3.  media
dei
ﬁnanziamen>
PRIN
ohenu>
dalle
Aree

4.  Cos>
dedo[
dal
RAE2008

5.  Mediare
i
preceden>
quahro
criteri

L’Appendice
D
della
Relazione
VQR

Per
la
natura
stessa
del
problema,
osservazioni

più
tecniche
e
metodologiche
si
fondono

necessariamente
con
valutazioni
di
indirizzo

poliPco
generale
che
esulano
dal
compito

dell’ANVUR
e
rimangono
pienamente
in
capo
al

MIUR,
in
parPcolare
nel
momento
in
cui
vi
si

facesse
riferimento
per
la
riparPzione
di
risorse

ﬁnanziarie.

Morale:
trovare
la
Formula

(il
Graal)
spe4a
al
Ministro

Domanda:
inﬂuenza
(psicologica)

della
classiﬁca
delle
aree?
Se
cerca
di
premiare

le
aree
internazionalmente
più
valide,
il
Ministro

rischia
di
premiare
i
“furbe[
del
quadra>no“

L’ANVUR
predica
bene,
ma
...

...
fornisce
alla
stampa
una

classiﬁca
che
usa
una
quota

premiale
calcolata
in
modo

diverso
dall’esperimento
riportato

nella
Relazione
Finale
VQR

PRESENTAZIONE

ALLA
STAMPA

16
LUGLIO
2013

(SLIDE
69)

Tabella 6.10a. Elenco delle università in ordine alfabetico con i valori degli indicatori finali di
struttura IRFS1 e IRFS2 (vedi formule (8) e (9) confrontati con la percentuale di prodotti attesi sul
totale delle Università. I valori di IRFS1 e IRFS2 si riferiscono ai pesi di Area w proposti nell’ultima
tabella dell’Appendice D . I valori di α e β per il calcolo di IRFS2 (vedi formula (9)) sono 0.95 e 0.05
rispettivamente. In rosso i valori inferiori alla percentuale di prodotti attesi, in verde i valori
superiori.

VQR:
RAPPORTO

FINALE
PARTE
I

(TABELLA
6.10a)

Università

Prodotti
attesi

% Prodotti attesi
sul totale ENTI

IRFS1 x100
16 aree

Firenze

5.311

3,45123

3,67071

Roma Tre

2.349

1,52644

1,36813

Perugia

2.962

1,92479

2,06630

Roma Tor Vergata

3.945

2,56357

2,53531

Pisa

4.291

2,78841

2,80840

Modena e Reggio Emilia

2.221

1,44327

1,47937

Calabria (Arcavacata di Rende)

2.156

1,40103

1,39103

Parma

2.618

1,70125

1,70396

In maniera erronea, si è creata confusione. Era di
più facile comprensione per la stampa. [...] Essere
primo, secondo o terzo in queste classifiche non
conta nulla a meno che il ministro decida di dare
tutti i fondi ai primi cinque atenei. Ma io credo che ci
sarà un uso saggio della ripartizione.
il Manifesto, 26 luglio 2013

«Delle due valutazioni abbiamo scelto di dare ai
giornalisti quella che usa l’indicatore più semplice,
non contestabile». L’altra, quella contenuta solo nel
rapporto, si basa invece su «indicatori poco definiti»
e quindi esposti a critiche. «Non c’è stato alcun
trucco», sottolinea Benedetto.
Università, il bluff della classifica ANVUR , Secolo
XIX, 26 luglio 2013

Intermezzo
ar<s<co

Daniele
da
Volterra
deho
“Braghehone”

e
il
Giudizio
Universale
della
Sis>na

Torniamo
ad
argomen<

meno
sublimi

La
“legge
dell’imbuto”

Messina
meglio
di
Milano
Politecnico?

Area
8b:
Architehura

Area
9:

Ingegneria
Industriale
e
dell’informazione

È
possibile
confrontare
struOure
di

dimensioni
eterogenee?

La
“legge
dell’imbuto”

“Lasciamo alla fantasia dei
lettori la definizione della
forma dei grafici, ma sembra
che in tutte le aree vi sia una
forte
dispersione
della
qualità, anche per gli atenei
di maggiori dimensione [...] Il
caso non ha dunque nulla a
che fare con i risultati della
Vqr”

S. Benedetto e R. Torrini
http://www.lavoce.info/unavalutazione-molto-chiara/

Ogni
giudizio
universale

(VQR
inclusa)
è
des<nato

ad
avere
i
suoi
“BragheOoni”

Per
nascondere
gli
imbu<,

BenedeOo
e
Torrini
hanno

“bragheOato”
le
sedi
piccole

et
voilà
...
l’imbuto
non
c’è
più

Come
<
cambio
le
classiﬁche

giocando
sulle
demarcazioni

dei
segmen<
dimensionali

PICCOLE

MEDIE

GRANDI

I
SEGMENTI
DIMENSIONALI
DEL
RAPPORTO
FINALE

COME
RIPORTATI
NELLE
Tabelle
7.3a-‐7.3d

DA “MEDIE” NEL
RAPPORTO FINALE,
DIVENTANO “GRANDI”
PER LA STAMPA

DA “MEDIE” NEL
RAPPORTO FINALE,
DIVENTANO “PICCOLE”
PER LA STAMPA

La
classiﬁca
delle
“università
al
top”

VERSIONE
PER

LA
STAMPA

VERSIONE

ORIGINALE

RE-‐RANKED
BY

FOR

Gli
errori
architeOurali
della
VQR

•  La
confusione
tra
progeks<
dei
criteri
e

valutatori

•  La
confusione
tra
eccellenza
scien<ﬁca
e

competenza
nel
ges>re
e
condurre
processi

divalutazione

•  La
mancanza
di
tempo
e
trasparenza
nella

deﬁnizione
dei
criteri
bibliometrici

Problemi
bibliometrici
della
VQR

•  Cade
l’uniformità
del
metro
di
giudizio
bibliometrico

dentro
le
aree

•  Il
mix
bibliometria/peer
review
introduce
ulteriori

disuniformità

•  Procedura
contorta
che
mehe
in
crisi
i
singoli
e
le

struhure
nella
selezione
dei
prodo[
migliori

•  Conseguenza:
risulta>
inaﬃdabili
e
spreco
di
risorse

(e
credibilità)

•  Chi
sta
remando
contro
la
valutazione
(seria)?

Capitolo
4

Le
verità

nascoste

Un
ANVUR
tecnicamente

inadeguata:
perché?

SERGIO BENEDETTO
(CONSIGLIO DIRETTIVO ANVUR)

4–02-2012!

il
ministro,
per
nascondere
la
sua
le4era,
era
ricorso

all’espediente
più
ingegnoso
che
si
possa
concepire
da

mente
umana,
il
quale
consisteva
addiri4ura
nel
non

tentare
aﬀa4o
di
nasconderla

E.A.
Poe

SPESA IN RICERCA E SVILUPPO (% PIL)

ITALIA

SPESA R&D (COME % DEL PIL) NEL SETTORE
DI IMPIEGO “ISTRUZIONE SUPERIORE”
0,6

0,5

France

0,4

Germany

Italy

0,3

Japan

UK

0,2

USA

0,1

China

0

2006

2007

FONTE: OECD

2008

2009

2010

RICERCATORI PER MILLE UNITÀ DI FORZA LAVORO

ITALIA

PUBBLICAZIONI (WoS)
100000

90000

80000

70000

Regno
Unito

60000

Giappone

Germania

Francia

50000

Canada

Italia

40000

Spagna

30000

Olanda

20000

Svezia

Svizzera

10000

0

1985

1990

1995

2000

2005

2010

8

7

PUBBLICAZIONI 2004-2010:
CRESCITA MEDIA ANNUA (%)

6

5

4

3

2

1

0

-‐1

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2)
(dati ISI Web of Knowledge, Thomson-Reuters)
http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

6000000

5000000

4000000

PUBBLICAZIONI 2004-2010:
NUMERO DI CITAZIONI

3000000

2000000

1000000

0


n.#pubblicazioni#(2010)#per#unità#di#spesa#pubblica#in#R&S#

9"
8"

6"
5"
4"
3"
2"
1"

US
A"
Gi
ap
po
ne
"

"
na
Ci

"
Au
st
ra
lia
"
Ca
na
da
"
Fr
an
cia
"
Ge
rm
an
Co
ia
re
"
a"d
el
"Su
d"
Ru
ss
ia
"

an
da

"
Ol

na

"

Sp
ag

Ita
lia

ze
Re
ra
"
gn
o"
Un
ito
"
Sv
ez
ia
"

0"

Sv
iz

# papers/million USD (PPP)

7"


n.#citazioni#(ar,coli#2004)#per#unità#di#spesa#pubblica#in#R&S#
300"

200"
150"
100"
50"

na
"
Ci

US
A"
Fr
an
Co
cia
re
"
a"d
el
"Su
d"
Gi
ap
po
ne
"
Ru
ss
ia
"

ze
Re
ra
"
gn
o"
Un
ito
"
Sv
ez
ia
"
Ol
an
da
"
Au
st
ra
lia
"
Sp
ag
na
"
Ca
na
da
"
Ita
lia
"
Ge
rm
an
ia
"

0"

Sv
iz

# cites/million USD (PPP)

250"


Numero'di'pubblicazioni'per'ricercatore'se3ore'pubblico'(Amministrazione'
centrale,'Istruzione'superiore'e'se3ore'no'proﬁt)':'2010'
1,4"
1,2"
1"
0,8"
0,6"
0,4"
0,2"

"
na
Ci

US
A"
Sv
ez
ia
Ca "
na
da
"
Ita
Co
li
re
a"d a"
el
"Su
d"
Fr
an
cia
Ge
"
rm
an
Re
ia
gn
"
o"
Un
ito
"
Au
st
ra
lia
"
Sp
ag
na
Gi
ap "
po
ne
"
Ru
ss
ia
"

"
da

an

Ol

Sv
iz

ze
ra
"

0"


Cosa
dicono
i
confron<

internazionali?

•  L’Italia
è
tra
i
paesi
che
investono
meno
in

ricerca
e
sviluppo
...

•  ..
ma
tra
quelli
la
cui
produzione
ed
impaho

crescevano
più
rapidamente

•  Eﬃcienza
superiore
a
Germania,
Francia
e

Giappone

•  La
“stregoneria”
bibliometrica
e
valuta>va
non

trova
gius>ﬁcazione
in
un
presunto
“stato
di

eccezione”

Capitolo
5

Che
fare?

A
parte
gli
scherzi,
che
fare?

•  Semplice:
seguire
le
indicazioni
dell’ANVUR!

•  Ci
sono
due
ques>oni
chiave

1.  Valutazione
interdipar>mentale
della
ricerca

ﬁnalizzata
al
riparto
intra-‐ateneo

2.  Valutazione
intra-‐dipar>mento

Valutazione
inter-‐dipar<mentale

•  Senza
Santo
Graal
(pesi
assegna>
alle
diverse

aree)
il
MIUR
non
può
assegnare
la
quota

premiale

•  ANVUR:
trovare
il
Graal
è
un
aho
poli>co
che

speha
al
ministro

•  Aspehare
che
Parsifal-‐Carrozza
esponga
il

Graal
e
applicare
gli
stessi
pesi
nell’ateneo

Valutazione
intra-‐dipar<mentale

Last
but
not
least,
l’ANVUR
so4olinea
che
i
risultaD
della
VQR

non
possono
e
non
devono
essere
uDlizzaD
per
valutare
i
singoli

soggei.
I
moPvi
sono
molteplici,
e
qui
ne
ciPamo
alcuni

rilevanP:
la
scelta
dell’associazione
prodoi-‐soggei
valutaP,

de4ata
dall’oimizzazione
del
risultato
di
stru4ura
e
non
del

singolo
sogge4o,
la
richiesta
di
conferire
solo
tre
prodoi
di

ricerca
pubblicaP
in
se4e
anni,
che
cosPtuiscono
in
molP
se4ori

della
scienza
un’immagine
della
produzione
complessiva
dei

singoli
soggei
molto
parziale,
la
non
considerazione
del

contributo
individuale
al
prodo4o
nel
caso
di
presenza
di

coautori,
e,
inﬁne,
l’uPlizzo
di
metodi
di
valutazione
la
cui
validità

dipende
fortemente
dalla
dimensione
del
gruppo
di
ricerca
cui

sono
applicaP.

Relazione
Finale
VQR
–
Parte
Prima,
pag.
9

Grazie
per
l’ahenzione!

Vqr maneggiare con cura

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (17)

Más de Giuseppe De Nicolao

Más de Giuseppe De Nicolao (20)

Último

Último (11)

Vqr maneggiare con cura