1. Ranking de articulos cient´ıficos
Batista, Gonz´alez, Toglia
Universidad Central de Venezuela
T´opicos avanzados en Ciencia de Datos
August 4, 2015
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 1 / 36
2. Contenido
1 Antecedentes
2 M´etricas
3 How popular is your paper?
4 Principales enfoques
PageRank
CiteRank
NonlinearRank
TimeRank
5 Conclusiones
”...More work is urgently needed
on the problem of determining
whether there is a probability
that the more a paper is cited the
more likely it is to be cited
thereafter. It seems to me that
further work in this area might
well lead to the discovery that
classic papers...”
Derek J. de Solla Price (1965)
Network of Scientific Papers
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 2 / 36
3. Antecedentes
Antecedentes
Gross
”...What files of scientific periodicals are needed in a collegue library
successfully to prepare the student for advanced work?...”1
1
P. L. K. Gross, E. M. Gross (1927)
College libraries and Chemical education
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 3 / 36
4. Antecedentes
Antecedentes
Garfield
”...From these data it can be
calculated that 95% were
cited one to three times....”
E. Garfield and I. H. Sher (1962)
New Factors in the Evaluation of
Scientific Literature, Through
Citation Indexing
Figure: Porcentaje de referencias en
aprox. 326,000 citas vs. n´umero de
veces citado.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 4 / 36
5. Antecedentes
Antecedentes
Price
”...First let me say something of the incidence of of reference in serial
publications. On the average, there are about 15 reference per paper...”
Derek J. de Solla Price (1965) Network of Scientific Papers
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 5 / 36
6. Antecedentes
Antecedentes
Price
Otras caracter´ısticas:
Para n grande el n´umero de art´ıculos citados parece decrecer a n2.5 o
n3.0
El mayor alcance de un art´ıculo termina m´aximo a 10 a˜nos de su
publicaci´on.
Los art´ıculos mas citados son mas recientes que los menos citados.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 6 / 36
8. M´etricas
M´etricas
Indicadores a nivel de revistas cient´ıficas
A nivel de Revistas Cient´ıficas:
Impact Factor
Cada a˜no, el impact factor de una revistas cient´ıfica se calcula como el
promedio del n´umero de citas recibidas por paper publicado durante los
dos a˜nos anteriores.
Eigenfactor
Inspirado en PageRank, calcula la importancia de las revistas cient´ıficas
considerando el n´umero de citas entrantes. Las citas que provienen de
revistas importantes pesan m´as comparadas con aquellas que provienen de
revistas menos importantes.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 8 / 36
9. M´etricas
M´etricas
Indicadores a nivel de investigadores
A nivel de Investigadores:
h - index
Un cient´ıfico tiene un h-index h si h de sus N papers tienen al menos h
citas cada uno, y los otros (N-h) papers no tienen mas de h citas cada
uno.
g - index
Dado un conjunto de papers ordenados decrecientemente por el n´umero de
citas recibidas, el g-index es el n´umero mayor considerando que los
primeros g papers recibieron en conjunto al menos g2 citas.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 9 / 36
10. M´etricas
M´etricas
Indicadores alternativos
A nivel de Art´ıculos Cient´ıficos (alt-metrics):
M´etricas alternativas
Son m´etricas no tradicionales basadas principalmente en el n´umero de
vistas HTML, descargas, comentarios, tweets, recomendaciones y de m´as
data proveniente del social media.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 10 / 36
11. How popular is your paper?
How popular is your paper?
Motivaci´on
Basada en las publicaciones de los 1120 f´ısicos mas citados para la ´epoca
de 1981 hasta junio de 1997
Estudio empir´ıco basado en :
1) Ley de Zipf.
A partir de esta ley y en sus gr´aficos se hallaron todas las relaciones.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 11 / 36
12. How popular is your paper?
How popular is your paper?
Motivaci´on
2) Distribuci´on log-normal .
La distribuci´on de citas esta descrita por una ley de potencias con α = 3 .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 12 / 36
13. Principales enfoques PageRank
PageRank
Motivaci´on
¿Podemos determinar qu´e tan influyente es una publicaci´on bas´andonos
´unicamente en el n´umero de citas recibidas?
Existen dos problemas evidentes con este m´etodo:
1) No todas las citas son iguales.
Al tratar a todas las citas como iguales, se ignora la importancia de la
publicaci´on que realiza la cita.
2) Es injusto con las nuevas publicaciones.
Las publicaciones m´as antiguas siempre tendr´an m´as citas entrantes que
las publicaciones m´as j´ovenes.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 13 / 36
14. Principales enfoques PageRank
PageRank
Una nueva alternativa
PageRank3, simulando el tr´afico aleatorio en una red de citas, calcula la
importancia de las publicaciones considerando dos factores importantes:
1) No todas las citas son iguales.
El efecto de recibir una cita de una publicaci´on importante es mayor que
el de recibir una cita de una publicaci´on menos popular.
2) Aporte equitativo entre el n´umero de referencias.
El efecto de recibir una cita de una publicaci´on que posee una larga lista
de referencias, es menor al de recibir una cita de una publicaci´on con una
lista corta de referencias.
3
Finding scientific gems with Google’s PageRank algorithm. (Junio 2006).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 14 / 36
15. Principales enfoques PageRank
PageRank
Ajustando par´ametros
Google PageRank:
Gi = (1 − d)
j nn i
Gi
kj
+
d
N
Web: d = 1/6 0.15
Red de citas: d = 1/2 0.5
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 15 / 36
16. Principales enfoques PageRank
PageRank
Resultados
Figure: Izquierda. N´umero Google promedio G(k) vs n´umero de citas k.
Derecha. Publicaciones individuales at´ıpicas.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 16 / 36
17. Principales enfoques PageRank
PageRank
Resultados
Figure: Top - 10 de las publicaciones de la familia de journals Physical Review
[1893-2003] usando PageRank (d = 0.5).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 17 / 36
18. Principales enfoques PageRank
PageRank
Conclusiones
Mecanismos basados en el algoritmo PageRank proveen una
extensi´on significativa a los m´etodos tradicionales para cuantificar el
impacto de las publicaciones cient´ıficas.
PageRank resulta ´util para encontrar publicaciones importantes a lo
largo del tiempo, por lo que se le considera como un “Premio a la
Trayectoria”.
Son necesarios mecanismos ´utiles para calcular el impacto de las
publicaciones cient´ıficas recientes para poder determinar que
direcci´on est´a tomando un cada campo de investigaci´on espec´fico.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 18 / 36
19. Principales enfoques CiteRank
CiteRank
Motivaci´on
Existen notables diferencias entre la web y las redes de citas que sugieren
que el algoritmo PageRank debe ser modificado para cumplir con el
objetivo. Entre las cuales destacan:
1) Las citas no pueden ser modificadas despu´es de la publicaci´on.
En consecuencia, el efecto de envejecimiento en las redes de citas son
m´as pronunciados que en la web.
2) Un paper solo puede citar publicaciones anteriores.
El car´aracter lineal del tiempo presente en la topolog´ıa de las redes de
citas altera las propiedades de la matriz de adyacencia.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 19 / 36
21. Principales enfoques CiteRank
CiteRank
Motivaci´on
3) Un “cient´ıfico” caminante aleatorio no comienza su investigaci´on en
una publicaci´on cualquiera seleccionada aleatoriamente.
Los investigadores t´ıpicamente comienzan a navegar entre publicaciones
cientif´ıcas desde una publicaci´on reciente que atrapa su atenci´on.
CiteRank4: modelo de tr´afico sobre redes de citas que simula la
din´amica de un gran n´umero de investigadores buscando nueva
informaci´on.
“Cada investigador, independientemente, se asume que comienza su
investigaci´on desde un paper reciente y luego sigue una cadena de citas
hasta estar satisfecho”.
4
Ranking Scientific Publications Using a Simple Model of Network Traffic.
(Diciembre 2006).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 21 / 36
22. Principales enfoques CiteRank
CiteRank
Modelo y F´ormula
Par´ametros del modelo:
Ti = (τdir , α)
Ti = tr´afico sobre un paper espec´ıfico i.
τdir = edad promedio del paper inicial.
α = probabilidad de que el investigador se detenga.
Tr´afico sobre un paper espec´ıfico (CiteRank) se define como:
La probabilidad de encontrarlo en una cadena de citas de cualquier
longitud.
T = I · p + (1 − α)W · p + (1 − α)2
W 2
· p + ...
Wij = matriz de adyacencia.
pi = probabilidad iniciar la investigaci´on en el iesimo paper.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 22 / 36
23. Principales enfoques CiteRank
CiteRank
C´alculo del CiteRank
Figure: CiteRank y el “cient´ıfico” caminante aleatorio.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 23 / 36
27. Principales enfoques CiteRank
CiteRank
Conclusiones
La investigaci´on cient´ıfica se basa en los avances recientes. Los
cient´ıficos no comienzan sus b´usquedas revisando una publicaci´on
antigua, por lo que no tiene sentido modelar el tr´afico de las redes de
citas en la forma en la que lo hace PageRank.
CiteRank pareciera ser m´as adecuado para el desarrollo de
investigaciones cient´ıficas puesto que proporciona un modelo de
difusi´on del tr´afico en las redes de citas que resulta m´as ´util.
Desde el punto de vista matem´atico, CiteRank es un modelo m´as
simple en comparaci´on con PageRank. Lo que tiene sentido si
consideramos que las redes de citas poseen un comportamiento menos
complejo que la web.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 27 / 36
28. Principales enfoques NonlinearRank
El efecto de la no linealidad
Motivaci´on
Es una generalizaci´on del m´etodo de PageRank.
Al utilizar la funci´on ra´ız permite :
1) Citaci´on de publicaciones.
Las publicaciones que obtengan citas de publicaciones con una puntuaci´on
alta obtendr´a una puntuaci´on alta ,Si la publicaci´on tiene muchas
referencias de publicaciones con baja puntuaci´on esto NO aumenta su
puntuaci´on .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 28 / 36
29. Principales enfoques NonlinearRank
El efecto de la no linealidad
Motivaci´on
2) Generalizaci´on del PageRank.
Tomando como par´ametro θ = 0 obtenemos PageRank
si (t) =
c + (1 − c) N
j=1
Aij
(k)out
j
(1 − δ(k)out
j,0
)(
sj (t−1)
k)out
j,0
)θ+1)
1
θ+1 + 1
N δ(k)out
j,0
sj (t − 1) .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 29 / 36
30. Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
”...In this paper, we introduce a new approach for ranking scientific
articles. We provide a framework of exploiting differ- ent kinds of
information (including but not restricted to cita- tions, authors, and
journals/conferences) in a heterogeneous network, which benefits from the
PageRank and HITS algorithm collaboratively to estimate the articles
future prestige.”5
5
Yujing Wang, Yunhai Tong Ming Zeng (2013)
Ranking Scientific Articles by Exploiting Citations,
Authors, Journals, and Time Information
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 30 / 36
31. Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
Figure: ejemplo de la red propuesta
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 31 / 36
32. Principales enfoques TimeRank
Time information in Ranking I
Yujing Wang, Yunhai Tong Ming Zeng
Algoritmo propuesto
1 Iniciar el authorative score de los art´ıculos en 1
N p donde N p es el
n´umero total de art´ıculos en la colecci´on
2 Calcular el hub score de los autores en la red art´ıculos-autores.
3 Calcular el hub score de los journal/conferencias por la red de
articulo-journal.
4 Calcular el hub score de los art´ıculos por la red de referencias.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 32 / 36
33. Principales enfoques TimeRank
Time information in Ranking II
Yujing Wang, Yunhai Tong Ming Zeng
5 Actualizar el Authority score de los art´ıculos, usando cinco tipos de
informaci´on, i.e., el PageRank score propagado de las citas, el puntaje
definido de los autores, el puntaje de journals/conferencias, el puntaje
de los art´ıculos hubs, y el puntaje de tiempo calculado por la fecha de
publicaci´on.
6 Iterar desde el paso 2 al 5 hasta que convergan los
puntajes(experimentalmente la convergencia se considera cuando la
diferencia entre los puntajes es menor a 0.0001)
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 33 / 36
34. Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
Data Set Fixed settings Best setting FutureRank CiteRank P-rank
Arxiv 0.7065 0.7093 0.6445 0.6451 0.4635
Cora 0.3931 0.3994 0.3649 0.3682 0.2952
Table: Resultados respecto al TimeRank
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 34 / 36