SlideShare una empresa de Scribd logo
1 de 36
Descargar para leer sin conexión
Ranking de articulos cient´ıficos
Batista, Gonz´alez, Toglia
Universidad Central de Venezuela
T´opicos avanzados en Ciencia de Datos
August 4, 2015
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 1 / 36
Contenido
1 Antecedentes
2 M´etricas
3 How popular is your paper?
4 Principales enfoques
PageRank
CiteRank
NonlinearRank
TimeRank
5 Conclusiones
”...More work is urgently needed
on the problem of determining
whether there is a probability
that the more a paper is cited the
more likely it is to be cited
thereafter. It seems to me that
further work in this area might
well lead to the discovery that
classic papers...”
Derek J. de Solla Price (1965)
Network of Scientific Papers
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 2 / 36
Antecedentes
Antecedentes
Gross
”...What files of scientific periodicals are needed in a collegue library
successfully to prepare the student for advanced work?...”1
1
P. L. K. Gross, E. M. Gross (1927)
College libraries and Chemical education
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 3 / 36
Antecedentes
Antecedentes
Garfield
”...From these data it can be
calculated that 95% were
cited one to three times....”
E. Garfield and I. H. Sher (1962)
New Factors in the Evaluation of
Scientific Literature, Through
Citation Indexing
Figure: Porcentaje de referencias en
aprox. 326,000 citas vs. n´umero de
veces citado.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 4 / 36
Antecedentes
Antecedentes
Price
”...First let me say something of the incidence of of reference in serial
publications. On the average, there are about 15 reference per paper...”
Derek J. de Solla Price (1965) Network of Scientific Papers
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 5 / 36
Antecedentes
Antecedentes
Price
Otras caracter´ısticas:
Para n grande el n´umero de art´ıculos citados parece decrecer a n2.5 o
n3.0
El mayor alcance de un art´ıculo termina m´aximo a 10 a˜nos de su
publicaci´on.
Los art´ıculos mas citados son mas recientes que los menos citados.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 6 / 36
M´etricas
M´etricas
Proceso Peer-Review 2
2
http://study.com/what-is-peer-review-in-science-definition-process-examples.html
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 7 / 36
M´etricas
M´etricas
Indicadores a nivel de revistas cient´ıficas
A nivel de Revistas Cient´ıficas:
Impact Factor
Cada a˜no, el impact factor de una revistas cient´ıfica se calcula como el
promedio del n´umero de citas recibidas por paper publicado durante los
dos a˜nos anteriores.
Eigenfactor
Inspirado en PageRank, calcula la importancia de las revistas cient´ıficas
considerando el n´umero de citas entrantes. Las citas que provienen de
revistas importantes pesan m´as comparadas con aquellas que provienen de
revistas menos importantes.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 8 / 36
M´etricas
M´etricas
Indicadores a nivel de investigadores
A nivel de Investigadores:
h - index
Un cient´ıfico tiene un h-index h si h de sus N papers tienen al menos h
citas cada uno, y los otros (N-h) papers no tienen mas de h citas cada
uno.
g - index
Dado un conjunto de papers ordenados decrecientemente por el n´umero de
citas recibidas, el g-index es el n´umero mayor considerando que los
primeros g papers recibieron en conjunto al menos g2 citas.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 9 / 36
M´etricas
M´etricas
Indicadores alternativos
A nivel de Art´ıculos Cient´ıficos (alt-metrics):
M´etricas alternativas
Son m´etricas no tradicionales basadas principalmente en el n´umero de
vistas HTML, descargas, comentarios, tweets, recomendaciones y de m´as
data proveniente del social media.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 10 / 36
How popular is your paper?
How popular is your paper?
Motivaci´on
Basada en las publicaciones de los 1120 f´ısicos mas citados para la ´epoca
de 1981 hasta junio de 1997
Estudio empir´ıco basado en :
1) Ley de Zipf.
A partir de esta ley y en sus gr´aficos se hallaron todas las relaciones.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 11 / 36
How popular is your paper?
How popular is your paper?
Motivaci´on
2) Distribuci´on log-normal .
La distribuci´on de citas esta descrita por una ley de potencias con α = 3 .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 12 / 36
Principales enfoques PageRank
PageRank
Motivaci´on
¿Podemos determinar qu´e tan influyente es una publicaci´on bas´andonos
´unicamente en el n´umero de citas recibidas?
Existen dos problemas evidentes con este m´etodo:
1) No todas las citas son iguales.
Al tratar a todas las citas como iguales, se ignora la importancia de la
publicaci´on que realiza la cita.
2) Es injusto con las nuevas publicaciones.
Las publicaciones m´as antiguas siempre tendr´an m´as citas entrantes que
las publicaciones m´as j´ovenes.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 13 / 36
Principales enfoques PageRank
PageRank
Una nueva alternativa
PageRank3, simulando el tr´afico aleatorio en una red de citas, calcula la
importancia de las publicaciones considerando dos factores importantes:
1) No todas las citas son iguales.
El efecto de recibir una cita de una publicaci´on importante es mayor que
el de recibir una cita de una publicaci´on menos popular.
2) Aporte equitativo entre el n´umero de referencias.
El efecto de recibir una cita de una publicaci´on que posee una larga lista
de referencias, es menor al de recibir una cita de una publicaci´on con una
lista corta de referencias.
3
Finding scientific gems with Google’s PageRank algorithm. (Junio 2006).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 14 / 36
Principales enfoques PageRank
PageRank
Ajustando par´ametros
Google PageRank:
Gi = (1 − d)
j nn i
Gi
kj
+
d
N
Web: d = 1/6 0.15
Red de citas: d = 1/2 0.5
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 15 / 36
Principales enfoques PageRank
PageRank
Resultados
Figure: Izquierda. N´umero Google promedio G(k) vs n´umero de citas k.
Derecha. Publicaciones individuales at´ıpicas.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 16 / 36
Principales enfoques PageRank
PageRank
Resultados
Figure: Top - 10 de las publicaciones de la familia de journals Physical Review
[1893-2003] usando PageRank (d = 0.5).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 17 / 36
Principales enfoques PageRank
PageRank
Conclusiones
Mecanismos basados en el algoritmo PageRank proveen una
extensi´on significativa a los m´etodos tradicionales para cuantificar el
impacto de las publicaciones cient´ıficas.
PageRank resulta ´util para encontrar publicaciones importantes a lo
largo del tiempo, por lo que se le considera como un “Premio a la
Trayectoria”.
Son necesarios mecanismos ´utiles para calcular el impacto de las
publicaciones cient´ıficas recientes para poder determinar que
direcci´on est´a tomando un cada campo de investigaci´on espec´fico.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 18 / 36
Principales enfoques CiteRank
CiteRank
Motivaci´on
Existen notables diferencias entre la web y las redes de citas que sugieren
que el algoritmo PageRank debe ser modificado para cumplir con el
objetivo. Entre las cuales destacan:
1) Las citas no pueden ser modificadas despu´es de la publicaci´on.
En consecuencia, el efecto de envejecimiento en las redes de citas son
m´as pronunciados que en la web.
2) Un paper solo puede citar publicaciones anteriores.
El car´aracter lineal del tiempo presente en la topolog´ıa de las redes de
citas altera las propiedades de la matriz de adyacencia.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 19 / 36
Principales enfoques CiteRank
CiteRank
Motivaci´on
Figure: Izquierda. Efecto de envejecimiento. Derecha. Linealidad temporal.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 20 / 36
Principales enfoques CiteRank
CiteRank
Motivaci´on
3) Un “cient´ıfico” caminante aleatorio no comienza su investigaci´on en
una publicaci´on cualquiera seleccionada aleatoriamente.
Los investigadores t´ıpicamente comienzan a navegar entre publicaciones
cientif´ıcas desde una publicaci´on reciente que atrapa su atenci´on.
CiteRank4: modelo de tr´afico sobre redes de citas que simula la
din´amica de un gran n´umero de investigadores buscando nueva
informaci´on.
“Cada investigador, independientemente, se asume que comienza su
investigaci´on desde un paper reciente y luego sigue una cadena de citas
hasta estar satisfecho”.
4
Ranking Scientific Publications Using a Simple Model of Network Traffic.
(Diciembre 2006).
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 21 / 36
Principales enfoques CiteRank
CiteRank
Modelo y F´ormula
Par´ametros del modelo:
Ti = (τdir , α)
Ti = tr´afico sobre un paper espec´ıfico i.
τdir = edad promedio del paper inicial.
α = probabilidad de que el investigador se detenga.
Tr´afico sobre un paper espec´ıfico (CiteRank) se define como:
La probabilidad de encontrarlo en una cadena de citas de cualquier
longitud.
T = I · p + (1 − α)W · p + (1 − α)2
W 2
· p + ...
Wij = matriz de adyacencia.
pi = probabilidad iniciar la investigaci´on en el iesimo paper.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 22 / 36
Principales enfoques CiteRank
CiteRank
C´alculo del CiteRank
Figure: CiteRank y el “cient´ıfico” caminante aleatorio.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 23 / 36
Principales enfoques CiteRank
CiteRank
C´alculo del CiteRank
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 24 / 36
Principales enfoques CiteRank
CiteRank
C´alculo del CiteRank
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 25 / 36
Principales enfoques CiteRank
CiteRank
Resultados
Figure: CiteRank vs PageRank. Calculado sobre todos los papers de la red
PhyRev.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 26 / 36
Principales enfoques CiteRank
CiteRank
Conclusiones
La investigaci´on cient´ıfica se basa en los avances recientes. Los
cient´ıficos no comienzan sus b´usquedas revisando una publicaci´on
antigua, por lo que no tiene sentido modelar el tr´afico de las redes de
citas en la forma en la que lo hace PageRank.
CiteRank pareciera ser m´as adecuado para el desarrollo de
investigaciones cient´ıficas puesto que proporciona un modelo de
difusi´on del tr´afico en las redes de citas que resulta m´as ´util.
Desde el punto de vista matem´atico, CiteRank es un modelo m´as
simple en comparaci´on con PageRank. Lo que tiene sentido si
consideramos que las redes de citas poseen un comportamiento menos
complejo que la web.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 27 / 36
Principales enfoques NonlinearRank
El efecto de la no linealidad
Motivaci´on
Es una generalizaci´on del m´etodo de PageRank.
Al utilizar la funci´on ra´ız permite :
1) Citaci´on de publicaciones.
Las publicaciones que obtengan citas de publicaciones con una puntuaci´on
alta obtendr´a una puntuaci´on alta ,Si la publicaci´on tiene muchas
referencias de publicaciones con baja puntuaci´on esto NO aumenta su
puntuaci´on .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 28 / 36
Principales enfoques NonlinearRank
El efecto de la no linealidad
Motivaci´on
2) Generalizaci´on del PageRank.
Tomando como par´ametro θ = 0 obtenemos PageRank
si (t) =
c + (1 − c) N
j=1
Aij
(k)out
j
(1 − δ(k)out
j,0
)(
sj (t−1)
k)out
j,0
)θ+1)
1
θ+1 + 1
N δ(k)out
j,0
sj (t − 1) .
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 29 / 36
Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
”...In this paper, we introduce a new approach for ranking scientific
articles. We provide a framework of exploiting differ- ent kinds of
information (including but not restricted to cita- tions, authors, and
journals/conferences) in a heterogeneous network, which benefits from the
PageRank and HITS algorithm collaboratively to estimate the articles
future prestige.”5
5
Yujing Wang, Yunhai Tong Ming Zeng (2013)
Ranking Scientific Articles by Exploiting Citations,
Authors, Journals, and Time Information
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 30 / 36
Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
Figure: ejemplo de la red propuesta
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 31 / 36
Principales enfoques TimeRank
Time information in Ranking I
Yujing Wang, Yunhai Tong Ming Zeng
Algoritmo propuesto
1 Iniciar el authorative score de los art´ıculos en 1
N p donde N p es el
n´umero total de art´ıculos en la colecci´on
2 Calcular el hub score de los autores en la red art´ıculos-autores.
3 Calcular el hub score de los journal/conferencias por la red de
articulo-journal.
4 Calcular el hub score de los art´ıculos por la red de referencias.
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 32 / 36
Principales enfoques TimeRank
Time information in Ranking II
Yujing Wang, Yunhai Tong Ming Zeng
5 Actualizar el Authority score de los art´ıculos, usando cinco tipos de
informaci´on, i.e., el PageRank score propagado de las citas, el puntaje
definido de los autores, el puntaje de journals/conferencias, el puntaje
de los art´ıculos hubs, y el puntaje de tiempo calculado por la fecha de
publicaci´on.
6 Iterar desde el paso 2 al 5 hasta que convergan los
puntajes(experimentalmente la convergencia se considera cuando la
diferencia entre los puntajes es menor a 0.0001)
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 33 / 36
Principales enfoques TimeRank
Time information in Ranking
Yujing Wang, Yunhai Tong Ming Zeng
Data Set Fixed settings Best setting FutureRank CiteRank P-rank
Arxiv 0.7065 0.7093 0.6445 0.6451 0.4635
Cora 0.3931 0.3994 0.3649 0.3682 0.2952
Table: Resultados respecto al TimeRank
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 34 / 36
Conclusiones
Discusi´on
Preguntas o comentarios?
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 35 / 36
Conclusiones
Agradecimientos
Gracias!
Presentaci´on
bit.do/RankingPre
C´odigo
bit.do/RankingCode
Art´ıculo
bit.do/RankingArt
Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 36 / 36

Más contenido relacionado

Similar a SciPaperRanking

Consideraciones sobre métricas alternativas en documentación científica
Consideraciones sobre métricas alternativas en documentación científicaConsideraciones sobre métricas alternativas en documentación científica
Consideraciones sobre métricas alternativas en documentación científicaFlor Trillo
 
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...Nieves Gonzalez
 
Reputacion e identidad digital del investigador
Reputacion e identidad digital del investigadorReputacion e identidad digital del investigador
Reputacion e identidad digital del investigadorJulio Alonso Arévalo
 
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...Javier González de Dios
 
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...Antonio García Romero, Ph.D.
 
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...Torres Salinas
 
Todo suma: una cita, un lector, una mención, un tuit...
Todo suma: una cita, un lector, una mención, un tuit...Todo suma: una cita, un lector, una mención, un tuit...
Todo suma: una cita, un lector, una mención, un tuit...Nieves Gonzalez
 
Factor de impacto de las revistas académicas
Factor de impacto de las revistas académicasFactor de impacto de las revistas académicas
Factor de impacto de las revistas académicasdmdiazc
 
Factor de impacto de las revistas académicas
Factor de impacto de las revistas académicasFactor de impacto de las revistas académicas
Factor de impacto de las revistas académicasSarita Rendón
 
Bitácora del investigador para alfabetización en información
Bitácora del investigador para alfabetización en información Bitácora del investigador para alfabetización en información
Bitácora del investigador para alfabetización en información Julio Alonso Arévalo
 
PROCESO DE INVESTIGACIÓN
PROCESO DE INVESTIGACIÓNPROCESO DE INVESTIGACIÓN
PROCESO DE INVESTIGACIÓNDiana Sabando
 
Intro marco conceptual referencias bibl.ppt
Intro marco  conceptual referencias bibl.pptIntro marco  conceptual referencias bibl.ppt
Intro marco conceptual referencias bibl.pptDenisse Arquero Suárez
 

Similar a SciPaperRanking (20)

Consideraciones sobre métricas alternativas en documentación científica
Consideraciones sobre métricas alternativas en documentación científicaConsideraciones sobre métricas alternativas en documentación científica
Consideraciones sobre métricas alternativas en documentación científica
 
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...
Bibliotecarios atendiendo altmetrics. Lo que no cuentan las métricas tradicio...
 
Trends in bibliometrics
Trends in bibliometricsTrends in bibliometrics
Trends in bibliometrics
 
Reputacion e identidad digital del investigador
Reputacion e identidad digital del investigadorReputacion e identidad digital del investigador
Reputacion e identidad digital del investigador
 
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...
Bibliometría e indicadores de actividad científica (IV) factor de impacto e i...
 
Dora
DoraDora
Dora
 
Articulo Cientifico
Articulo CientificoArticulo Cientifico
Articulo Cientifico
 
Futuro de las Revistas Científicas
Futuro de las Revistas CientíficasFuturo de las Revistas Científicas
Futuro de las Revistas Científicas
 
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...
Marzo '14: Evaluación de la Investigación. Master en Gestión de I+D (Escuela ...
 
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...
Introducción práctica a la Comunicación y Evaluación de la Ciencia para profe...
 
Todo suma: una cita, un lector, una mención, un tuit...
Todo suma: una cita, un lector, una mención, un tuit...Todo suma: una cita, un lector, una mención, un tuit...
Todo suma: una cita, un lector, una mención, un tuit...
 
Factor de impacto de las revistas académicas
Factor de impacto de las revistas académicasFactor de impacto de las revistas académicas
Factor de impacto de las revistas académicas
 
Factor de impacto de las revistas académicas
Factor de impacto de las revistas académicasFactor de impacto de las revistas académicas
Factor de impacto de las revistas académicas
 
Emilio Delgado Lopez-Cozar Clarosocuros de la evaluación científica en España...
Emilio Delgado Lopez-Cozar Clarosocuros de la evaluación científica en España...Emilio Delgado Lopez-Cozar Clarosocuros de la evaluación científica en España...
Emilio Delgado Lopez-Cozar Clarosocuros de la evaluación científica en España...
 
Emilio delgado lopez cozar indicadores de calidad de las publicaciones cientí...
Emilio delgado lopez cozar indicadores de calidad de las publicaciones cientí...Emilio delgado lopez cozar indicadores de calidad de las publicaciones cientí...
Emilio delgado lopez cozar indicadores de calidad de las publicaciones cientí...
 
Bitácora del investigador para alfabetización en información
Bitácora del investigador para alfabetización en información Bitácora del investigador para alfabetización en información
Bitácora del investigador para alfabetización en información
 
PROCESO DE INVESTIGACIÓN
PROCESO DE INVESTIGACIÓNPROCESO DE INVESTIGACIÓN
PROCESO DE INVESTIGACIÓN
 
Búsqueda de información confiable
Búsqueda de información confiableBúsqueda de información confiable
Búsqueda de información confiable
 
Intro marco conceptual referencias bibl.ppt
Intro marco  conceptual referencias bibl.pptIntro marco  conceptual referencias bibl.ppt
Intro marco conceptual referencias bibl.ppt
 
Clacso en 3er congreso redalyc 2018
Clacso en 3er congreso redalyc 2018Clacso en 3er congreso redalyc 2018
Clacso en 3er congreso redalyc 2018
 

Más de Wilmer Gonzalez

Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...
Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...
Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...Wilmer Gonzalez
 
Reproducible research a case of study on allocation of university places
Reproducible research a case of study on allocation of university placesReproducible research a case of study on allocation of university places
Reproducible research a case of study on allocation of university placesWilmer Gonzalez
 
Twitter a data source for the academy
Twitter a data source for the academyTwitter a data source for the academy
Twitter a data source for the academyWilmer Gonzalez
 
Github social coding, the social network for programmers
Github social coding, the social network for programmersGithub social coding, the social network for programmers
Github social coding, the social network for programmersWilmer Gonzalez
 
(UCV - 6325) Search algorithms
(UCV - 6325) Search algorithms(UCV - 6325) Search algorithms
(UCV - 6325) Search algorithmsWilmer Gonzalez
 
(UCV - 6325) Introduction to artificial intelligence
(UCV - 6325) Introduction to artificial intelligence(UCV - 6325) Introduction to artificial intelligence
(UCV - 6325) Introduction to artificial intelligenceWilmer Gonzalez
 
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDB
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDBBases de datos NoSQL Multi-Modelos, caso de estudio: OrientDB
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDBWilmer Gonzalez
 

Más de Wilmer Gonzalez (7)

Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...
Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...
Adopción de la Inteligencia Artificial en el emprendimiento como evolución de...
 
Reproducible research a case of study on allocation of university places
Reproducible research a case of study on allocation of university placesReproducible research a case of study on allocation of university places
Reproducible research a case of study on allocation of university places
 
Twitter a data source for the academy
Twitter a data source for the academyTwitter a data source for the academy
Twitter a data source for the academy
 
Github social coding, the social network for programmers
Github social coding, the social network for programmersGithub social coding, the social network for programmers
Github social coding, the social network for programmers
 
(UCV - 6325) Search algorithms
(UCV - 6325) Search algorithms(UCV - 6325) Search algorithms
(UCV - 6325) Search algorithms
 
(UCV - 6325) Introduction to artificial intelligence
(UCV - 6325) Introduction to artificial intelligence(UCV - 6325) Introduction to artificial intelligence
(UCV - 6325) Introduction to artificial intelligence
 
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDB
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDBBases de datos NoSQL Multi-Modelos, caso de estudio: OrientDB
Bases de datos NoSQL Multi-Modelos, caso de estudio: OrientDB
 

Último

Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3AlexysCaytanoMelndez1
 
Manual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfManual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfmasogeis
 
Unidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionUnidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionarmando_cardenas
 
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOPARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOSelenaCoronadoHuaman
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Opentix
 
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...ITeC Instituto Tecnología Construcción
 
Introducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTERIntroducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTEREMMAFLORESCARMONA
 

Último (7)

Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3
 
Manual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfManual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdf
 
Unidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionUnidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacion
 
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOPARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200
 
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
 
Introducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTERIntroducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTER
 

SciPaperRanking

  • 1. Ranking de articulos cient´ıficos Batista, Gonz´alez, Toglia Universidad Central de Venezuela T´opicos avanzados en Ciencia de Datos August 4, 2015 Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 1 / 36
  • 2. Contenido 1 Antecedentes 2 M´etricas 3 How popular is your paper? 4 Principales enfoques PageRank CiteRank NonlinearRank TimeRank 5 Conclusiones ”...More work is urgently needed on the problem of determining whether there is a probability that the more a paper is cited the more likely it is to be cited thereafter. It seems to me that further work in this area might well lead to the discovery that classic papers...” Derek J. de Solla Price (1965) Network of Scientific Papers Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 2 / 36
  • 3. Antecedentes Antecedentes Gross ”...What files of scientific periodicals are needed in a collegue library successfully to prepare the student for advanced work?...”1 1 P. L. K. Gross, E. M. Gross (1927) College libraries and Chemical education Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 3 / 36
  • 4. Antecedentes Antecedentes Garfield ”...From these data it can be calculated that 95% were cited one to three times....” E. Garfield and I. H. Sher (1962) New Factors in the Evaluation of Scientific Literature, Through Citation Indexing Figure: Porcentaje de referencias en aprox. 326,000 citas vs. n´umero de veces citado. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 4 / 36
  • 5. Antecedentes Antecedentes Price ”...First let me say something of the incidence of of reference in serial publications. On the average, there are about 15 reference per paper...” Derek J. de Solla Price (1965) Network of Scientific Papers Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 5 / 36
  • 6. Antecedentes Antecedentes Price Otras caracter´ısticas: Para n grande el n´umero de art´ıculos citados parece decrecer a n2.5 o n3.0 El mayor alcance de un art´ıculo termina m´aximo a 10 a˜nos de su publicaci´on. Los art´ıculos mas citados son mas recientes que los menos citados. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 6 / 36
  • 8. M´etricas M´etricas Indicadores a nivel de revistas cient´ıficas A nivel de Revistas Cient´ıficas: Impact Factor Cada a˜no, el impact factor de una revistas cient´ıfica se calcula como el promedio del n´umero de citas recibidas por paper publicado durante los dos a˜nos anteriores. Eigenfactor Inspirado en PageRank, calcula la importancia de las revistas cient´ıficas considerando el n´umero de citas entrantes. Las citas que provienen de revistas importantes pesan m´as comparadas con aquellas que provienen de revistas menos importantes. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 8 / 36
  • 9. M´etricas M´etricas Indicadores a nivel de investigadores A nivel de Investigadores: h - index Un cient´ıfico tiene un h-index h si h de sus N papers tienen al menos h citas cada uno, y los otros (N-h) papers no tienen mas de h citas cada uno. g - index Dado un conjunto de papers ordenados decrecientemente por el n´umero de citas recibidas, el g-index es el n´umero mayor considerando que los primeros g papers recibieron en conjunto al menos g2 citas. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 9 / 36
  • 10. M´etricas M´etricas Indicadores alternativos A nivel de Art´ıculos Cient´ıficos (alt-metrics): M´etricas alternativas Son m´etricas no tradicionales basadas principalmente en el n´umero de vistas HTML, descargas, comentarios, tweets, recomendaciones y de m´as data proveniente del social media. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 10 / 36
  • 11. How popular is your paper? How popular is your paper? Motivaci´on Basada en las publicaciones de los 1120 f´ısicos mas citados para la ´epoca de 1981 hasta junio de 1997 Estudio empir´ıco basado en : 1) Ley de Zipf. A partir de esta ley y en sus gr´aficos se hallaron todas las relaciones. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 11 / 36
  • 12. How popular is your paper? How popular is your paper? Motivaci´on 2) Distribuci´on log-normal . La distribuci´on de citas esta descrita por una ley de potencias con α = 3 . Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 12 / 36
  • 13. Principales enfoques PageRank PageRank Motivaci´on ¿Podemos determinar qu´e tan influyente es una publicaci´on bas´andonos ´unicamente en el n´umero de citas recibidas? Existen dos problemas evidentes con este m´etodo: 1) No todas las citas son iguales. Al tratar a todas las citas como iguales, se ignora la importancia de la publicaci´on que realiza la cita. 2) Es injusto con las nuevas publicaciones. Las publicaciones m´as antiguas siempre tendr´an m´as citas entrantes que las publicaciones m´as j´ovenes. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 13 / 36
  • 14. Principales enfoques PageRank PageRank Una nueva alternativa PageRank3, simulando el tr´afico aleatorio en una red de citas, calcula la importancia de las publicaciones considerando dos factores importantes: 1) No todas las citas son iguales. El efecto de recibir una cita de una publicaci´on importante es mayor que el de recibir una cita de una publicaci´on menos popular. 2) Aporte equitativo entre el n´umero de referencias. El efecto de recibir una cita de una publicaci´on que posee una larga lista de referencias, es menor al de recibir una cita de una publicaci´on con una lista corta de referencias. 3 Finding scientific gems with Google’s PageRank algorithm. (Junio 2006). Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 14 / 36
  • 15. Principales enfoques PageRank PageRank Ajustando par´ametros Google PageRank: Gi = (1 − d) j nn i Gi kj + d N Web: d = 1/6 0.15 Red de citas: d = 1/2 0.5 Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 15 / 36
  • 16. Principales enfoques PageRank PageRank Resultados Figure: Izquierda. N´umero Google promedio G(k) vs n´umero de citas k. Derecha. Publicaciones individuales at´ıpicas. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 16 / 36
  • 17. Principales enfoques PageRank PageRank Resultados Figure: Top - 10 de las publicaciones de la familia de journals Physical Review [1893-2003] usando PageRank (d = 0.5). Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 17 / 36
  • 18. Principales enfoques PageRank PageRank Conclusiones Mecanismos basados en el algoritmo PageRank proveen una extensi´on significativa a los m´etodos tradicionales para cuantificar el impacto de las publicaciones cient´ıficas. PageRank resulta ´util para encontrar publicaciones importantes a lo largo del tiempo, por lo que se le considera como un “Premio a la Trayectoria”. Son necesarios mecanismos ´utiles para calcular el impacto de las publicaciones cient´ıficas recientes para poder determinar que direcci´on est´a tomando un cada campo de investigaci´on espec´fico. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 18 / 36
  • 19. Principales enfoques CiteRank CiteRank Motivaci´on Existen notables diferencias entre la web y las redes de citas que sugieren que el algoritmo PageRank debe ser modificado para cumplir con el objetivo. Entre las cuales destacan: 1) Las citas no pueden ser modificadas despu´es de la publicaci´on. En consecuencia, el efecto de envejecimiento en las redes de citas son m´as pronunciados que en la web. 2) Un paper solo puede citar publicaciones anteriores. El car´aracter lineal del tiempo presente en la topolog´ıa de las redes de citas altera las propiedades de la matriz de adyacencia. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 19 / 36
  • 20. Principales enfoques CiteRank CiteRank Motivaci´on Figure: Izquierda. Efecto de envejecimiento. Derecha. Linealidad temporal. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 20 / 36
  • 21. Principales enfoques CiteRank CiteRank Motivaci´on 3) Un “cient´ıfico” caminante aleatorio no comienza su investigaci´on en una publicaci´on cualquiera seleccionada aleatoriamente. Los investigadores t´ıpicamente comienzan a navegar entre publicaciones cientif´ıcas desde una publicaci´on reciente que atrapa su atenci´on. CiteRank4: modelo de tr´afico sobre redes de citas que simula la din´amica de un gran n´umero de investigadores buscando nueva informaci´on. “Cada investigador, independientemente, se asume que comienza su investigaci´on desde un paper reciente y luego sigue una cadena de citas hasta estar satisfecho”. 4 Ranking Scientific Publications Using a Simple Model of Network Traffic. (Diciembre 2006). Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 21 / 36
  • 22. Principales enfoques CiteRank CiteRank Modelo y F´ormula Par´ametros del modelo: Ti = (τdir , α) Ti = tr´afico sobre un paper espec´ıfico i. τdir = edad promedio del paper inicial. α = probabilidad de que el investigador se detenga. Tr´afico sobre un paper espec´ıfico (CiteRank) se define como: La probabilidad de encontrarlo en una cadena de citas de cualquier longitud. T = I · p + (1 − α)W · p + (1 − α)2 W 2 · p + ... Wij = matriz de adyacencia. pi = probabilidad iniciar la investigaci´on en el iesimo paper. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 22 / 36
  • 23. Principales enfoques CiteRank CiteRank C´alculo del CiteRank Figure: CiteRank y el “cient´ıfico” caminante aleatorio. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 23 / 36
  • 24. Principales enfoques CiteRank CiteRank C´alculo del CiteRank Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 24 / 36
  • 25. Principales enfoques CiteRank CiteRank C´alculo del CiteRank Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 25 / 36
  • 26. Principales enfoques CiteRank CiteRank Resultados Figure: CiteRank vs PageRank. Calculado sobre todos los papers de la red PhyRev. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 26 / 36
  • 27. Principales enfoques CiteRank CiteRank Conclusiones La investigaci´on cient´ıfica se basa en los avances recientes. Los cient´ıficos no comienzan sus b´usquedas revisando una publicaci´on antigua, por lo que no tiene sentido modelar el tr´afico de las redes de citas en la forma en la que lo hace PageRank. CiteRank pareciera ser m´as adecuado para el desarrollo de investigaciones cient´ıficas puesto que proporciona un modelo de difusi´on del tr´afico en las redes de citas que resulta m´as ´util. Desde el punto de vista matem´atico, CiteRank es un modelo m´as simple en comparaci´on con PageRank. Lo que tiene sentido si consideramos que las redes de citas poseen un comportamiento menos complejo que la web. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 27 / 36
  • 28. Principales enfoques NonlinearRank El efecto de la no linealidad Motivaci´on Es una generalizaci´on del m´etodo de PageRank. Al utilizar la funci´on ra´ız permite : 1) Citaci´on de publicaciones. Las publicaciones que obtengan citas de publicaciones con una puntuaci´on alta obtendr´a una puntuaci´on alta ,Si la publicaci´on tiene muchas referencias de publicaciones con baja puntuaci´on esto NO aumenta su puntuaci´on . Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 28 / 36
  • 29. Principales enfoques NonlinearRank El efecto de la no linealidad Motivaci´on 2) Generalizaci´on del PageRank. Tomando como par´ametro θ = 0 obtenemos PageRank si (t) = c + (1 − c) N j=1 Aij (k)out j (1 − δ(k)out j,0 )( sj (t−1) k)out j,0 )θ+1) 1 θ+1 + 1 N δ(k)out j,0 sj (t − 1) . Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 29 / 36
  • 30. Principales enfoques TimeRank Time information in Ranking Yujing Wang, Yunhai Tong Ming Zeng ”...In this paper, we introduce a new approach for ranking scientific articles. We provide a framework of exploiting differ- ent kinds of information (including but not restricted to cita- tions, authors, and journals/conferences) in a heterogeneous network, which benefits from the PageRank and HITS algorithm collaboratively to estimate the articles future prestige.”5 5 Yujing Wang, Yunhai Tong Ming Zeng (2013) Ranking Scientific Articles by Exploiting Citations, Authors, Journals, and Time Information Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 30 / 36
  • 31. Principales enfoques TimeRank Time information in Ranking Yujing Wang, Yunhai Tong Ming Zeng Figure: ejemplo de la red propuesta Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 31 / 36
  • 32. Principales enfoques TimeRank Time information in Ranking I Yujing Wang, Yunhai Tong Ming Zeng Algoritmo propuesto 1 Iniciar el authorative score de los art´ıculos en 1 N p donde N p es el n´umero total de art´ıculos en la colecci´on 2 Calcular el hub score de los autores en la red art´ıculos-autores. 3 Calcular el hub score de los journal/conferencias por la red de articulo-journal. 4 Calcular el hub score de los art´ıculos por la red de referencias. Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 32 / 36
  • 33. Principales enfoques TimeRank Time information in Ranking II Yujing Wang, Yunhai Tong Ming Zeng 5 Actualizar el Authority score de los art´ıculos, usando cinco tipos de informaci´on, i.e., el PageRank score propagado de las citas, el puntaje definido de los autores, el puntaje de journals/conferencias, el puntaje de los art´ıculos hubs, y el puntaje de tiempo calculado por la fecha de publicaci´on. 6 Iterar desde el paso 2 al 5 hasta que convergan los puntajes(experimentalmente la convergencia se considera cuando la diferencia entre los puntajes es menor a 0.0001) Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 33 / 36
  • 34. Principales enfoques TimeRank Time information in Ranking Yujing Wang, Yunhai Tong Ming Zeng Data Set Fixed settings Best setting FutureRank CiteRank P-rank Arxiv 0.7065 0.7093 0.6445 0.6451 0.4635 Cora 0.3931 0.3994 0.3649 0.3682 0.2952 Table: Resultados respecto al TimeRank Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 34 / 36
  • 35. Conclusiones Discusi´on Preguntas o comentarios? Batista, Gonz´alez, Toglia (UCV) Ranking de articulos cient´ıficos August 4, 2015 35 / 36