SlideShare una empresa de Scribd logo
Text mining versus redes neuronales.
Dos métodos de análisis
aplicados al caso de las políticas de las
revistas sobre datos
Alicia García-García, Xavier García-Massó, Antonia Ferrer, Luis-Millán González,
Fernanda Peset, Miguel Villamón y Rafael Aleixandre
*Agradecimientos a Rosaura Santos Serra*
4ª Conferencia internacional sobre calidad de revistas de ciencias sociales
y humanidades (CRECS 2014)
Madrid, 8-9 de mayo de 2014.
15’45-16’15 Casa del Lector de la Fundación Germán Sánchez Ruipérez
http://www.thinkepi.net/crecs2014
Planteamiento del problema
Importancia del tema: En la actual sociedad de la
información cada día a día se multiplica la cantidad de
datos almacenados casi de forma exponencial.
Contienen valiosa información que puede resultar muy
útil para determinados procesos. Actualmente se
buscan las vías para explotarlos de forma eficaz con
diferentes objetivos. Además, estos datos pueden ser
reutilizados
LÍMITACIONES COGNITIVAS Y DE
RECURSOS nos empujan a buscar
esos métodos de análisis del BigData
Nuestro objeto de estudio
• Políticas de revistas: cómo las revistas indicaban a los autores
qué debían hacer con el material adicional, es decir con los datos
que subyacen a las publicaciones.
• El almacenamiento de datos junto a las revistas es una vía
reconocida (junto a subirlos a repositorios y bancos). Como
ejemplo: Data Conservancy, IEEE y Portico han recibido una
subvención (600.000 $ para dos años, mayo 2014) de la Alfred P.
Sloan Foundation para conectar publicaciones y sus datos.
• Nosotros estudiamos las políticas en el proyecto DATASEA sobre
las vías de almacenamiento y reutilización de datos de
investigación *OPENDATASCIENCE, centro de recursos para la
preservación y gestión de datos abiertos de investigación*",
CS02012-39632-C02-02.
• El objetivo final de DATASEA es crear un
buscador que permita recuperar
conjuntos de datos de investigación
• El problema de la recuperación de la
información es complejo, sobre todo
siendo tan específica
Factores determinantes de la eficiencia en la RI
A) existencia de estándares aceptados
con los que trabajar
B) recopilación de la información
C) creación de algoritmos específicos
Verdadero problema (al menos en revistas)
Que las ideas están expresadas
en lenguaje natural (NLP)
Las ideas tienen identidad respecto a algo que no son. No hay
relación directa con el soporte que las contienen
a) Estándares
• Si los datos estuvieran estructurados y disponibles de
forma uniforme universalmente sería “fácil” analizarlos,
reutilizarlos, recombinarlos...
• Pero...
• UNREALISTIC: cada grupo empresarial tiene sus
propias políticas de expansión
• El acceso abierto o no a la información científica aun
no tiene universalidad; mucho menos en datos
b) Recopilación de fuentes de origen de datos
• La búsqueda de información excelente y puesta a disposición en algún
sistema lo hacemos sistemáticamente los documentalistas (directorios,
bibliotecas, inventarios...). Pero cuando cambian, hay que volver a
revisar.
• En 2011 creamos ODiSEA, como inventario de bancos de datos de
investigación. Desde la aparición de Databib (2012) y Re3data (2013),
unidos desde 2014, lo reenfocamos a la recopilación de sedes web de
revistas de mayor impacto de todas las disciplinas que aceptan datos
• Esto nutre el futuro OpenDataScience por parte de expertos
• La interpretación de las políticas por un analista hace que los métodos
sean muy dependientes de quién realiza esa calificación; al tiempo que
están limitados a los recursos humanos que se dediquen a ello.
c) creación de algoritmos específicos
• Algoritmo es una secuencia de órdenes que tienen una lógica interna entre sí.
• El de Google usa palabras y luego rankiniza resultados, pero no parece que utilice
modelos avanzados.
• Como ejemplo, en ajedrez se ha de usar inteligencia artificial en los simuladores,
pues no puede calcular tanto número de variantes hasta final del juego. Así que le
introducen algoritmo de análisis con premisas lógicas adaptadas al juego, por
ejemplo asignando peso mayor al centro del tablero
• Hay modelos matemáticos que refinan las búsquedas cuando se escriben en
lenguajes de programación estándar como matlab. Por ejemplo, asignan
determinada fuerza a ciertas palabras, o indican que x término sea la palabra
central dentro del grupo de palabras recuperadas
• Indagamos qué sistemas existen en el mercado a nivel
matemático o informático para hacer más inteligente el
futuro buscador. Que no sea la simple recuperación en
las fuentes indicadas. Ambos son complementarios.
Pero no buscan de igual manera. La colaboración con
otros expertos/disciplinas nos permite alimentarlo
• Pretende crear algoritmos de búsqueda que nutran el
modelo de recuperación contemplando premisas
lógicas especiales para el problema estudiado.
• De esa forma, filtran la información hoy, y en el futuro
¿Qué es lo que estamos buscando?
• Método de análisis más eficaz para encontrar
datos que puedan ser reutilizados
• En este momento estamos probando
diferentes soluciones matemáticas para
conseguir el objetivo: un buscador avanzado
• El año pasado ya se presentó un tipo de
método basado en redes neuronales
Aproximación al problema a
partir de los mapas auto-
organizados
• SOM-Self Organizing Maps es un Clasificador avanzado de
características o vectores (Teuvo Kohonen en 1981-82)
• Es una clase de algoritmos de redes neuronales competitivas en la
categoría de aprendizaje no supervisado. Construye 1º una red de
nodos con un peso aleatorio. Iterativamente el algoritmo analiza los
distintos casos y los resitúa en nodos (neuronas). Produce una
neurona ganadora y modifica la forma de la red.
• Se representa en un mapa de dos dimensiones, que puede ser
interpretado de forma cualitativa. A diferencia del análisis de clusters,
SOM toma en cuenta todas las variables al tiempo
Empleado para la clasificación de información, redes (Moya, Guerrero-Bote, Herrero-Solana,
Campanario, Olmeda, Ortiz-Repiso...)
Primeros resultados con SOM
Falta U-Matrix
Resumen de SOM
• VENTAJAS
– Menos subjetivo que la recopilación de fuentes
– Más automatizado que la interpretación de las fuentes recopiladas
– Puede clasificar no sólo los contenidos buscados sino los no
buscados/los contrarios y por tanto el grado de cumplimiento del
criterio que se analiza (discovery y serendipity)
– Emplea lenguaje matemático que puede ser implementado en
algoritmos de búsqueda
• DESVENTAJAS
– Necesita cierta acción del recopilador del material
– Más lento que un buscador normal: el proceso de computación
puedes llevar a durar horas
Aproximación al problema a partir de la
minería de texto
• Definición: MINERÍA DE DATOS se define como la extracción no trivial de
información implícita, previamente desconocida y potencialmente útil, a partir de
datos.
• Minería de texto: ofrece con sistemas automáticos una solución, sustituyendo o
complementando el trabajo de personas, sin que importe la cantidad de texto.
Analiza grandes colecciones de texto para descubrir información antes
desconocida. Pueden ser relaciones o patrones escondidos que de otro modo
serían extremadamente difícil o imposibles de descubrir.
http://sitecore.jisc.ac.uk/publications/briefingpapers/2008/bptextminingv2.aspx
• Conjunto de técnicas pero nosotros solo vamos a explicar una: co-word
• Definición. Recuenta las veces en que dos palabras se relacionan en un entorno
de lenguaje natural. Se convierte en un método de procesamiento de lenguaje
natural para encontrar algo de nuestro interés
Courtial, J. P. A coword analysis of scientometrics.
Scientometrics NOVEMBER–DECEMBER 1994, Volume 31, Issue 3, pp 251-260
Courtial, J. P. A coword analysis of scientometrics.
• Punto crítico es la sinonimia del término datos (en
revistas).
• Para este experimento
– Hemos tenido que identificar las fuentes y los párrafos exactos
donde se habla de datos ya que está en diferentes lugares:
instrucciones para autor, políticas generales o específicas de
revista...
– Hemos unido en un concepto único las palabras clave que
hemos identificado o generalizado como datos ya que utilizan
todo tipo de términos: supplemental information o
supplementary material. En el futuro cualquier otra que se
utilice
Aproximaciones previas
• Piwowar y Chapman utilizan métodos de
análisis del lenguaje natural para
identificar los autores que están
utilizando un tipo determinado de datos,
los microarrays, para después consultar
en los bancos de datos que almacenan
los microarrays. De esta manera,
cuantifican cómo los están depositando.
Nuestro procesamiento
1. Obtener el material: los textos (manualmente) y refinar el texto con stop
words (de bibexcel)
2. Generar las redes de co-ocurrencia (bibexcel) con la intención de
automatizarlo con lenguaje de programación como matlab
3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel)
4. Seleccionar las conexiones que tienen que ver con data (momento
manual del experimento)
5. Calcular (registrar) la fuerza de las relaciones del término de interés
(data) con otros significativos (file u otras similares). Existen muchos
cálculos distintos por ejemplo centralidad de la palabra/s (pajek),
intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las
palabras relacionadas, pero también sus ramificaciones, algo que nunca
haría un buscador convencional
6. Con los cálculos realizados, seleccionar la fuente de donde provienen
las palabras “premiadas” y en consecuencia las revistas
2. Primeros resultados coword
3. Umbral de interés
4. Selección de relaciones significativas
5a. Cálculo de Hubs and authority
5. Cálculo de fuerza de las palabras
Los grises son palabras autoridades y las blancas intermediadoras
5b. Dendograma
Agrupa los términos en clusters. Las
asocia por su lógica
Algunas asociaciones tienen más
importancia que otras asociaciones
para nuestro objetivo, el buscador
Recordemos:
1. Obtener el material: los textos (manualmente) y refinar el texto con stop
words (de bibexcel)
2. Generar las redes de co-ocurrencia (bibexcel) con la intención de
automatizarlo con lenguaje de programación como matlab
3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel)
4. Seleccionar las conexiones que tienen que ver con data (momento
manual del experimento)
5. Calcular (registrar) la fuerza de las relaciones del término de interés
(data) con otros significativos (file u otras similares). Existen muchos
cálculos distintos por ejemplo centralidad de la palabra/s (pajek),
intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las
palabras relacionadas, pero también sus ramificaciones, algo que nunca
haría un buscador convencional
6. Con los cálculos realizados, seleccionar la fuente (URL) de donde
provienen las palabras “premiadas” y en consecuencia las revistas
VENTAJAS
• Muy bajo nivel de subjetividad
• No requiere recolección de información por parte de personas
• Emplea algoritmos de análisis en lenguajes de programación y
puede ser implementado en buscadores
DESVENTAJAS
• El tiempo de computación es excesivamente lento y necesita de
hardware sólido
• Que hasta la fecha muchas personas se dedican a la investigación
con data mining pero no existe aplicaciones claras
• Requiere de buenas librerías de palabras (stop word, sinonimias,
plurales... y de palabras clave como supplemental_information)
Resumen de textmining
Otros sistemas: clusters (vosviewer)
Otros sistemas: densidad (vosviewer)
No aparece data, no es frecuente
Conclusiones
• En este momento no tenemos conclusiones definitivas, pero
si esta metodología es correcta, su uso contaría con varias
ventajas. Por una parte puede acometerse el estudio de
muchas más revistas, pues solo es necesario extraer los
textos de sus políticas y realizar un mínimo tratamiento previo
al análisis. Por otra, podría aplicarse a otro tipo de textos,
como podría ser el apartado de material y método de los
artículos publicados en busca de cómo han tratado esos
datos.
• Datasea sigue por dos vías: recolectando fuentes y
experimentando métodos que puedan llegar a sustituir el
trabajo de personas
Próximamente esperamos verlo publicado
http://www.datasea.es

Gracias por vuestra atención
mpesetm@upv.es

Más contenido relacionado

Destacado

4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
Krish_ver2
 
Text Mining
Text MiningText Mining
Text Mining
dp6
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
Juan Azcurra
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
DMC Perú
 
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
CRECS. Conferencia Internacional de Revistas Científicas
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text miningJosias Oliveira
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15M
Javier Toret Medina
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics PresentationSkylar Ritchie
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: Introduction
Florian Leitner
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
Evelyn Femat
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics Brief
Ian Balina
 
Ventura
VenturaVentura
Big data mining
Big data miningBig data mining
Text mining
Text miningText mining
Text mining
Ali A Jalil
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagma
João da Mata
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
Minha Hwang
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
Michel Bruley
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
Datamining Tools
 

Destacado (19)

4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
 
Text Mining
Text MiningText Mining
Text Mining
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text mining
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15M
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics Presentation
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: Introduction
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics Brief
 
Ventura
VenturaVentura
Ventura
 
Big data mining
Big data miningBig data mining
Big data mining
 
Text mining
Text miningText mining
Text mining
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagma
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 

Similar a J15 45 peset_fernanda

Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
PabloMolina111
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptx
fernandalemus15
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Anyeni Garay
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
Lucero Estrella Beato
 
Scraping o cómo escarbar datos
Scraping o cómo escarbar datosScraping o cómo escarbar datos
Scraping o cómo escarbar datos
Instituto Industrial Luis A. Huergo
 
Arquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositórioArquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositóriorehoscript
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
ManuelEspinalVargas
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
Edicion Ticnews
 
Tópicos Avanzados
Tópicos AvanzadosTópicos Avanzados
Tópicos Avanzados
Mayreg Baez
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
Armando Romani
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
Jonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
Pamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
Jonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
Pamela Paz
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
anag catal
 
Iniciando BDOO
Iniciando BDOOIniciando BDOO
Iniciando BDOO
Jesus Mariche
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 

Similar a J15 45 peset_fernanda (20)

Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptx
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
 
Scraping o cómo escarbar datos
Scraping o cómo escarbar datosScraping o cómo escarbar datos
Scraping o cómo escarbar datos
 
Arquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositórioArquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositório
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Waloteate papa lml
Waloteate papa lmlWaloteate papa lml
Waloteate papa lml
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 
Tópicos Avanzados
Tópicos AvanzadosTópicos Avanzados
Tópicos Avanzados
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Iniciando BDOO
Iniciando BDOOIniciando BDOO
Iniciando BDOO
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 

Más de CRECS. Conferencia Internacional de Revistas Científicas

Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
CRECS. Conferencia Internacional de Revistas Científicas
 
¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
¿Cómo mantener una revista académica en los cuartiles Q1-Q4? ¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
CRECS. Conferencia Internacional de Revistas Científicas
 
Enunciación, hacia la internacionalización desde el acceso abierto.
Enunciación, hacia la internacionalización desde el acceso abierto.Enunciación, hacia la internacionalización desde el acceso abierto.
Enunciación, hacia la internacionalización desde el acceso abierto.
CRECS. Conferencia Internacional de Revistas Científicas
 
Buenas prácticas para la divulgación de artículos científicos: El caso de la...
 Buenas prácticas para la divulgación de artículos científicos: El caso de la... Buenas prácticas para la divulgación de artículos científicos: El caso de la...
Buenas prácticas para la divulgación de artículos científicos: El caso de la...
CRECS. Conferencia Internacional de Revistas Científicas
 
Transparencia en la gestión editorial: el uso de datos para la rendición de c...
Transparencia en la gestión editorial: el uso de datos para la rendición de c...Transparencia en la gestión editorial: el uso de datos para la rendición de c...
Transparencia en la gestión editorial: el uso de datos para la rendición de c...
CRECS. Conferencia Internacional de Revistas Científicas
 
La apertura de datos de investigación en revistas científico-académicas: el c...
La apertura de datos de investigación en revistas científico-académicas: el c...La apertura de datos de investigación en revistas científico-académicas: el c...
La apertura de datos de investigación en revistas científico-académicas: el c...
CRECS. Conferencia Internacional de Revistas Científicas
 
Características de la publicación científico-académica en revistas institucio...
Características de la publicación científico-académica en revistas institucio...Características de la publicación científico-académica en revistas institucio...
Características de la publicación científico-académica en revistas institucio...
CRECS. Conferencia Internacional de Revistas Científicas
 
Publicación académica, caso revista científica UCV HACER
Publicación académica, caso revista científica UCV HACERPublicación académica, caso revista científica UCV HACER
Publicación académica, caso revista científica UCV HACER
CRECS. Conferencia Internacional de Revistas Científicas
 
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
CRECS. Conferencia Internacional de Revistas Científicas
 
Revistas iberoamericanas de Ciencias Sociales en Facebook
Revistas iberoamericanas de Ciencias Sociales en FacebookRevistas iberoamericanas de Ciencias Sociales en Facebook
Revistas iberoamericanas de Ciencias Sociales en Facebook
CRECS. Conferencia Internacional de Revistas Científicas
 
¿Es el inglés la lingua franca de la integridad científica?
¿Es el inglés la lingua franca de la integridad científica? ¿Es el inglés la lingua franca de la integridad científica?
¿Es el inglés la lingua franca de la integridad científica?
CRECS. Conferencia Internacional de Revistas Científicas
 
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
CRECS. Conferencia Internacional de Revistas Científicas
 
. Wileidys C. Artigas-Morales,
. Wileidys C. Artigas-Morales, . Wileidys C. Artigas-Morales,
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
CRECS. Conferencia Internacional de Revistas Científicas
 
Presencia en Facebook y Twitter de las revistas científicas peruanas
Presencia en Facebook y Twitter de las revistas científicas peruanasPresencia en Facebook y Twitter de las revistas científicas peruanas
Presencia en Facebook y Twitter de las revistas científicas peruanas
CRECS. Conferencia Internacional de Revistas Científicas
 
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
CRECS. Conferencia Internacional de Revistas Científicas
 
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
CRECS. Conferencia Internacional de Revistas Científicas
 
Félix De-Moya-Anegón, Grupo SCImago. Modelos económicos e impacto científico...
Félix De-Moya-Anegón, Grupo SCImago.  Modelos económicos e impacto científico...Félix De-Moya-Anegón, Grupo SCImago.  Modelos económicos e impacto científico...
Félix De-Moya-Anegón, Grupo SCImago. Modelos económicos e impacto científico...
CRECS. Conferencia Internacional de Revistas Científicas
 
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
CRECS. Conferencia Internacional de Revistas Científicas
 
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
CRECS. Conferencia Internacional de Revistas Científicas
 

Más de CRECS. Conferencia Internacional de Revistas Científicas (20)

Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
Experiencia en la mejora de la calidad técnica y editorial de las revistas ci...
 
¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
¿Cómo mantener una revista académica en los cuartiles Q1-Q4? ¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
¿Cómo mantener una revista académica en los cuartiles Q1-Q4?
 
Enunciación, hacia la internacionalización desde el acceso abierto.
Enunciación, hacia la internacionalización desde el acceso abierto.Enunciación, hacia la internacionalización desde el acceso abierto.
Enunciación, hacia la internacionalización desde el acceso abierto.
 
Buenas prácticas para la divulgación de artículos científicos: El caso de la...
 Buenas prácticas para la divulgación de artículos científicos: El caso de la... Buenas prácticas para la divulgación de artículos científicos: El caso de la...
Buenas prácticas para la divulgación de artículos científicos: El caso de la...
 
Transparencia en la gestión editorial: el uso de datos para la rendición de c...
Transparencia en la gestión editorial: el uso de datos para la rendición de c...Transparencia en la gestión editorial: el uso de datos para la rendición de c...
Transparencia en la gestión editorial: el uso de datos para la rendición de c...
 
La apertura de datos de investigación en revistas científico-académicas: el c...
La apertura de datos de investigación en revistas científico-académicas: el c...La apertura de datos de investigación en revistas científico-académicas: el c...
La apertura de datos de investigación en revistas científico-académicas: el c...
 
Características de la publicación científico-académica en revistas institucio...
Características de la publicación científico-académica en revistas institucio...Características de la publicación científico-académica en revistas institucio...
Características de la publicación científico-académica en revistas institucio...
 
Publicación académica, caso revista científica UCV HACER
Publicación académica, caso revista científica UCV HACERPublicación académica, caso revista científica UCV HACER
Publicación académica, caso revista científica UCV HACER
 
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
Publicaciones en revistas científicas peruanas relacionadas a prioridades de ...
 
Revistas iberoamericanas de Ciencias Sociales en Facebook
Revistas iberoamericanas de Ciencias Sociales en FacebookRevistas iberoamericanas de Ciencias Sociales en Facebook
Revistas iberoamericanas de Ciencias Sociales en Facebook
 
¿Es el inglés la lingua franca de la integridad científica?
¿Es el inglés la lingua franca de la integridad científica? ¿Es el inglés la lingua franca de la integridad científica?
¿Es el inglés la lingua franca de la integridad científica?
 
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
La manipulación del factor de impacto de las revistas científicas. Caso: Colo...
 
. Wileidys C. Artigas-Morales,
. Wileidys C. Artigas-Morales, . Wileidys C. Artigas-Morales,
. Wileidys C. Artigas-Morales,
 
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
Estrategias retóricas del apartado del resumen de tesis peruanas de doctorado...
 
Presencia en Facebook y Twitter de las revistas científicas peruanas
Presencia en Facebook y Twitter de las revistas científicas peruanasPresencia en Facebook y Twitter de las revistas científicas peruanas
Presencia en Facebook y Twitter de las revistas científicas peruanas
 
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
Reflexiones sobre la calidad de los trabajos publicados en las revistas cient...
 
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
Tomàs Baiget, El profesional de la información: Estrategias de las revistas p...
 
Félix De-Moya-Anegón, Grupo SCImago. Modelos económicos e impacto científico...
Félix De-Moya-Anegón, Grupo SCImago.  Modelos económicos e impacto científico...Félix De-Moya-Anegón, Grupo SCImago.  Modelos económicos e impacto científico...
Félix De-Moya-Anegón, Grupo SCImago. Modelos económicos e impacto científico...
 
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
Isidro F. Aguillo (CSIC, España): Iniciativas open science y edición de revis...
 
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
Luis Rodríguez-Yunta: La Iberoamérica exterior. Las revistas de estudios hisp...
 

Último

Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
JoseAlbertoArmenta
 
Sistema Hemolinfopoyetico, síntomas y signos
Sistema Hemolinfopoyetico, síntomas y signosSistema Hemolinfopoyetico, síntomas y signos
Sistema Hemolinfopoyetico, síntomas y signos
mairamarquina
 
2.-Tema Genetica y el sistema del ser humano
2.-Tema Genetica y el sistema del ser humano2.-Tema Genetica y el sistema del ser humano
2.-Tema Genetica y el sistema del ser humano
KaterineElizabethCor1
 
Semiología de Peritonitis - Univ. Wiener
Semiología de Peritonitis - Univ. WienerSemiología de Peritonitis - Univ. Wiener
Semiología de Peritonitis - Univ. Wiener
LuzArianaUlloa
 
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdfHablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
OmarArgaaraz
 
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLOSOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
WilhelmSnchez
 
Estructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJEstructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJ
GuillermoTabeni
 
Fisiopatología lesiones más frecuente en la columna vertebral.pdf
Fisiopatología lesiones más frecuente en la columna vertebral.pdfFisiopatología lesiones más frecuente en la columna vertebral.pdf
Fisiopatología lesiones más frecuente en la columna vertebral.pdf
KarlaRamos209860
 
SESION 26 - Las Regiones Naturales del Perú.pptx
SESION 26 - Las Regiones Naturales del Perú.pptxSESION 26 - Las Regiones Naturales del Perú.pptx
SESION 26 - Las Regiones Naturales del Perú.pptx
SofySandovalGil
 
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209) para s...
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209)  para s...1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209)  para s...
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209) para s...
Champs Elysee Roldan
 
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdfPRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
IngridEdithPradoFlor
 
son mas ejercicios_de_estequiometria.docx
son mas ejercicios_de_estequiometria.docxson mas ejercicios_de_estequiometria.docx
son mas ejercicios_de_estequiometria.docx
Alondracarrasco8
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
JoseAlbertoArmenta
 
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptxMYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
ALEXISBARBOSAARENIZ
 
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
EdsonCienfuegos
 
Historia Electromagnetismo .... Física M
Historia Electromagnetismo .... Física MHistoria Electromagnetismo .... Física M
Historia Electromagnetismo .... Física M
RichardVasquez80
 
Los lípidos, estructura química y función
Los lípidos, estructura  química y funciónLos lípidos, estructura  química y función
Los lípidos, estructura química y función
vmvillegasco
 
5 RECETA MEDICA. TIPOS DE RECETAS FARMACIA
5  RECETA MEDICA. TIPOS DE RECETAS FARMACIA5  RECETA MEDICA. TIPOS DE RECETAS FARMACIA
5 RECETA MEDICA. TIPOS DE RECETAS FARMACIA
solizines27
 
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCIONCEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
do4alexwell
 
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROSVIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
alexacruz1502
 

Último (20)

Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
 
Sistema Hemolinfopoyetico, síntomas y signos
Sistema Hemolinfopoyetico, síntomas y signosSistema Hemolinfopoyetico, síntomas y signos
Sistema Hemolinfopoyetico, síntomas y signos
 
2.-Tema Genetica y el sistema del ser humano
2.-Tema Genetica y el sistema del ser humano2.-Tema Genetica y el sistema del ser humano
2.-Tema Genetica y el sistema del ser humano
 
Semiología de Peritonitis - Univ. Wiener
Semiología de Peritonitis - Univ. WienerSemiología de Peritonitis - Univ. Wiener
Semiología de Peritonitis - Univ. Wiener
 
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdfHablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
 
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLOSOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
SOPLOS CARDIACOS - UNIVERSIDAD NACIONAL DE TRUJILLO
 
Estructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJEstructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJ
 
Fisiopatología lesiones más frecuente en la columna vertebral.pdf
Fisiopatología lesiones más frecuente en la columna vertebral.pdfFisiopatología lesiones más frecuente en la columna vertebral.pdf
Fisiopatología lesiones más frecuente en la columna vertebral.pdf
 
SESION 26 - Las Regiones Naturales del Perú.pptx
SESION 26 - Las Regiones Naturales del Perú.pptxSESION 26 - Las Regiones Naturales del Perú.pptx
SESION 26 - Las Regiones Naturales del Perú.pptx
 
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209) para s...
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209)  para s...1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209)  para s...
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209) para s...
 
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdfPRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
PRESENTACIÓN PENSAMIENTO CRÍTICO CAMPO FORMATIVO.pdf
 
son mas ejercicios_de_estequiometria.docx
son mas ejercicios_de_estequiometria.docxson mas ejercicios_de_estequiometria.docx
son mas ejercicios_de_estequiometria.docx
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
 
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptxMYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
MYCROPLASMOSIS AVIAR(MYCOPLASMA GALLISEPTICUM) (711063).pptx
 
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
 
Historia Electromagnetismo .... Física M
Historia Electromagnetismo .... Física MHistoria Electromagnetismo .... Física M
Historia Electromagnetismo .... Física M
 
Los lípidos, estructura química y función
Los lípidos, estructura  química y funciónLos lípidos, estructura  química y función
Los lípidos, estructura química y función
 
5 RECETA MEDICA. TIPOS DE RECETAS FARMACIA
5  RECETA MEDICA. TIPOS DE RECETAS FARMACIA5  RECETA MEDICA. TIPOS DE RECETAS FARMACIA
5 RECETA MEDICA. TIPOS DE RECETAS FARMACIA
 
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCIONCEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
 
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROSVIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
 

J15 45 peset_fernanda

  • 1. Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos Alicia García-García, Xavier García-Massó, Antonia Ferrer, Luis-Millán González, Fernanda Peset, Miguel Villamón y Rafael Aleixandre *Agradecimientos a Rosaura Santos Serra* 4ª Conferencia internacional sobre calidad de revistas de ciencias sociales y humanidades (CRECS 2014) Madrid, 8-9 de mayo de 2014. 15’45-16’15 Casa del Lector de la Fundación Germán Sánchez Ruipérez http://www.thinkepi.net/crecs2014
  • 2. Planteamiento del problema Importancia del tema: En la actual sociedad de la información cada día a día se multiplica la cantidad de datos almacenados casi de forma exponencial. Contienen valiosa información que puede resultar muy útil para determinados procesos. Actualmente se buscan las vías para explotarlos de forma eficaz con diferentes objetivos. Además, estos datos pueden ser reutilizados LÍMITACIONES COGNITIVAS Y DE RECURSOS nos empujan a buscar esos métodos de análisis del BigData
  • 3. Nuestro objeto de estudio • Políticas de revistas: cómo las revistas indicaban a los autores qué debían hacer con el material adicional, es decir con los datos que subyacen a las publicaciones. • El almacenamiento de datos junto a las revistas es una vía reconocida (junto a subirlos a repositorios y bancos). Como ejemplo: Data Conservancy, IEEE y Portico han recibido una subvención (600.000 $ para dos años, mayo 2014) de la Alfred P. Sloan Foundation para conectar publicaciones y sus datos. • Nosotros estudiamos las políticas en el proyecto DATASEA sobre las vías de almacenamiento y reutilización de datos de investigación *OPENDATASCIENCE, centro de recursos para la preservación y gestión de datos abiertos de investigación*", CS02012-39632-C02-02.
  • 4. • El objetivo final de DATASEA es crear un buscador que permita recuperar conjuntos de datos de investigación • El problema de la recuperación de la información es complejo, sobre todo siendo tan específica
  • 5. Factores determinantes de la eficiencia en la RI A) existencia de estándares aceptados con los que trabajar B) recopilación de la información C) creación de algoritmos específicos
  • 6. Verdadero problema (al menos en revistas) Que las ideas están expresadas en lenguaje natural (NLP) Las ideas tienen identidad respecto a algo que no son. No hay relación directa con el soporte que las contienen
  • 7. a) Estándares • Si los datos estuvieran estructurados y disponibles de forma uniforme universalmente sería “fácil” analizarlos, reutilizarlos, recombinarlos... • Pero... • UNREALISTIC: cada grupo empresarial tiene sus propias políticas de expansión • El acceso abierto o no a la información científica aun no tiene universalidad; mucho menos en datos
  • 8. b) Recopilación de fuentes de origen de datos • La búsqueda de información excelente y puesta a disposición en algún sistema lo hacemos sistemáticamente los documentalistas (directorios, bibliotecas, inventarios...). Pero cuando cambian, hay que volver a revisar. • En 2011 creamos ODiSEA, como inventario de bancos de datos de investigación. Desde la aparición de Databib (2012) y Re3data (2013), unidos desde 2014, lo reenfocamos a la recopilación de sedes web de revistas de mayor impacto de todas las disciplinas que aceptan datos • Esto nutre el futuro OpenDataScience por parte de expertos • La interpretación de las políticas por un analista hace que los métodos sean muy dependientes de quién realiza esa calificación; al tiempo que están limitados a los recursos humanos que se dediquen a ello.
  • 9. c) creación de algoritmos específicos • Algoritmo es una secuencia de órdenes que tienen una lógica interna entre sí. • El de Google usa palabras y luego rankiniza resultados, pero no parece que utilice modelos avanzados. • Como ejemplo, en ajedrez se ha de usar inteligencia artificial en los simuladores, pues no puede calcular tanto número de variantes hasta final del juego. Así que le introducen algoritmo de análisis con premisas lógicas adaptadas al juego, por ejemplo asignando peso mayor al centro del tablero • Hay modelos matemáticos que refinan las búsquedas cuando se escriben en lenguajes de programación estándar como matlab. Por ejemplo, asignan determinada fuerza a ciertas palabras, o indican que x término sea la palabra central dentro del grupo de palabras recuperadas
  • 10. • Indagamos qué sistemas existen en el mercado a nivel matemático o informático para hacer más inteligente el futuro buscador. Que no sea la simple recuperación en las fuentes indicadas. Ambos son complementarios. Pero no buscan de igual manera. La colaboración con otros expertos/disciplinas nos permite alimentarlo • Pretende crear algoritmos de búsqueda que nutran el modelo de recuperación contemplando premisas lógicas especiales para el problema estudiado. • De esa forma, filtran la información hoy, y en el futuro
  • 11. ¿Qué es lo que estamos buscando? • Método de análisis más eficaz para encontrar datos que puedan ser reutilizados • En este momento estamos probando diferentes soluciones matemáticas para conseguir el objetivo: un buscador avanzado • El año pasado ya se presentó un tipo de método basado en redes neuronales
  • 12. Aproximación al problema a partir de los mapas auto- organizados • SOM-Self Organizing Maps es un Clasificador avanzado de características o vectores (Teuvo Kohonen en 1981-82) • Es una clase de algoritmos de redes neuronales competitivas en la categoría de aprendizaje no supervisado. Construye 1º una red de nodos con un peso aleatorio. Iterativamente el algoritmo analiza los distintos casos y los resitúa en nodos (neuronas). Produce una neurona ganadora y modifica la forma de la red. • Se representa en un mapa de dos dimensiones, que puede ser interpretado de forma cualitativa. A diferencia del análisis de clusters, SOM toma en cuenta todas las variables al tiempo Empleado para la clasificación de información, redes (Moya, Guerrero-Bote, Herrero-Solana, Campanario, Olmeda, Ortiz-Repiso...)
  • 13. Primeros resultados con SOM Falta U-Matrix
  • 14. Resumen de SOM • VENTAJAS – Menos subjetivo que la recopilación de fuentes – Más automatizado que la interpretación de las fuentes recopiladas – Puede clasificar no sólo los contenidos buscados sino los no buscados/los contrarios y por tanto el grado de cumplimiento del criterio que se analiza (discovery y serendipity) – Emplea lenguaje matemático que puede ser implementado en algoritmos de búsqueda • DESVENTAJAS – Necesita cierta acción del recopilador del material – Más lento que un buscador normal: el proceso de computación puedes llevar a durar horas
  • 15.
  • 16. Aproximación al problema a partir de la minería de texto • Definición: MINERÍA DE DATOS se define como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos. • Minería de texto: ofrece con sistemas automáticos una solución, sustituyendo o complementando el trabajo de personas, sin que importe la cantidad de texto. Analiza grandes colecciones de texto para descubrir información antes desconocida. Pueden ser relaciones o patrones escondidos que de otro modo serían extremadamente difícil o imposibles de descubrir. http://sitecore.jisc.ac.uk/publications/briefingpapers/2008/bptextminingv2.aspx • Conjunto de técnicas pero nosotros solo vamos a explicar una: co-word • Definición. Recuenta las veces en que dos palabras se relacionan en un entorno de lenguaje natural. Se convierte en un método de procesamiento de lenguaje natural para encontrar algo de nuestro interés Courtial, J. P. A coword analysis of scientometrics. Scientometrics NOVEMBER–DECEMBER 1994, Volume 31, Issue 3, pp 251-260 Courtial, J. P. A coword analysis of scientometrics.
  • 17. • Punto crítico es la sinonimia del término datos (en revistas). • Para este experimento – Hemos tenido que identificar las fuentes y los párrafos exactos donde se habla de datos ya que está en diferentes lugares: instrucciones para autor, políticas generales o específicas de revista... – Hemos unido en un concepto único las palabras clave que hemos identificado o generalizado como datos ya que utilizan todo tipo de términos: supplemental information o supplementary material. En el futuro cualquier otra que se utilice
  • 18. Aproximaciones previas • Piwowar y Chapman utilizan métodos de análisis del lenguaje natural para identificar los autores que están utilizando un tipo determinado de datos, los microarrays, para después consultar en los bancos de datos que almacenan los microarrays. De esta manera, cuantifican cómo los están depositando.
  • 19. Nuestro procesamiento 1. Obtener el material: los textos (manualmente) y refinar el texto con stop words (de bibexcel) 2. Generar las redes de co-ocurrencia (bibexcel) con la intención de automatizarlo con lenguaje de programación como matlab 3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel) 4. Seleccionar las conexiones que tienen que ver con data (momento manual del experimento) 5. Calcular (registrar) la fuerza de las relaciones del término de interés (data) con otros significativos (file u otras similares). Existen muchos cálculos distintos por ejemplo centralidad de la palabra/s (pajek), intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las palabras relacionadas, pero también sus ramificaciones, algo que nunca haría un buscador convencional 6. Con los cálculos realizados, seleccionar la fuente de donde provienen las palabras “premiadas” y en consecuencia las revistas
  • 21. 3. Umbral de interés 4. Selección de relaciones significativas
  • 22. 5a. Cálculo de Hubs and authority 5. Cálculo de fuerza de las palabras Los grises son palabras autoridades y las blancas intermediadoras
  • 23. 5b. Dendograma Agrupa los términos en clusters. Las asocia por su lógica Algunas asociaciones tienen más importancia que otras asociaciones para nuestro objetivo, el buscador
  • 24. Recordemos: 1. Obtener el material: los textos (manualmente) y refinar el texto con stop words (de bibexcel) 2. Generar las redes de co-ocurrencia (bibexcel) con la intención de automatizarlo con lenguaje de programación como matlab 3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel) 4. Seleccionar las conexiones que tienen que ver con data (momento manual del experimento) 5. Calcular (registrar) la fuerza de las relaciones del término de interés (data) con otros significativos (file u otras similares). Existen muchos cálculos distintos por ejemplo centralidad de la palabra/s (pajek), intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las palabras relacionadas, pero también sus ramificaciones, algo que nunca haría un buscador convencional 6. Con los cálculos realizados, seleccionar la fuente (URL) de donde provienen las palabras “premiadas” y en consecuencia las revistas
  • 25. VENTAJAS • Muy bajo nivel de subjetividad • No requiere recolección de información por parte de personas • Emplea algoritmos de análisis en lenguajes de programación y puede ser implementado en buscadores DESVENTAJAS • El tiempo de computación es excesivamente lento y necesita de hardware sólido • Que hasta la fecha muchas personas se dedican a la investigación con data mining pero no existe aplicaciones claras • Requiere de buenas librerías de palabras (stop word, sinonimias, plurales... y de palabras clave como supplemental_information) Resumen de textmining
  • 26.
  • 27. Otros sistemas: clusters (vosviewer) Otros sistemas: densidad (vosviewer) No aparece data, no es frecuente
  • 28. Conclusiones • En este momento no tenemos conclusiones definitivas, pero si esta metodología es correcta, su uso contaría con varias ventajas. Por una parte puede acometerse el estudio de muchas más revistas, pues solo es necesario extraer los textos de sus políticas y realizar un mínimo tratamiento previo al análisis. Por otra, podría aplicarse a otro tipo de textos, como podría ser el apartado de material y método de los artículos publicados en busca de cómo han tratado esos datos. • Datasea sigue por dos vías: recolectando fuentes y experimentando métodos que puedan llegar a sustituir el trabajo de personas
  • 29. Próximamente esperamos verlo publicado http://www.datasea.es  Gracias por vuestra atención mpesetm@upv.es

Notas del editor

  1. CAMPANARIO, J.M. (1995). «Using neural networks to study networks of scieritific journals». Scientometrics. Vol. 33, n° 1, p. 23-40. Félix de Moya Anegón, Víctor Herrero Solana, Vicente Guerrero Bote (1998). La aplicación de Redes Neuronales Artificiales (RNA): a la recuperación de la información. Bibliodoc: anuari de biblioteconomia, documentació i informació ,. http://www.raco.cat/index.php/Bibliodoc/article/view/56630 Moya-Anegón, Félix, Purificación Moscoso, Carlos Olmeda, Virginia Ortiz-Repiso, Víctor Herrero-Solana y Vicente Guerrero-Bote (1999). NeuroIsoc: un modelo de red neuronal para la representación del conocimiento. IV Congreso ISKO-España EOCONSID'99. (Sociedad Internacional para la Organización del Conocimiento ISKO - capítulo español) Granada, 22 al 24 de abril de 1999. Moya, F. Herrero Solana, V.; Jiménez-Contreras, Evaristo (2006)1A connectionist and multivariate approach to science maps: the SOM, clustering and MDS applied to library and information science research. Journal of Information Science; 2006, Vol. 32 Issue 1, p63-77 Guerrero-Bote, Vicente P.; Cristina López-Pujalte, Félix de Moya-Anegón, Victor Herrero-Solana, (2003) Comparison of neural models for document clustering, International Journal of Approximate Reasoning, Volume 34, Issues 2–3, Pages 287-305, ISSN 0888-613X, 10.1016/j.ijar.2003.07.012.(http://www.sciencedirect.com/science/article/pii/S0888613X03000963)Guerrero Bote, Vicente P, Félix de Moya Anegón, Victor Herrero Solana, (2002a) Document organization using Kohonen's algorithm, Information Processing & Management, Volume 38, Issue 1, January 2002, Pages 79-89, ISSN 0306-4573, 10.1016/S0306-4573(00)00066-2.(http://www.sciencedirect.com/science/article/pii/S0306457300000662)Vicente P. Guerrero, Félix Moya-Anegón, Victor Herrero-Solana, (2002b) Automatic extraction of relationships between terms by means of Kohonen's algorithm, Library & Information Science Research, Volume 24, Issue 3, 2002, Pages 235-250, ISSN 0740-8188, 10.1016/S0740-8188(02)00124-X.(http://www.sciencedirect.com/science/article/pii/S074081880200124X) Mandl, Thomas and Eibl, Maximilian (2001) Topographic Maps Based on Kohonen Self Organizing Maps: An Empirical Approach., 2001 . In European Symposium on Intelligent Technologies, Hybrid Systems and their implementation on Smart Adaptive Systems (EUNITE 2001), Teneriffa, Spain, 13-14 Dezember 2001 Guzmán Sánchez, María V. and Sotolongo Aguilar, Gilberto (2002) Mapas tecnológicos para la estrategia empresarial. Situación tecnológica de la neisseria meningitidis. ACIMED, 2002, vol. 10, n. 4. Saavedra Fernández, Oscar and Sotolongo Aguilar, Gilberto and Guzmán Sánchez, María V. (2002) Contribución al estudio de las revistas de América Latina y el Caribe mediante el mapeo autoorganizado. ACIMED, 2002, vol. 10, n. 3.
  2. Piwowar y Chapman (Piwowar HA (2011) Who Shares? Who Doesn’t? Factors Associated with Openly Archiving Raw Research Data; Piwowar & Chapman (2008) Identifying Data Sharing in Biomedical Literature)
  3. Piwowar y Chapman (Piwowar HA (2011) Who Shares? Who Doesn’t? Factors Associated with Openly Archiving Raw Research Data; Piwowar & Chapman (2008) Identifying Data Sharing in Biomedical Literature), puesto que están redactadas en lenguaje natural.