SlideShare una empresa de Scribd logo
1 de 10
Descargar para leer sin conexión
La detección de áreas similares de conocimiento que utilizan
tecnologías de minería de datos y semánticas
Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,
Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖
Departamento de Ciencias de la Computación de la Universidad de Cuenca
Cuenca, Ecuador
Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,
§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec
Abstracto -Searching para las publicaciones de la Ciencia en línea es unaAbstracto -Searching para las publicaciones de la Ciencia en línea es una
tarea esencial para los investigadores que trabajan sobre un tema determinado. Sin embargo,
la cantidad extremadamente grande de publicaciones científicas que se encuentra en la web
convierte el proceso de hallazgo de una publicación en una tarea fi culta muy dif mientras que,
la localización de los compañeros interesados ​​en colaborar en un tema específico o la revisión
de la literatura es aún más difícil. En este trabajo, se propone una arquitectura novedosa para
unir múltiples fuentes bibliográficas, con el objetivo de identificar áreas comunes de
investigación y redes potenciales de colaboración, a través de una combinación de ontologías,
vocabularios, y tecnologías de Linked Data para el enriquecimiento de un modelo de datos de
base. Por otra parte, se implementa un prototipo para proporcionar un repositorio centralizado
con fuentes bibliográficas y para fi nd áreas de conocimiento similares utilizando técnicas de
minería de datos en el ámbito de la comunidad de investigadores de Ecuador.
I. INTRODUCCIÓNI. INTRODUCCIÓN
El número de publicaciones está aumentando rápidamente a través de recursos en línea,
tales como los motores de búsqueda y las bibliotecas digitales, lo que hace más difícil para
los investigadores que persiguen un tema, revisión de la literatura, la historia de la
investigación de pista debido a la cantidad de información obtenida es demasiado extensa.
Por otra parte, la mayor parte de la literatura académica es ruidoso y desorganizado.
Actualmente, cierta información sobre los investigadores y sus recursos bibliográficos se
encuentran dispersos entre varios repositorios digitales, archivos de texto o bases de datos
bibliográficas.
Cuando tenga que proponer proyectos con varios investigadores en un área especí fi ca
que pertenecen a diferentes instituciones de educación superior (IES), se plantean diferentes
preguntas. Por ejemplo, los que trabajan en áreas similares de la investigación? o, ¿cómo
puedo crear una red de investigadores en un área de conocimiento común? Entonces, la
detección de áreas similares basados ​​en las palabras clave que podría ayudar a los
gobiernos y las instituciones de educación superior para detectar los investigadores con
intereses en común, abriendo una oportunidad para generar nuevos proyectos de
investigación y destinar esfuerzos y recursos para ellos. En ese caso, se podría detectar
posibles redes de colaboración.
La expansión de esta base de conocimiento permitirá a nuestra comunidad
académica para tener un reposi- torio digital centralizada que tiene información de
investigadores ecuatorianos basados ​​en recursos bibliográficos. Los colaboradores se
identifican a través de un enriquecimiento semántico de los artículos cientí fi ca
producidos por los investigadores que publican con ecuatorianos afiliaciones. Este
trabajo tiene como objetivo alentar a las instituciones a colaborar y ob-
tain un repositorio semántico para identificar los investigadores que trabajan en áreas
similares y, proporcionar información actualizada accesible y reutilizable. La mejora de la
generación de redes de investigación con pares académicos de la región podría
proporcionar una mayor oportu- nidad para la colaboración entre las instituciones
participantes.
Obviamente, hay muchas herramientas y servicios disponibles actualmente en la web
que ya proporcionan una amplia variedad de funcionalidades para apoyar la exploración
de los datos académicos. Cada herramienta o servicio funciona de diferentes maneras,
que en algunos casos complican los datos de revisión de la literatura o utilización. Estas
herramientas permiten a las publicaciones o servicios de búsqueda con palabras clave,
nombres de autores, conferencias, autores afiliaciones af fi través Interfaz denombres de autores, conferencias, autores afiliaciones af fi través Interfaz de
programación de aplicaciones (API). Se han empezado a utilizar las tecnologíasprogramación de aplicaciones (API). Se han empezado a utilizar las tecnologías
semánticas que ayuda a describir sus re- cursos, pero cada fuente es diferente. Nuestro
enfoque de utilizar estas características, para recuperar y enriquecer los datos
bibliográficos de varias fuentes bibliográficas para detectar áreas similares.
El resto del trabajo se organiza de la siguiente manera: la sección II presenta el
trabajo relacionado. Describimos la arqui- tectura en la sección III, la detección de
áreas similares en el dominio de investigadores ecuatorianos y detectar posibles
redes de colaboración, utilizando las tecnologías semánticas para enriquecer los
datos extraídos de diferentes fuentes bibliográficas en un modelo común.
Conclusiones y trabajo futuro se presentan en la sección de
IV.
II. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJO
Esta sección presenta las herramientas y servicios utilizados para la búsqueda de
publicaciones, la unificación de las publicaciones, los autores ción disambigua-, y los enfoques
relacionados con la identificación de áreas de investigación similares.
Algunas fuentes bibliográficas contar con herramientas que permitan el acceso a los
datos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API quedatos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API quedatos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API que
permite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporcionapermite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporcionapermite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporciona
una API para buscar publicaciones, y también ofrece una variedad de herramientas para
visualizaciones gráficas tales como co-autoría, publicaciones de tendencias, y las rutas de
coautoría entre autores. SIN EMBARGO, tienen los datos a partir de 2013, que en realidad
no está actualizado. Recientemente lanzaron una nueva versión en la que el principal
problema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, estaproblema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, estaproblema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, esta
77
fuente es accesible sólo por suscripción y tiene peticiones limitadas. Bibliografíafuente es accesible sólo por suscripción y tiene peticiones limitadas. Bibliografía
Digital y Proyecto Biblioteca (DBLP)
ofrece tres bases de datos disponibles ( Trier1, Trier2, Dagstuhl)ofrece tres bases de datos disponibles ( Trier1, Trier2, Dagstuhl)
a través de una API, y están disponibles en varios formatos de datos como
JSON, XML o RDF los datos.
Cada fuente bibliográfica tiene datos que pueden ser duplicadas o
inconsistentes. En nuestro caso, es necesario corregir los datos ambiguos antes
de almacenarla. En [1], hay dos métodos de desambiguación de los autores, el
primer uno utiliza los nombres de los autores y sus iniciales, y el segundo es un
método avanzado que utiliza nombres iniciales y autores af filiación. En [2], se
presenta un marco que utiliza un método de agrupamiento DBSCANpresenta un marco que utiliza un método de agrupamiento DBSCAN
para identificar al autor de acuerdo a sus artículos. Se analiza la similitud entre
las series de publicaciones de diferentes autores. Si se determina que la similitud
entre estos recursos, se establece el autor correcta a una publicación específica.
En [3] propuso el sistema Rexplore, que utiliza el análisis estadístico, tecnologías
semánticas, y el análisis visual para proporcionar datos de investigación académicos y
localizar áreas de investigación. Utilizamos una idea similar, pero vamos a añadir
dinámicamente nuevas fuentes de datos para mejorar la información de los autores. Un
trabajo similar se hace por [4], que detectan posibles redes de colaboración a través de
la enriquecimiento semántico de artículos científicos. Sin embargo, este trabajo tiene
autores de una sola fuente y sólo ecuatoriana a fi liación; mientras que podemos
presentar la información externa cuando se necesita de varias fuentes. Se fi nd papeles
similares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería desimilares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería desimilares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería de
datos en su lugar.
En el campo de los estudios de ciencias de la Tierra se ha demostrado que es Posible para
mejorar la recuperación de datos, la reutilización y la integración de repositorios de datos mediante el
uso de ontologías. Por ejemplo, en [5], la Geolinkuso de ontologías. Por ejemplo, en [5], la Geolink
proyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño de
ontologías (PAO) [ 6] se ha definido manualmente. Tienen un conjunto de PAO como elontologías (PAO) [ 6] se ha definido manualmente. Tienen un conjunto de PAO como el
esquema general, en lugar de utilizar una ontología monolítica. Para obtener los datos que
ejecutan las consultas federadas. Por el contrario, en nuestra propuesta de todas las fuentes
forman un único repositorio y que no utilizan consultas federadas debido a que el tiempo de
respuesta es interminable. El modelo de datos Geolink es de fi nido especí fi camente para
los datos geográficos, que difiere de nuestra pro- puesta que abarca varios dominios de
acuerdo con la fuente bibliográfica.
Estudios anteriores hallazgo una relación entre publicaciones han demostrado
que datos de citas se utiliza a menudo como un indicador de la relación. Las citas se
utilizan para medir el impacto de los documentos [7]. Sin embargo, hay otros
enfoques a fi nd documentos relacionados, el trabajo de [8] muestra que los registros
digitales pueden ser utilizados como indicadores. Colaboración fi ltrado se podría
utilizar para fi nd publicaciones relacionadas también; en la obra de [9] que utilizan la
web de citas entre las publicaciones para crear la matriz de calificación y recomendar
trabajos de investigación. Además, las relaciones basadas en las citas da una idea
de la distribución de jerarquía de publicaciones de todo un tema determinado, como
se muestra por [10]. Aunque las citas son un indicador excelente
1 https://www.w3.org/2004/02/skos/1 https://www.w3.org/2004/02/skos/
2 EarthCube es una iniciativa de infraestructura cibernética dirigida por la comunidad de las ciencias geográficas;2 EarthCube es una iniciativa de infraestructura cibernética dirigida por la comunidad de las ciencias geográficas;
http://earthcube.org/
para expresar la relación, no hemos podido encontrar trabajo fi en la literatura de utilizar
palabras clave como un indicador de encontrar una relación entre las publicaciones e
identificar las áreas comunes usando palabras clave publicación.
Después de haber analizado el trabajo relacionado de los enfoques que tienen que ver
con la identificación de temas de investigación, se puede afirmar que las obras existentes
no enriquecen automáticamente los recursos bibliográficos obtenidos de diferentes
fuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso de
algoritmos de minería de datos para detectar áreas similares de conocimiento y ontologías
semánticas para describir y volver a utilizar los datos extraídos y procesados.
III. UN RCHITECTURE PARA DETECTAR áreas similares deIII. UN RCHITECTURE PARA DETECTAR áreas similares de
CONOCIMIENTO
En esta sección, se describen los aspectos detallados de nuestra arquitectura
propuesta para enriquecer la literatura académica disponible en las relaciones web
y encontramos entre los autores y sus publicaciones. Nuestro enfoque se basa en
tres módulos principales diferentes, a saber: 1) Extracción de datos, que describe y
tiendas de autores y publicaciones que tienen varios modelos de datos.
2) Los datos de enriquecimiento, que toma las publicaciones de cada autor y los
enriquece el uso de tecnologías semánticas y 3) Patrón de detección, que hace
uso de algoritmos de minería de datos para detectar áreas de conocimiento
similares y redes potenciales de colaboración. Los módulos de alto nivel de la
arquitectura se ilustran en la Figura 1 y sus características se explicarán en esta
sección. Por último, proporcionamos un punto final SPARQL 3 Para los autoressección. Por último, proporcionamos un punto final SPARQL 3 Para los autoressección. Por último, proporcionamos un punto final SPARQL 3 Para los autores
consultas, publicaciones, áreas de conocimiento y redes de colaboración.
A. Fuentes de Datos
Utilizamos varias fuentes de datos disponibles en la web que SUP- puerto de la exploración
de los datos académicos. Algunos de ellos ofrecen una interfaz a un repositorio específico de
datos bibliográficos, otros integran múltiples fuentes de datos para proporcionar acceso a un
conjunto más rico de datos, proporcionando un conjunto más rico de funcionalidades. Sin
embargo, hay dos tipos de fuentes bibliográficas para recuperar datos. En primer lugar, el
acceso es libre y la información está disponible en línea. En segundo lugar, se requiere que las
tarifas de acceso, ya que son proporcionados por los editores más importantes de la literatura
científica. Luego de resolver el problema de acceso, utilizamos los metadatos disponibles.
Las diferentes fuentes de datos representan repositorios que con- tiene
información sobre autores y publicaciones cientí fi cas de las diferentes áreas. Las
fuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados enfuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados enfuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados en
diferentes IES, y esos registros pertenecen sólo a los autores ecuatorianos. Cada
repos- itory contiene cientí fi cos documentos, tesis, disertaciones, libros,
monografías de los investigadores o estudiantes.
Las publicaciones científicas son extraídos de fuentes bibliográficas como
Microsoft Académicos, Google Scholar, Scopus DBLP y que ponen a disposición
sus datos a través de las API. Los datos varían en su contenido debido a cada
fuente tiene un diferente
3 http://redi.cedia.org.ec/sparql/admin/squebi.html3 http://redi.cedia.org.ec/sparql/admin/squebi.html
4 DSpace es el software de elección para los académicos, sin fi t, y las organizaciones comerciales que4 DSpace es el software de elección para los académicos, sin fi t, y las organizaciones comerciales que
construyen los repositorios digitales abiertos; http://www.dspace.org
78
Figura 1: Arquitectura general para detectar patrones de fuentes de datos bibliográficos.
estructura. Además, el acceso a los datos está restringida en algunos casos, por
ejemplo, en Scopus podemos hacer un máximo de 5000 querys para cada IP,
entonces la fuente se bloquea el acceso de los siete días. Por otra parte, las fuentes
de publicaciones no tienen los mismos campos, por ejemplo, Scopus tiene los
siguientes campos: datos af filiación de los autores, tablas, gráficos de publicaciones,
los autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estos
campos. Por lo tanto, vemos que, es necesario hacer una unificación de estos
variedad de modelos de datos en un modelo común que describen la literatura de
diferentes dominios almacenados en un repositorio central.
Es necesario para procesar las fuentes de datos mencionadas anteriormente para
entender la estructura y el acceso de los datos. Estas tareas se describen en detalle en
el apartado siguiente.
B. Extracción de datos.
los extracción de datos módulo se encarga de extraer y descripción de los datoslos extracción de datos módulo se encarga de extraer y descripción de los datoslos extracción de datos módulo se encarga de extraer y descripción de los datos
bibliográficos de varias fuentes que utilizan las tecnologías semánticas y prácticas de
Linked Data. Los datos extraídos se analizan con el fin de definir una estructura
utilizando la documentación disponible en la fuente y si no existe, el modelo de datos
de la fuente se analiza utilizando técnicas de web raspado. Después de eso, se
establece el modelo de datos, los datos se extrae y se almacena en un almacén
triple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos contriple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos contriple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos con
un bibliográfica ontología definida por el propietario fuente. Si los datos ya están
anotadas a continuación, se almacena directamente en la tienda triple. De lo
contrario, estos datos se anota y se almacena con BIBO ontología. Utilizamos las
fuentes de datos bibliográficos para cubrir diferentes escenarios y encontrar los
principales problemas que se plantean en el proceso de la extracción y el
enriquecimiento de los recursos bibliográficos. Cada vez que se añade una nueva
fuente, se analiza el modelo de datos de forma manual y luego extraer los datos.
Estos dos procesos se encapsulan en componentes descritos a continuación.
1) Análisis del modelo: Las diferentes fuentes bibliográficas proporcionan sus1) Análisis del modelo: Las diferentes fuentes bibliográficas proporcionan sus
recursos con una estructura lógica o con un modelo de datos diferente que tiene
el mismo tipo de información.
5 http://marmotta.apache.org/5 http://marmotta.apache.org/
recursos bibliográficos no están completamente modelados por un modelo
estándar o global que abarque todas las propiedades como autores, citas,
conferencias, áreas de conocimiento, etc. Algunas características tales como DOI,
ISBN, formato bibliográfico las referencias de recursos se describen por la
Descripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. RequisitosDescripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. RequisitosDescripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. Requisitos
funcionales para registros bibliográficos (FRBR) [ 12] reco- reparar un nuevofuncionales para registros bibliográficos (FRBR) [ 12] reco- reparar un nuevo
enfoque para la catalogación basado en un modelo de entidad-relación a un
recurso bibliográfico. Sin embargo, esto no es suficiente para tener una descripción
común de los recursos bibliográficos Entonces, uno de los principales retos es para
definir un modelo de datos común para facilitar el procesamiento de las
publicaciones científicas.
La heterogeneidad de los modelos representa el reto de integrar diversas fuentes.
Por lo tanto, antes de añadir una nueva fuente de datos hay que realizar un análisis
manual de los datos con respecto a los modelos que ya se utilizan para definir cómo
se va a realizar la extracción de estos datos y cómo éstos se adapta a nuestro
modelo de datos común. En algunos casos, las fuentes no publican la
documentación sobre el modelo de datos. Tenemos tres formas de encontrar el
modelo de datos de una fuente. En primer lugar, la fuente proporciona
documentación, segundo el modelo de datos se publica en trabajos de investigación,
tales como el modelo de datos de DBLPtales como el modelo de datos de DBLP
como se describe en [13]. Por último, se realiza peticiones HTTP mediante el envío de
parámetros como los nombres de los autores a la fuente que nos ayuda a inferir la estructura
de datos. El resultado de este componente es de datos con un modelo Ned fi de para cada
fuente.
Tras el análisis de los modelos de datos, lo que necesitamos para recuperar informa-
ción de cada una de las fuentes. El componente descrito en la sección III-B2 es
responsable de la extracción de las publicaciones científicas por cada autor.
2) la recuperación de datos: El componente recupera autores y publicaciones2) la recuperación de datos: El componente recupera autores y publicaciones
utilizando diferentes APIs, páginas web o puntos de SPARQL End- de diferentes
fuentes bibliográficas. Este componente está diseñado de manera abstracta, con el
objetivo de extraer información de cualquier fuente bibliográfica. Listado 1 y 2
ilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, y
6 norma ISO para la referencia bibliográfica en los documentos de todo tipo.6 norma ISO para la referencia bibliográfica en los documentos de todo tipo.
79
esas respuestas tienen un formato y estructura diferente a pesar de estar en la
misma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apache
Marmotta que ofrece varias formas de consumir datos XML de servicios web oMarmotta que ofrece varias formas de consumir datos XML de servicios web o
páginas web, tales como Google Académico el cual no tiene una API. Los datos sepáginas web, tales como Google Académico el cual no tiene una API. Los datos sepáginas web, tales como Google Académico el cual no tiene una API. Los datos se
procesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 que
añade información sobre los autores y las fuentes bibliográficas que luego utilizan
para descartar la información errónea. Por último, los datos se almacenan en el
triple tienda Apache Marmotta.
<? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?>
< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF
- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db
lp = ”Http: lp / / db. Dagstuhllp = ”Http: lp / / db. Dagstuhl
. es / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMS
cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.
org / 2 0 0 2/0 7 / búho #” >org / 2 0 0 2/0 7 / búho #” >
< DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl< DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl< DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl
. de / rec / con f / ICWE / ce Saqui l aVC10” >de / rec / con f / ICWE / ce Saqui l aVC10” >
< búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec /< búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec /< búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec /
con f / ICWE / ce Saqui l aVC10” />con f / ICWE / ce Saqui l aVC10” />
< búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org< búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org< búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org
/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />
< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11
T07: 32: 58 0100 </
DBLP: publicatio nL como difie TMO DDA t u>
< DBLP: titl e> Seman tic Anno tati el de REST< DBLP: titl e> Seman tic Anno tati el de REST
S ervicios Us o ex terna re cu r c s. </ DBLP: titl e>
< db lp: bibte FEDER xTyp: recursos = ”Http: / / datos.< db lp: bibte FEDER xTyp: recursos = ”Http: / / datos.< db lp: bibte FEDER xTyp: recursos = ”Http: / / datos.
bi BBA se. org / en gía tol / # I nproceedings” />bi BBA se. org / en gía tol / # I nproceedings” />
< DBLP: publicatio perdf NTY: recurso = ”Http: / /< DBLP: publicatio perdf NTY: recurso = ”Http: / /< DBLP: publicatio perdf NTY: recurso = ”Http: / /
LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />
< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org
/ Pers / s / S aquicela: V ictor” />/ Pers / s / S aquicela: V ictor” />
< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org
/ Pers / b / Bl = aacute = Zque z: Lu es Manue l Vi l che
s” />s” />
< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org
/ Pers / c / Cor cho: = Oacut e = cicatriz” />/ Pers / c / Cor cho: = Oacut e = cicatriz” />
< DBLP: pri ma ri E lectronic E ditionrdf: recursos = ”< DBLP: pri ma ri E lectronic E ditionrdf: recursos = ”< DBLP: pri ma ri E lectronic E ditionrdf: recursos = ”
http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />
< db lp: publi cado que nBook> ICWE Talleres </< db lp: publi cado que nBook> ICWE Talleres </
db lp: publi cado que nBook>
< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>
< DBLP: años O f P ublicatio n> 2010 </< DBLP: años O f P ublicatio n> 2010 </
DBLP: años O f P ublicatio n>
< DBLP: publishe DAS P arte de CDR: recurso = ”Http: / /< DBLP: publishe DAS P arte de CDR: recurso = ”Http: / /< DBLP: publishe DAS P arte de CDR: recurso = ”Http: / /
LP db. org / rec / conf / ICWE / 2010W” />LP db. org / rec / conf / ICWE / 2010W” />
< dcterms: licenserdf: recurso = ”Http: / / www.< dcterms: licenserdf: recurso = ”Http: / / www.< dcterms: licenserdf: recurso = ”Http: / / www.
opendatacommons. org / licencias / por /” />opendatacommons. org / licencias / por /” />
</ DBLP: P ublicatio n></ DBLP: P ublicatio n>
</ RDF: RDF></ RDF: RDF>
Listado 1: Respuesta DBLP
{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http :  /  / investigación . mi crosoft.
com” ,com” ,
”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios
Us o de Ex terno re cu r c s” ,Us o de Ex terno re cu r c s” ,
" Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ,
servicios REST se han convertido en un fenómeno creciente. Actualmente , Webservicios REST se han convertido en un fenómeno creciente. Actualmente , Webservicios REST se han convertido en un fenómeno creciente. Actualmente , Web
semántica
7 http://marmotta.apache.org/ldclient/7 http://marmotta.apache.org/ldclient/
8 El sésamo es un poderoso marco de Java para el procesamiento y manejo de datos RDF;8 El sésamo es un poderoso marco de Java para el procesamiento y manejo de datos RDF;
http://rdf4j.org/
technologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare  u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor bo
thtoleverage cada otherstrengths. La necesidad totake advan t edad de
dataavailable  u 000 ámbito de Seman evidencesthedifficult tic Web REST aindataavailable  u 000 ámbito de Seman evidencesthedifficult tic Web REST aindataavailable  u 000 ámbito de Seman evidencesthedifficult tic Web REST ain
servicesinthe iesto frente thsyntactic y wi s eman ticdescription  u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription  u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription  u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription  u 000 una de las” ,
”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel
Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,
”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 ,
”Con encia” : ”I nternacional cia fer Con el Web”Con encia” : ”I nternacional cia fer Con el Web”Con encia” : ”I nternacional cia fer Con el Web
Ingenieria " ,Ingenieria " ,
"URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo ,
" CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 ,
”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 ,
" Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” ,
" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007  / 978 - 3 - 642 - 16985 - 4
24 ” ,24 ” ,24 ” ,
”Ful lVers ionURL” : [”Ful lVers ionURL” : [”Ful lVers ionURL” : [
”http :  /  /www. SpringerLink. com  / content  / u 35”http :  /  /www. SpringerLink. com  / content  / u 35”http :  /  /www. SpringerLink. com  / content  / u 35”http :  /  /www. SpringerLink. com  / content  / u 35”http :  /  /www. SpringerLink. com  / content  / u 35
2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” ,
”http :  /  /www. SpringerLink. com  / Í ndice  / u 352”http :  /  /www. SpringerLink. com  / Í ndice  / u 352”http :  /  /www. SpringerLink. com  / Í ndice  / u 352”http :  /  /www. SpringerLink. com  / Í ndice  / u 352”http :  /  /www. SpringerLink. com  / Í ndice  / u 352
rt 6422820447 . pdf” ,rt 6422820447 . pdf” ,rt 6422820447 . pdf” ,rt 6422820447 . pdf” ,
”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169”http :  /  / Dx. i hacer. org  / 10 . 1007  / 978 - 3 - 642 - 169
85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” ,
”http :  /  /www. rm tik. uni - Trier. de  / ~ ley”http :  /  /www. rm tik. uni - Trier. de  / ~ ley”http :  /  /www. rm tik. uni - Trier. de  / ~ ley”http :  /  /www. rm tik. uni - Trier. de  / ~ ley”http :  /  /www. rm tik. uni - Trier. de  / ~ ley
 / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db  / con f  / ICWE  / ICWE 2010 w. html # Saqui ce l AVC 10 ”
] ,] ,
" CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 ,
" Diario " : nulo ," Diario " : nulo ," Diario " : nulo ," Diario " : nulo ,
"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman
Anno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic Tecnología
Web Seman” ]Web Seman” ]
”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 ,
"Tipo " : 1 ,"Tipo " : 1 ,"Tipo " : 1 ,"Tipo " : 1 ,
"Año " : 2010 }"Año " : 2010 }"Año " : 2010 }"Año " : 2010 }
Listado 2: La respuesta de Microsoft Académicos
Algunas fuentes no tienen herramientas que permiten el acceso a los datos, que
afecta a la calidad de los datos en el repositorio porque los re- sultados deben
complementarse y limpiado. La respuesta de
Google Académico se ilustra en el Listado 3 tiene un menor número de campos conGoogle Académico se ilustra en el Listado 3 tiene un menor número de campos con
respecto a la respuesta de otras fuentes ilustradas en el Listado 1 y 2, si bien es la
misma publicación. Si una fuente no tiene una API que permite el acceso a los datos,
esto puede afectar a la consistencia de la información en publicaciones científicas.
Para resolver este problema, utilizamos Métrica de cadena AlgoritmosPara resolver este problema, utilizamos Métrica de cadena Algoritmos
como La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valor
correcto de un campo publicación fi. El valor correcto de un campo es el que más se
repite entre todos los valores de diferentes fuentes. Por ejemplo, tenemos los siguientes
valores para un título de una publicación de cada fuente de datos: [ datos de sensorvalores para un título de una publicación de cada fuente de datos: [ datos de sensor
Vinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculado
datos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicos
de Microsoft. Determinamos con este componente que valoran [ datos de sensorde Microsoft. Determinamos con este componente que valoran [ datos de sensor
Vinculados] es el valor correcto para el título, ya que es el más común entre todos losVinculados] es el valor correcto para el título, ya que es el más común entre todos los
valores de títulos extraídos.
<? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?>
< publicatio n>< publicatio n>
< titl e> En richi ng de programación electrónica gu i ng de susi< titl e> En richi ng de programación electrónica gu i ng de susi
s eman tictechnologies y externa recursos.
</ titl e></ titl e>
< ur l> http: / / IEEEXplore. IEEE. org / ls xp / absall. JSP?< ur l> http: / / IEEEXplore. IEEE. org / ls xp / absall. JSP?
arnumber = 6965173 </ ur l>
< ye un r> 2,014 XL La ti n </ ye un r>< ye un r> 2,014 XL La ti n </ ye un r>
80
< citación s>? </ citación s>< citación s>? </ citación s>
< Versión s>. . </ S versión>< Versión s>. . </ S versión>
< el grupo I d> 17749203648027613321 </ cluster I D>< el grupo I d> 17749203648027613321 </ cluster I D>
< autor s ICELA> V Saqu, M Espon i za Me ji a </ autor s>< autor s ICELA> V Saqu, M Espon i za Me ji a </ autor s>
< abstracciones t> E guías de programas (EPG) lectrnic< abstracciones t> E guías de programas (EPG) lectrnic
información de programación describebroadcast RMA tionpr ov i ded por estaciones
de televisión. Sin embargo, los usuarios pueden obtener más información rma ción
cuando estos idus gu tienen Benn enriquecidos. La principal contribución de este
trabajo istopresent una au t oma ación </ Abstrac t>
</ publicatio n></ publicatio n>
Listado 3: Los datos recuperados de Google Académico. Es
necesario haber materializado datos sobre autores y publicaciones en un
repositorio para hallar correspondencias entre ellas a nivel local. Otra opción
es la recuperación de las publicaciones cuando un usuario los necesita, pero
el tiempo entre hacer una solicitud a una fuente externa y mapeo toma un
promedio de ocho a quince segundos en función de la API. Por lo tanto,
tenemos un repositorio unidad para ofrecer alta disponibilidad y acelerar para
realizar consultas de triples. Con los datos se materializó el tiempo de
respuesta es corta. Si el resultado de una consulta se retrasa, la respuesta de
datos y la consulta se almacena en un gráfico, para dar una respuesta
inmediata la próxima vez que se ejecuta la consulta. En este caso, no ejecutar
la consulta,
Algunas publicaciones han duplicado entidades debido a que estos son extraídos de
varias fuentes de datos. También en algunos casos es ambiguo para determinar las
publicaciones de un autor cuando tienen nombres similares. Así que los datos deben ser
procesadas antes de ser almacenados, es detallada en la sección III-C.
C. Datos Enriquecimiento
El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica-El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica-El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica-
ciones y autores en un repositorio central utilizando BIBO ontología. Nos fi nd
características entre las publicaciones y autores, la asignación de
correspondencias entre el modelo de datos de la fuente y el modelo común que
tenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemostenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemostenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemos
diversas entidades del mismo autor o publicación y esto representa un problema
de inconsistencia. Por esta razón, hemos un componente llamado Lade inconsistencia. Por esta razón, hemos un componente llamado La
desambiguación de datos que resuelven este problema.desambiguación de datos que resuelven este problema.
1) Mapeo Ontología del modelo: En este componente cada fuente de datos1) Mapeo Ontología del modelo: En este componente cada fuente de datos
con un modelo diferente se estructura en un modelo común. Esta fi componente
nd la correspondencia entre las propiedades de cada modelo de fuente a un
modelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en lamodelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en lamodelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en la
sección III-B2. El modelo común es anotado utilizando RDF 9 con una estructurasección III-B2. El modelo común es anotado utilizando RDF 9 con una estructurasección III-B2. El modelo común es anotado utilizando RDF 9 con una estructura
basada en triples. El modelo común se ilustra en la figura
2, que muestra la arquitectura utilizada. El proceso de mapeo es manual,
utilizando un fi l que contiene las correspondencias entre los modelos. Un
axample de mapeo entre DBLP modelo y el modelo común se ilustra en la tablaaxample de mapeo entre DBLP modelo y el modelo común se ilustra en la tablaaxample de mapeo entre DBLP modelo y el modelo común se ilustra en la tabla
I, se muestra el mapeo entre el modelo de datos de una fuente y una común
9 Resource Description Framework; https://www.w3.org/RDF/9 Resource Description Framework; https://www.w3.org/RDF/
modelo de datos que tenemos de fi nido. Una alternativa para este proceso es un estudio
para la anotación automática de Servicios Web REST descritos en [15], que argumenta que
no podemos hacer este proceso de forma automática.
campos DBLP campos modelo común
DBLP: primaryElectronicEdition Bibo: uri
DBLP: publishedAsPartOf DC: isPartOf
DC: licencia DC: licencia
RDF: Tipo RDF: Tipo
DBLP: publishedInBook dc: publisher
DBLP: authoredBy dc: contributor
DBLP: título dc: title
DBLP: números de página Bibo: númPáginas
dc: contributor dc: contributor
dc: title dc: title
Bibo: númPáginas Bibo: númPáginas
Bibo: uri Bibo: uri
dc: publisher dc: publisher
DC: isPartOf DC: isPartOf
Tabla I: campos mapeo entre modelo DBLP y el modelo de datos lun com-.
DBLP: <http // dblp.dagstuhl.de / RDF / esquema / -2015 / -01 / -26 / #> cc: <http //
purl.org / DC / términos /> Bibo: <http // revés. org / ontología / Bibo.>
El modelo común propuesto se describe utilizando BIBO Ontología [ 16], queEl modelo común propuesto se describe utilizando BIBO Ontología [ 16], queEl modelo común propuesto se describe utilizando BIBO Ontología [ 16], que
es una ontología utilizada para describir las entidades ographic bibli- como
libros, revistas, etc. Los autores se describen utilizando la ontología FOAF
(Amigo de un amigo), es una ontología se utiliza para describir a las personas,
sus actividades y relaciones con otros personas y objetos [17].
Los datos en el repositorio central se almacenan utilizando un modelo de
almacenamiento basado en gráficos. Hemos de fi ne un gráfico para cada fuente de datos ( Proveedoresalmacenamiento basado en gráficos. Hemos de fi ne un gráfico para cada fuente de datos ( Proveedores
de gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) que
almacena unificado informa- ción de publicaciones y autores. Para hacer que la unificación
de las publicaciones y autores, los datos deben ser analizados previamente para establecer
la correspondencia y eliminar la duplicación.
Listado 4 ilustra la publicación describe el uso de BIBO ontología. Es la
misma publicación se ilustra en el Listado 1 y 2, pero enriquecido con datos de
diferentes fuentes en un modelo de datos común. Las publicaciones se
almacenan en un repositorio central. Sin embargo, es un problema para
identificar al autor de una publicación correcta si hay varios autores con los
mismos nombres o similares. Estos problema se resuelve en la desambiguación
de datos de componentes.
<? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?>
< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF
- syn t hacha - ns #”- syn t hacha - ns #”- syn t hacha - ns #”- syn t hacha - ns #”
ns XML: bo bi = ”Http: / / revés. org / en gía tol / bo bi /”ns XML: bo bi = ”Http: / / revés. org / en gía tol / bo bi /”
ns XML: DC = ”Http: / / revés. org / DC / RMS cnicas /”ns XML: DC = ”Http: / / revés. org / DC / RMS cnicas /”
ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1 /”ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1 /”
ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >
< RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec /< RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec /< RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec /
wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -
sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >
< DC: titl e> Seman tic Annona ación de REST< DC: titl e> Seman tic Annona ación de REST
S ervicios ing Ex terno re cu r c en s con nosotros. </ Dc: titl e>
< foaf: O rganizationrdf: recurso = ”Http: / / db lp< foaf: O rganizationrdf: recurso = ”Http: / / db lp< foaf: O rganizationrdf: recurso = ”Http: / / db lp
. uni - Trier. es /” />. uni - Trier. es /” />. uni - Trier. es /” />. uni - Trier. es /” />
81
Figura 2: Modelo común basado en BIBO ontología.
< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.
Dagstuhl. de / peers / s / S aquicela: V ictor” />Dagstuhl. de / peers / s / S aquicela: V ictor” />
< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.
Dagstuhl. es / compañeros / c / Cor cho: = Oacut e = cicatriz”
/>
< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.
Dagstuhl. de / peers / b / BL = aacute = Zque z: Lu es
Manue l Vi l che s” />Manue l Vi l che s” />
< búho: sameAs RDF: recurso = ”Http: lp / / db.< búho: sameAs RDF: recurso = ”Http: lp / / db.< búho: sameAs RDF: recurso = ”Http: lp / / db.
Dagstuhl. de / rec / con f / ICWE / ce Saqui l aVC10”
/>
< Bibo: uri< Bibo: uri RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -
16985 - 4 24” />16985 - 4 24” />16985 - 4 24” />16985 - 4 24” />
< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>
< dc: licenserdf: recurso = ”Http: / / www.< dc: licenserdf: recurso = ”Http: / / www.< dc: licenserdf: recurso = ”Http: / / www.
opendatacommons. org / licencias / por /” />opendatacommons. org / licencias / por /” />
< DC: publishe r> ICWE Talleres </ dc: publishe r>< DC: publishe r> ICWE Talleres </ dc: publishe r>
< dc: es P arte O frdf: recurso = ”Http: lp / / db.< dc: es P arte O frdf: recurso = ”Http: lp / / db.< dc: es P arte O frdf: recurso = ”Http: lp / / db.
Dagstuhl. de / rec / RDF / con f / ágil / con f / ágil / c en fig / IWCE /
2010W” /> 22010W” /> 2
</ Bibo: Documento></ Bibo: Documento>
</ RDF: RDF></ RDF: RDF>
Listado 4: Publicación describe usando BIBO ontología
2) Los datos de desambiguación: Los datos sobre los autores y publica- ciones2) Los datos de desambiguación: Los datos sobre los autores y publica- ciones
provenir de diferentes fuentes bibliográficas, tienen la duplicación e inconsistencia
especialmente cuando tienen autores similares. Por ejemplo, la Tabla II ilustra un
problema, el autor Victor Saquicela es en múltiples repositorios DSpace, porqueproblema, el autor Victor Saquicela es en múltiples repositorios DSpace, porqueproblema, el autor Victor Saquicela es en múltiples repositorios DSpace, porque
COL-
laborates en varios proyectos en diferentes IES. Por lo tanto, es necesario
descubrir autores que son la misma entidad entre las diversas fuentes. Este
componente permite para definir un único registro de un autor en un repositorio
central utilizando las características del autor y características de sus
publicaciones, aprovechando las descripciones ontológicas como OWL:publicaciones, aprovechando las descripciones ontológicas como OWL:
sameAs,
que permiten establecer que “Saquicela, V'ıctor” es el mismo deque permiten establecer que “Saquicela, V'ıctor” es el mismo deque permiten establecer que “Saquicela, V'ıctor” es el mismo de
“Saquicela Galarza, V'ıctor Hugo”
autor URI Nombre del autor
CTOR SAQUICELA V !!: ucuenca Saquicela, V ?? ctor
ucuenca: SAQUICELA GALARZA VICTOR HUGO Saquicela Galarza, V ~ Un actor Hugo
CEDIA: SAQUICELA VICTOR,”Saquicela Saquicela, Victor
ucuenca: SAQUICELA GALARZA V !! CTOR HUGO Saquicela Galarza, V ?? ctor Hugo ucuenca: VICTOR
SAQUICELA Saquicela, V ~ Actor
ucuenca: SAQUICELA V Saquicela, V
Tabla II: Resultados de Búsqueda de autor en Microsoft académicos.
La búsqueda de publicaciones de un autor en las fuentes bibliográficas
como Microsoft Académicos, tenemos como parámetro sólo los nombres decomo Microsoft Académicos, tenemos como parámetro sólo los nombres decomo Microsoft Académicos, tenemos como parámetro sólo los nombres de
autor. Cada fuente bibliográfica tiene varios autores con nombres similares y
diferentes publicaciones. Por ejemplo, cuando buscamos el autor Mauriciodiferentes publicaciones. Por ejemplo, cuando buscamos el autor Mauricio
Espinoza
en Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En esteen Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En esteen Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En este
caso tenemos seis autores que cumplen con la búsqueda
82
parámetros. Por lo tanto, es necesario identificar qué autor es el que corresponde
a los datos del autor del Ecuador, tienen en cuenta los caracteres especiales.
Nombre del autor A fi liación Campos
Mauricio Espinoza Universidad Polit' ecnica de Madrid Bases de datos, Ingeniería
Mauricio I. Espinoza - Farmacología, enfermedades, Oftalmología
Mauricio Espinoza - Medicina
Mauricio Alfredo Rettig Espinoza - Derecho Criminología
Mauricio Espinoza R - Medicina
Andrés Mauricio Espinoza Rivas Universidad NA de México -
Tabla III: Resultados de Búsqueda de autor en Microsoft académicos.
Hemos de fi ne una prioridad entre las fuentes bibliográficas de acuerdo a la
calidad de los datos. La fuente más fiable es Scopus, porque es el más
consistente con las búsquedas, por ejemplo, tales como búsquedas Juan Pabloconsistente con las búsquedas, por ejemplo, tales como búsquedas Juan Pablo
Carvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos la
diferencia. Otras fuentes de datos tales como DBLP no mantiene registros
completos del autor y sólo utilizan el primer nombre y apellido, causando
publicaciones científico se asignan a otros autores.
El componente La desambiguación de datos crear un registro único para unEl componente La desambiguación de datos crear un registro único para unEl componente La desambiguación de datos crear un registro único para un
autor y elimina las publicaciones que no pertenecen a un autor. La Figura 3,
ilustra el proceso que extraer un autor de la gráfica de autores, pero también
extraer sus publicaciones de cada uno gráficos de origen en el toria reposi-
central. Si algunas propiedades como el título, año de publicación o conferencia
entre las publicaciones se encuentra, el OWL: sameAsentre las publicaciones se encuentra, el OWL: sameAs
propiedad se establece entre estas publicaciones. Si el autor de estas
publicaciones no está todavía en el repositorio central de un nuevo registro se crea
con las publicaciones procesados. Este proceso es iterativo para cada fuente de
datos, y cada publicación autor.
Hasta ahora, tenemos un repositorio central utilizando ontologías y Linked Data,
pero es necesario extraer el conocimiento de estos datos. En la siguiente sección se
muestra cómo se aplicó el módulo de detección de patrones para detectar áreas
similares entre los investigadores.
D. detección de patrón
En esta sección, describimos el propósito de este módulo que se identificó
comunidades o colaboradores fi ca redes que han estado trabajando en áreas
similares. comunidades detección de colaboradores nos permitieron
recomendamos un autor en particular, las publicaciones de un área especí fi ca y
colegas con intereses similares, que podrían estar interesados ​​en trabajar juntos. El
módulo tiene tres componentes para detectar patrones de los datos recogidos. En
primer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentra
Grupos componente para detectar algunos patrones en el conjunto de datos. los KnowledgeGrupos componente para detectar algunos patrones en el conjunto de datos. los KnowledgeGrupos componente para detectar algunos patrones en el conjunto de datos. los Knowledge
Discovery
componente se utiliza para extraer el conocimiento de los grupos asociados. Para acelerar
las consultas y tienen grupos organizados, cada grupo está marcado en el Grupos delas consultas y tienen grupos organizados, cada grupo está marcado en el Grupos de
etiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Para
otras preguntas.
Utilizamos algoritmos de agrupamiento para descubrir automáticamente ilarities
sim-, pero la complejidad de cálculo crece exponencialmente con la longitud de
autores y publicaciones. Para un gran corpus de texto no sólo es la complejidad
muy alta pero el recuerdo
requisito también es muy grande, posiblemente, los datos no pueden encajar en la
memoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos dememoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos dememoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos de
aprendizaje automático. Elegimos Mahout por la capacidad de hacer frente a grandes
conjuntos de datos, es una biblioteca de Java escalable y que podría bene fi cio de la
computación distribuida, ya que se basa en Apache Hadoop 11.computación distribuida, ya que se basa en Apache Hadoop 11.
Las palabras clave son los términos del índice que proporcionan la información más
importante sobre el contenido de una publicación. En términos generales, las palabras clave de
la literatura académica hablan de una cierta área temática o metodología, lo que permite
detectar zonas similares basados ​​en esas palabras clave como resultado hemos podido
detectar posibles redes de colaboración. Entonces, en lugar de uso de citas como un indicador
de relación utilizamos palabras clave de las publicaciones de cada autor.
1) Encontrar Grupos: pre-procesamiento de datos se lleva a cabo antes de la1) Encontrar Grupos: pre-procesamiento de datos se lleva a cabo antes de la
agrupación. Nuestro objetivo es descubrir similitudes con las palabras clave de las
publicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor se
extraen de la Repositorio central,extraen de la Repositorio central,
la creación de un documento que contiene las palabras clave asociadas con otros campos.
Después de eso, separar las palabras clave de los campos ing fi restante en diferentes
archivos, porque necesitamos simplemente palabras clave para identificar las áreas comunes.
No obstante, los campos restantes son necesarias para su posterior procesamiento como se
verá más adelante en la subsección III-D2. Tanto fi les son convertidos a una especificidad c
Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor,Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor,Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor,
donde la primera fi le contiene una clave con un único er identificación y un grupo de palabras
clave que pertenece a un documento se almacena como un valor (Tabla IV). Mismo sucede en
la segunda fi l con la diferencia de que en el par de valores que almacena los campos
restantes (Tabla V).
Carné de identidad Palabras clave
1 palabra clave 1, palabra clave 2 2
Palabra clave 2, 3 palabra clave
... ...
Tabla IV: Archivo con palabras clave.
Identificación del Autor Título URI
1 autor 1 título 1 http://uc.edu.ec/id#1
2 autor 2 título 2 http://uc.edu.ec/id#2
... ... ... ...
Tabla V: Archivo con restantes campos.
El uso de las palabras clave de documentos, se procede a aplicar las técnicas de
agrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente conagrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente conagrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente con
palabras clave (Tabla IV), los grupos de palabras clave en cada línea son considerados
como un documento. Antes de agrupar los datos en Mahout, es necesario preprocesar
los datos. Los datos han sido pre-procesado para convertir texto a valores numéricos,
pero no todas las palabras clave tienen la misma relevancia. La técnica ing peso utilizado
para magnificar las palabras más importantes y
10 http://mahout.apache.org10 http://mahout.apache.org
11 https://hadoop.apache.org11 https://hadoop.apache.org
12 Mahout también utilizan Secuencia de archivos para gestionar las entradas y salidas de MapRe- Duce y almacenar12 Mahout también utilizan Secuencia de archivos para gestionar las entradas y salidas de MapRe- Duce y almacenar
archivos temporales.
83
Figura 3: Proceso de desambiguación.
crear vectores es el término de frecuencia de frecuencia inversa de documento (TF-IDF)
[19]. TF-IDF nos ayuda a conseguir un peso pequeño para las palabras vacías ( un, una,[19]. TF-IDF nos ayuda a conseguir un peso pequeño para las palabras vacías ( un, una,
el, que, qué, sea, es, fue, y así sucesivamente) y términos que aparecen con pocael, que, qué, sea, es, fue, y así sucesivamente) y términos que aparecen con poca
frecuencia reciben un gran peso. Tema palabras tienen más importancia en el vector
producido, porque esas palabras por lo general tienen un alto TF y un algo grande FDI,
por el producto de los dos. Por ejemplo, si tenemos una colección de ficción ficticio de
documentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparece
en todos los documentos es cero y un plazo fi co muy específico como semántico, queen todos los documentos es cero y un plazo fi co muy específico como semántico, queen todos los documentos es cero y un plazo fi co muy específico como semántico, que
aparece en algunos documentos, se le asigna un comparativamente alto FDI. A
continuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valorescontinuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valorescontinuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valores
ponderados se utilizan para generar el espacio modelo vectorial (VSM) donde las
palabras son dimensiones. El problema con este VSM generada es que las palabras son
totalmente independientes entre sí y esto no siempre es cierto. A veces las palabras
tienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificar
a esta dependencia, utilizamos las colocaciones [20]. En el momento de escribir esto,
estamos ejecutando nuestro experimento usando bi-gramos y una norma euclidiana
(norma 2), que puede cambiar. En experimentos futuros, será interesante para generar
vectores usando
Indexación Semántica Latente (LSI) o aplicar un diario de probabilidad para tomar las palabras que en
su mayoría tienen la oportunidad de ir juntos. Así que en el largo plazo, tenemos nuestros vectores
completados para comenzar la agrupación.
Utilizamos los vectores generados para ejecutar el algoritmo K-medias en
Mahout. Fue ejecutado usando una medida de distancia coseno como medida de
similitud. Para sembrar los centroides iniciales, utilizamos RandomSeedGenerator,
que se utiliza para generar centroides aleatorios en Mahout. El experimento tiene
100 iteraciones como máximo y el número de grupos (K) varía en función de la
cantidad de datos extraídos de las diferentes fuentes bibliográficas, porque cuando
se extraen nuevas publicaciones o autores la k debe ser ajustado. Una vez que se
ejecuta el algoritmo tenemos nuestro VSM agrupado, donde cada vector pertenece
a un clúster. Con el fin de que esta información sea legible, se procesa de nuevo
este resultado como se verá a continuación.
2) Descubrimiento de Conocimiento: los resultado de esta
componente reemplazar el original palabras clave en el
vectores agrupado, por ejemplo, en lugar del vector
do 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce a
do 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos de
áreas comunes, utilizamos las palabras clave
84
de cada autor con el fin de detectar posibles redes de colaboración. Los autores
pertenecientes a esta red no pueden haber publicado al mismo tiempo, por lo que no
son necesariamente los co-autores.
La Figura 4 ilustra el proceso para descubrir áreas de conocimiento y redes de
colaboración usando los datos agrupados. Hemos desarrollado un modelo
MapReduce que está formado por dos articulaciones. En (a), tuvimos que crear las
palabras antes de procesar (Tabla
IV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar lasIV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar lasIV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar las
áreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster estoáreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster estoáreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster esto
significa que estas palabras clave pertenecen a la misma área o tema. Mientras que en
(b), se toman estas áreas de conocimiento para identificar posibles redes de colaboración.
Unirse a los datos sobre los autores (Tabla V) con las áreas de conocimiento detectados
ayuda para identificar una red de investigadores. Todos los autores que pertenecen al
mismo grupo pueden trabajar juntos porque están interesados ​​en temas similares. junto al autormismo grupo pueden trabajar juntos porque están interesados ​​en temas similares. junto al autor
campo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores y
publicaciones) que no son necesarios para el análisis actual pero que son importantes
para su posterior almacenamiento.
Figura 4: Une hecho para descubrir áreas de conocimiento (a) y redes de
colaboración (b).
En la mayoría de los grupos, los resultados son correctos. Figura 5 il- lustrates un
resultado de la muestra clustering tomado del proceso anterior. A la izquierda hay
temas comunes, lo que significa que todas las palabras clave están relacionados entre
sí, lo que significa que los autores (en el lado derecho) pueden formar una red de
colaboración y, en consecuencia trabajar juntos en proyectos futuros. Por último, no
sólo para identificar áreas similares y redes de colaboración, pero también podríamos
recomendar documentos basado en el título de una publicación.
Cada agrupación pertenece a un área general tema. Así que en la subsección
siguiente, etiquetamos cada grupo de acuerdo a las palabras clave que lo contiene.
3) de la etiqueta Grupos: Tenemos muchas palabras clave que pertenecen a dominios3) de la etiqueta Grupos: Tenemos muchas palabras clave que pertenecen a dominios
complejos y de la mano de etiqueta cada cluster es una tediosa
Figura 5: Áreas de conocimiento (izquierda) y redes de colaboración (derecha).
y la tarea costosa. Palabras clave nos ayudan a manejar con eficacia las búsquedas y los motores
de búsqueda podría aumentar el rendimiento en las búsquedas por hallazgo de un área general
tópico basado en las palabras que pertenecen a un grupo. racimos de etiquetado ayudan a
responder a las preguntas especí fi cos (es decir: mostrar todos los investigadores que trabajan en
un área específico o todas las subáreas que pertenecen a un área general tópico).
Con el fin de lograr el propósito de etiquetado, las palabras clave asociadas con las
publicaciones fue enriquecida. Utilizamos WordNet 13publicaciones fue enriquecida. Utilizamos WordNet 13
[21] Para hallar sinónimos, hiperónimos, hipónimos y el concepto de una palabra para todas
las palabras clave en cada grupo. Eso ayuda a encontrar un significado común en la forma
en que las palabras podrían ocurrir juntos y encontrar significados similares. En otras
palabras, con el grupo de palabras establecidas, podríamos hallar un concepto o un tema
para cada grupo.
Aplicamos colapsado variacional Bayes (CVB) algoritmo que es una aplicación
para la asignación de Dirichlet latente (LDA) [22] en Mahout. Utilizamos todas las
palabras generadas por WordNet más el título y palabras clave de cada publicación
para encontrar un tema más amplio basado en varios subtemas descritos por las
palabras clave. En primer lugar, generamos vectores usando frecuencia del término
(TF) y después de eso, utilizamos Mahout RowId para convertir vectores del TF en
una matriz. Una vez generada la matriz el algoritmo CVB fue ejecutado con los
siguientes parámetros: 1 para el número de temas latentes y 20 interacciones
máximas. Este trabajo se aplicó a cada grupo. Conseguimos buenos resultados
utilizando la técnica tema de modelo, por ejemplo, las palabras clave de racimo de la
figura 5 se marcó como física.figura 5 se marcó como física.
Todos los resultados se almacenan en el repositorio central utilizando un modelo
RDF. La Figura 6 ilustra los conceptos y buques PARENTESCO utilizados para
almacenar los resultados. La flecha llena simboliza una relación entre las clases y la
flecha discontinua simboliza una relación común. Un nuevo URI se crea de las
agrupaciones, por ejemplo, http://ucuenca.edu.ec/resource/cluster#1. Autores y
publicaciones ya están almacenados en el gráfico central. Por lo ligamos con racimos
autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:
label para almacenar la etiqueta de cada clúster.label para almacenar la etiqueta de cada clúster.
13 Es una base de datos léxica para el idioma Inglés que se utiliza para aplicaciones de análisis de13 Es una base de datos léxica para el idioma Inglés que se utiliza para aplicaciones de análisis de
texto.
85
Figura 6: Conceptos y relaciones de modelo RDF.
IV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJO
Hemos presentado una arquitectura para identificar áreas comunes de investigación
entre los autores ecuatorianos. Esta arquitectura comprende un procedimiento para
extraer, enriquecer, y representan recursos liographical bib- para descubrir patrones de
uso de los datos MIN algoritmos ing. Los diferentes componentes implementados y
técnicas utilizadas para definir la arquitectura muestra el potencial de esta propuesta;
Actualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro seActualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro seActualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro se
centrará en el análisis de las alternativas a las técnicas de semántica con el objetivo de
mejorar la desambiguación de datos. Además, también tenemos la intención de hacer
mejoramientos al proceso de agrupamiento y el etiquetado. En la misma línea de
pensamiento, este trabajo podría ser adaptado para recomendar literatura basada en la
historia de búsquedas de los usuarios. Por último, las fuentes de datos bibliográficas
instituciones de educación superior nueva se añadirán al sistema de mejora de la
generación de redes potenciales de colaboración.
UN CKNOWLEDGMENTUN CKNOWLEDGMENT
Esta investigación fue apoyada por CEDIA 15 en el proyecto “RepositorioEsta investigación fue apoyada por CEDIA 15 en el proyecto “RepositorioEsta investigación fue apoyada por CEDIA 15 en el proyecto “Repositorio
ecuatoriana de investigadores”. Agradecemos a nuestros colegas que
proporcionaron una visión y experiencia que ayudó fuertemente la investigación.
R EFERENCIASR EFERENCIAS
[1] VI Torvik y NR Smalheiser, “Nombre del autor desambiguación
en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3,en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3,en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3,
no. 3, p. 11, 2009.
[2] J. Huang, S. Ertekin, y CL Giles, “nombre del autor Fast desambiguación
en citeseer” informe técnico de ISI, vol. 66, 2006.en citeseer” informe técnico de ISI, vol. 66, 2006.en citeseer” informe técnico de ISI, vol. 66, 2006.
[3] F. Osborne, E. Motta, y P. Mulholland, “Exploración de datos académicas con
rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460-rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460-rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460-
477.
[4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una[4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una[4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una
aproximaci' en Basada en datos vinculados para la detecci' el de Potenciales
Redes de colaboraci' en fi ca cient'ı A partir de la anotaci' en sem' Antica
de producci' en cient'ı fi ca: Piloto Aplicado con producci' en cient'ı fi ca de
Investigadores ecuatorianos “, 2014.
14 http://redi.cedia.org.ec/14 http://redi.cedia.org.ec/
15 www.cedia.org.ec15 www.cedia.org.ec
[5] AA Krisnadhi, Y. Hu, K. Janowicz, P. Hitzler, RA Arko, S. Carbotte,
C. Chandler, M. Cheatham, D. Fils, T. Finin, P. Ji, MB Jones,
N. Karima, K. Lehnert, A. Mickle, T. Narock, M. OBrien, L. Raymond,
A. Shepherd, M. Schildhauer, y P. Wiebe, “El marco Geolink para la integración de datos
ligado basado en patrones,” en SEMWEB, 2015.ligado basado en patrones,” en SEMWEB, 2015.ligado basado en patrones,” en SEMWEB, 2015.
[6] A. Gangemi, La Web Semántica - ISWC 2005: 4º Internacional[6] A. Gangemi, La Web Semántica - ISWC 2005: 4º Internacional
Semántica Web Conference, ISWC 2005, Galway, Irlanda, Noviembre 6-
10, 2005. Proceedings. Berlín, Heidelberg: Springer Berlin Heidelberg,10, 2005. Proceedings. Berlín, Heidelberg: Springer Berlin Heidelberg,
2005, cap. Patrones de diseño para la ontología semántica de contenido web, pp. 262-276. [En línea].
Disponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como unaDisponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como unaDisponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como una
herramienta de evaluación de revistas”.
Asociación Americana para el Avance de la Ciencia, 1972. [8] S. Pohl, F. Radlinski, y T.
Joachims, “Recomendación de documentos relacionados
basado en los registros de acceso a bibliotecas digitales “, en Actas de la séptima ACM /basado en los registros de acceso a bibliotecas digitales “, en Actas de la séptima ACM /
IEEE-CS Conferencia Conjunta sobre bibliotecas digitales, Ser. JCDL '07. Nueva York, NY,IEEE-CS Conferencia Conjunta sobre bibliotecas digitales, Ser. JCDL '07. Nueva York, NY,
EE.UU.: ACM, 2007, pp 417-418.. [En línea]. Disponible:
http://doi.acm.org/10.1145/1255175.1255260 [9] SM McNee, I. Albert, D. Cosley, P.
Gopalkrishnan, SK Lam,
AM Rashid, JA Konstan, y J. Riedl, “Sobre la recomendación de citas para trabajos de
investigación,” en Actas de la Conferencia ACM 2002 sobre trabajo cooperativo asistido porinvestigación,” en Actas de la Conferencia ACM 2002 sobre trabajo cooperativo asistido por
computadora, Ser. TCAO '02. Nueva York, NY, EE.UU.: ACM, 2002, pp 116-125.. [En línea].computadora, Ser. TCAO '02. Nueva York, NY, EE.UU.: ACM, 2002, pp 116-125.. [En línea].
Disponible: http://doi.acm.org/10.1145/587078.587096 [10] H. Alfraidi, “sistema interactivo para
científica visualización c publicación
y la medición de similitud basado en la red de citas “, Tesis de Maestría, Universidad de
Ottawa, 2015. [11] A. Barbari'
c, “ISBD: descripción bibliográfica estándar internacional”
2014.
[12] ET O'Neill, “FRBR: Requisitos funcionales de los registros bibliográficos,”
recursos de la biblioteca y los servicios técnicos, 9 2002.recursos de la biblioteca y los servicios técnicos, 9 2002.
[13] M. Ley, “solicitudes DBLP XML,” 2009.
[14] C. Xiao, W. Wang, X. Lin, JX Yu, y G. Wang, “fi ciente
similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3,similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3,similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3,
pp. 15: 1-15: 41, agosto de 2011. [En línea]. Disponible:
http://doi.acm.org/10.1145/2000824.2000825 [15] JE Ortiz Vivar y JL Segarra Flores,
“Plataforma para la anotaci' en
sem' Antica de servicio web reparador Sobre ONU bus de Servicios,”sep 2015. [16] F.
Giasson y B. D'Arcus. (2009, 11) ontología bibliográfica
especificación. [En línea]. Disponible: http://bibliontology.com/speci fi cación [17] D. Brickley y L.
Miller, “foaf vocabulario específico de cationes 0.98,” nombres-Miller, “foaf vocabulario específico de cationes 0.98,” nombres-
documento de ritmo, vol. 9, 2012.documento de ritmo, vol. 9, 2012.
[18] No hay Andrews y EA Fox, “Los acontecimientos recientes en el documento
agrupación.”Virginia Tech: Departamento de Ciencias de la Computación, 2007. [19] S.
Robertson,“La comprensión de la frecuencia inversa de documento: En
argumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero deargumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero deargumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero de
2004. [En línea]. Disponible: http://research.microsoft. com / aplicaciones / pubs / default.aspx?
id = 67744 [20] CD Manning y H. SCH
utze, Fundamentos de Estadística Naturalutze, Fundamentos de Estadística Natural
Procesamiento del Lenguaje. Cambridge, MA, EE.UU.: MIT Press, enero de 1999. [21] GA Miller,Procesamiento del Lenguaje. Cambridge, MA, EE.UU.: MIT Press, enero de 1999. [21] GA Miller,
“Wordnet: Una base de datos léxica de Inglés” Commun.“Wordnet: Una base de datos léxica de Inglés” Commun.
ACM, vol. 38, no. 11, pp. 39-41, noviembre de 1995. [En línea]. Disponible:ACM, vol. 38, no. 11, pp. 39-41, noviembre de 1995. [En línea]. Disponible:
http://doi.acm.org/10.1145/219717.219748 [22] DM Blei, AY Ng, y el MI Jordan, “la asignación
de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003.de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003.de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003.
86

Más contenido relacionado

La actualidad más candente

Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Univ de Zaragoza
 
Bibliotecas hemerotecas digitales
Bibliotecas hemerotecas digitalesBibliotecas hemerotecas digitales
Bibliotecas hemerotecas digitalesjgromhero
 
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Univ de Zaragoza
 
Sistema de biblioteca sena
Sistema de biblioteca senaSistema de biblioteca sena
Sistema de biblioteca senaleidydipaez
 
Recursos Virtuales en la Biblioteca
Recursos Virtuales en la BibliotecaRecursos Virtuales en la Biblioteca
Recursos Virtuales en la BibliotecaBiblioteca UPPR
 
Principales motores de busqueda academico 2.1
Principales motores de busqueda academico 2.1Principales motores de busqueda academico 2.1
Principales motores de busqueda academico 2.1Nombre Apellidos
 
¿Como se consultan las bases de datos
¿Como se consultan las bases de datos ¿Como se consultan las bases de datos
¿Como se consultan las bases de datos Angievaca
 
Buscadores académicos
Buscadores académicosBuscadores académicos
Buscadores académicosPere Masip
 
Manejar los buscadores web para consultar información actualizada
Manejar los buscadores web para consultar información actualizadaManejar los buscadores web para consultar información actualizada
Manejar los buscadores web para consultar información actualizadasalgonsan
 
Presentacion Metodos de Busqueda
Presentacion Metodos de BusquedaPresentacion Metodos de Busqueda
Presentacion Metodos de BusquedaDIANE_ANDREA
 

La actualidad más candente (19)

Recursos Multidisciplinares
Recursos MultidisciplinaresRecursos Multidisciplinares
Recursos Multidisciplinares
 
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
 
Recursos en Humanidades
Recursos en HumanidadesRecursos en Humanidades
Recursos en Humanidades
 
Se buscan articulos (ed. 2019)
Se buscan articulos (ed. 2019)Se buscan articulos (ed. 2019)
Se buscan articulos (ed. 2019)
 
Bibliotecas hemerotecas digitales
Bibliotecas hemerotecas digitalesBibliotecas hemerotecas digitales
Bibliotecas hemerotecas digitales
 
Tipos de fuentes y recursos de información en Ciencias de la Salud
Tipos de fuentes y recursos de información en Ciencias de la SaludTipos de fuentes y recursos de información en Ciencias de la Salud
Tipos de fuentes y recursos de información en Ciencias de la Salud
 
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
Herramientas bibliográficas para la investigación en Ciencias. Curso 2009-201...
 
Recursos en Historia del Arte
Recursos en Historia del ArteRecursos en Historia del Arte
Recursos en Historia del Arte
 
Sistema de biblioteca sena
Sistema de biblioteca senaSistema de biblioteca sena
Sistema de biblioteca sena
 
E-investigación bibliográfica
E-investigación bibliográficaE-investigación bibliográfica
E-investigación bibliográfica
 
RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)
 
Recursos Virtuales en la Biblioteca
Recursos Virtuales en la BibliotecaRecursos Virtuales en la Biblioteca
Recursos Virtuales en la Biblioteca
 
Principales motores de busqueda academico 2.1
Principales motores de busqueda academico 2.1Principales motores de busqueda academico 2.1
Principales motores de busqueda academico 2.1
 
Gestor de referencias zotero
Gestor de referencias zoteroGestor de referencias zotero
Gestor de referencias zotero
 
¿Como se consultan las bases de datos
¿Como se consultan las bases de datos ¿Como se consultan las bases de datos
¿Como se consultan las bases de datos
 
Buscadores académicos
Buscadores académicosBuscadores académicos
Buscadores académicos
 
Manejar los buscadores web para consultar información actualizada
Manejar los buscadores web para consultar información actualizadaManejar los buscadores web para consultar información actualizada
Manejar los buscadores web para consultar información actualizada
 
Presentacion Metodos de Busqueda
Presentacion Metodos de BusquedaPresentacion Metodos de Busqueda
Presentacion Metodos de Busqueda
 
Acceso Remoto
Acceso RemotoAcceso Remoto
Acceso Remoto
 

Similar a Bigdata

Exposición Tercer Eje Temático
Exposición Tercer Eje Temático Exposición Tercer Eje Temático
Exposición Tercer Eje Temático sppalacioa
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtualwandres2015
 
El tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaEl tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaDIGIBIS
 
aporte de internet
aporte de internetaporte de internet
aporte de internetanjogonz
 
Recursos de Información en Internet para investigación en el ámbito de la Co...
Recursos de Información en Internet  para investigación en el ámbito de la Co...Recursos de Información en Internet  para investigación en el ámbito de la Co...
Recursos de Información en Internet para investigación en el ámbito de la Co...Renata Rodrigues
 
Proyecto Biblioteca Virtual UTMACH
Proyecto Biblioteca Virtual UTMACHProyecto Biblioteca Virtual UTMACH
Proyecto Biblioteca Virtual UTMACHanitalalangui
 
Informe tarea 2 yosmar amaya ver 1
Informe tarea 2 yosmar amaya ver 1Informe tarea 2 yosmar amaya ver 1
Informe tarea 2 yosmar amaya ver 1unacl20
 
Diseño de una estrategia de búsqueda de recurso
Diseño de una estrategia de búsqueda de recursoDiseño de una estrategia de búsqueda de recurso
Diseño de una estrategia de búsqueda de recursoErika Arciga
 
3 actividad. presentacion electronica uso bibliotecas uniminuto
3 actividad. presentacion electronica uso bibliotecas uniminuto3 actividad. presentacion electronica uso bibliotecas uniminuto
3 actividad. presentacion electronica uso bibliotecas uniminutokevin anderson chala pabon
 
Presentacion electronica del uso de bibliotecas uniminuto
Presentacion  electronica del uso de bibliotecas uniminutoPresentacion  electronica del uso de bibliotecas uniminuto
Presentacion electronica del uso de bibliotecas uniminutojeisson santafe
 
AILC: resumen de informe final
AILC: resumen de informe finalAILC: resumen de informe final
AILC: resumen de informe finalpuracenteno
 
Trabajo final sistemas de información II
Trabajo final sistemas de información IITrabajo final sistemas de información II
Trabajo final sistemas de información IIdicatogo15
 
Trabajo final sistemas de información
Trabajo final sistemas de informaciónTrabajo final sistemas de información
Trabajo final sistemas de informacióndicatogo15
 
Inicio de Proyecto - Investigativo
Inicio de Proyecto - InvestigativoInicio de Proyecto - Investigativo
Inicio de Proyecto - InvestigativoAlejandro Rivillas
 

Similar a Bigdata (20)

Exposición Tercer Eje Temático
Exposición Tercer Eje Temático Exposición Tercer Eje Temático
Exposición Tercer Eje Temático
 
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
El tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaEl tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez García
 
aporte de internet
aporte de internetaporte de internet
aporte de internet
 
Recursos de Información en Internet para investigación en el ámbito de la Co...
Recursos de Información en Internet  para investigación en el ámbito de la Co...Recursos de Información en Internet  para investigación en el ámbito de la Co...
Recursos de Información en Internet para investigación en el ámbito de la Co...
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Proyecto Biblioteca Virtual UTMACH
Proyecto Biblioteca Virtual UTMACHProyecto Biblioteca Virtual UTMACH
Proyecto Biblioteca Virtual UTMACH
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Datos abiertos enlazados: Experiencia en la Universidad de Chile
Datos abiertos enlazados: Experiencia en la Universidad de ChileDatos abiertos enlazados: Experiencia en la Universidad de Chile
Datos abiertos enlazados: Experiencia en la Universidad de Chile
 
Informe tarea 2 yosmar amaya ver 1
Informe tarea 2 yosmar amaya ver 1Informe tarea 2 yosmar amaya ver 1
Informe tarea 2 yosmar amaya ver 1
 
Diseño de una estrategia de búsqueda de recurso
Diseño de una estrategia de búsqueda de recursoDiseño de una estrategia de búsqueda de recurso
Diseño de una estrategia de búsqueda de recurso
 
3 actividad. presentacion electronica uso bibliotecas uniminuto
3 actividad. presentacion electronica uso bibliotecas uniminuto3 actividad. presentacion electronica uso bibliotecas uniminuto
3 actividad. presentacion electronica uso bibliotecas uniminuto
 
Presentacion electronica del uso de bibliotecas uniminuto
Presentacion  electronica del uso de bibliotecas uniminutoPresentacion  electronica del uso de bibliotecas uniminuto
Presentacion electronica del uso de bibliotecas uniminuto
 
Trabajo1tics
Trabajo1tics Trabajo1tics
Trabajo1tics
 
AILC: resumen de informe final
AILC: resumen de informe finalAILC: resumen de informe final
AILC: resumen de informe final
 
Trabajo final sistemas de información II
Trabajo final sistemas de información IITrabajo final sistemas de información II
Trabajo final sistemas de información II
 
Trabajo final sistemas de información
Trabajo final sistemas de informaciónTrabajo final sistemas de información
Trabajo final sistemas de información
 
Inicio de Proyecto - Investigativo
Inicio de Proyecto - InvestigativoInicio de Proyecto - Investigativo
Inicio de Proyecto - Investigativo
 
Web of data y los repositorios institucionales
Web of data y los repositorios institucionalesWeb of data y los repositorios institucionales
Web of data y los repositorios institucionales
 

Último

CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIACLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIAMayraOchoa35
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.pptVitobailon
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfAnonymous0pBRsQXfnx
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaSHERELYNSAMANTHAPALO1
 
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfLEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfAdelaHerrera9
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Francisco Javier Mora Serrano
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.ALEJANDROLEONGALICIA
 
Exposicion. del documentos de YPFB corporación
Exposicion. del documentos de YPFB corporaciónExposicion. del documentos de YPFB corporación
Exposicion. del documentos de YPFB corporaciónjas021085
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfErikNivor
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfReneBellido1
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAJAMESDIAZ55
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfIsbelRodrguez
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaANDECE
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)ssuser6958b11
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadANDECE
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfJessLeonelVargasJimn
 

Último (20)

CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIACLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.ppt
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo II
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdf
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresa
 
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfLEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.
 
Exposicion. del documentos de YPFB corporación
Exposicion. del documentos de YPFB corporaciónExposicion. del documentos de YPFB corporación
Exposicion. del documentos de YPFB corporación
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdf
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes Granada
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidad
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdf
 

Bigdata

  • 1. La detección de áreas similares de conocimiento que utilizan tecnologías de minería de datos y semánticas Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §,Xavier Sumba *, Freddy Sumba †, Andres Tello ‡, Fernando Baculima §, Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖Mauricio Espinoza ¶ y V'ıctor Saquicela ‖ Departamento de Ciencias de la Computación de la Universidad de Cuenca Cuenca, Ecuador Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec,Email: * xavier.sumba93@ucuenca.ec, † freddy.sumbao@ucuenca.ec, ‡ andres.tello@ucuenca.edu.ec, § fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec§ fernando.baculima@ucuenca.edu.ec, ¶ mauricio.espinoza@ucuenca.edu.ec, ‖ victor.saquicela@ucuenca.edu.ec Abstracto -Searching para las publicaciones de la Ciencia en línea es unaAbstracto -Searching para las publicaciones de la Ciencia en línea es una tarea esencial para los investigadores que trabajan sobre un tema determinado. Sin embargo, la cantidad extremadamente grande de publicaciones científicas que se encuentra en la web convierte el proceso de hallazgo de una publicación en una tarea fi culta muy dif mientras que, la localización de los compañeros interesados ​​en colaborar en un tema específico o la revisión de la literatura es aún más difícil. En este trabajo, se propone una arquitectura novedosa para unir múltiples fuentes bibliográficas, con el objetivo de identificar áreas comunes de investigación y redes potenciales de colaboración, a través de una combinación de ontologías, vocabularios, y tecnologías de Linked Data para el enriquecimiento de un modelo de datos de base. Por otra parte, se implementa un prototipo para proporcionar un repositorio centralizado con fuentes bibliográficas y para fi nd áreas de conocimiento similares utilizando técnicas de minería de datos en el ámbito de la comunidad de investigadores de Ecuador. I. INTRODUCCIÓNI. INTRODUCCIÓN El número de publicaciones está aumentando rápidamente a través de recursos en línea, tales como los motores de búsqueda y las bibliotecas digitales, lo que hace más difícil para los investigadores que persiguen un tema, revisión de la literatura, la historia de la investigación de pista debido a la cantidad de información obtenida es demasiado extensa. Por otra parte, la mayor parte de la literatura académica es ruidoso y desorganizado. Actualmente, cierta información sobre los investigadores y sus recursos bibliográficos se encuentran dispersos entre varios repositorios digitales, archivos de texto o bases de datos bibliográficas. Cuando tenga que proponer proyectos con varios investigadores en un área especí fi ca que pertenecen a diferentes instituciones de educación superior (IES), se plantean diferentes preguntas. Por ejemplo, los que trabajan en áreas similares de la investigación? o, ¿cómo puedo crear una red de investigadores en un área de conocimiento común? Entonces, la detección de áreas similares basados ​​en las palabras clave que podría ayudar a los gobiernos y las instituciones de educación superior para detectar los investigadores con intereses en común, abriendo una oportunidad para generar nuevos proyectos de investigación y destinar esfuerzos y recursos para ellos. En ese caso, se podría detectar posibles redes de colaboración. La expansión de esta base de conocimiento permitirá a nuestra comunidad académica para tener un reposi- torio digital centralizada que tiene información de investigadores ecuatorianos basados ​​en recursos bibliográficos. Los colaboradores se identifican a través de un enriquecimiento semántico de los artículos cientí fi ca producidos por los investigadores que publican con ecuatorianos afiliaciones. Este trabajo tiene como objetivo alentar a las instituciones a colaborar y ob- tain un repositorio semántico para identificar los investigadores que trabajan en áreas similares y, proporcionar información actualizada accesible y reutilizable. La mejora de la generación de redes de investigación con pares académicos de la región podría proporcionar una mayor oportu- nidad para la colaboración entre las instituciones participantes. Obviamente, hay muchas herramientas y servicios disponibles actualmente en la web que ya proporcionan una amplia variedad de funcionalidades para apoyar la exploración de los datos académicos. Cada herramienta o servicio funciona de diferentes maneras, que en algunos casos complican los datos de revisión de la literatura o utilización. Estas herramientas permiten a las publicaciones o servicios de búsqueda con palabras clave, nombres de autores, conferencias, autores afiliaciones af fi través Interfaz denombres de autores, conferencias, autores afiliaciones af fi través Interfaz de programación de aplicaciones (API). Se han empezado a utilizar las tecnologíasprogramación de aplicaciones (API). Se han empezado a utilizar las tecnologías semánticas que ayuda a describir sus re- cursos, pero cada fuente es diferente. Nuestro enfoque de utilizar estas características, para recuperar y enriquecer los datos bibliográficos de varias fuentes bibliográficas para detectar áreas similares. El resto del trabajo se organiza de la siguiente manera: la sección II presenta el trabajo relacionado. Describimos la arqui- tectura en la sección III, la detección de áreas similares en el dominio de investigadores ecuatorianos y detectar posibles redes de colaboración, utilizando las tecnologías semánticas para enriquecer los datos extraídos de diferentes fuentes bibliográficas en un modelo común. Conclusiones y trabajo futuro se presentan en la sección de IV. II. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJOII. R EXALTADO W TRABAJO Esta sección presenta las herramientas y servicios utilizados para la búsqueda de publicaciones, la unificación de las publicaciones, los autores ción disambigua-, y los enfoques relacionados con la identificación de áreas de investigación similares. Algunas fuentes bibliográficas contar con herramientas que permitan el acceso a los datos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API quedatos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API quedatos, pero otras fuentes no tienen. Por ejemplo, Google Académico no tiene una API que permite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporcionapermite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporcionapermite una recuperación automática de publicaciones. Microsoft Académicos Buscar proporciona una API para buscar publicaciones, y también ofrece una variedad de herramientas para visualizaciones gráficas tales como co-autoría, publicaciones de tendencias, y las rutas de coautoría entre autores. SIN EMBARGO, tienen los datos a partir de 2013, que en realidad no está actualizado. Recientemente lanzaron una nueva versión en la que el principal problema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, estaproblema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, estaproblema es la ambigüedad de los autores. Scopus, también tiene API Elsevier, esta 77
  • 2. fuente es accesible sólo por suscripción y tiene peticiones limitadas. Bibliografíafuente es accesible sólo por suscripción y tiene peticiones limitadas. Bibliografía Digital y Proyecto Biblioteca (DBLP) ofrece tres bases de datos disponibles ( Trier1, Trier2, Dagstuhl)ofrece tres bases de datos disponibles ( Trier1, Trier2, Dagstuhl) a través de una API, y están disponibles en varios formatos de datos como JSON, XML o RDF los datos. Cada fuente bibliográfica tiene datos que pueden ser duplicadas o inconsistentes. En nuestro caso, es necesario corregir los datos ambiguos antes de almacenarla. En [1], hay dos métodos de desambiguación de los autores, el primer uno utiliza los nombres de los autores y sus iniciales, y el segundo es un método avanzado que utiliza nombres iniciales y autores af filiación. En [2], se presenta un marco que utiliza un método de agrupamiento DBSCANpresenta un marco que utiliza un método de agrupamiento DBSCAN para identificar al autor de acuerdo a sus artículos. Se analiza la similitud entre las series de publicaciones de diferentes autores. Si se determina que la similitud entre estos recursos, se establece el autor correcta a una publicación específica. En [3] propuso el sistema Rexplore, que utiliza el análisis estadístico, tecnologías semánticas, y el análisis visual para proporcionar datos de investigación académicos y localizar áreas de investigación. Utilizamos una idea similar, pero vamos a añadir dinámicamente nuevas fuentes de datos para mejorar la información de los autores. Un trabajo similar se hace por [4], que detectan posibles redes de colaboración a través de la enriquecimiento semántico de artículos científicos. Sin embargo, este trabajo tiene autores de una sola fuente y sólo ecuatoriana a fi liación; mientras que podemos presentar la información externa cuando se necesita de varias fuentes. Se fi nd papeles similares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería desimilares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería desimilares utilizando SKOS 1 conceptos, mientras que utilizan algoritmos de minería de datos en su lugar. En el campo de los estudios de ciencias de la Tierra se ha demostrado que es Posible para mejorar la recuperación de datos, la reutilización y la integración de repositorios de datos mediante el uso de ontologías. Por ejemplo, en [5], la Geolinkuso de ontologías. Por ejemplo, en [5], la Geolink proyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño deproyecto, una parte de EarthCube 2, integra siete repositorios utilizando Patrones de diseño de ontologías (PAO) [ 6] se ha definido manualmente. Tienen un conjunto de PAO como elontologías (PAO) [ 6] se ha definido manualmente. Tienen un conjunto de PAO como el esquema general, en lugar de utilizar una ontología monolítica. Para obtener los datos que ejecutan las consultas federadas. Por el contrario, en nuestra propuesta de todas las fuentes forman un único repositorio y que no utilizan consultas federadas debido a que el tiempo de respuesta es interminable. El modelo de datos Geolink es de fi nido especí fi camente para los datos geográficos, que difiere de nuestra pro- puesta que abarca varios dominios de acuerdo con la fuente bibliográfica. Estudios anteriores hallazgo una relación entre publicaciones han demostrado que datos de citas se utiliza a menudo como un indicador de la relación. Las citas se utilizan para medir el impacto de los documentos [7]. Sin embargo, hay otros enfoques a fi nd documentos relacionados, el trabajo de [8] muestra que los registros digitales pueden ser utilizados como indicadores. Colaboración fi ltrado se podría utilizar para fi nd publicaciones relacionadas también; en la obra de [9] que utilizan la web de citas entre las publicaciones para crear la matriz de calificación y recomendar trabajos de investigación. Además, las relaciones basadas en las citas da una idea de la distribución de jerarquía de publicaciones de todo un tema determinado, como se muestra por [10]. Aunque las citas son un indicador excelente 1 https://www.w3.org/2004/02/skos/1 https://www.w3.org/2004/02/skos/ 2 EarthCube es una iniciativa de infraestructura cibernética dirigida por la comunidad de las ciencias geográficas;2 EarthCube es una iniciativa de infraestructura cibernética dirigida por la comunidad de las ciencias geográficas; http://earthcube.org/ para expresar la relación, no hemos podido encontrar trabajo fi en la literatura de utilizar palabras clave como un indicador de encontrar una relación entre las publicaciones e identificar las áreas comunes usando palabras clave publicación. Después de haber analizado el trabajo relacionado de los enfoques que tienen que ver con la identificación de temas de investigación, se puede afirmar que las obras existentes no enriquecen automáticamente los recursos bibliográficos obtenidos de diferentes fuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso defuentes, tales como Google Académico o DBLP. Por otra parte, se propone el uso de algoritmos de minería de datos para detectar áreas similares de conocimiento y ontologías semánticas para describir y volver a utilizar los datos extraídos y procesados. III. UN RCHITECTURE PARA DETECTAR áreas similares deIII. UN RCHITECTURE PARA DETECTAR áreas similares de CONOCIMIENTO En esta sección, se describen los aspectos detallados de nuestra arquitectura propuesta para enriquecer la literatura académica disponible en las relaciones web y encontramos entre los autores y sus publicaciones. Nuestro enfoque se basa en tres módulos principales diferentes, a saber: 1) Extracción de datos, que describe y tiendas de autores y publicaciones que tienen varios modelos de datos. 2) Los datos de enriquecimiento, que toma las publicaciones de cada autor y los enriquece el uso de tecnologías semánticas y 3) Patrón de detección, que hace uso de algoritmos de minería de datos para detectar áreas de conocimiento similares y redes potenciales de colaboración. Los módulos de alto nivel de la arquitectura se ilustran en la Figura 1 y sus características se explicarán en esta sección. Por último, proporcionamos un punto final SPARQL 3 Para los autoressección. Por último, proporcionamos un punto final SPARQL 3 Para los autoressección. Por último, proporcionamos un punto final SPARQL 3 Para los autores consultas, publicaciones, áreas de conocimiento y redes de colaboración. A. Fuentes de Datos Utilizamos varias fuentes de datos disponibles en la web que SUP- puerto de la exploración de los datos académicos. Algunos de ellos ofrecen una interfaz a un repositorio específico de datos bibliográficos, otros integran múltiples fuentes de datos para proporcionar acceso a un conjunto más rico de datos, proporcionando un conjunto más rico de funcionalidades. Sin embargo, hay dos tipos de fuentes bibliográficas para recuperar datos. En primer lugar, el acceso es libre y la información está disponible en línea. En segundo lugar, se requiere que las tarifas de acceso, ya que son proporcionados por los editores más importantes de la literatura científica. Luego de resolver el problema de acceso, utilizamos los metadatos disponibles. Las diferentes fuentes de datos representan repositorios que con- tiene información sobre autores y publicaciones cientí fi cas de las diferentes áreas. Las fuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados enfuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados enfuentes sobre autores se distribuyen en diferentes DSpace 4 registros situados en diferentes IES, y esos registros pertenecen sólo a los autores ecuatorianos. Cada repos- itory contiene cientí fi cos documentos, tesis, disertaciones, libros, monografías de los investigadores o estudiantes. Las publicaciones científicas son extraídos de fuentes bibliográficas como Microsoft Académicos, Google Scholar, Scopus DBLP y que ponen a disposición sus datos a través de las API. Los datos varían en su contenido debido a cada fuente tiene un diferente 3 http://redi.cedia.org.ec/sparql/admin/squebi.html3 http://redi.cedia.org.ec/sparql/admin/squebi.html 4 DSpace es el software de elección para los académicos, sin fi t, y las organizaciones comerciales que4 DSpace es el software de elección para los académicos, sin fi t, y las organizaciones comerciales que construyen los repositorios digitales abiertos; http://www.dspace.org 78
  • 3. Figura 1: Arquitectura general para detectar patrones de fuentes de datos bibliográficos. estructura. Además, el acceso a los datos está restringida en algunos casos, por ejemplo, en Scopus podemos hacer un máximo de 5000 querys para cada IP, entonces la fuente se bloquea el acceso de los siete días. Por otra parte, las fuentes de publicaciones no tienen los mismos campos, por ejemplo, Scopus tiene los siguientes campos: datos af filiación de los autores, tablas, gráficos de publicaciones, los autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estoslos autores estudiar áreas, pero DBLP o académicos de Microsoft no tienen estos campos. Por lo tanto, vemos que, es necesario hacer una unificación de estos variedad de modelos de datos en un modelo común que describen la literatura de diferentes dominios almacenados en un repositorio central. Es necesario para procesar las fuentes de datos mencionadas anteriormente para entender la estructura y el acceso de los datos. Estas tareas se describen en detalle en el apartado siguiente. B. Extracción de datos. los extracción de datos módulo se encarga de extraer y descripción de los datoslos extracción de datos módulo se encarga de extraer y descripción de los datoslos extracción de datos módulo se encarga de extraer y descripción de los datos bibliográficos de varias fuentes que utilizan las tecnologías semánticas y prácticas de Linked Data. Los datos extraídos se analizan con el fin de definir una estructura utilizando la documentación disponible en la fuente y si no existe, el modelo de datos de la fuente se analiza utilizando técnicas de web raspado. Después de eso, se establece el modelo de datos, los datos se extrae y se almacena en un almacén triple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos contriple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos contriple, en este caso Apache Marmotta 5. Algunas fuentes han grabado sus datos con un bibliográfica ontología definida por el propietario fuente. Si los datos ya están anotadas a continuación, se almacena directamente en la tienda triple. De lo contrario, estos datos se anota y se almacena con BIBO ontología. Utilizamos las fuentes de datos bibliográficos para cubrir diferentes escenarios y encontrar los principales problemas que se plantean en el proceso de la extracción y el enriquecimiento de los recursos bibliográficos. Cada vez que se añade una nueva fuente, se analiza el modelo de datos de forma manual y luego extraer los datos. Estos dos procesos se encapsulan en componentes descritos a continuación. 1) Análisis del modelo: Las diferentes fuentes bibliográficas proporcionan sus1) Análisis del modelo: Las diferentes fuentes bibliográficas proporcionan sus recursos con una estructura lógica o con un modelo de datos diferente que tiene el mismo tipo de información. 5 http://marmotta.apache.org/5 http://marmotta.apache.org/ recursos bibliográficos no están completamente modelados por un modelo estándar o global que abarque todas las propiedades como autores, citas, conferencias, áreas de conocimiento, etc. Algunas características tales como DOI, ISBN, formato bibliográfico las referencias de recursos se describen por la Descripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. RequisitosDescripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. RequisitosDescripción Bibliográfica Internacional Normalizada (ISBD) [11], ISO 690 6. Requisitos funcionales para registros bibliográficos (FRBR) [ 12] reco- reparar un nuevofuncionales para registros bibliográficos (FRBR) [ 12] reco- reparar un nuevo enfoque para la catalogación basado en un modelo de entidad-relación a un recurso bibliográfico. Sin embargo, esto no es suficiente para tener una descripción común de los recursos bibliográficos Entonces, uno de los principales retos es para definir un modelo de datos común para facilitar el procesamiento de las publicaciones científicas. La heterogeneidad de los modelos representa el reto de integrar diversas fuentes. Por lo tanto, antes de añadir una nueva fuente de datos hay que realizar un análisis manual de los datos con respecto a los modelos que ya se utilizan para definir cómo se va a realizar la extracción de estos datos y cómo éstos se adapta a nuestro modelo de datos común. En algunos casos, las fuentes no publican la documentación sobre el modelo de datos. Tenemos tres formas de encontrar el modelo de datos de una fuente. En primer lugar, la fuente proporciona documentación, segundo el modelo de datos se publica en trabajos de investigación, tales como el modelo de datos de DBLPtales como el modelo de datos de DBLP como se describe en [13]. Por último, se realiza peticiones HTTP mediante el envío de parámetros como los nombres de los autores a la fuente que nos ayuda a inferir la estructura de datos. El resultado de este componente es de datos con un modelo Ned fi de para cada fuente. Tras el análisis de los modelos de datos, lo que necesitamos para recuperar informa- ción de cada una de las fuentes. El componente descrito en la sección III-B2 es responsable de la extracción de las publicaciones científicas por cada autor. 2) la recuperación de datos: El componente recupera autores y publicaciones2) la recuperación de datos: El componente recupera autores y publicaciones utilizando diferentes APIs, páginas web o puntos de SPARQL End- de diferentes fuentes bibliográficas. Este componente está diseñado de manera abstracta, con el objetivo de extraer información de cualquier fuente bibliográfica. Listado 1 y 2 ilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, yilustran las respuestas de datos de microsoft Académicos y DBLP, y 6 norma ISO para la referencia bibliográfica en los documentos de todo tipo.6 norma ISO para la referencia bibliográfica en los documentos de todo tipo. 79
  • 4. esas respuestas tienen un formato y estructura diferente a pesar de estar en la misma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apachemisma publicación. Para extraer los datos utilizamos el LDClient 7 biblioteca de Apache Marmotta que ofrece varias formas de consumir datos XML de servicios web oMarmotta que ofrece varias formas de consumir datos XML de servicios web o páginas web, tales como Google Académico el cual no tiene una API. Los datos sepáginas web, tales como Google Académico el cual no tiene una API. Los datos sepáginas web, tales como Google Académico el cual no tiene una API. Los datos se procesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 queprocesan en la memoria usando un almacén temporal denominado Triple Sésamo 8 que añade información sobre los autores y las fuentes bibliográficas que luego utilizan para descartar la información errónea. Por último, los datos se almacenan en el triple tienda Apache Marmotta. <? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?> < RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF - syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db- syn t hacha - ns #” ns XML: bibtex = ”Http: / / datos. bi bb ASE. org / en tol gía / #” ns XML: db lp = ”Http: lp / / db. Dagstuhllp = ”Http: lp / / db. Dagstuhl . es / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMSes / RDF / esquema - 2015 - 01 - # 26” ns XML: rms dc Te = ”Http: / / revés. org / DC / RMS cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3.cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1” ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >org / 2 0 0 2/0 7 / búho #” > < DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl< DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl< DBLP: P ublicationrdf: about = ”Http: lp / / db. Dagstuhl . de / rec / con f / ICWE / ce Saqui l aVC10” >de / rec / con f / ICWE / ce Saqui l aVC10” > < búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec /< búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec /< búho: sameAs RDF: recurso = ”Http: lp / / db. org / rec / con f / ICWE / ce Saqui l aVC10” />con f / ICWE / ce Saqui l aVC10” /> < búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org< búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org< búho: sameAs RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” />/10.1007/978 - 3 - 642 - 16985 - 4 24” /> < DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11< DBLP: publicatio nL como TMO difie DDA t u> 2010 - 11 - 11 T07: 32: 58 0100 </ DBLP: publicatio nL como difie TMO DDA t u> < DBLP: titl e> Seman tic Anno tati el de REST< DBLP: titl e> Seman tic Anno tati el de REST S ervicios Us o ex terna re cu r c s. </ DBLP: titl e> < db lp: bibte FEDER xTyp: recursos = ”Http: / / datos.< db lp: bibte FEDER xTyp: recursos = ”Http: / / datos.< db lp: bibte FEDER xTyp: recursos = ”Http: / / datos. bi BBA se. org / en gía tol / # I nproceedings” />bi BBA se. org / en gía tol / # I nproceedings” /> < DBLP: publicatio perdf NTY: recurso = ”Http: / /< DBLP: publicatio perdf NTY: recurso = ”Http: / /< DBLP: publicatio perdf NTY: recurso = ”Http: / / LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” />LP db. Dagstuhl. es / RDF / esquema - 2015 - 01 - 26 # I nproceedings” /> < db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org / Pers / s / S aquicela: V ictor” />/ Pers / s / S aquicela: V ictor” /> < db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org / Pers / b / Bl = aacute = Zque z: Lu es Manue l Vi l che s” />s” /> < db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org< db lp: aut re ho DBY RDF: recursos = ”Http: lp / / db. org / Pers / c / Cor cho: = Oacut e = cicatriz” />/ Pers / c / Cor cho: = Oacut e = cicatriz” /> < DBLP: pri ma ri E lectronic E ditionrdf: recursos = ”< DBLP: pri ma ri E lectronic E ditionrdf: recursos = ”< DBLP: pri ma ri E lectronic E ditionrdf: recursos = ” http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” /> < db lp: publi cado que nBook> ICWE Talleres </< db lp: publi cado que nBook> ICWE Talleres </ db lp: publi cado que nBook> < db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s>< db lp: pageNumbe r s> 266 - 276 </ db lp: pageNumbe r s> < DBLP: años O f P ublicatio n> 2010 </< DBLP: años O f P ublicatio n> 2010 </ DBLP: años O f P ublicatio n> < DBLP: publishe DAS P arte de CDR: recurso = ”Http: / /< DBLP: publishe DAS P arte de CDR: recurso = ”Http: / /< DBLP: publishe DAS P arte de CDR: recurso = ”Http: / / LP db. org / rec / conf / ICWE / 2010W” />LP db. org / rec / conf / ICWE / 2010W” /> < dcterms: licenserdf: recurso = ”Http: / / www.< dcterms: licenserdf: recurso = ”Http: / / www.< dcterms: licenserdf: recurso = ”Http: / / www. opendatacommons. org / licencias / por /” />opendatacommons. org / licencias / por /” /> </ DBLP: P ublicatio n></ DBLP: P ublicatio n> </ RDF: RDF></ RDF: RDF> Listado 1: Respuesta DBLP { " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft.{ " tipo " : ”P UBLICACIÓN : http : / / investigación . mi crosoft. com” ,com” , ”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios”TÍTULO” : ”Seman tic Anno tati en REST de S ervicios Us o de Ex terno re cu r c s” ,Us o de Ex terno re cu r c s” , " Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 ," Abstracto " : “ U 000 S i un NCE la adven t de Web 2 . 0 , servicios REST se han convertido en un fenómeno creciente. Actualmente , Webservicios REST se han convertido en un fenómeno creciente. Actualmente , Webservicios REST se han convertido en un fenómeno creciente. Actualmente , Web semántica 7 http://marmotta.apache.org/ldclient/7 http://marmotta.apache.org/ldclient/ 8 El sésamo es un poderoso marco de Java para el procesamiento y manejo de datos RDF;8 El sésamo es un poderoso marco de Java para el procesamiento y manejo de datos RDF; http://rdf4j.org/ technologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor botechnologiesare u 000 A Sea i ng integratedinto Web 2 . 0 servicesfor bo thtoleverage cada otherstrengths. La necesidad totake advan t edad de dataavailable u 000 ámbito de Seman evidencesthedifficult tic Web REST aindataavailable u 000 ámbito de Seman evidencesthedifficult tic Web REST aindataavailable u 000 ámbito de Seman evidencesthedifficult tic Web REST ain servicesinthe iesto frente thsyntactic y wi s eman ticdescription u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription u 000 una de las” ,servicesinthe iesto frente thsyntactic y wi s eman ticdescription u 000 una de las” , ”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel”Autor” : [ ”Vi ctor S aquicela” , ”Lu es Manuel Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] ,Vi lches” , “? Ascar Corcho” ] , ”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 ,”Unt C itatio NCO” : 0 , ”Con encia” : ”I nternacional cia fer Con el Web”Con encia” : ”I nternacional cia fer Con el Web”Con encia” : ”I nternacional cia fer Con el Web Ingenieria " ,Ingenieria " , "URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo ,"URL de la Pagina Principal" : nulo , " CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 ," CARNÉ DE IDENTIDAD" : 46 , ”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 ,”Unt Pu blicatio NCO” : 0 , " Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” ," Nombre corto " : “ICWE” , " Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4" Año de inicio " : 0 “DOI” : ” 10 . 1007 / 978 - 3 - 642 - 16985 - 4 24 ” ,24 ” ,24 ” , ”Ful lVers ionURL” : [”Ful lVers ionURL” : [”Ful lVers ionURL” : [ ”http : / /www. SpringerLink. com / content / u 35”http : / /www. SpringerLink. com / content / u 35”http : / /www. SpringerLink. com / content / u 35”http : / /www. SpringerLink. com / content / u 35”http : / /www. SpringerLink. com / content / u 35 2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” ,2 rt 6422820447 ” , ”http : / /www. SpringerLink. com / Í ndice / u 352”http : / /www. SpringerLink. com / Í ndice / u 352”http : / /www. SpringerLink. com / Í ndice / u 352”http : / /www. SpringerLink. com / Í ndice / u 352”http : / /www. SpringerLink. com / Í ndice / u 352 rt 6422820447 . pdf” ,rt 6422820447 . pdf” ,rt 6422820447 . pdf” ,rt 6422820447 . pdf” , ”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169”http : / / Dx. i hacer. org / 10 . 1007 / 978 - 3 - 642 - 169 85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” ,85 - 4 24 ” , ”http : / /www. rm tik. uni - Trier. de / ~ ley”http : / /www. rm tik. uni - Trier. de / ~ ley”http : / /www. rm tik. uni - Trier. de / ~ ley”http : / /www. rm tik. uni - Trier. de / ~ ley”http : / /www. rm tik. uni - Trier. de / ~ ley / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” / db / con f / ICWE / ICWE 2010 w. html # Saqui ce l AVC 10 ” ] ,] , " CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 ," CARNÉ DE IDENTIDAD" : 39269940 , " Diario " : nulo ," Diario " : nulo ," Diario " : nulo ," Diario " : nulo , "Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman"Palabra clave" : [ “Ontología de dominio” , ”Tic Seman Anno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic TecnologíaAnno tati en” , ”Tic Seman De cripción” , " Web semántica" , ”Tic Tecnología Web Seman” ]Web Seman” ] ”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 ,”Re fer enceCoun t” : 19 , "Tipo " : 1 ,"Tipo " : 1 ,"Tipo " : 1 ,"Tipo " : 1 , "Año " : 2010 }"Año " : 2010 }"Año " : 2010 }"Año " : 2010 } Listado 2: La respuesta de Microsoft Académicos Algunas fuentes no tienen herramientas que permiten el acceso a los datos, que afecta a la calidad de los datos en el repositorio porque los re- sultados deben complementarse y limpiado. La respuesta de Google Académico se ilustra en el Listado 3 tiene un menor número de campos conGoogle Académico se ilustra en el Listado 3 tiene un menor número de campos con respecto a la respuesta de otras fuentes ilustradas en el Listado 1 y 2, si bien es la misma publicación. Si una fuente no tiene una API que permite el acceso a los datos, esto puede afectar a la consistencia de la información en publicaciones científicas. Para resolver este problema, utilizamos Métrica de cadena AlgoritmosPara resolver este problema, utilizamos Métrica de cadena Algoritmos como La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valorcomo La similitud del coseno y levenshtein se describe en [14] para determinar el valor correcto de un campo publicación fi. El valor correcto de un campo es el que más se repite entre todos los valores de diferentes fuentes. Por ejemplo, tenemos los siguientes valores para un título de una publicación de cada fuente de datos: [ datos de sensorvalores para un título de una publicación de cada fuente de datos: [ datos de sensor Vinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculadoVinculados] de DBLP, [ datos de sensor Vinculados] de Scopus, [ Publishing vinculado datos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicosdatos del sensor] de Google Académico, [ datos de sensor Vinculados] Los académicos de Microsoft. Determinamos con este componente que valoran [ datos de sensorde Microsoft. Determinamos con este componente que valoran [ datos de sensor Vinculados] es el valor correcto para el título, ya que es el más común entre todos losVinculados] es el valor correcto para el título, ya que es el más común entre todos los valores de títulos extraídos. <? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = “UTF - 8” ?> < publicatio n>< publicatio n> < titl e> En richi ng de programación electrónica gu i ng de susi< titl e> En richi ng de programación electrónica gu i ng de susi s eman tictechnologies y externa recursos. </ titl e></ titl e> < ur l> http: / / IEEEXplore. IEEE. org / ls xp / absall. JSP?< ur l> http: / / IEEEXplore. IEEE. org / ls xp / absall. JSP? arnumber = 6965173 </ ur l> < ye un r> 2,014 XL La ti n </ ye un r>< ye un r> 2,014 XL La ti n </ ye un r> 80
  • 5. < citación s>? </ citación s>< citación s>? </ citación s> < Versión s>. . </ S versión>< Versión s>. . </ S versión> < el grupo I d> 17749203648027613321 </ cluster I D>< el grupo I d> 17749203648027613321 </ cluster I D> < autor s ICELA> V Saqu, M Espon i za Me ji a </ autor s>< autor s ICELA> V Saqu, M Espon i za Me ji a </ autor s> < abstracciones t> E guías de programas (EPG) lectrnic< abstracciones t> E guías de programas (EPG) lectrnic información de programación describebroadcast RMA tionpr ov i ded por estaciones de televisión. Sin embargo, los usuarios pueden obtener más información rma ción cuando estos idus gu tienen Benn enriquecidos. La principal contribución de este trabajo istopresent una au t oma ación </ Abstrac t> </ publicatio n></ publicatio n> Listado 3: Los datos recuperados de Google Académico. Es necesario haber materializado datos sobre autores y publicaciones en un repositorio para hallar correspondencias entre ellas a nivel local. Otra opción es la recuperación de las publicaciones cuando un usuario los necesita, pero el tiempo entre hacer una solicitud a una fuente externa y mapeo toma un promedio de ocho a quince segundos en función de la API. Por lo tanto, tenemos un repositorio unidad para ofrecer alta disponibilidad y acelerar para realizar consultas de triples. Con los datos se materializó el tiempo de respuesta es corta. Si el resultado de una consulta se retrasa, la respuesta de datos y la consulta se almacena en un gráfico, para dar una respuesta inmediata la próxima vez que se ejecuta la consulta. En este caso, no ejecutar la consulta, Algunas publicaciones han duplicado entidades debido a que estos son extraídos de varias fuentes de datos. También en algunos casos es ambiguo para determinar las publicaciones de un autor cuando tienen nombres similares. Así que los datos deben ser procesadas antes de ser almacenados, es detallada en la sección III-C. C. Datos Enriquecimiento El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica-El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica-El módulo de Enriquecimiento de datos uni fi ca todos los datos de publica- ciones y autores en un repositorio central utilizando BIBO ontología. Nos fi nd características entre las publicaciones y autores, la asignación de correspondencias entre el modelo de datos de la fuente y el modelo común que tenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemostenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemostenemos de fi nido, a través de un componente de Mapeo Modelo ontología. Tenemos diversas entidades del mismo autor o publicación y esto representa un problema de inconsistencia. Por esta razón, hemos un componente llamado Lade inconsistencia. Por esta razón, hemos un componente llamado La desambiguación de datos que resuelven este problema.desambiguación de datos que resuelven este problema. 1) Mapeo Ontología del modelo: En este componente cada fuente de datos1) Mapeo Ontología del modelo: En este componente cada fuente de datos con un modelo diferente se estructura en un modelo común. Esta fi componente nd la correspondencia entre las propiedades de cada modelo de fuente a un modelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en lamodelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en lamodelo de datos común. Utilizando Cuerda Metrics Algoritmos mencionados en la sección III-B2. El modelo común es anotado utilizando RDF 9 con una estructurasección III-B2. El modelo común es anotado utilizando RDF 9 con una estructurasección III-B2. El modelo común es anotado utilizando RDF 9 con una estructura basada en triples. El modelo común se ilustra en la figura 2, que muestra la arquitectura utilizada. El proceso de mapeo es manual, utilizando un fi l que contiene las correspondencias entre los modelos. Un axample de mapeo entre DBLP modelo y el modelo común se ilustra en la tablaaxample de mapeo entre DBLP modelo y el modelo común se ilustra en la tablaaxample de mapeo entre DBLP modelo y el modelo común se ilustra en la tabla I, se muestra el mapeo entre el modelo de datos de una fuente y una común 9 Resource Description Framework; https://www.w3.org/RDF/9 Resource Description Framework; https://www.w3.org/RDF/ modelo de datos que tenemos de fi nido. Una alternativa para este proceso es un estudio para la anotación automática de Servicios Web REST descritos en [15], que argumenta que no podemos hacer este proceso de forma automática. campos DBLP campos modelo común DBLP: primaryElectronicEdition Bibo: uri DBLP: publishedAsPartOf DC: isPartOf DC: licencia DC: licencia RDF: Tipo RDF: Tipo DBLP: publishedInBook dc: publisher DBLP: authoredBy dc: contributor DBLP: título dc: title DBLP: números de página Bibo: númPáginas dc: contributor dc: contributor dc: title dc: title Bibo: númPáginas Bibo: númPáginas Bibo: uri Bibo: uri dc: publisher dc: publisher DC: isPartOf DC: isPartOf Tabla I: campos mapeo entre modelo DBLP y el modelo de datos lun com-. DBLP: <http // dblp.dagstuhl.de / RDF / esquema / -2015 / -01 / -26 / #> cc: <http // purl.org / DC / términos /> Bibo: <http // revés. org / ontología / Bibo.> El modelo común propuesto se describe utilizando BIBO Ontología [ 16], queEl modelo común propuesto se describe utilizando BIBO Ontología [ 16], queEl modelo común propuesto se describe utilizando BIBO Ontología [ 16], que es una ontología utilizada para describir las entidades ographic bibli- como libros, revistas, etc. Los autores se describen utilizando la ontología FOAF (Amigo de un amigo), es una ontología se utiliza para describir a las personas, sus actividades y relaciones con otros personas y objetos [17]. Los datos en el repositorio central se almacenan utilizando un modelo de almacenamiento basado en gráficos. Hemos de fi ne un gráfico para cada fuente de datos ( Proveedoresalmacenamiento basado en gráficos. Hemos de fi ne un gráfico para cada fuente de datos ( Proveedores de gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) quede gráfico), un gráfico para los autores (gráfico Autor) y un gráfico central ( Wkhuska gráfico) que almacena unificado informa- ción de publicaciones y autores. Para hacer que la unificación de las publicaciones y autores, los datos deben ser analizados previamente para establecer la correspondencia y eliminar la duplicación. Listado 4 ilustra la publicación describe el uso de BIBO ontología. Es la misma publicación se ilustra en el Listado 1 y 2, pero enriquecido con datos de diferentes fuentes en un modelo de datos común. Las publicaciones se almacenan en un repositorio central. Sin embargo, es un problema para identificar al autor de una publicación correcta si hay varios autores con los mismos nombres o similares. Estos problema se resuelve en la desambiguación de datos de componentes. <? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?><? xml ve RSI en = ”1. 0” encod i ng = ”UTF - 8” ?> < RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF< RDF: ns XML RDF: RDF = ”Http: / / www. W3. org / 1999/02/22 - RDF - syn t hacha - ns #”- syn t hacha - ns #”- syn t hacha - ns #”- syn t hacha - ns #” ns XML: bo bi = ”Http: / / revés. org / en gía tol / bo bi /”ns XML: bo bi = ”Http: / / revés. org / en gía tol / bo bi /” ns XML: DC = ”Http: / / revés. org / DC / RMS cnicas /”ns XML: DC = ”Http: / / revés. org / DC / RMS cnicas /” ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1 /”ns XML: foaf = ”http: / / xmlns. com / foaf / 0. 1 /” ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” >ns XML: búho = ”Http: / / www. W3. org / 2 0 0 2/0 7 / búho #” > < RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec /< RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec /< RDF documento:: Bibo sobre = ”Http: / / ucuenca. edu. ec / wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de -wkhuska / publicación / s tic eman - un nno en tati - de - sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " >sosegado - servicios - utilizando - externo " > < DC: titl e> Seman tic Annona ación de REST< DC: titl e> Seman tic Annona ación de REST S ervicios ing Ex terno re cu r c en s con nosotros. </ Dc: titl e> < foaf: O rganizationrdf: recurso = ”Http: / / db lp< foaf: O rganizationrdf: recurso = ”Http: / / db lp< foaf: O rganizationrdf: recurso = ”Http: / / db lp . uni - Trier. es /” />. uni - Trier. es /” />. uni - Trier. es /” />. uni - Trier. es /” /> 81
  • 6. Figura 2: Modelo común basado en BIBO ontología. < dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db. Dagstuhl. de / peers / s / S aquicela: V ictor” />Dagstuhl. de / peers / s / S aquicela: V ictor” /> < dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db. Dagstuhl. es / compañeros / c / Cor cho: = Oacut e = cicatriz” /> < dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db.< dc: contributorrdf: recurso = ”Http: lp / / db. Dagstuhl. de / peers / b / BL = aacute = Zque z: Lu es Manue l Vi l che s” />Manue l Vi l che s” /> < búho: sameAs RDF: recurso = ”Http: lp / / db.< búho: sameAs RDF: recurso = ”Http: lp / / db.< búho: sameAs RDF: recurso = ”Http: lp / / db. Dagstuhl. de / rec / con f / ICWE / ce Saqui l aVC10” /> < Bibo: uri< Bibo: uri RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 -RDF: recurso = ”Http: / / dx. i hacer. org /10.1007/978 - 3 - 642 - 16985 - 4 24” />16985 - 4 24” />16985 - 4 24” />16985 - 4 24” /> < b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas>< b IBO: númPáginas> 266 - 276 </ Bibo: númPáginas> < dc: licenserdf: recurso = ”Http: / / www.< dc: licenserdf: recurso = ”Http: / / www.< dc: licenserdf: recurso = ”Http: / / www. opendatacommons. org / licencias / por /” />opendatacommons. org / licencias / por /” /> < DC: publishe r> ICWE Talleres </ dc: publishe r>< DC: publishe r> ICWE Talleres </ dc: publishe r> < dc: es P arte O frdf: recurso = ”Http: lp / / db.< dc: es P arte O frdf: recurso = ”Http: lp / / db.< dc: es P arte O frdf: recurso = ”Http: lp / / db. Dagstuhl. de / rec / RDF / con f / ágil / con f / ágil / c en fig / IWCE / 2010W” /> 22010W” /> 2 </ Bibo: Documento></ Bibo: Documento> </ RDF: RDF></ RDF: RDF> Listado 4: Publicación describe usando BIBO ontología 2) Los datos de desambiguación: Los datos sobre los autores y publica- ciones2) Los datos de desambiguación: Los datos sobre los autores y publica- ciones provenir de diferentes fuentes bibliográficas, tienen la duplicación e inconsistencia especialmente cuando tienen autores similares. Por ejemplo, la Tabla II ilustra un problema, el autor Victor Saquicela es en múltiples repositorios DSpace, porqueproblema, el autor Victor Saquicela es en múltiples repositorios DSpace, porqueproblema, el autor Victor Saquicela es en múltiples repositorios DSpace, porque COL- laborates en varios proyectos en diferentes IES. Por lo tanto, es necesario descubrir autores que son la misma entidad entre las diversas fuentes. Este componente permite para definir un único registro de un autor en un repositorio central utilizando las características del autor y características de sus publicaciones, aprovechando las descripciones ontológicas como OWL:publicaciones, aprovechando las descripciones ontológicas como OWL: sameAs, que permiten establecer que “Saquicela, V'ıctor” es el mismo deque permiten establecer que “Saquicela, V'ıctor” es el mismo deque permiten establecer que “Saquicela, V'ıctor” es el mismo de “Saquicela Galarza, V'ıctor Hugo” autor URI Nombre del autor CTOR SAQUICELA V !!: ucuenca Saquicela, V ?? ctor ucuenca: SAQUICELA GALARZA VICTOR HUGO Saquicela Galarza, V ~ Un actor Hugo CEDIA: SAQUICELA VICTOR,”Saquicela Saquicela, Victor ucuenca: SAQUICELA GALARZA V !! CTOR HUGO Saquicela Galarza, V ?? ctor Hugo ucuenca: VICTOR SAQUICELA Saquicela, V ~ Actor ucuenca: SAQUICELA V Saquicela, V Tabla II: Resultados de Búsqueda de autor en Microsoft académicos. La búsqueda de publicaciones de un autor en las fuentes bibliográficas como Microsoft Académicos, tenemos como parámetro sólo los nombres decomo Microsoft Académicos, tenemos como parámetro sólo los nombres decomo Microsoft Académicos, tenemos como parámetro sólo los nombres de autor. Cada fuente bibliográfica tiene varios autores con nombres similares y diferentes publicaciones. Por ejemplo, cuando buscamos el autor Mauriciodiferentes publicaciones. Por ejemplo, cuando buscamos el autor Mauricio Espinoza en Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En esteen Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En esteen Microsoft Académicos, se obtienen los datos de respuesta ilustrados en la Tabla III. En este caso tenemos seis autores que cumplen con la búsqueda 82
  • 7. parámetros. Por lo tanto, es necesario identificar qué autor es el que corresponde a los datos del autor del Ecuador, tienen en cuenta los caracteres especiales. Nombre del autor A fi liación Campos Mauricio Espinoza Universidad Polit' ecnica de Madrid Bases de datos, Ingeniería Mauricio I. Espinoza - Farmacología, enfermedades, Oftalmología Mauricio Espinoza - Medicina Mauricio Alfredo Rettig Espinoza - Derecho Criminología Mauricio Espinoza R - Medicina Andrés Mauricio Espinoza Rivas Universidad NA de México - Tabla III: Resultados de Búsqueda de autor en Microsoft académicos. Hemos de fi ne una prioridad entre las fuentes bibliográficas de acuerdo a la calidad de los datos. La fuente más fiable es Scopus, porque es el más consistente con las búsquedas, por ejemplo, tales como búsquedas Juan Pabloconsistente con las búsquedas, por ejemplo, tales como búsquedas Juan Pablo Carvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos laCarvallo Vega y Juan Pablo Carvallo Ochoa, identificar en algunos casos la diferencia. Otras fuentes de datos tales como DBLP no mantiene registros completos del autor y sólo utilizan el primer nombre y apellido, causando publicaciones científico se asignan a otros autores. El componente La desambiguación de datos crear un registro único para unEl componente La desambiguación de datos crear un registro único para unEl componente La desambiguación de datos crear un registro único para un autor y elimina las publicaciones que no pertenecen a un autor. La Figura 3, ilustra el proceso que extraer un autor de la gráfica de autores, pero también extraer sus publicaciones de cada uno gráficos de origen en el toria reposi- central. Si algunas propiedades como el título, año de publicación o conferencia entre las publicaciones se encuentra, el OWL: sameAsentre las publicaciones se encuentra, el OWL: sameAs propiedad se establece entre estas publicaciones. Si el autor de estas publicaciones no está todavía en el repositorio central de un nuevo registro se crea con las publicaciones procesados. Este proceso es iterativo para cada fuente de datos, y cada publicación autor. Hasta ahora, tenemos un repositorio central utilizando ontologías y Linked Data, pero es necesario extraer el conocimiento de estos datos. En la siguiente sección se muestra cómo se aplicó el módulo de detección de patrones para detectar áreas similares entre los investigadores. D. detección de patrón En esta sección, describimos el propósito de este módulo que se identificó comunidades o colaboradores fi ca redes que han estado trabajando en áreas similares. comunidades detección de colaboradores nos permitieron recomendamos un autor en particular, las publicaciones de un área especí fi ca y colegas con intereses similares, que podrían estar interesados ​​en trabajar juntos. El módulo tiene tres componentes para detectar patrones de los datos recogidos. En primer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentraprimer lugar, todos los datos se toma del Repositorio central, se utiliza en la Encuentra Grupos componente para detectar algunos patrones en el conjunto de datos. los KnowledgeGrupos componente para detectar algunos patrones en el conjunto de datos. los KnowledgeGrupos componente para detectar algunos patrones en el conjunto de datos. los Knowledge Discovery componente se utiliza para extraer el conocimiento de los grupos asociados. Para acelerar las consultas y tienen grupos organizados, cada grupo está marcado en el Grupos delas consultas y tienen grupos organizados, cada grupo está marcado en el Grupos de etiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Paraetiquetas componente. Por último, los resultados se almacenan en el Repositorio central Para otras preguntas. Utilizamos algoritmos de agrupamiento para descubrir automáticamente ilarities sim-, pero la complejidad de cálculo crece exponencialmente con la longitud de autores y publicaciones. Para un gran corpus de texto no sólo es la complejidad muy alta pero el recuerdo requisito también es muy grande, posiblemente, los datos no pueden encajar en la memoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos dememoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos dememoria principal. Preferimos utilizar Apache Mahout 10 para ejecutar los algoritmos de aprendizaje automático. Elegimos Mahout por la capacidad de hacer frente a grandes conjuntos de datos, es una biblioteca de Java escalable y que podría bene fi cio de la computación distribuida, ya que se basa en Apache Hadoop 11.computación distribuida, ya que se basa en Apache Hadoop 11. Las palabras clave son los términos del índice que proporcionan la información más importante sobre el contenido de una publicación. En términos generales, las palabras clave de la literatura académica hablan de una cierta área temática o metodología, lo que permite detectar zonas similares basados ​​en esas palabras clave como resultado hemos podido detectar posibles redes de colaboración. Entonces, en lugar de uso de citas como un indicador de relación utilizamos palabras clave de las publicaciones de cada autor. 1) Encontrar Grupos: pre-procesamiento de datos se lleva a cabo antes de la1) Encontrar Grupos: pre-procesamiento de datos se lleva a cabo antes de la agrupación. Nuestro objetivo es descubrir similitudes con las palabras clave de las publicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor sepublicaciones. Palabras clave junto con otros campos tales como título, URI y autor se extraen de la Repositorio central,extraen de la Repositorio central, la creación de un documento que contiene las palabras clave asociadas con otros campos. Después de eso, separar las palabras clave de los campos ing fi restante en diferentes archivos, porque necesitamos simplemente palabras clave para identificar las áreas comunes. No obstante, los campos restantes son necesarias para su posterior procesamiento como se verá más adelante en la subsección III-D2. Tanto fi les son convertidos a una especificidad c Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor,Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor,Hadoop fi le formato que es SequenceFile 12. Esos archivos tiendas de pares clave / valor, donde la primera fi le contiene una clave con un único er identificación y un grupo de palabras clave que pertenece a un documento se almacena como un valor (Tabla IV). Mismo sucede en la segunda fi l con la diferencia de que en el par de valores que almacena los campos restantes (Tabla V). Carné de identidad Palabras clave 1 palabra clave 1, palabra clave 2 2 Palabra clave 2, 3 palabra clave ... ... Tabla IV: Archivo con palabras clave. Identificación del Autor Título URI 1 autor 1 título 1 http://uc.edu.ec/id#1 2 autor 2 título 2 http://uc.edu.ec/id#2 ... ... ... ... Tabla V: Archivo con restantes campos. El uso de las palabras clave de documentos, se procede a aplicar las técnicas de agrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente conagrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente conagrupamiento de texto [18] para el grupos fi nd módulo. Utilizamos el expediente con palabras clave (Tabla IV), los grupos de palabras clave en cada línea son considerados como un documento. Antes de agrupar los datos en Mahout, es necesario preprocesar los datos. Los datos han sido pre-procesado para convertir texto a valores numéricos, pero no todas las palabras clave tienen la misma relevancia. La técnica ing peso utilizado para magnificar las palabras más importantes y 10 http://mahout.apache.org10 http://mahout.apache.org 11 https://hadoop.apache.org11 https://hadoop.apache.org 12 Mahout también utilizan Secuencia de archivos para gestionar las entradas y salidas de MapRe- Duce y almacenar12 Mahout también utilizan Secuencia de archivos para gestionar las entradas y salidas de MapRe- Duce y almacenar archivos temporales. 83
  • 8. Figura 3: Proceso de desambiguación. crear vectores es el término de frecuencia de frecuencia inversa de documento (TF-IDF) [19]. TF-IDF nos ayuda a conseguir un peso pequeño para las palabras vacías ( un, una,[19]. TF-IDF nos ayuda a conseguir un peso pequeño para las palabras vacías ( un, una, el, que, qué, sea, es, fue, y así sucesivamente) y términos que aparecen con pocael, que, qué, sea, es, fue, y así sucesivamente) y términos que aparecen con poca frecuencia reciben un gran peso. Tema palabras tienen más importancia en el vector producido, porque esas palabras por lo general tienen un alto TF y un algo grande FDI, por el producto de los dos. Por ejemplo, si tenemos una colección de ficción ficticio de documentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparecedocumentos con las palabras el y semántico, las FDI para la palabra vacía el que aparece en todos los documentos es cero y un plazo fi co muy específico como semántico, queen todos los documentos es cero y un plazo fi co muy específico como semántico, queen todos los documentos es cero y un plazo fi co muy específico como semántico, que aparece en algunos documentos, se le asigna un comparativamente alto FDI. A continuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valorescontinuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valorescontinuación, el producto de la TF-IDF nos da un valor mayor para semántico. Los valores ponderados se utilizan para generar el espacio modelo vectorial (VSM) donde las palabras son dimensiones. El problema con este VSM generada es que las palabras son totalmente independientes entre sí y esto no siempre es cierto. A veces las palabras tienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificartienen algún tipo de dependencia, tales como Semántico con Web. Con el fin de identificar a esta dependencia, utilizamos las colocaciones [20]. En el momento de escribir esto, estamos ejecutando nuestro experimento usando bi-gramos y una norma euclidiana (norma 2), que puede cambiar. En experimentos futuros, será interesante para generar vectores usando Indexación Semántica Latente (LSI) o aplicar un diario de probabilidad para tomar las palabras que en su mayoría tienen la oportunidad de ir juntos. Así que en el largo plazo, tenemos nuestros vectores completados para comenzar la agrupación. Utilizamos los vectores generados para ejecutar el algoritmo K-medias en Mahout. Fue ejecutado usando una medida de distancia coseno como medida de similitud. Para sembrar los centroides iniciales, utilizamos RandomSeedGenerator, que se utiliza para generar centroides aleatorios en Mahout. El experimento tiene 100 iteraciones como máximo y el número de grupos (K) varía en función de la cantidad de datos extraídos de las diferentes fuentes bibliográficas, porque cuando se extraen nuevas publicaciones o autores la k debe ser ajustado. Una vez que se ejecuta el algoritmo tenemos nuestro VSM agrupado, donde cada vector pertenece a un clúster. Con el fin de que esta información sea legible, se procesa de nuevo este resultado como se verá a continuación. 2) Descubrimiento de Conocimiento: los resultado de esta componente reemplazar el original palabras clave en el vectores agrupado, por ejemplo, en lugar del vector do 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce ado 1 = ( 182.12, 334.32, 324,43) el vector se traduce a do 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos dedo 1 = ( “ WebSemantic ”,“ Ontología ”,“ LinkedData “). Una vez detectar los grupos de áreas comunes, utilizamos las palabras clave 84
  • 9. de cada autor con el fin de detectar posibles redes de colaboración. Los autores pertenecientes a esta red no pueden haber publicado al mismo tiempo, por lo que no son necesariamente los co-autores. La Figura 4 ilustra el proceso para descubrir áreas de conocimiento y redes de colaboración usando los datos agrupados. Hemos desarrollado un modelo MapReduce que está formado por dos articulaciones. En (a), tuvimos que crear las palabras antes de procesar (Tabla IV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar lasIV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar lasIV) y los resultados de la agrupación. El campo ID de clúster nos ayuda a identificar las áreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster estoáreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster estoáreas de conocimiento similares, por lo tanto, cuando tenemos la misma ID de clúster esto significa que estas palabras clave pertenecen a la misma área o tema. Mientras que en (b), se toman estas áreas de conocimiento para identificar posibles redes de colaboración. Unirse a los datos sobre los autores (Tabla V) con las áreas de conocimiento detectados ayuda para identificar una red de investigadores. Todos los autores que pertenecen al mismo grupo pueden trabajar juntos porque están interesados ​​en temas similares. junto al autormismo grupo pueden trabajar juntos porque están interesados ​​en temas similares. junto al autor campo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores ycampo, hay otros campos tales como la publicación título o URI ( para los autores y publicaciones) que no son necesarios para el análisis actual pero que son importantes para su posterior almacenamiento. Figura 4: Une hecho para descubrir áreas de conocimiento (a) y redes de colaboración (b). En la mayoría de los grupos, los resultados son correctos. Figura 5 il- lustrates un resultado de la muestra clustering tomado del proceso anterior. A la izquierda hay temas comunes, lo que significa que todas las palabras clave están relacionados entre sí, lo que significa que los autores (en el lado derecho) pueden formar una red de colaboración y, en consecuencia trabajar juntos en proyectos futuros. Por último, no sólo para identificar áreas similares y redes de colaboración, pero también podríamos recomendar documentos basado en el título de una publicación. Cada agrupación pertenece a un área general tema. Así que en la subsección siguiente, etiquetamos cada grupo de acuerdo a las palabras clave que lo contiene. 3) de la etiqueta Grupos: Tenemos muchas palabras clave que pertenecen a dominios3) de la etiqueta Grupos: Tenemos muchas palabras clave que pertenecen a dominios complejos y de la mano de etiqueta cada cluster es una tediosa Figura 5: Áreas de conocimiento (izquierda) y redes de colaboración (derecha). y la tarea costosa. Palabras clave nos ayudan a manejar con eficacia las búsquedas y los motores de búsqueda podría aumentar el rendimiento en las búsquedas por hallazgo de un área general tópico basado en las palabras que pertenecen a un grupo. racimos de etiquetado ayudan a responder a las preguntas especí fi cos (es decir: mostrar todos los investigadores que trabajan en un área específico o todas las subáreas que pertenecen a un área general tópico). Con el fin de lograr el propósito de etiquetado, las palabras clave asociadas con las publicaciones fue enriquecida. Utilizamos WordNet 13publicaciones fue enriquecida. Utilizamos WordNet 13 [21] Para hallar sinónimos, hiperónimos, hipónimos y el concepto de una palabra para todas las palabras clave en cada grupo. Eso ayuda a encontrar un significado común en la forma en que las palabras podrían ocurrir juntos y encontrar significados similares. En otras palabras, con el grupo de palabras establecidas, podríamos hallar un concepto o un tema para cada grupo. Aplicamos colapsado variacional Bayes (CVB) algoritmo que es una aplicación para la asignación de Dirichlet latente (LDA) [22] en Mahout. Utilizamos todas las palabras generadas por WordNet más el título y palabras clave de cada publicación para encontrar un tema más amplio basado en varios subtemas descritos por las palabras clave. En primer lugar, generamos vectores usando frecuencia del término (TF) y después de eso, utilizamos Mahout RowId para convertir vectores del TF en una matriz. Una vez generada la matriz el algoritmo CVB fue ejecutado con los siguientes parámetros: 1 para el número de temas latentes y 20 interacciones máximas. Este trabajo se aplicó a cada grupo. Conseguimos buenos resultados utilizando la técnica tema de modelo, por ejemplo, las palabras clave de racimo de la figura 5 se marcó como física.figura 5 se marcó como física. Todos los resultados se almacenan en el repositorio central utilizando un modelo RDF. La Figura 6 ilustra los conceptos y buques PARENTESCO utilizados para almacenar los resultados. La flecha llena simboliza una relación entre las clases y la flecha discontinua simboliza una relación común. Un nuevo URI se crea de las agrupaciones, por ejemplo, http://ucuenca.edu.ec/resource/cluster#1. Autores y publicaciones ya están almacenados en el gráfico central. Por lo ligamos con racimos autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs:autores con la propiedad hasPerson También, los clusters tiene una propiedad rdfs: label para almacenar la etiqueta de cada clúster.label para almacenar la etiqueta de cada clúster. 13 Es una base de datos léxica para el idioma Inglés que se utiliza para aplicaciones de análisis de13 Es una base de datos léxica para el idioma Inglés que se utiliza para aplicaciones de análisis de texto. 85
  • 10. Figura 6: Conceptos y relaciones de modelo RDF. IV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJOIV. do CONCLUSIÓN Y F UTURO W TRABAJO Hemos presentado una arquitectura para identificar áreas comunes de investigación entre los autores ecuatorianos. Esta arquitectura comprende un procedimiento para extraer, enriquecer, y representan recursos liographical bib- para descubrir patrones de uso de los datos MIN algoritmos ing. Los diferentes componentes implementados y técnicas utilizadas para definir la arquitectura muestra el potencial de esta propuesta; Actualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro seActualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro seActualmente, estos componentes se utilizan en el proyecto REDI 14. El trabajo futuro se centrará en el análisis de las alternativas a las técnicas de semántica con el objetivo de mejorar la desambiguación de datos. Además, también tenemos la intención de hacer mejoramientos al proceso de agrupamiento y el etiquetado. En la misma línea de pensamiento, este trabajo podría ser adaptado para recomendar literatura basada en la historia de búsquedas de los usuarios. Por último, las fuentes de datos bibliográficas instituciones de educación superior nueva se añadirán al sistema de mejora de la generación de redes potenciales de colaboración. UN CKNOWLEDGMENTUN CKNOWLEDGMENT Esta investigación fue apoyada por CEDIA 15 en el proyecto “RepositorioEsta investigación fue apoyada por CEDIA 15 en el proyecto “RepositorioEsta investigación fue apoyada por CEDIA 15 en el proyecto “Repositorio ecuatoriana de investigadores”. Agradecemos a nuestros colegas que proporcionaron una visión y experiencia que ayudó fuertemente la investigación. R EFERENCIASR EFERENCIAS [1] VI Torvik y NR Smalheiser, “Nombre del autor desambiguación en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3,en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3,en MEDLINE,” ACM Transactions on descubrimiento de conocimiento a partir de datos (TKDD), vol. 3, no. 3, p. 11, 2009. [2] J. Huang, S. Ertekin, y CL Giles, “nombre del autor Fast desambiguación en citeseer” informe técnico de ISI, vol. 66, 2006.en citeseer” informe técnico de ISI, vol. 66, 2006.en citeseer” informe técnico de ISI, vol. 66, 2006. [3] F. Osborne, E. Motta, y P. Mulholland, “Exploración de datos académicas con rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460-rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460-rexplore,”en La Web Semántica-CISA 2013. Springer, 2013, pp. 460- 477. [4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una[4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una[4] N. Piedra Nelson, J. Chicaiza, E. Cadme, R. Guaya et al., “Una aproximaci' en Basada en datos vinculados para la detecci' el de Potenciales Redes de colaboraci' en fi ca cient'ı A partir de la anotaci' en sem' Antica de producci' en cient'ı fi ca: Piloto Aplicado con producci' en cient'ı fi ca de Investigadores ecuatorianos “, 2014. 14 http://redi.cedia.org.ec/14 http://redi.cedia.org.ec/ 15 www.cedia.org.ec15 www.cedia.org.ec [5] AA Krisnadhi, Y. Hu, K. Janowicz, P. Hitzler, RA Arko, S. Carbotte, C. Chandler, M. Cheatham, D. Fils, T. Finin, P. Ji, MB Jones, N. Karima, K. Lehnert, A. Mickle, T. Narock, M. OBrien, L. Raymond, A. Shepherd, M. Schildhauer, y P. Wiebe, “El marco Geolink para la integración de datos ligado basado en patrones,” en SEMWEB, 2015.ligado basado en patrones,” en SEMWEB, 2015.ligado basado en patrones,” en SEMWEB, 2015. [6] A. Gangemi, La Web Semántica - ISWC 2005: 4º Internacional[6] A. Gangemi, La Web Semántica - ISWC 2005: 4º Internacional Semántica Web Conference, ISWC 2005, Galway, Irlanda, Noviembre 6- 10, 2005. Proceedings. Berlín, Heidelberg: Springer Berlin Heidelberg,10, 2005. Proceedings. Berlín, Heidelberg: Springer Berlin Heidelberg, 2005, cap. Patrones de diseño para la ontología semántica de contenido web, pp. 262-276. [En línea]. Disponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como unaDisponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como unaDisponible: http://dx.doi.org/10.1007/11574620 21 [7] E. Gar fi eld et al., “El análisis de citas como una herramienta de evaluación de revistas”. Asociación Americana para el Avance de la Ciencia, 1972. [8] S. Pohl, F. Radlinski, y T. Joachims, “Recomendación de documentos relacionados basado en los registros de acceso a bibliotecas digitales “, en Actas de la séptima ACM /basado en los registros de acceso a bibliotecas digitales “, en Actas de la séptima ACM / IEEE-CS Conferencia Conjunta sobre bibliotecas digitales, Ser. JCDL '07. Nueva York, NY,IEEE-CS Conferencia Conjunta sobre bibliotecas digitales, Ser. JCDL '07. Nueva York, NY, EE.UU.: ACM, 2007, pp 417-418.. [En línea]. Disponible: http://doi.acm.org/10.1145/1255175.1255260 [9] SM McNee, I. Albert, D. Cosley, P. Gopalkrishnan, SK Lam, AM Rashid, JA Konstan, y J. Riedl, “Sobre la recomendación de citas para trabajos de investigación,” en Actas de la Conferencia ACM 2002 sobre trabajo cooperativo asistido porinvestigación,” en Actas de la Conferencia ACM 2002 sobre trabajo cooperativo asistido por computadora, Ser. TCAO '02. Nueva York, NY, EE.UU.: ACM, 2002, pp 116-125.. [En línea].computadora, Ser. TCAO '02. Nueva York, NY, EE.UU.: ACM, 2002, pp 116-125.. [En línea]. Disponible: http://doi.acm.org/10.1145/587078.587096 [10] H. Alfraidi, “sistema interactivo para científica visualización c publicación y la medición de similitud basado en la red de citas “, Tesis de Maestría, Universidad de Ottawa, 2015. [11] A. Barbari' c, “ISBD: descripción bibliográfica estándar internacional” 2014. [12] ET O'Neill, “FRBR: Requisitos funcionales de los registros bibliográficos,” recursos de la biblioteca y los servicios técnicos, 9 2002.recursos de la biblioteca y los servicios técnicos, 9 2002. [13] M. Ley, “solicitudes DBLP XML,” 2009. [14] C. Xiao, W. Wang, X. Lin, JX Yu, y G. Wang, “fi ciente similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3,similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3,similitud une para la detección casi duplicado” ACM Trans. Syst base de datos., vol. 36, no. 3, pp. 15: 1-15: 41, agosto de 2011. [En línea]. Disponible: http://doi.acm.org/10.1145/2000824.2000825 [15] JE Ortiz Vivar y JL Segarra Flores, “Plataforma para la anotaci' en sem' Antica de servicio web reparador Sobre ONU bus de Servicios,”sep 2015. [16] F. Giasson y B. D'Arcus. (2009, 11) ontología bibliográfica especificación. [En línea]. Disponible: http://bibliontology.com/speci fi cación [17] D. Brickley y L. Miller, “foaf vocabulario específico de cationes 0.98,” nombres-Miller, “foaf vocabulario específico de cationes 0.98,” nombres- documento de ritmo, vol. 9, 2012.documento de ritmo, vol. 9, 2012. [18] No hay Andrews y EA Fox, “Los acontecimientos recientes en el documento agrupación.”Virginia Tech: Departamento de Ciencias de la Computación, 2007. [19] S. Robertson,“La comprensión de la frecuencia inversa de documento: En argumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero deargumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero deargumentos teóricos para idf,” Diario de Documentación, vol. 60, págs. 503-520, enero de 2004. [En línea]. Disponible: http://research.microsoft. com / aplicaciones / pubs / default.aspx? id = 67744 [20] CD Manning y H. SCH utze, Fundamentos de Estadística Naturalutze, Fundamentos de Estadística Natural Procesamiento del Lenguaje. Cambridge, MA, EE.UU.: MIT Press, enero de 1999. [21] GA Miller,Procesamiento del Lenguaje. Cambridge, MA, EE.UU.: MIT Press, enero de 1999. [21] GA Miller, “Wordnet: Una base de datos léxica de Inglés” Commun.“Wordnet: Una base de datos léxica de Inglés” Commun. ACM, vol. 38, no. 11, pp. 39-41, noviembre de 1995. [En línea]. Disponible:ACM, vol. 38, no. 11, pp. 39-41, noviembre de 1995. [En línea]. Disponible: http://doi.acm.org/10.1145/219717.219748 [22] DM Blei, AY Ng, y el MI Jordan, “la asignación de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003.de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003.de Dirichlet latente” J. Mach. Aprender. Res., vol. 3, no. 30, pp. 993 a 1022, MAR de 2003. 86