SlideShare una empresa de Scribd logo
1 de 20
Indización automatizada e
indización de objetos electrónicos
JAVIER GASCÓN TOVAR
Organización y Gestión de Archivos
Universidad de Zaragoza, 2013
IndizaciónIndización automatizadaautomatizada
Operación que identifica palabras o
expresiones significativas de los
documentos para describir su
contenido de forma condensada
por medio de programas de
ordenador
ObjetosObjetos electrónicoselectrónicos
Entidades (documentos, personas,
entidades) con unas carácterísticas
o atributos determinados,
asociables a una dirección web que
los identifique de forma permanente
(URI Uniforme Resource Identifier)
Las bases de la indización automatizada y
de objetos electrónicos
Web semánticaWeb semántica
Tecnologías del
lenguaje humano
Tecnologías del
lenguaje humano
Repositorios
digitales
Repositorios
digitales
Canal por el que circulan los
contenidos, conforme a unas normas
Herramientas para procesar la
información
Lugares donde se almacena y está
accesible la información
Ventajas e inconvenientes de la
indización automatizada
Es más rápida,
consistente y
económica
Es más rápida,
consistente y
económica
Es técnicamente
inviable,
científicamente
discutible y
comercialmente poco
rentable
Es técnicamente
inviable,
científicamente
discutible y
comercialmente poco
rentable
PARTIDARIOS
DETRACTORES
La web semántica, según su inspirador TIM BERNERS-LEE
La Web semántica es una extensión de la Web actual [2001], dotada de una estructura
que permita la correcta definición del contenido de las páginas web y posibilite así
tanto la interacción entre ordenadores como entre ordenadores y usuarios, de modo
que las máquinas puedan procesar y comprender los datos que hoy tan solo pueden
presentar por pantalla.
La función de los vocabularios en la web semántica
Lenguajes documentalesLenguajes documentales proporcionan
CONTROL
TERMINOLÓGICO
CONTROL
TERMINOLÓGICO
OntologíasOntologías aportan
SIGNIFICADO A NIVEL DE
ESTRUCTURA (facilitando
la identificación, uso y
recuperación de los
recursos
SIGNIFICADO A NIVEL DE
ESTRUCTURA (facilitando
la identificación, uso y
recuperación de los
recursos
Formatos de la web semántica que estructuran
la información
• XML (eXtensible Markup Language). Etiqueta los distintos
elementos de los objetos digitales.
• RDF (Resource Description Framework). Crean marcos para
describir los objetos a partir de los metadatos.
• OWL (Web Ontology Language). Facilitan la creación de
ontologías, vocabularios con los conceptos, términos y
relaciones perfectamente estructurados y legibles por los
sistemas informáticos.
• SKOS (Simple Knowledge Organization System). Lenguaje en
RDF que permite adaptar los listados terminológicos ya
existentes sin tener en cuenta las relaciones semánticas
existentes en ellos.
Un ejemplo de esquema RDF
Para representar los objetos digitales mediante sus metadatos en RDF, se
utilizan grupos de tres datos (o ternas) referidos a la instancia, al tipo de
dato y al valor que toma el dato.
¿Para qué sirve la web semántica?
A pesar de todas sus potencialidades, el grado de implantación de la
web semántica es bajo debido a:
 La baja calidad del código fuente usado en el diseño de páginas web
(que prefiere la capacidad de ser entendido por cualquier navegador
antes que la explotación de sus posibilidades).
 El escaso uso de metadatos en los objetos digitales.
 La muy reducida adopción de los estándares recomendados por el
World Wide Web Consortium (W3C), como RDF.
Una de las aplicaciones masivas y en pleno uso de la web semántica
es la sindicación de contenidos:
 A partir de los metadatos presentes en contenidos de páginas que
se renuevan frecuentemente, podemos recibir información de las
actualizaciones mediante la suscripción a dichos portales.
 Es algo semejante a los servicios de alerta existentes en centros de
documentación.
¿Cómo funcionan las herramientas de
indización automatizada?
Extraen términos
significativos y
representativos de los objetos
digitales
Extraen términos
significativos y
representativos de los objetos
digitales
Construyen ontologíasConstruyen ontologías
Integran ambos mecanismos y
múltiples ontologías
Integran ambos mecanismos y
múltiples ontologías
Uno de los mecanismos más comunes en la extracción automática de
información (propio, por ejemplo, de Google) es el uso de algoritmos:
- Los algoritmos son fórmulas de interrogación, esquemas para localizar
ocurrencias predeterminadas de los acontecimientos. Del tipo “Si sucede A,
la consecuencia es B, mientras que si no sucede, la consecuencia es C”.
- Los algoritmos se agrupan en clusters o agrupaciones de documentos que
presentan similitudes en el comportamiento de los términos que contienen.
- A partir de ahí, las aplicaciones informáticas pueden categorizar los
documentos, comparando los resultados de la interrogación con reglas
previamente establecidas.
Por ejemplo, es habitual el uso de la regla if-then, como muestra el siguiente
ejemplo (con operadores booleanos y de proximidad):
¿De qué se alimenta la indización automatizada?
El principal nutriente del que se alimenta la web
semántica son los metadatos.
Los metadatos son ”datos clasificadores que en
sistemas bibliotecarios facilitan la búsqueda de
información (por ejemplo: autor, título, año de
publicación, etc.).
El sistema de descripción de los objetos digitales
mediante metadatos, surgido en los años 90 es
Dublin Core (compatible con HTML y con XML). Son
un conjunto de recomendaciones para la
identificación y localización de los recursos
mediante una serie de elementos o atributos
básicos.
Un ejemplo de metadatos Dublin Core en un documento HTML sería el
siguente:
¿Puede concretarse todo esto en casos útiles
para la comunidad científica?
INTERNETINTERNET
permitió el intercambio
absoluto de información
entre productores y
usuarios
permitió el intercambio
absoluto de información
entre productores y
usuarios
favoreció el control en la
difusión de la información
gracias a los monopolios
editoriales
favoreció el control en la
difusión de la información
gracias a los monopolios
editoriales
Iniciativas para un uso compartido y
cooperativo del conocimiento científico,
mediante licencias Creative Commons y
publicación open access
Iniciativas para un uso compartido y
cooperativo del conocimiento científico,
mediante licencias Creative Commons y
publicación open access
Frente al uso abusivo (por parte de las grandes proveedoras de contenidos)
de su posición dominante en publicación científica los productores de los
contenidos (y las instituciones para las que trabajan) idearon una forma
voluntaria de compartir el conocimiento: depositarlo en archivos virtuales
para su libre utilización, renunciando a la explotación comercial de sus
derechos.
Un repositorio institucional es un archivo electrónico de la
producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la
recuperación para su posterior uso local, nacional o
internacional.
Un repositorio institucional es un archivo electrónico de la
producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la
recuperación para su posterior uso local, nacional o
internacional.
Esta tendencia de publicación de trabajos científicos recibe el nombre de
Open Access Initiative. Y tiene dos vías distintas para su implantación
El camino
verde
El camino
verde
El camino
dorado
El camino
dorado
Los autores realizan el autoarchivo
de los materiales, depositando sus
textos en repositorios compartidos
Las revistas de acceso abierto hacen
accesibles sus contenidos en línea de
forma gratuita e inmediata
Bibliografía.
- GIL LEIVA (2011). La automatización de la indización, propuesta teórico-metodológica: aplicación
al área de Biblioteconomía y Documentación. Murcia: Universidad.
- MÉNDEZ, E. (2010). "Tendencias en recuperación de información: principios y retos para una
nueva década de datos enlazados." Anuario ThinkEPI.
- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Sistemas de información y metadatos en
la web semántica." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de
información documental. Gijón: Trea.
- VÁLLEZ, M. (2009). La web semántica y las tecnologías del lenguaje humano. CODINA L.,
MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- LLORET, N. (2009). Metadatos para contenidos audiovisuales. En CODINA L., MARCOS M.,
PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Ontologías y sistemas de información
documental." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información
documental. Gijón: Trea.
- CENTELLES, M. (2009). "Sistemas semiautomáticos de categorización de la información." CODINA
L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- JAROSZCZUK, S. E. (2010). Construcción de repositorios institucionales open source con Sofware
Greenstone. Mar del Plata: Universidad Nacional.

Más contenido relacionado

La actualidad más candente

Presentación 1
Presentación 1Presentación 1
Presentación 1
bg3mamof
 
Fuentes de información físicas
Fuentes de información físicasFuentes de información físicas
Fuentes de información físicas
David Tuberquia
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisis
Jesus Peralta
 

La actualidad más candente (20)

On the Road to DSpace 7: Angular UI + REST
On the Road to DSpace 7: Angular UI + RESTOn the Road to DSpace 7: Angular UI + REST
On the Road to DSpace 7: Angular UI + REST
 
Metodologia kendall y Kendall
Metodologia kendall y KendallMetodologia kendall y Kendall
Metodologia kendall y Kendall
 
#Aprender3c - Metadatos en los sistemas de gestión bibliotecaria
#Aprender3c - Metadatos en los sistemas de gestión bibliotecaria#Aprender3c - Metadatos en los sistemas de gestión bibliotecaria
#Aprender3c - Metadatos en los sistemas de gestión bibliotecaria
 
Indizacion y clasificacion
Indizacion y  clasificacionIndizacion y  clasificacion
Indizacion y clasificacion
 
Classificações bibliográficas
Classificações bibliográficasClassificações bibliográficas
Classificações bibliográficas
 
1ª aula indexacao 2013
1ª aula indexacao 20131ª aula indexacao 2013
1ª aula indexacao 2013
 
Introduccion bases de datos
Introduccion bases de datosIntroduccion bases de datos
Introduccion bases de datos
 
RDA: Recursos, Descripción y Acceso
RDA: Recursos, Descripción y AccesoRDA: Recursos, Descripción y Acceso
RDA: Recursos, Descripción y Acceso
 
HL7 Fhir for Developers
HL7 Fhir for DevelopersHL7 Fhir for Developers
HL7 Fhir for Developers
 
Presentación 1
Presentación 1Presentación 1
Presentación 1
 
Analisis y diseño de sistemas
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
 
Fuentes de información físicas
Fuentes de información físicasFuentes de información físicas
Fuentes de información físicas
 
ISBD Consolidada: introdução básica - versão 2015
ISBD Consolidada: introdução básica - versão 2015ISBD Consolidada: introdução básica - versão 2015
ISBD Consolidada: introdução básica - versão 2015
 
Curso avanzado de capacitación en DSpace
Curso avanzado de capacitación en DSpaceCurso avanzado de capacitación en DSpace
Curso avanzado de capacitación en DSpace
 
Dewey
DeweyDewey
Dewey
 
Sistemas de clasificacion
Sistemas de clasificacionSistemas de clasificacion
Sistemas de clasificacion
 
Modelado del análisis
Modelado del análisisModelado del análisis
Modelado del análisis
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisis
 
Marc 21 A DublíN Core
Marc 21 A DublíN CoreMarc 21 A DublíN Core
Marc 21 A DublíN Core
 
Indización.pdf diapositiva
 Indización.pdf  diapositiva Indización.pdf  diapositiva
Indización.pdf diapositiva
 

Destacado

CASE Network Studies and Analyses 475 - True and false remedies for long time...
CASE Network Studies and Analyses 475 - True and false remedies for long time...CASE Network Studies and Analyses 475 - True and false remedies for long time...
CASE Network Studies and Analyses 475 - True and false remedies for long time...
CASE Center for Social and Economic Research
 
Fit for work webinar
Fit for work webinarFit for work webinar
Fit for work webinar
Natalia Reddy
 
Template Natura Nós
Template Natura NósTemplate Natura Nós
Template Natura Nós
Renato Dias
 
Presentación Restauramadrid. Jornada técnica de linkedin
Presentación Restauramadrid. Jornada técnica de linkedinPresentación Restauramadrid. Jornada técnica de linkedin
Presentación Restauramadrid. Jornada técnica de linkedin
danielrestauramadrid
 
La Catedral y el Bazar
La Catedral y el BazarLa Catedral y el Bazar
La Catedral y el Bazar
Sergio Vallejo
 
Dossier un ataud en la azotea
Dossier un ataud en la azoteaDossier un ataud en la azotea
Dossier un ataud en la azotea
teatronegra
 

Destacado (20)

Boletín empleo Albacete nº 6. Mica Consultores. ofertas de empleo en Albacete.
Boletín empleo Albacete nº 6. Mica Consultores. ofertas de empleo en Albacete.Boletín empleo Albacete nº 6. Mica Consultores. ofertas de empleo en Albacete.
Boletín empleo Albacete nº 6. Mica Consultores. ofertas de empleo en Albacete.
 
CASE Network Studies and Analyses 475 - True and false remedies for long time...
CASE Network Studies and Analyses 475 - True and false remedies for long time...CASE Network Studies and Analyses 475 - True and false remedies for long time...
CASE Network Studies and Analyses 475 - True and false remedies for long time...
 
Contacto digital taller 3
Contacto digital taller 3Contacto digital taller 3
Contacto digital taller 3
 
Awas seks jaga kesucian sampai waktunya tiba
Awas seks   jaga kesucian sampai waktunya tibaAwas seks   jaga kesucian sampai waktunya tiba
Awas seks jaga kesucian sampai waktunya tiba
 
Fit for work webinar
Fit for work webinarFit for work webinar
Fit for work webinar
 
Template Natura Nós
Template Natura NósTemplate Natura Nós
Template Natura Nós
 
Presentación Restauramadrid. Jornada técnica de linkedin
Presentación Restauramadrid. Jornada técnica de linkedinPresentación Restauramadrid. Jornada técnica de linkedin
Presentación Restauramadrid. Jornada técnica de linkedin
 
TheBridgeMarch2015
TheBridgeMarch2015TheBridgeMarch2015
TheBridgeMarch2015
 
Instrucciones mutancode
Instrucciones  mutancodeInstrucciones  mutancode
Instrucciones mutancode
 
Gastos hormiga
Gastos hormigaGastos hormiga
Gastos hormiga
 
Historia de la arquitectura I
Historia de la arquitectura IHistoria de la arquitectura I
Historia de la arquitectura I
 
Finding Ground States of Sherrington-Kirkpatrick Spin Glasses with Hierarchic...
Finding Ground States of Sherrington-Kirkpatrick Spin Glasses with Hierarchic...Finding Ground States of Sherrington-Kirkpatrick Spin Glasses with Hierarchic...
Finding Ground States of Sherrington-Kirkpatrick Spin Glasses with Hierarchic...
 
La Catedral y el Bazar
La Catedral y el BazarLa Catedral y el Bazar
La Catedral y el Bazar
 
Catalogo belleza-mexico
Catalogo belleza-mexicoCatalogo belleza-mexico
Catalogo belleza-mexico
 
ZOOM Workforce Management @CZ Day
ZOOM Workforce Management @CZ DayZOOM Workforce Management @CZ Day
ZOOM Workforce Management @CZ Day
 
Our presence in - Mackwins Education
Our presence in - Mackwins EducationOur presence in - Mackwins Education
Our presence in - Mackwins Education
 
Michael Bader: «Be Yourself, Be A Brand, Be Loved»
Michael Bader: «Be Yourself, Be A Brand, Be Loved»Michael Bader: «Be Yourself, Be A Brand, Be Loved»
Michael Bader: «Be Yourself, Be A Brand, Be Loved»
 
Running Partner4u
Running Partner4uRunning Partner4u
Running Partner4u
 
Ford- Catalogo de productos
Ford- Catalogo de productosFord- Catalogo de productos
Ford- Catalogo de productos
 
Dossier un ataud en la azotea
Dossier un ataud en la azoteaDossier un ataud en la azotea
Dossier un ataud en la azotea
 

Similar a Indización automatizada

Monografia ontologias - Primera Aproximación
Monografia ontologias - Primera AproximaciónMonografia ontologias - Primera Aproximación
Monografia ontologias - Primera Aproximación
Marcos Umaño
 
TecnologíAs Y Herramientas De La Web SemáNtica
TecnologíAs Y Herramientas De La Web SemáNticaTecnologíAs Y Herramientas De La Web SemáNtica
TecnologíAs Y Herramientas De La Web SemáNtica
Javier Capa
 
Sistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web SemácticaSistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web Semáctica
martinp
 
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Servicio de Difusión de la Creación Intelectual (SEDICI)
 
Red semantica en la+web
Red semantica en la+webRed semantica en la+web
Red semantica en la+web
rccmaria
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologias
Vane Erraez
 
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
Víctor Jesús Hernández
 
PresentacióN De La Tesis
PresentacióN De La TesisPresentacióN De La Tesis
PresentacióN De La Tesis
GEOVAN21
 

Similar a Indización automatizada (20)

Monografia ontologias - Primera Aproximación
Monografia ontologias - Primera AproximaciónMonografia ontologias - Primera Aproximación
Monografia ontologias - Primera Aproximación
 
Ontología
OntologíaOntología
Ontología
 
Interoperabilidad En Los Sistemas de Información Documental
Interoperabilidad En Los Sistemas de Información DocumentalInteroperabilidad En Los Sistemas de Información Documental
Interoperabilidad En Los Sistemas de Información Documental
 
Ontología cis
Ontología cisOntología cis
Ontología cis
 
TecnologíAs Y Herramientas De La Web SemáNtica
TecnologíAs Y Herramientas De La Web SemáNticaTecnologíAs Y Herramientas De La Web SemáNtica
TecnologíAs Y Herramientas De La Web SemáNtica
 
Web 2.0 Y 3.0 281009
Web 2.0 Y 3.0 281009Web 2.0 Y 3.0 281009
Web 2.0 Y 3.0 281009
 
Sistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web SemácticaSistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web Semáctica
 
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
 
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
 
Red semantica en la+web
Red semantica en la+webRed semantica en la+web
Red semantica en la+web
 
Red+semantica+en+la+web
Red+semantica+en+la+webRed+semantica+en+la+web
Red+semantica+en+la+web
 
Introduccion - Curso Ontologías
Introduccion - Curso OntologíasIntroduccion - Curso Ontologías
Introduccion - Curso Ontologías
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologias
 
33022200 Cesar
33022200 Cesar33022200 Cesar
33022200 Cesar
 
Presentación de Uso de la Tecnología en la Investigación por estudiantes de B...
Presentación de Uso de la Tecnología en la Investigación por estudiantes de B...Presentación de Uso de la Tecnología en la Investigación por estudiantes de B...
Presentación de Uso de la Tecnología en la Investigación por estudiantes de B...
 
Ponencia Dspace Istec
Ponencia Dspace IstecPonencia Dspace Istec
Ponencia Dspace Istec
 
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
Web Semantica. La nueva Generación de Portales. (Infotec - SemanticWebBuilder...
 
Relación de una Web Semántica CIS-UNL
Relación de una Web Semántica CIS-UNLRelación de una Web Semántica CIS-UNL
Relación de una Web Semántica CIS-UNL
 
Como funciona la web
Como funciona la webComo funciona la web
Como funciona la web
 
PresentacióN De La Tesis
PresentacióN De La TesisPresentacióN De La Tesis
PresentacióN De La Tesis
 

Último

RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
amelia poma
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
Wilian24
 

Último (20)

La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
Ensayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 PreuniversitarioEnsayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 Preuniversitario
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdf
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
prostitución en España: una mirada integral!
prostitución en España: una mirada integral!prostitución en España: una mirada integral!
prostitución en España: una mirada integral!
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
Factores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfFactores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdf
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 

Indización automatizada

  • 1. Indización automatizada e indización de objetos electrónicos JAVIER GASCÓN TOVAR Organización y Gestión de Archivos Universidad de Zaragoza, 2013
  • 2. IndizaciónIndización automatizadaautomatizada Operación que identifica palabras o expresiones significativas de los documentos para describir su contenido de forma condensada por medio de programas de ordenador
  • 3. ObjetosObjetos electrónicoselectrónicos Entidades (documentos, personas, entidades) con unas carácterísticas o atributos determinados, asociables a una dirección web que los identifique de forma permanente (URI Uniforme Resource Identifier)
  • 4. Las bases de la indización automatizada y de objetos electrónicos Web semánticaWeb semántica Tecnologías del lenguaje humano Tecnologías del lenguaje humano Repositorios digitales Repositorios digitales Canal por el que circulan los contenidos, conforme a unas normas Herramientas para procesar la información Lugares donde se almacena y está accesible la información
  • 5. Ventajas e inconvenientes de la indización automatizada Es más rápida, consistente y económica Es más rápida, consistente y económica Es técnicamente inviable, científicamente discutible y comercialmente poco rentable Es técnicamente inviable, científicamente discutible y comercialmente poco rentable PARTIDARIOS DETRACTORES
  • 6. La web semántica, según su inspirador TIM BERNERS-LEE La Web semántica es una extensión de la Web actual [2001], dotada de una estructura que permita la correcta definición del contenido de las páginas web y posibilite así tanto la interacción entre ordenadores como entre ordenadores y usuarios, de modo que las máquinas puedan procesar y comprender los datos que hoy tan solo pueden presentar por pantalla.
  • 7. La función de los vocabularios en la web semántica Lenguajes documentalesLenguajes documentales proporcionan CONTROL TERMINOLÓGICO CONTROL TERMINOLÓGICO OntologíasOntologías aportan SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando la identificación, uso y recuperación de los recursos SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando la identificación, uso y recuperación de los recursos
  • 8. Formatos de la web semántica que estructuran la información • XML (eXtensible Markup Language). Etiqueta los distintos elementos de los objetos digitales. • RDF (Resource Description Framework). Crean marcos para describir los objetos a partir de los metadatos. • OWL (Web Ontology Language). Facilitan la creación de ontologías, vocabularios con los conceptos, términos y relaciones perfectamente estructurados y legibles por los sistemas informáticos. • SKOS (Simple Knowledge Organization System). Lenguaje en RDF que permite adaptar los listados terminológicos ya existentes sin tener en cuenta las relaciones semánticas existentes en ellos.
  • 9. Un ejemplo de esquema RDF Para representar los objetos digitales mediante sus metadatos en RDF, se utilizan grupos de tres datos (o ternas) referidos a la instancia, al tipo de dato y al valor que toma el dato.
  • 10. ¿Para qué sirve la web semántica? A pesar de todas sus potencialidades, el grado de implantación de la web semántica es bajo debido a:  La baja calidad del código fuente usado en el diseño de páginas web (que prefiere la capacidad de ser entendido por cualquier navegador antes que la explotación de sus posibilidades).  El escaso uso de metadatos en los objetos digitales.  La muy reducida adopción de los estándares recomendados por el World Wide Web Consortium (W3C), como RDF.
  • 11. Una de las aplicaciones masivas y en pleno uso de la web semántica es la sindicación de contenidos:  A partir de los metadatos presentes en contenidos de páginas que se renuevan frecuentemente, podemos recibir información de las actualizaciones mediante la suscripción a dichos portales.  Es algo semejante a los servicios de alerta existentes en centros de documentación.
  • 12. ¿Cómo funcionan las herramientas de indización automatizada? Extraen términos significativos y representativos de los objetos digitales Extraen términos significativos y representativos de los objetos digitales Construyen ontologíasConstruyen ontologías Integran ambos mecanismos y múltiples ontologías Integran ambos mecanismos y múltiples ontologías
  • 13. Uno de los mecanismos más comunes en la extracción automática de información (propio, por ejemplo, de Google) es el uso de algoritmos: - Los algoritmos son fórmulas de interrogación, esquemas para localizar ocurrencias predeterminadas de los acontecimientos. Del tipo “Si sucede A, la consecuencia es B, mientras que si no sucede, la consecuencia es C”. - Los algoritmos se agrupan en clusters o agrupaciones de documentos que presentan similitudes en el comportamiento de los términos que contienen. - A partir de ahí, las aplicaciones informáticas pueden categorizar los documentos, comparando los resultados de la interrogación con reglas previamente establecidas.
  • 14. Por ejemplo, es habitual el uso de la regla if-then, como muestra el siguiente ejemplo (con operadores booleanos y de proximidad):
  • 15. ¿De qué se alimenta la indización automatizada? El principal nutriente del que se alimenta la web semántica son los metadatos. Los metadatos son ”datos clasificadores que en sistemas bibliotecarios facilitan la búsqueda de información (por ejemplo: autor, título, año de publicación, etc.). El sistema de descripción de los objetos digitales mediante metadatos, surgido en los años 90 es Dublin Core (compatible con HTML y con XML). Son un conjunto de recomendaciones para la identificación y localización de los recursos mediante una serie de elementos o atributos básicos.
  • 16. Un ejemplo de metadatos Dublin Core en un documento HTML sería el siguente:
  • 17. ¿Puede concretarse todo esto en casos útiles para la comunidad científica? INTERNETINTERNET permitió el intercambio absoluto de información entre productores y usuarios permitió el intercambio absoluto de información entre productores y usuarios favoreció el control en la difusión de la información gracias a los monopolios editoriales favoreció el control en la difusión de la información gracias a los monopolios editoriales Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y publicación open access Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y publicación open access
  • 18. Frente al uso abusivo (por parte de las grandes proveedoras de contenidos) de su posición dominante en publicación científica los productores de los contenidos (y las instituciones para las que trabajan) idearon una forma voluntaria de compartir el conocimiento: depositarlo en archivos virtuales para su libre utilización, renunciando a la explotación comercial de sus derechos. Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o internacional. Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o internacional.
  • 19. Esta tendencia de publicación de trabajos científicos recibe el nombre de Open Access Initiative. Y tiene dos vías distintas para su implantación El camino verde El camino verde El camino dorado El camino dorado Los autores realizan el autoarchivo de los materiales, depositando sus textos en repositorios compartidos Las revistas de acceso abierto hacen accesibles sus contenidos en línea de forma gratuita e inmediata
  • 20. Bibliografía. - GIL LEIVA (2011). La automatización de la indización, propuesta teórico-metodológica: aplicación al área de Biblioteconomía y Documentación. Murcia: Universidad. - MÉNDEZ, E. (2010). "Tendencias en recuperación de información: principios y retos para una nueva década de datos enlazados." Anuario ThinkEPI. - PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Sistemas de información y metadatos en la web semántica." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea. - VÁLLEZ, M. (2009). La web semántica y las tecnologías del lenguaje humano. CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea. - LLORET, N. (2009). Metadatos para contenidos audiovisuales. En CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea. - PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Ontologías y sistemas de información documental." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea. - CENTELLES, M. (2009). "Sistemas semiautomáticos de categorización de la información." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea. - JAROSZCZUK, S. E. (2010). Construcción de repositorios institucionales open source con Sofware Greenstone. Mar del Plata: Universidad Nacional.