Indización automatizada

Indización automatizada e
indización de objetos electrónicos
JAVIER GASCÓN TOVAR
Organización y Gestión de Archivos
Universidad de Zaragoza, 2013

IndizaciónIndización automatizadaautomatizada
Operación que identifica palabras o
expresiones significativas de los
documentos para describir su
contenido de forma condensada
por medio de programas de
ordenador

ObjetosObjetos electrónicoselectrónicos
Entidades (documentos, personas,
entidades) con unas carácterísticas
o atributos determinados,
asociables a una dirección web que
los identifique de forma permanente
(URI Uniforme Resource Identifier)

Las bases de la indización automatizada y
de objetos electrónicos
Web semánticaWeb semántica
Tecnologías del
lenguaje humano
Tecnologías del
lenguaje humano
Repositorios
digitales
Repositorios
digitales
Canal por el que circulan los
contenidos, conforme a unas normas
Herramientas para procesar la
información
Lugares donde se almacena y está
accesible la información

Ventajas e inconvenientes de la
indización automatizada
Es más rápida,
consistente y
económica
Es más rápida,
consistente y
económica
Es técnicamente
inviable,
científicamente
discutible y
comercialmente poco
rentable
Es técnicamente
inviable,
científicamente
discutible y
comercialmente poco
rentable
PARTIDARIOS
DETRACTORES

La web semántica, según su inspirador TIM BERNERS-LEE
La Web semántica es una extensión de la Web actual [2001], dotada de una estructura
que permita la correcta definición del contenido de las páginas web y posibilite así
tanto la interacción entre ordenadores como entre ordenadores y usuarios, de modo
que las máquinas puedan procesar y comprender los datos que hoy tan solo pueden
presentar por pantalla.

La función de los vocabularios en la web semántica
Lenguajes documentalesLenguajes documentales proporcionan
CONTROL
TERMINOLÓGICO
CONTROL
TERMINOLÓGICO
OntologíasOntologías aportan
SIGNIFICADO A NIVEL DE
ESTRUCTURA (facilitando
la identificación, uso y
recuperación de los
recursos
SIGNIFICADO A NIVEL DE
ESTRUCTURA (facilitando
la identificación, uso y
recuperación de los
recursos

Formatos de la web semántica que estructuran
la información
• XML (eXtensible Markup Language). Etiqueta los distintos
elementos de los objetos digitales.
• RDF (Resource Description Framework). Crean marcos para
describir los objetos a partir de los metadatos.
• OWL (Web Ontology Language). Facilitan la creación de
ontologías, vocabularios con los conceptos, términos y
relaciones perfectamente estructurados y legibles por los
sistemas informáticos.
• SKOS (Simple Knowledge Organization System). Lenguaje en
RDF que permite adaptar los listados terminológicos ya
existentes sin tener en cuenta las relaciones semánticas
existentes en ellos.

Un ejemplo de esquema RDF
Para representar los objetos digitales mediante sus metadatos en RDF, se
utilizan grupos de tres datos (o ternas) referidos a la instancia, al tipo de
dato y al valor que toma el dato.

¿Para qué sirve la web semántica?
A pesar de todas sus potencialidades, el grado de implantación de la
web semántica es bajo debido a:
 La baja calidad del código fuente usado en el diseño de páginas web
(que prefiere la capacidad de ser entendido por cualquier navegador
antes que la explotación de sus posibilidades).
 El escaso uso de metadatos en los objetos digitales.
 La muy reducida adopción de los estándares recomendados por el
World Wide Web Consortium (W3C), como RDF.

Una de las aplicaciones masivas y en pleno uso de la web semántica
es la sindicación de contenidos:
 A partir de los metadatos presentes en contenidos de páginas que
se renuevan frecuentemente, podemos recibir información de las
actualizaciones mediante la suscripción a dichos portales.
 Es algo semejante a los servicios de alerta existentes en centros de
documentación.

¿Cómo funcionan las herramientas de
indización automatizada?
Extraen términos
significativos y
representativos de los objetos
digitales
Extraen términos
significativos y
representativos de los objetos
digitales
Construyen ontologíasConstruyen ontologías
Integran ambos mecanismos y
múltiples ontologías
Integran ambos mecanismos y
múltiples ontologías

Uno de los mecanismos más comunes en la extracción automática de
información (propio, por ejemplo, de Google) es el uso de algoritmos:
- Los algoritmos son fórmulas de interrogación, esquemas para localizar
ocurrencias predeterminadas de los acontecimientos. Del tipo “Si sucede A,
la consecuencia es B, mientras que si no sucede, la consecuencia es C”.
- Los algoritmos se agrupan en clusters o agrupaciones de documentos que
presentan similitudes en el comportamiento de los términos que contienen.
- A partir de ahí, las aplicaciones informáticas pueden categorizar los
documentos, comparando los resultados de la interrogación con reglas
previamente establecidas.

Por ejemplo, es habitual el uso de la regla if-then, como muestra el siguiente
ejemplo (con operadores booleanos y de proximidad):

¿De qué se alimenta la indización automatizada?
El principal nutriente del que se alimenta la web
semántica son los metadatos.
Los metadatos son ”datos clasificadores que en
sistemas bibliotecarios facilitan la búsqueda de
información (por ejemplo: autor, título, año de
publicación, etc.).
El sistema de descripción de los objetos digitales
mediante metadatos, surgido en los años 90 es
Dublin Core (compatible con HTML y con XML). Son
un conjunto de recomendaciones para la
identificación y localización de los recursos
mediante una serie de elementos o atributos
básicos.

Un ejemplo de metadatos Dublin Core en un documento HTML sería el
siguente:

¿Puede concretarse todo esto en casos útiles
para la comunidad científica?
INTERNETINTERNET
permitió el intercambio
absoluto de información
entre productores y
usuarios
permitió el intercambio
absoluto de información
entre productores y
usuarios
favoreció el control en la
difusión de la información
gracias a los monopolios
editoriales
favoreció el control en la
difusión de la información
gracias a los monopolios
editoriales
Iniciativas para un uso compartido y
cooperativo del conocimiento científico,
mediante licencias Creative Commons y
publicación open access
Iniciativas para un uso compartido y
cooperativo del conocimiento científico,
mediante licencias Creative Commons y
publicación open access

Frente al uso abusivo (por parte de las grandes proveedoras de contenidos)
de su posición dominante en publicación científica los productores de los
contenidos (y las instituciones para las que trabajan) idearon una forma
voluntaria de compartir el conocimiento: depositarlo en archivos virtuales
para su libre utilización, renunciando a la explotación comercial de sus
derechos.
Un repositorio institucional es un archivo electrónico de la
producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la
recuperación para su posterior uso local, nacional o
internacional.
Un repositorio institucional es un archivo electrónico de la
producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la
recuperación para su posterior uso local, nacional o
internacional.

Esta tendencia de publicación de trabajos científicos recibe el nombre de
Open Access Initiative. Y tiene dos vías distintas para su implantación
El camino
verde
El camino
verde
El camino
dorado
El camino
dorado
Los autores realizan el autoarchivo
de los materiales, depositando sus
textos en repositorios compartidos
Las revistas de acceso abierto hacen
accesibles sus contenidos en línea de
forma gratuita e inmediata

Bibliografía.
- GIL LEIVA (2011). La automatización de la indización, propuesta teórico-metodológica: aplicación
al área de Biblioteconomía y Documentación. Murcia: Universidad.
- MÉNDEZ, E. (2010). "Tendencias en recuperación de información: principios y retos para una
nueva década de datos enlazados." Anuario ThinkEPI.
- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Sistemas de información y metadatos en
la web semántica." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de
información documental. Gijón: Trea.
- VÁLLEZ, M. (2009). La web semántica y las tecnologías del lenguaje humano. CODINA L.,
MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- LLORET, N. (2009). Metadatos para contenidos audiovisuales. En CODINA L., MARCOS M.,
PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Ontologías y sistemas de información
documental." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información
documental. Gijón: Trea.
- CENTELLES, M. (2009). "Sistemas semiautomáticos de categorización de la información." CODINA
L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.
- JAROSZCZUK, S. E. (2010). Construcción de repositorios institucionales open source con Sofware
Greenstone. Mar del Plata: Universidad Nacional.

Indización automatizada

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Indización automatizada

Similar a Indización automatizada (20)

Último

Último (20)

Indización automatizada