Objeto de conferencia
III Simposio Internacional de Bibliotecas Digitales (San Pablo, Brasil)
El proceso de reconocimiento de la escritura manuscrita forma parte de las iniciativas que propenden a la preservación de patrimonio cultural resguardado en Bibliotecas y archivos donde existe una gran riqueza de documentos y hasta fichas manuscritas que acompañan libros incunables. Este trabajo es el punto de partida de un proyecto de investigación y desarrollo orientado a la digitalización y reconocimiento de material manuscrito y la ponencia que aquí se presenta discute diferentes algoritmos utilizados en una primera etapa dedicada a "limpiar" la imagen de ruido para mejorarla antes de comenzar el reconocimiento de caracteres. Dado que PrEBi-SeDiCI forman parte integrante de redes de bibliotecas que intercambian documentos digitalizados vía scanning, el presente desarrollo ha tenido una utilización adicional relacionada al mejoramiento de las imágenes de documentos de intercambio que presentaban problemas comunes en la digitalización: bordes, impurezas, descentrado, etc.., si bien no es esta la finalidad de esta investigación no por ello resulta una utilidad menor en el marco de intercambios de consorcios de bibliotecas. Para que el proceso de digitalización y reconocimiento de textos manuscritos sea eficiente debe estar precedido de una etapa de "preprocesamiento" de la imagen a tratar que incluye umbralización, limpieza de ruido, adelgazamiento, enderezamiento de la línea base y segmentación de la imagen entre otros. Cada uno de estos pasos permitirá reducir la variabilidad nociva al momento de reconocer los textos manuscritos (ruido, niveles aleatorios de grises, inclinación de caracteres, zonas con más y menos tinta), aumentando así la probabilidad de reconocer adecuadamente los textos. En este trabajo se consideran dos métodos de adelgazamiento de imágenes, se realiza la implementación y finalmente se lleva adelante una evaluación obteniendo conclusiones relativas a la eficiencia, velocidad y requerimientos, así como también ideas para futuras implementaciones. En la primera parte del documento, se presentan algunas definiciones relacionadas con los métodos utilizados, luego se muestran los resultados obtenidos sobre un mismo conjunto de imágenes aplicando las teorías propuestas y finalmente, se exponen algunas ideas para optimizar los algoritmos elegidos.; The handwritten manusctipt recognizing process belongs to the iniciatives which lean to cultural patrimony preservation shielded in Libraries and files where there exists a big wealth in documents and even handritten cards that accompany incunable books. This work is point to begin with a research and development proyect oriented to digitalization and recognition of manuscipt materials and the paper presented here discuss diferent algorithms used in the first stage ded
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5534
El Lenguaje De Los Nuevos Medios De ComunicaciónBSI
Este documento compara los viejos medios de comunicación como la fotografía y el cine con los nuevos medios digitales. Explica cómo la fotografía y el cine registraban imágenes en soportes físicos como tiras de película, mientras que los nuevos medios las almacenan como código binario que puede procesarse en ordenadores. También discute las diferencias entre representaciones analógicas y digitales, y define qué características hacen que un medio sea considerado "nuevo".
El documento habla sobre la digitalización de documentos. Define la digitalización como el proceso de convertir documentos analógicos en formato digital. Explica los tipos, aplicaciones, usos y el proceso general de digitalización. También describe los dispositivos y aspectos técnicos clave para la digitalización como la resolución, profundidad de color y compresión de archivos.
Este documento describe el proceso de digitalización de documentos. Explica que la digitalización convierte documentos físicos en formato electrónico para facilitar el acceso y almacenamiento. Detalla los pasos del proceso como la preparación de documentos, el escaneo, la indización y almacenamiento. También cubre aspectos técnicos como la resolución, profundidad de color y formatos de archivo.
Este documento presenta un taller sobre la digitalización de documentos. El taller cubrirá conceptos clave como imágenes digitales, dispositivos de captura, formatos de archivo, y técnicas básicas de digitalización. Los participantes aprenderán a elegir el equipo y método de digitalización apropiado, y cómo editar, procesar y preservar imágenes digitales. El objetivo es que los asistentes entiendan cómo digitalizar documentos de manera efectiva.
La digitalización documental consiste en convertir documentos físicos en archivos digitales mediante escáneres. El grupo 3 presenta un trabajo sobre digitalización, identificando el proceso y sus beneficios. Explica qué se puede digitalizar, las tecnologías involucradas como OCR y los tipos de escáneres. El objetivo es conocer este proceso para preservar documentos de forma completa y satisfactoria.
Este proyecto busca digitalizar e indexar los documentos de la empresa Petrobras Bolivia S.A. mediante la actualización de su base de datos en Microsoft Access. Actualmente los archivos se encuentran descentralizados y la mayoría de documentos no están digitalizados, dificultando la recuperación de información. El proyecto consiste en dos etapas: diagnóstico de necesidades y desarrollo, que incluye la digitalización, indexación e implementación de un nuevo sistema de registro a nivel de documento.
Este documento describe la digitalización, incluyendo su definición, historia, tipos, aplicaciones, ventajas, equipos requeridos y procesos. La digitalización permite convertir documentos analógicos como papel a formato digital para facilitar el acceso, almacenamiento y preservación de la información. Incluye escaneo, OCR y almacenamiento electrónico para mejorar la gestión documental en las organizaciones.
Esta presentacion nos muestra el flujo de un cad de administracion documental, desde el momento en que ingresa una camunicacion el flujo administrativo hasta su disposicion final el cual es la conservacion de este
El Lenguaje De Los Nuevos Medios De ComunicaciónBSI
Este documento compara los viejos medios de comunicación como la fotografía y el cine con los nuevos medios digitales. Explica cómo la fotografía y el cine registraban imágenes en soportes físicos como tiras de película, mientras que los nuevos medios las almacenan como código binario que puede procesarse en ordenadores. También discute las diferencias entre representaciones analógicas y digitales, y define qué características hacen que un medio sea considerado "nuevo".
El documento habla sobre la digitalización de documentos. Define la digitalización como el proceso de convertir documentos analógicos en formato digital. Explica los tipos, aplicaciones, usos y el proceso general de digitalización. También describe los dispositivos y aspectos técnicos clave para la digitalización como la resolución, profundidad de color y compresión de archivos.
Este documento describe el proceso de digitalización de documentos. Explica que la digitalización convierte documentos físicos en formato electrónico para facilitar el acceso y almacenamiento. Detalla los pasos del proceso como la preparación de documentos, el escaneo, la indización y almacenamiento. También cubre aspectos técnicos como la resolución, profundidad de color y formatos de archivo.
Este documento presenta un taller sobre la digitalización de documentos. El taller cubrirá conceptos clave como imágenes digitales, dispositivos de captura, formatos de archivo, y técnicas básicas de digitalización. Los participantes aprenderán a elegir el equipo y método de digitalización apropiado, y cómo editar, procesar y preservar imágenes digitales. El objetivo es que los asistentes entiendan cómo digitalizar documentos de manera efectiva.
La digitalización documental consiste en convertir documentos físicos en archivos digitales mediante escáneres. El grupo 3 presenta un trabajo sobre digitalización, identificando el proceso y sus beneficios. Explica qué se puede digitalizar, las tecnologías involucradas como OCR y los tipos de escáneres. El objetivo es conocer este proceso para preservar documentos de forma completa y satisfactoria.
Este proyecto busca digitalizar e indexar los documentos de la empresa Petrobras Bolivia S.A. mediante la actualización de su base de datos en Microsoft Access. Actualmente los archivos se encuentran descentralizados y la mayoría de documentos no están digitalizados, dificultando la recuperación de información. El proyecto consiste en dos etapas: diagnóstico de necesidades y desarrollo, que incluye la digitalización, indexación e implementación de un nuevo sistema de registro a nivel de documento.
Este documento describe la digitalización, incluyendo su definición, historia, tipos, aplicaciones, ventajas, equipos requeridos y procesos. La digitalización permite convertir documentos analógicos como papel a formato digital para facilitar el acceso, almacenamiento y preservación de la información. Incluye escaneo, OCR y almacenamiento electrónico para mejorar la gestión documental en las organizaciones.
Esta presentacion nos muestra el flujo de un cad de administracion documental, desde el momento en que ingresa una camunicacion el flujo administrativo hasta su disposicion final el cual es la conservacion de este
Este documento resume las principales características de los archivos de la Contraloría Municipal de Envigado y de la empresa privada Unión Eléctrica. Ambos archivos siguen las normas del Archivo General de la Nación y organizan sus documentos de acuerdo a su ciclo vital, valorando los documentos según su importancia, volumen y uso. En el archivo de gestión se almacenan documentos por 1 año, en el central de 15 a 20 años y en el histórico los documentos permanentes. Ambos archivos han creado tablas de retención
El documento presenta los productos y servicios de RODELU relacionados con la gestión documental, incluyendo soluciones integrales de software y servicios de consultoría. Se describe el software Dokmee Capture para la digitalización de documentos y la herramienta de gestión documental Dokmee, con características como reconocimiento óptico de caracteres, flujos de trabajo y seguridad. También se detallan los servicios de consultoría en planeamiento documental, producción, procesos y certificación.
Documento electronico, #metadatos, firma electronica, expediente electronico ...Saginfo & Co
Este documento presenta información sobre documentos electrónicos, metadatos, firma electrónica, expediente electrónico e interoperabilidad. Explica las normas vigentes en Colombia relacionadas con estos temas y define conceptos clave como documento electrónico, sus características de autenticidad, integridad, fiabilidad y disponibilidad. Además, clasifica diferentes tipos de documentos electrónicos y describe los elementos estructurales de un documento electrónico como contenido, firma y metadatos.
Normas técnicas de Interoperabilidad e instrumentos para el documento electró...Miguel A. Amutio
TRIA Nº 19. 2015. I.S.S.N. 1134-1602 - Pags. 153-183
Revista Archivística de la Asociación de Archiveros de Andalucía
Tras un esfuerzo considerable de las administraciones públicas, a la vez colectivo y multidisciplinar, nos hemos dotado de una serie de normas técnicas relativas al documento electrónico que, en respuesta a las previsiones del marco legal de rango superior, y teniendo presentes los referentes de normalización y buenas prácticas, desarrollan
detalles concretos en cuanto a la política de gestión de documentos electrónicos, los metadatos, el documento electrónico, el expediente electrónico, la digitalización
de documentos, el copiado auténtico y la conversión de documentos (más otros asuntos cercanos como el catálogo de estándares o la política de firma electrónica).
Todas estas normas se han acompañado de las correspondientes guías de aplicación, junto con otra documentación complementaria en relación con la política
de gestión de documentos electrónicos, el esquema de metadatos de gestión del documento electrónico y los esquemas XML para el intercambio de documentos y
expedientes.
También se avanza en la provisión de servicios y herramientas informáticas para la gestión de documentos electrónicos.
El documento habla sobre la digitalización de documentos. Explica que la digitalización consiste en convertir documentos físicos en imágenes digitales para su visualización y almacenamiento en computadoras. Entre las ventajas se encuentran la agilidad y seguridad en el acceso a los documentos, así como el ahorro de espacio físico. La digitalización permite preservar los documentos originales y facilita su distribución.
Este documento trata sobre la digitalización de documentos. Explica los parámetros clave de una imagen digital como la resolución, dimensiones, profundidad de bits, rango dinámico y tamaño de archivo. También describe los formatos y métodos de compresión de imágenes digitales, así como los escáneres y su función en la captura de documentos para su gestión electrónica. Finalmente, aborda la posibilidad de externalizar el proceso de digitalización.
El documento describe las diferentes fases y operaciones del proceso técnico documental (PTD), incluyendo la entrada de documentos, el tratamiento a través del análisis formal y de contenido, y la salida o difusión de la información. El tratamiento es la fase más importante e incluye la catalogación, indización y resumenes para facilitar la recuperación de información por los usuarios.
Transformación digital, sí o sí; documento, expediente y archivo electrónicoMiguel A. Amutio
1) La transformación digital de la administración es inevitable según las leyes 39/2015 y 40/2015, las cuales establecen el medio electrónico como habitual. 2) Estas leyes requieren que los documentos, expedientes y archivos sean electrónicos, lo que representa un gran reto. 3) Se necesita un esfuerzo global y multidisciplinar para cumplir con estas leyes a través de documentación, herramientas, cooperación y formación.
El documento describe tres puntos clave sobre la digitalización de documentos:
1. Explica que la digitalización convierte documentos físicos en imágenes digitales mediante el escaneo y almacenamiento en formatos de archivo electrónicos.
2. Señala que la digitalización permite preservar la información de manera electrónica, facilitando el acceso y aplicaciones como la búsqueda de información.
3. Detalla algunas etapas clave del proceso de digitalización como la preparación de documentos, escaneo, indexación y
Transformación digital, sí o sí; documento, expediente y archivo electrónicoMiguel A. Amutio
Este documento presenta información sobre la transformación digital en las administraciones públicas. Se destaca que las leyes 39/2015 y 40/2015 establecen el medio electrónico como habitual y obligan a la transformación digital. También se describen las acciones en curso como la elaboración de políticas de gestión de documentos electrónicos, la cooperación entre actores, y el desarrollo de herramientas para la gestión de documentos, expedientes y archivos electrónicos. Finalmente, se señalan retos como el cambio cultural necesario y la importancia de promover las polí
Documentos electrónicos, Esquema de metadatos y modelo de Política de gestión...Miguel A. Amutio
SOCINFOR. Expediente electrónico (V): Gestión Documental y Digitalización.
Documentos electrónicos, Esquema de metadatos y modelo de Política de gestión documental
El proceso de digitalización de los documentosDiana Rodríguez
Este documento presenta una guía sobre el proceso de digitalización de documentos en bibliotecas. Explica las etapas clave como la selección de materiales a digitalizar, el escaneo, el reconocimiento óptico de caracteres, la edición y corrección. También cubre aspectos importantes como los requerimientos técnicos, de software y recursos humanos necesarios, así como los costos asociados que dependen principalmente de la cantidad de páginas a digitalizar. El objetivo es proporcionar una introducción completa al tema para quienes de
El documento habla sobre los beneficios de digitalizar documentos, como permitir el acceso remoto y simultáneo de múltiples usuarios, ahorrar espacio físico, y preservar los documentos de forma más segura. También describe los problemas comunes con el manejo de documentos físicos, como la dificultad para ubicarlos y la necesidad de consultarlos de forma remota. La empresa ofrece servicios como escanear documentos, indexarlos con metadatos, y usar software para gestionar los documentos digitalizados.
Informe tecnico
Objetivos:
1. Analizar el problema de la representación de recursos dentro de una biblioteca digital.
2. Analizar las ventajas y desventajas de los distintos paradigmas de bases de datos en cuanto a la representación de los recursos.
3. Proponer un modelo de datos exible para representar los recursos dentro de una biblioteca digital, considerando al menos las siguientes características:
-distintos formatos de metadatos para distintos tipos de recursos;
- varias catalogaciones de un mismo recurso utilizando distintos formatos de metadatos;
- representación de entidades abstractas de forma independiente, permitiendo identi carlas y reutilizarlas;
- relaciones entre recursos;
- relaciones entre entidades abstractas;
- relaciones entre entidades abstractas y recursos.
4. Proponer una arquitectura en capas simple y clara que provea los niveles de abstracción adecuados según los niveles de acceso requeridos.
5. Analizar las técnicas de preservación digital y determinar cuál es la más adecuada para garantizar la preservación tanto de los recursos como de los objetos digitales.
6. Determinar la forma de indexación más adecuada para que la recuperación de los recursos sea e ciente y de buen redimiento. El espacio ocupado por el repositorio debe mantenerse dentro de parámetros aceptables.
7. Desarrollar un prototipo para la representación de los recursos dentro de una biblioteca digital en SeDiCI.
Propuesta técnica aprobada por Resolución 7ma. 24/06/2010 de la Facultad de Informatica de la UNLP.
Expediente: 3300-2042/10-000.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5567
Este documento presenta una evaluación de los recursos de información existentes en ciencia y tecnología, con énfasis en la definición y análisis de obras de referencia e internet. En primer lugar, define los recursos de información científica y técnica, y explica la importancia de evaluar las obras de referencia y los recursos de internet usando criterios como contenido, presentación y calidad de la información. Luego, detalla los criterios para evaluar el contenido intelectual y presentación material de las obras de referencia, así como aspectos para evalu
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...CarlosMarcondes17
Desenvolver um modelo e vocabulário – MIC, Modelo Integrado de Curadoria - para as atividades de curadoria sobre objetos digitais de patrimônio, memória e cultura – DHO, Digital Heritage Objects - que integre vocabulários previamente desenvolvidos – Relações Culturalmente Relevantes – CRR - e Classificação de Tipos de Objetos de Patrimônio – TOP -, entre outros, para torná-los recursos permanentes, autorais e reusáveis; implementar este modelo em um caso de uso usando as tecnologias DAI e de grafos nomeados.
Roles profesionales en la Arquitectura de InformaciónRodrigo Ronda
El documento describe la evolución de la arquitectura de información desde diferentes disciplinas como la interacción humano-computadora, la visualización de información y la ingeniería de sistemas. Aunque se supone que las ciencias de la información generarían a los profesionales para realizar la arquitectura de información, en realidad ha surgido desde múltiples campos. La arquitectura de información implica estructurar, organizar y representar contenidos e información en entornos digitales de manera multidiscplinaria.
IMRAR - Tesis de Grado Diseño Gráfico Universidad Nacional de ColombiaMiguel Albadan
This project arises as answer to an initiative of the Group of Investigation of Indigenous Rock Art (GIPRI-Colombia), which decides to elaborate a museum of rock art in digital media with the purpose of offering a tool of international popularization to the public specialized in this topic. This museum looks for to concentrate on oneself system, diverse data relating to the history of the investigation, to the archaeological discoveries, the aesthetic and the etnohistoric studies. In this way, a great database is built, these data could be fused and visualized in screen, then it allows the user to make thematic connections, specialized searches, relate space, and possibly, to determine conservation plans for each zone with rock art.
The technological development has been concentrated on two big areas: visualization of data and graphic synthesis. A programming atmosphere Open Source called Processing was used, with which specialized software was developed which visualizes the information stored in charts XML, in a graph 3D way with which one can interacts in real time through Internet. The graphic plan recovered part of the outlines and conventions elaborated previously by GIPRI (1970-2006), and new elements were created that simplify the appearance in screen of each item, searching a purely geometric atmosphere that makes more efficient its reading.
Que es un sistema de archivo electrónico de imágenes
Procesos y tratamientos sobre las imágenes para su gestión, descripción y recuperación.
Criterios a tener en cuenta a la hora de organizar un sistema de archivo y gestión de imágenes digitales
El documento contrasta los medios analógicos y digitales. Mientras los analógicos se basan en la transcripción, los digitales usan la conversión de señales físicas a números binarios. Esto hace que los digitales sean más fiables y permitan comprimir, almacenar y transmitir la información de forma más eficiente. Además, lo digital permite la representación espacial y temporal de la información y su acceso sin orden específico. La interactividad creciente también es una ventaja clave de los medios digitales. Algunos productos continuar
La importancia de la digitalización de archivos para la bi…bbrti
El documento habla sobre la importancia de la digitalización de archivos para las bibliotecas. Explica que la digitalización amplía el acceso a los documentos, permite su preservación y conservación a largo plazo, y optimiza el espacio físico de almacenamiento. También menciona algunos softwares de código abierto que pueden usarse para crear archivos digitales como Archon, DSpace y Greenstone.
Este documento resume las principales características de los archivos de la Contraloría Municipal de Envigado y de la empresa privada Unión Eléctrica. Ambos archivos siguen las normas del Archivo General de la Nación y organizan sus documentos de acuerdo a su ciclo vital, valorando los documentos según su importancia, volumen y uso. En el archivo de gestión se almacenan documentos por 1 año, en el central de 15 a 20 años y en el histórico los documentos permanentes. Ambos archivos han creado tablas de retención
El documento presenta los productos y servicios de RODELU relacionados con la gestión documental, incluyendo soluciones integrales de software y servicios de consultoría. Se describe el software Dokmee Capture para la digitalización de documentos y la herramienta de gestión documental Dokmee, con características como reconocimiento óptico de caracteres, flujos de trabajo y seguridad. También se detallan los servicios de consultoría en planeamiento documental, producción, procesos y certificación.
Documento electronico, #metadatos, firma electronica, expediente electronico ...Saginfo & Co
Este documento presenta información sobre documentos electrónicos, metadatos, firma electrónica, expediente electrónico e interoperabilidad. Explica las normas vigentes en Colombia relacionadas con estos temas y define conceptos clave como documento electrónico, sus características de autenticidad, integridad, fiabilidad y disponibilidad. Además, clasifica diferentes tipos de documentos electrónicos y describe los elementos estructurales de un documento electrónico como contenido, firma y metadatos.
Normas técnicas de Interoperabilidad e instrumentos para el documento electró...Miguel A. Amutio
TRIA Nº 19. 2015. I.S.S.N. 1134-1602 - Pags. 153-183
Revista Archivística de la Asociación de Archiveros de Andalucía
Tras un esfuerzo considerable de las administraciones públicas, a la vez colectivo y multidisciplinar, nos hemos dotado de una serie de normas técnicas relativas al documento electrónico que, en respuesta a las previsiones del marco legal de rango superior, y teniendo presentes los referentes de normalización y buenas prácticas, desarrollan
detalles concretos en cuanto a la política de gestión de documentos electrónicos, los metadatos, el documento electrónico, el expediente electrónico, la digitalización
de documentos, el copiado auténtico y la conversión de documentos (más otros asuntos cercanos como el catálogo de estándares o la política de firma electrónica).
Todas estas normas se han acompañado de las correspondientes guías de aplicación, junto con otra documentación complementaria en relación con la política
de gestión de documentos electrónicos, el esquema de metadatos de gestión del documento electrónico y los esquemas XML para el intercambio de documentos y
expedientes.
También se avanza en la provisión de servicios y herramientas informáticas para la gestión de documentos electrónicos.
El documento habla sobre la digitalización de documentos. Explica que la digitalización consiste en convertir documentos físicos en imágenes digitales para su visualización y almacenamiento en computadoras. Entre las ventajas se encuentran la agilidad y seguridad en el acceso a los documentos, así como el ahorro de espacio físico. La digitalización permite preservar los documentos originales y facilita su distribución.
Este documento trata sobre la digitalización de documentos. Explica los parámetros clave de una imagen digital como la resolución, dimensiones, profundidad de bits, rango dinámico y tamaño de archivo. También describe los formatos y métodos de compresión de imágenes digitales, así como los escáneres y su función en la captura de documentos para su gestión electrónica. Finalmente, aborda la posibilidad de externalizar el proceso de digitalización.
El documento describe las diferentes fases y operaciones del proceso técnico documental (PTD), incluyendo la entrada de documentos, el tratamiento a través del análisis formal y de contenido, y la salida o difusión de la información. El tratamiento es la fase más importante e incluye la catalogación, indización y resumenes para facilitar la recuperación de información por los usuarios.
Transformación digital, sí o sí; documento, expediente y archivo electrónicoMiguel A. Amutio
1) La transformación digital de la administración es inevitable según las leyes 39/2015 y 40/2015, las cuales establecen el medio electrónico como habitual. 2) Estas leyes requieren que los documentos, expedientes y archivos sean electrónicos, lo que representa un gran reto. 3) Se necesita un esfuerzo global y multidisciplinar para cumplir con estas leyes a través de documentación, herramientas, cooperación y formación.
El documento describe tres puntos clave sobre la digitalización de documentos:
1. Explica que la digitalización convierte documentos físicos en imágenes digitales mediante el escaneo y almacenamiento en formatos de archivo electrónicos.
2. Señala que la digitalización permite preservar la información de manera electrónica, facilitando el acceso y aplicaciones como la búsqueda de información.
3. Detalla algunas etapas clave del proceso de digitalización como la preparación de documentos, escaneo, indexación y
Transformación digital, sí o sí; documento, expediente y archivo electrónicoMiguel A. Amutio
Este documento presenta información sobre la transformación digital en las administraciones públicas. Se destaca que las leyes 39/2015 y 40/2015 establecen el medio electrónico como habitual y obligan a la transformación digital. También se describen las acciones en curso como la elaboración de políticas de gestión de documentos electrónicos, la cooperación entre actores, y el desarrollo de herramientas para la gestión de documentos, expedientes y archivos electrónicos. Finalmente, se señalan retos como el cambio cultural necesario y la importancia de promover las polí
Documentos electrónicos, Esquema de metadatos y modelo de Política de gestión...Miguel A. Amutio
SOCINFOR. Expediente electrónico (V): Gestión Documental y Digitalización.
Documentos electrónicos, Esquema de metadatos y modelo de Política de gestión documental
El proceso de digitalización de los documentosDiana Rodríguez
Este documento presenta una guía sobre el proceso de digitalización de documentos en bibliotecas. Explica las etapas clave como la selección de materiales a digitalizar, el escaneo, el reconocimiento óptico de caracteres, la edición y corrección. También cubre aspectos importantes como los requerimientos técnicos, de software y recursos humanos necesarios, así como los costos asociados que dependen principalmente de la cantidad de páginas a digitalizar. El objetivo es proporcionar una introducción completa al tema para quienes de
El documento habla sobre los beneficios de digitalizar documentos, como permitir el acceso remoto y simultáneo de múltiples usuarios, ahorrar espacio físico, y preservar los documentos de forma más segura. También describe los problemas comunes con el manejo de documentos físicos, como la dificultad para ubicarlos y la necesidad de consultarlos de forma remota. La empresa ofrece servicios como escanear documentos, indexarlos con metadatos, y usar software para gestionar los documentos digitalizados.
Informe tecnico
Objetivos:
1. Analizar el problema de la representación de recursos dentro de una biblioteca digital.
2. Analizar las ventajas y desventajas de los distintos paradigmas de bases de datos en cuanto a la representación de los recursos.
3. Proponer un modelo de datos exible para representar los recursos dentro de una biblioteca digital, considerando al menos las siguientes características:
-distintos formatos de metadatos para distintos tipos de recursos;
- varias catalogaciones de un mismo recurso utilizando distintos formatos de metadatos;
- representación de entidades abstractas de forma independiente, permitiendo identi carlas y reutilizarlas;
- relaciones entre recursos;
- relaciones entre entidades abstractas;
- relaciones entre entidades abstractas y recursos.
4. Proponer una arquitectura en capas simple y clara que provea los niveles de abstracción adecuados según los niveles de acceso requeridos.
5. Analizar las técnicas de preservación digital y determinar cuál es la más adecuada para garantizar la preservación tanto de los recursos como de los objetos digitales.
6. Determinar la forma de indexación más adecuada para que la recuperación de los recursos sea e ciente y de buen redimiento. El espacio ocupado por el repositorio debe mantenerse dentro de parámetros aceptables.
7. Desarrollar un prototipo para la representación de los recursos dentro de una biblioteca digital en SeDiCI.
Propuesta técnica aprobada por Resolución 7ma. 24/06/2010 de la Facultad de Informatica de la UNLP.
Expediente: 3300-2042/10-000.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5567
Este documento presenta una evaluación de los recursos de información existentes en ciencia y tecnología, con énfasis en la definición y análisis de obras de referencia e internet. En primer lugar, define los recursos de información científica y técnica, y explica la importancia de evaluar las obras de referencia y los recursos de internet usando criterios como contenido, presentación y calidad de la información. Luego, detalla los criterios para evaluar el contenido intelectual y presentación material de las obras de referencia, así como aspectos para evalu
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...CarlosMarcondes17
Desenvolver um modelo e vocabulário – MIC, Modelo Integrado de Curadoria - para as atividades de curadoria sobre objetos digitais de patrimônio, memória e cultura – DHO, Digital Heritage Objects - que integre vocabulários previamente desenvolvidos – Relações Culturalmente Relevantes – CRR - e Classificação de Tipos de Objetos de Patrimônio – TOP -, entre outros, para torná-los recursos permanentes, autorais e reusáveis; implementar este modelo em um caso de uso usando as tecnologias DAI e de grafos nomeados.
Roles profesionales en la Arquitectura de InformaciónRodrigo Ronda
El documento describe la evolución de la arquitectura de información desde diferentes disciplinas como la interacción humano-computadora, la visualización de información y la ingeniería de sistemas. Aunque se supone que las ciencias de la información generarían a los profesionales para realizar la arquitectura de información, en realidad ha surgido desde múltiples campos. La arquitectura de información implica estructurar, organizar y representar contenidos e información en entornos digitales de manera multidiscplinaria.
IMRAR - Tesis de Grado Diseño Gráfico Universidad Nacional de ColombiaMiguel Albadan
This project arises as answer to an initiative of the Group of Investigation of Indigenous Rock Art (GIPRI-Colombia), which decides to elaborate a museum of rock art in digital media with the purpose of offering a tool of international popularization to the public specialized in this topic. This museum looks for to concentrate on oneself system, diverse data relating to the history of the investigation, to the archaeological discoveries, the aesthetic and the etnohistoric studies. In this way, a great database is built, these data could be fused and visualized in screen, then it allows the user to make thematic connections, specialized searches, relate space, and possibly, to determine conservation plans for each zone with rock art.
The technological development has been concentrated on two big areas: visualization of data and graphic synthesis. A programming atmosphere Open Source called Processing was used, with which specialized software was developed which visualizes the information stored in charts XML, in a graph 3D way with which one can interacts in real time through Internet. The graphic plan recovered part of the outlines and conventions elaborated previously by GIPRI (1970-2006), and new elements were created that simplify the appearance in screen of each item, searching a purely geometric atmosphere that makes more efficient its reading.
Que es un sistema de archivo electrónico de imágenes
Procesos y tratamientos sobre las imágenes para su gestión, descripción y recuperación.
Criterios a tener en cuenta a la hora de organizar un sistema de archivo y gestión de imágenes digitales
El documento contrasta los medios analógicos y digitales. Mientras los analógicos se basan en la transcripción, los digitales usan la conversión de señales físicas a números binarios. Esto hace que los digitales sean más fiables y permitan comprimir, almacenar y transmitir la información de forma más eficiente. Además, lo digital permite la representación espacial y temporal de la información y su acceso sin orden específico. La interactividad creciente también es una ventaja clave de los medios digitales. Algunos productos continuar
La importancia de la digitalización de archivos para la bi…bbrti
El documento habla sobre la importancia de la digitalización de archivos para las bibliotecas. Explica que la digitalización amplía el acceso a los documentos, permite su preservación y conservación a largo plazo, y optimiza el espacio físico de almacenamiento. También menciona algunos softwares de código abierto que pueden usarse para crear archivos digitales como Archon, DSpace y Greenstone.
La importancia de la digitalización de archivos para la bi…bbrti
El documento presenta información sobre la Convención Nacional de Centros Binacionales que se llevó a cabo los días 11 y 12 de octubre de 2007 en Trujillo, Perú. En la convención se discutió la importancia de la digitalización de archivos para bibliotecas, incluyendo los beneficios para la preservación de documentos, ampliación del acceso público, y reducción de costos.
TIC y bibliotecas: situación actual y perspectivasErnest Abadal
Este documento presenta una visión panorámica de la situación actual y perspectivas de las tecnologías de la información y comunicación (TIC) aplicadas a las bibliotecas académicas. Se describen las aplicaciones tradicionales de las TIC como la gestión integral, consulta conjunta de colecciones y bibliotecas digitales, así como ámbitos emergentes como el apoyo al aprendizaje y la investigación. El documento concluye que es importante estudiar casos similares, evaluar el mercado tecnológico, e involucrar m
Este documento presenta una visión panorámica de la situación actual y perspectivas de las tecnologías de la información y comunicación (TIC) aplicadas a las bibliotecas académicas. Se describen aplicaciones tradicionales como la gestión integral, consulta conjunta de colecciones, bibliotecas digitales y fondos externos. También se mencionan ámbitos emergentes como el apoyo al aprendizaje a través de recursos educativos abiertos y al apoyo a la investigación mediante la gestión de datos y capital reputacional. El document
El documento describe el proyecto CATA, que tiene como objetivo crear una base de datos en línea de cerámica arqueológica andaluza. El proyecto involucra a varias universidades e instituciones y busca desarrollar protocolos para el estudio de la cerámica, digitalizar colecciones existentes, y aplicar tecnologías como el modelado 3D para facilitar el análisis de artefactos.
Este documento trata sobre la digitalización de documentos. Explica que la digitalización es el proceso de convertir documentos físicos en formato digital para facilitar su almacenamiento, consulta y preservación. Detalla los pasos del proceso de digitalización, los tipos y usos de la digitalización, los aspectos técnicos como resolución y formatos, y los equipos necesarios como escáneres.
Experiencias con mi slideshare Expresión Oral y escritaalejoleal87
Este documento resume las experiencias de Ricardo Alejandro Castro Leal con SlideShare y discute temas relacionados con la normatividad archivística en Colombia. Explica el propósito y uso de las tablas de retención y valoración documental, e implementar las normas que rigen los archivos en el país. También destaca la importancia de la digitalización de documentos en las empresas y considerar las características de los documentos digitalizados.
12 la gestión cultural en el ámbito de la conservación en museos de arte cont...Fernando Sancho Caparrini
Este documento discute la gestión cultural y la conservación en museos de arte contemporáneo. Explica que la diversidad de elementos y materiales en el arte contemporáneo, así como los protocolos de sustitución y migración, crean desafíos para identificar, almacenar y compartir información sobre las obras. También destaca la necesidad de ontologías y esquemas conceptuales para facilitar la comunicación entre sistemas. El documento concluye que las bases de datos y sistemas de representación son herramientas útiles para almacenar y visualizar gran
El lenguaje de los nuevos medios de comunicacionmariabelenguer52
El documento describe los fundamentos de los nuevos medios de comunicación. Se resumen en tres principios clave: 1) La representación numérica de todos los objetos mediante códigos, 2) La estructura modular que permite agrupar elementos en objetos de mayor escala, y 3) La automatización de tareas a través de la representación numérica y estructura modular. Estos tres principios permiten la variabilidad, transcodificación y creación de versiones variables de los objetos mediáticos.
Objeto Aprendizaje Salvador Betancourt MachaenUdeG
El documento define una biblioteca como una colección de materiales de información organizada para que un grupo de usuarios pueda acceder a ella. Define una biblioteca digital como recursos digitales con un objetivo claro y contenidos organizados con metadatos para facilitar la búsqueda y uso de la información. Explica que el objetivo principal de una biblioteca digital es el acceso universal a la información sin limitaciones de tiempo o espacio, así como la preservación y accesibilidad a largo plazo de los materiales.
Objeto Aprendizaje Salvador Betancourt MachaenUdeG
El documento define una biblioteca como una colección de materiales de información organizada para que un grupo de usuarios pueda acceder a ella. Define una biblioteca digital como recursos digitales con un objetivo claro y contenidos organizados con metadatos para facilitar la búsqueda y uso de la información. Explica que el objetivo principal de una biblioteca digital es el acceso universal a la información sin limitaciones de tiempo o espacio, así como la preservación y accesibilidad a largo plazo de los materiales.
Similar a Digitalización y reconocimiento de documentos manuscritos para la preservación de patrimonio cultural (20)
Objeto de conferencia
Ciclo de conferencias en la Universidad Nacional Experimental del Táchira (UNET) (Venezuela, 2012)
Objetivo:
• Compartir la experiencia del SEDICI en todas las áreas que hacen al quehacer del repositorio: edición, catalogación, comunicación y difusión, software de soporte e interoperabilidad, servicios asociados y cuestiones legales, entre otras.
• Crear conciencia sobre el acceso abierto en todas sus formas.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/37866
Tesis de doctorado
De Giusti, Marisa Raquel; Gordillo, Silvia; Castro, Silvia; Suppi, Remo; Baldasarri, Sandra
Doctor en Ciencias Informáticas; Facultad de Informática
La enseñanza en el área de simulación de eventos discretos requiere integrar una variedad de conceptos teóricos y ponerlos en práctica a través de la creación y ejecución de modelos abstractos de simulación, con el objetivo de recopilar información que pueda traspolarse hacia los sistemas reales. Para construir modelos, ejecutarlos y analizar los resultados de cada ejecución se utilizan herramientas de software cada vez más sofisticadas que permiten expresar los elementos de los modelos en términos de entidades abstractas y relaciones, y que recopilan gran cantidad de datos y estadísticas sobre cada una de estas entidades del modelo. GPSS es una de estas herramientas, y se compone de un lenguaje de programación por bloques y un motor de simulación que traduce estos bloques en distintas entidades del modelo. A pesar de que su primera versión data de 1961, GPSS es aún muy utilizado por profesionales y empresas, y es una de las herramientas más utilizadas para la enseñanza de simulación de eventos discretos por instituciones académicas de todo el mundo.
El avance de la capacidad de cómputo de las computadoras ha permitido incorporar una mayor cantidad de herramientas y funciones a las distintas implementaciones de GPSS. Mientras que esto representa una ventaja para sus usuarios, requiere también un cada vez mayor esfuerzo por parte de los docentes para enseñar a sus estudiantes a aprovechar todo su potencial. Muchos docentes e investigadores han buscado optimizar la enseñanza de simulación de eventos discretos desde múltiples ángulos: la organización del curso y la metodología de enseñanza, la creación de elementos de aprendizaje que ayuden a aplicar los distintos elementos teóricos, la generación de herramientas para construir modelos GPSS, y la construcción de herramientas para comprender el motor de simulación por dentro.
En esta tesis se introduce una herramienta de software que permite construir modelos GPSS de manera interactiva, cuyo diseño fue pensado para integrar los elementos teóricos del curso con los objetos y entidades de GPSS. Esta herramienta también permite ejecutar estos modelos y analizar con alto nivel de detalle su evolución a través del tiempo de simulación, lo que permite a los estudiantes comprender cómo funciona el motor de simulación y cómo interactúan las distintas entidades entre sí. Se incluye también una propuesta de enseñanza basada en una fuerte participación de los estudiantes, que, por medio de esta nueva herramienta, les permite incorporar los conceptos más fácilmente. Esta propuesta de enseñanza fue puesta a prueba con alumnos del área de sistemas, quienes tomaron un curso que contiene los m
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/29753
Objeto de conferencia
The Benefits of Model-Driven Development in Institutional Repositories
II Conferencia Internacional Acceso Abierto, Comunicación Científica y Preservación Digital (BIREDIAL) (Colombia, 2012)
Los Repositorios Institucionales (RI) se han consolidado en las instituciones en las áreas científicas y académicas, así lo demuestran los directorios de repositorios existentes de acceso abierto y en los depósitos diarios de artículos o documentos realizados por diferentes vías, tales como el autoarchivo por parte de los usuarios registrados y las catalogaciones por parte de los bibliotecarios. Los sistemas RI se basan en diversos modelos conceptuales, por lo que en este trabajo se realiza un relevamiento bibliográfico del Desarrollo de Software Dirigido por Modelos (MDD) en los sistemas y aplicaciones para los RI con el propósito de exponer los beneficios de la aplicación del MDD en los RI. El MDD es un paradigma de construcción de software que asigna a los modelos un rol central y activo bajo el cual se derivan modelos que van desde los más abstractos a los concretos, este proceso se realiza a través de transformaciones sucesivas. Este paradigma proporciona un marco de trabajo que permite a los interesados compartir sus puntos de vista y manipular directamente las representaciones de las entidades de este dominio. Por ello, se presentan los beneficios agrupados según los actores que están presentes, a saber, desarrolladores, dueños de negocio y expertos del dominio. En conclusión, estos beneficios ayudan a que todo el entorno del dominio de los RI se concentre en implementaciones de software más formales, generando una consolidación de tales sistemas, donde los principales beneficiarios serán los usuarios finales a través de los múltiples servicios que son y serán ofrecidos por estos sistemas.; The Institutional Repositories (IR) have been consolidated into the institutions in scientific and academic areas, as shown by the directories existing open access repositories and the deposits daily of articles made by different ways, such as by self-archiving of registered users and the cataloging by librarians. IR systems are based on various conceptual models, so in this paper a bibliographic survey Model-Driven Development (MDD) in systems and applications for RI in order to expose the benefits of applying MDD in IR. The MDD is a paradigm for building software that assigns a central role models and active under which derive models ranging from the most abstract to the concrete, this is done through successive transformations. This paradigm provides a framework that allows interested parties to share their views and directly manipulate representations of the entities of this domain. Therefore, the benefits are grouped by actors that are present, namely, developers, business owners and domain experts. In conclusion, t
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/26044
Objeto de conferencia
I Conferencia sobre Bibliotecas y Repositorios Digitales (BIREDIAL) (Colombia, 2011)
El Servicio de Difusión de la Creación Intelectual es un proyecto de Repositorio Digital Institucional creado dentro de la UNLP, orientado a funcionar como el punto central de difusión de toda la producción académica generada dentro de la institución. Dada la tendencia vista en las principales instituciones académicas del mundo de hacer pública su producción científica a través de repositorios digitales de acceso abierto, el SeDiCI pasa a ser una herramienta estratégica para la jerarquización de la institución.
Desde su creación en el año 2003, el SeDiCI ha afrontado diversas dificultades que han influído directa o indirectamente en su desarrollo y crecimiento, pero aún a pesar de estas problemáticas, actualmente el SeDiCI cuenta con una base de datos documental que supera los 14000 recursos académicos propios (de la UNLP) expuestos bajo las políticas del Acceso Abierto. Esto convierte al SeDiCI en uno de los principales exponentes en su tipo, tanto a nivel nacional como regional (América Latina). En este documento se presentan experiencias y desafíos que el SeDiCI ha enfrentado, describiendo en cada caso el problema, su contexto y las vías de acción tomadas para superarlo. Los principales tópicos son: necesidad de apoyo institucional, reglas y metodologías de catalogación, mejoras en los servicios provistos a los usuarios, importación de recursos, entre otros.
Adicionalmente se describen algunos de los desafíos actuales, diferentes líneas de investigación y desarrollo orientadas a resolver los retos y a expandir y mejorar los servicios proporcionados a la comunidad de usuarios. Entre estos se encuentran: mecanismos y herramientas de harvesting, gestión de grandes volúmenes de información, ontologías y repositorios semánticos, legislación relacionada al Acceso Abierto, Diseminación Selectiva de la Información, Autoarchivo, etc.
El principal objetivo de este documento es exponer la experiencia adquirida a partir de este proyecto, con la intención de que resulte de utilidad para aquellas instituciones que se encuentran en el proceso de creación de sus propios repositorios institucionales, o bien que se encuentren frente a problemáticas similares a las aquí expuestas.; The Intellectual Creation Dissemination Service is the Institutional Digital Repository of La Plata National University.
The project is intended to be the main distribution source of all the academic work produced inside UNLP. In view of main worldwide institutions's trend towards the publication of academic resources through open access digital repositories, SeDiCI has pointed to become a strategic tool to bring relevance to the University.
Since its creation in the year 2003, SeDiCI has faced up many challenges and difficulties. Th
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5528
Preprint
DYNA; Edition 184
Los Repositorios Institucionales (RI) se han consolidado en la academia, prueba de ello es el crecimiento en número de registros en los directorios existentes realizado por diferentes vías: autoarchivo por parte de autores, la incorporación de material a cargo de bibliotecarios, entre otras. En este trabajo se hace un relevamiento bibliográfico sobre el uso del enfoque de Desarrollo de Software Dirigido por Modelos (MDD) en los sistemas de RI con el propósito de establecer una relación entre ellos. El MDD es un paradigma de construcción de software que asigna a los modelos un rol central y se derivan modelos que van desde los más abstractos a los más concretos. Este paradigma, además, proporciona un marco de trabajo que permite a los interesados compartir sus puntos de vista y manipular las representaciones de las entidades del dominio. En conclusión, el seguimiento de las diferentes investigaciones relevadas y lo aquí expuesto permiten incentivar implementaciones de software para los RI.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/35601
Articulo
e-colabora; vol. 1, no. 2
Desde su creación en el año 2003, el Servicio de Difusión de la Creación Intelectual ha afrontado diversas dificultades que han influido directa o indirectamente en su desarrollo y crecimiento. En este documento se presentan algunas de estas experiencias, describiendo en cada caso el problema, su contexto y las vías de acción tomadas para superarlo. Adicionalmente se describen algunas de las diferentes líneas de investigación y desarrollo actuales, orientadas a expandir y mejorar los servicios proporcionados a la comunidad de usuarios. De ahí que el objetivo principal de este trabajo sea exponer la experiencia adquirida, con la intención de que resulte de utilidad para aquellas instituciones que se encuentren en el proceso de creación de sus propios repositorios.; Since its creation in the year 2003, the Intellectual Creation Dissemination Service has faced up many difficulties. Thus the initiative has been directly and indirectly affected during its development and growth. This work presents some of these experiencies, describing problems, context and solution approaches. This document also describes some of the new and most recent challenges and the current research and development trends, which are oriented to improve and extend the services provided by SeDiCI. The main purpose of this document is to share the lived experiences with this project, which may be useful to other institutions working on their own digital repositories.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5527
Informe tecnico
America Learning & Media; Edición 027
Celsius es el software utilizado por los miembros de ISTEC que participan de la iniciativa LibLink para gestionar los pedidos de material bibliográfico de sus usuarios, atender solicitudes de provisión desde otras instituciones participantes, facilitar el intercambio de los documentos y generar estadísticas que permiten transparentar el intercambio y evaluar la calidad del trabajo de los participantes. Este software es desarrollado por la UNLP, y su primera versión data del año 2001. Celsius es ofrecido a todas las instituciones participantes de manera gratuita, a quienes también se les brinda documentación actualizada y asistencia personalizada para realizar la instalación y mantenimiento, instalar actualizaciones y formar al equipo de personas que utilizarán esta herramienta en cada institución. El proyecto Celsius3 tiene como característica principal la gestión centralizada de todas las instancias de Celsius de los miembros de LibLink. Esto implica, por un lado, la creación de instancias a medidas que se incorporan nuevos miembros, y por el otro la centralización todas las instalaciones existentes de Celsius 1.x y 2.x, lo que implica a su vez las migraciones y normalizaciones de sus respectivas bases de datos. Cabe aclarar que, si bien se busca contar con una instalación única y centralizada de esta plataforma, las instituciones seguirán contando con su propia instancia de Celsius: usuarios, pedidos, administradores, comunicaciones y estadísticas de cada instancia serán datos que gestionará cada institución de manera independiente del resto. Además la plataforma está pensada para que puedan mantener sus dominios actuales de acceso a Celsius.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/34504
Objeto de conferencia
PKP International Scholarly Publishing Conferences (Mexico, 2013)
La Universidad Nacional de La Plata tiene como objetivo prioritario la difusión de todo el conocimiento generado en la institución, a fin de devolver a la sociedad parte del esfuerzo invertido en la Universidad pública. Para alcanzar este objetivo se han generado diversas iniciativas desde la gestión, la creación de nuevos servicios y la implementación de nuevas líneas de investigación y desarrollo para potenciar tales servicios. El Servicio de Difusión de la Creación Intelectual es el Repositorio Institucional central de la UNLP, y posee en la actualidad todo tipo de materiales científicos y académicos producidos desde la Universidad, incluyendo artículos de revistas científicas, publicaciones en congresos, tesis de posgrado, tesinas, normativas y ordenanzas, libros y libros electrónicos, documentos de audio, materiales educativos, y fotografías de piezas de museos, entre otros. Este repositorio institucional, el mayor de la Argentina y uno de los principales de América Latina, posee un rol central en la difusión de la producción intelectual de la UNLP y en la coordinación con otros servicios y desarrollos, entre los que se destacan el Portal de Revistas de la UNLP, soportado por el software Open Journal Systems, y el Portal de Congresos de la UNLP, soportado por el software Open Conference Systems. En este trabajo se detallan los distintos mecanismos que se han implementado desde la Universidad Nacional de La Plata para facilitar la interacción entre su repositorio institucional SEDICI -construido sobre el software Dspace- y estos portales, evitar la duplicación de esfuerzos y maximizar la difusión abierta del conocimiento. Dichos mecanismos incluyen desarrollos tecnológicos como la utilización de diversos protocolos (RSS/Atom, Sword, OAI-PMH) para establecer un camino unificado de comunicación entre los sistemas, o el desarrollo de plugins que permiten exportar la información desde las herramientas de gestión de producción académica, en un formato comprensible por otros sistemas. Todo esto, además, involucra el establecimiento de flujos de trabajo entre los equipos de personas que conforman los distintos servicios, con la finalidad de obtener un mecanismo unificado que contemple los métodos y las herramientas para exportar los datos e incorporarlos al repositorio. Finalmente, en este trabajo se incluyen otros esfuerzos generados tanto desde el SEDICI como desde la presidencia de la Universidad para asegurar la preservación de toda la producción intelectual y brindar nuevos mecanismos para maximizar la visibilidad de estos documentos científicos y académicos. Esto abarca a otros actores y direcciones de esta institución tales como la Editorial de la Universidad (EDULP), la Dirección de Educación a Distancia (EAD) y la Rad
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/27406
Objeto de conferencia
XX Asamblea General de ISTEC (Puebla, México, 2014)
Sumario de la presentación:
Parte 1 - Conceptos básicos. Repositorio, interoperabilidad, preservación, guías, proyectos
Parte 2 - Metadatos de preservación
Parte 3 - Directrices sobre preservación PREMIS, Modelo de datos PREMIS, METS Otros esquema de metadatos y más posibilidades en la preservación
Parte 4- OAIS
Parte 5- DSPACE Modelo de datos, OAIS en Dspace
Panel LibLink.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/34889
Objeto de conferencia
XX Asamblea General de ISTEC (Puebla, México, 2014)
Sumario:
- Innovación tecnológica
- Formación de RRHH
- Calidad de servicios
- Integración con otras iniciativas
- Administración y gestión
Sesión final LibLink.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/34941
Objeto de conferencia
III Conferencia Internacional de Biblioteca Digital y Educación a Distancia
Se presenta una plataforma de recolección destinada a relacionar y unificar información disponible en distintos lugares de la Web-que siguen diferentes convenciones-para crear un repositorio temático que puedan navegar los usuarios. La plataforma será usada en el Servicio de Difusión de la Creación Intelectual (SeDiCI) y utiliza de manera combinada ontologías y tesauros para brindar información mejor clasificada.
Actualmente, la información está diseminada en recursos de la Web y los motores de búsqueda tradicionales le devuelven al usuario listas rankeadas sin proveer ninguna relación semántica entre documentos. Los usuarios pasan gran cantidad de tiempo para vincular unos documentos con otros y saber cuáles atacan el dominio completo del problema; recién al localizar las semejanzas y las diferencias entre fragmentos de información éstas se trasladan a su trabajo y sirven para la creación de nuevo conocimiento.
La plataforma propuesta separa los módulos de funcionamiento de los diferentes dominios de interés (temas) para permitir su utilización en distintas áreas de conocimiento. El desarrollo incluye dos agentes que recorren las URLs almacenadas en una base de datos (uno responsable de poblar una ontología y otro de obtener URLs relacionadas), un módulo capaz de reconocer las páginas marcadas, interpretar las etiquetas y proveer las reglas para extraer la información y guardarla en un fichero RDF; tras esta etapa se aplica una homogeneización y la información así transformada se clasifica en función de una ontología de dominio.
La plataforma vuelve más eficientes los procesos de extracción automática y búsqueda de información en fuentes heterogéneas que representan los mismos conceptos siguiendo distintas convenciones.; Presentation of a web collection platform designed to relate and unify information available on different standard web sources with a view to creating a user-browseable thematic repository.
The platform will be used at the Servicio de Difusión de la Creación Intelectual (SeDiCI) [Intellectual Creation Diffusion Service] combined with ontologies and thesaurus to provide improved data sorting.
Data is currently spread on web resources and traditional search engines return ranked lists with no semantic relation among documents. Users have to spend a great deal of time relating documents and trying to figure out which ones fully address the issue domain. It is only after locating similarities and differences that information fragments are applied to the user's work, enabling knowledge creation.
The proposed platform sorts out the different theme domain functioning modules to allow their use in various knowledge areas. Development includes two agents that searches data base stored URLs, one is
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5555
Este documento describe varias tareas de curación automatizadas para mejorar la calidad e integridad de los datos en repositorios digitales implementados con DSpace. Estas tareas incluyen verificar enlaces externos, conectar metadatos con vocabularios controlados, y generar metadatos de preservación a partir de los archivos. También propone nuevas estrategias para seleccionar recursos a procesar y ejecutar tareas de curación de manera más eficiente.
Objeto de conferencia
III Conferencia de Bibliotecas y Repositorios Digitales de América Latina (BIREDIAL) y VIII Simposio Internacional de Bibliotecas Digitales (SIBD) (Costa Rica, 2013)
Durante el año 2012, el equipo del Portal de Congresos de la UNLP desarrolló un plugin para el software OCS que permite automatizar la generación de actas de congresos, y que a la vez simplifica de manera considerable la integración de dichas actas con el SEDICI. Este plugin puede, en líneas generales, exportar información de un mismo congreso en diferentes formatos, según se requiera en cada caso. Se han implementado distintos formatos de exportación, como por ejemplo CSV (valores separados por coma), HTML e incluso documento de texto (Word).
Estas tres exportaciones toman los datos de todos los trabajos (título, autores, resumen, instituciones, etc.) y los combinan en un único archivo, que el gestor de cada congreso puede descargar. También se implementó la exportación de todos los artículos de cada congreso en un único archivo .zip, y se modificaron los nombres de los archivos incluidos en el archivo .zip para que adopten el título del trabajo al que corresponden. De esta forma, los gestores pueden generar los libros de resúmenes de manera muy simple, y el repositorio institucional puede cargar todos los trabajos de cada congreso de una forma mucho más rápida.
Si bien se han implementado hasta ahora algunos formatos de exportación, el plugin fue pensado desde el principio para ser extendido hacia nuevos formatos, mediante un diseño basado en objetos que implementa el patrón de diseño conocido tomo Template Method.
Esta herramienta fue puesta a disponibilidad para usuarios en varios congresos del Portal de Congresos de la UNLP a modo de pruebas y los resultados fueron satisfactorios. En la actualidad, la herramienta ya está siendo utilizada para incorporar las producciones de los congresos al repositorio institucional SEDICI.
Aún cuando este desarrollo permitió simplificar la generación de actas de resúmenes de congresos, puede optimizarse más la incorporación de los trabajos al repositorio institucional, a fin de evitar la carga manual de los mismos. Por este motivo, el equipo del Portal de Congresos se encuentra evaluando diversas tecnologías de interoperabilidad entre sistemas. Entre ellas se destaca el protocolo sword en su versión 2 como una opción muy prometedora y relativamente simple. Este protocolo permite a los gestores de los congresos realizar el depósito automático o semiautomático de los trabajos desde el Portal de Congresos en el repositorio institucional, soportado por DSpace. Dicho depósito puede realizarse sobre una colección privada, lo que permitirá que el equipo de SEDICI revise los trabajos antes de confirmar su incorporación definitiva al repositorio.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/30522
Objeto de conferencia
International Conference on Engineering Education ICEE-2011 (Irlanda)
The Ibero-American Science and Technology Education Consortium (ISTEC) is a non-profit organization comprised of educational, research, industrial, and multilateral organizations throughout the Americas and the Iberian Peninsula. The Consortium was established in 1990 to foster scientific, engineering, and technology education, joint international research and development efforts among its members, and to provide a cost-effective vehicle for the application and transfer of technology. After twenty years, ISTEC has established a presence in the region, but it also has experienced problems to interact with different cultures and interests. During 2010 it suffered important changes in its organization and big efforts were realized to accomplish new goals and to share worldwide expertise, to facilitate distributed problem solving, creating the local critical mass needed for the development of regional projects in areas such as: continuing education, libraries and repositories, globalization of the culture of quality and accreditation standards, R&D, intellectual property development, capital acquisition, and social responsibility, among others. ISTEC continues to be dedicated to the improvement of Science, Engineering, Technology, Math education, R&D, and Entrepreneurship. The Consortium will foster technology transfer and the development of social and business entrepreneurs through the implementation of a global network that pretends to reach other countries in the world creating clusters of businesses and institutions that share common interest, assisting in the establishment of strategic alliances/joint ventures, and the promotion of collaborative partnerships in general.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/27159
Objeto de conferencia
BIREDIAL - Conferencia Internacional Acceso Abierto, Comunicación Científica y Preservación Digital
La preservación digital se define como el conjunto de prácticas de naturaleza política, estratégica y acciones concretas, destinadas a asegurar el acceso a los objetos digitales a largo plazo. El desarrollo de los repositorios institucionales, el crecimiento de sus contenidos y el reconocimiento de que la actividad institucional se canaliza, cada vez más, en soporte digital, obliga a los repositorios a acompañar su desarrollo con actividades destinadas a la preservación. En este trabajo se presentan el estándar 14721 (OAIS), los metadatos PREMIS y las directrices para la preservación, en conjunto con el esquema METS, para finalmente, explorar los metadatos en esquemas muy utilizados en la tarea normal de un repositorio (MODS, DC) y señalar los que resultan útiles a los fines de la preservación, proponiendo su reutilización. Un segundo objetivo práctico es mostrar qué herramientas de preservación ofrece el desarrollo DSpace que sustenta al repositorio SeDiCI - UNLP.; Digital preservation is defined as a set of political and strategic practices and concrete actions deployed to ensure long term access to digital objects. The development of institutional repositories, growth of their content and awareness that institutional activity is increasingly channeled through digital media require the deployment of preservation activities to sustain the evolution of repositories. This work presents ISO standard 14721 (OAIS), PREMIS metadata and guidelines for preservation, along with the METS schema to finally explWore metadata in widely-used repository-related schema (MODS, DC) and point out those useful for preservation purposes, proposing their reuse. A second practical purpose is to show the preservation tools offered by the DSpace development which supports the SeDiCI - UNLP repository.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/26045
Objeto de conferencia
XX Asamblea General de ISTEC (México, 2014)
Ponencia presentada en la XX Asamblea General de ISTEC (Puebla, México), en la cual se describen los distintos mecanismos de interoperabilidad implementados entre el repositorio institucional (SEDICI) y distintos servicios en línea de la Universidad Nacional de La Plata.
Lugar: INAOE (Puebla, México).
Expositores a través de videoconferencia: Gonzalo Luján Villarreal y Franco Agustín Terruzzi.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/34200
Articulo
Jornada Virtual de Acceso Abierto
El Servicio de Difusión de la Creación Intelectual (SeDiCI) es el repositorio institucional de la Universidad Nacional de La Plata (UNLP), creado en el 2003 con el objetivo de dar visibilidad a la producción académica producida en esta casa de estudios considerando que el acceso libre posibilita un mayor número de citas y por tanto un mayor impacto, atendiendo al rol fundamental de una institución pública de socializar el conocimiento. Creado en el año 2003, actualmente SeDiCI se encuentra posicionado entre los primeros 10 principales repositorios digitales de América Latina según la Webometrics, y ocupa la primera posición en Argentina como repositorio institucional. En este trabajo se presentan algunas de las principales características y servicios ofrecidos por el portal, desde su fundación hasta la actualidad.
Publicado en CD-ROM en: <i>Jornada Virtual de Acceso Abierto (Argentina 2010)</i>.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/27160
Objeto de conferencia
III International Conference on New Horizons in Education (INTE) (Praga, República Checa)
This work presents an open source web environment to learn GPSS language in Modeling and Simulation courses. With this environment, students build their models by selecting entities and configuring them instead of programming GPSS codes from scratch. Teachers can also create models so that students can apply, analyze and interpret results. Thus, it includes a simulation engine that stores snapshots of models as they are executed, and allows students to navigate through these snapshots. The environment may be combined with existing learning management systems.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/25674
Articulo
The Online Journal of New Horizons in Education; vol. 3, no. 1
This work presents an open source web environment to learn GPSS language in Modeling and Simulation courses. With this environment, students build their models by selecting entities and configuring them instead of programming GPSS codes from scratch. Teachers can also create models so that students can apply, analyze and interpret results. Thus, it includes a simulation engine that stores snapshots of models as they are executed, and allows students to navigate through these snapshots. The environment may be combined with existing learning management systems.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/25669
Objeto de conferencia
VI Simposio Internacional de Bibliotecas Digitales (Brasil)
Digital repositories acting as resource aggregators typically face different challenges, roughly classified in three main categories: extraction, improvement and storage. The first category comprises issues related to dealing with different resource collection protocols: OAI-PMH, web-crawling, webservices, etc and their representation: XML, HTML, database tuples, unstructured documents, etc. The second category comprises information improvements based on controlled vocabularies, specific date formats, correction of malformed data, etc. Finally, the third category deals with the destination of downloaded resources: unification into a common database, sorting by certain criteria, etc.
This paper proposes an ETL architecture for designing a software application that provides a comprehensive solution to challenges posed by a digital repository as resource aggregator.
Design and implementation aspects considered during the development of this tool are described, focusing especially on architecture highlights.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5529
Más de Servicio de Difusión de la Creación Intelectual (SEDICI) (20)
Extract, transform and load architecture for metadata collection
Digitalización y reconocimiento de documentos manuscritos para la preservación de patrimonio cultural
1. DIGITALIZACIÓN Y RECONOCIMIENTO DE DOCUMENTOS MANUSCRITOS PARA
LA PRESERVACIÓN DE PATRIMONIO CULTURAL
Prof. Ing. Marisa R. De Giusti1
A.C. Maria Marta Vila2
, A.C. Gonzalo Luján Villarreal3
Abstract: The handwritten manusctipt recognizing process belongs to the iniciatives which lean to
cultural patrimony preservation shielded in Libraries and files where there exists a big wealth in
documents and even handritten cards that accompany incunable books. This work is point to begin
with a research and development proyect oriented to digitalization and recognition of manuscipt
materials and the paper presented here discuss diferent algorithms used in the first stage dedicated
to “noise-clean” of the image in order to improve it before the character recognition process begins.
Since PrEBi – SeDiCI belong to a network of libraries that interchange digitalized documents by
scanning, this document has brought up an extra use related to improvement of the images of
interchange documents which presented common problems in its digitalization, such as: borders,
impurity, not-centered texts, etc… Although it is not the final purpose of this research, it is still a
very usefull skill within the framework of libraries consortium interchange.
In order to make the handwritten-text recognition and image digitalization process eficient, it must
be preceded by a preprocessing stage of the image to be trated which includes thresholding, noise
cleaning, thinning, base-line alignment and image segmentation, among others. Each one of these
steps will allow to reduce the injurious variability when recognizing manuscripts texts (noise,
random gray levels, slanted chacarters, ink level in different zones), and so increasing the
probability of obtaining a suitable text recognition. In this paper, two image thinning methods are
considered, implemented and finally an evaluation is carried out obtaining many conclusions related
to eficience, speed and requirements, as well as ideas for future implementations.
In the first part of the document, some definitions are presented related to the used methods, then
the obtenied results are shown over the same set of images applying the proposed theories and
finally, some ideas about how to optimized the chosen algorithms are exposed.
Resumen: el proceso de reconocimiento de la escritura manuscrita forma parte de las iniciativas
que propenden a la preservación de patrimonio cultural resguardado en Bibliotecas y archivos
donde existe una gran riqueza de documentos y hasta fichas manuscritas que acompañan libros
incunables. Este trabajo es el punto de partida de un proyecto de investigación y desarrollo
orientado a la digitalización y reconocimiento de material manuscrito y la ponencia que aquí se
presenta discute diferentes algoritmos utilizados en una primera etapa dedicada a “limpiar” la
imagen de ruido para mejorarla antes de comenzar el reconocimiento de caracteres. Dado que
PrEBi-SeDiCI forman parte integrante de redes de bibliotecas que intercambian documentos
digitalizados vía scanning, el presente desarrollo ha tenido una utilización adicional relacionada al
mejoramiento de las imágenes de documentos de intercambio que presentaban problemas comunes
en la digitalización: bordes, impurezas, descentrado, etc.., si bien no es esta la finalidad de esta
investigación no por ello resulta una utilidad menor en el marco de intercambios de consorcios de
bibliotecas.
Para que el proceso de digitalización y reconocimiento de textos manuscritos sea eficiente debe
estar precedido de una etapa de “preprocesamiento” de la imagen a tratar que incluye
umbralización, limpieza de ruido, adelgazamiento, enderezamiento de la línea base y segmentación
1
Investigador Comisión de Investigaciones Científicas de la Provincia de Buenos Aires – CIC y Directora del Proyecto
de Enlace de Bibliotecas (PrEBi) y del Servicio de Difusión de la Creación Intelectual (SeDiCI) de la Universidad
Nacional de La Plata, Argentina. Dirección de consulta: marisadg@ing.unlp.edu.ar
2
Becario del Proyecto de Enlace de Bibliotecas (PrEBi) y del Servicio de Difusión de la Creación Intelectual (SeDiCI)
de la Universidad Nacional de La Plata, Argentina.
3
Becario del Proyecto de Enlace de Bibliotecas (PrEBi) y del Servicio de Difusión de la Creación Intelectual (SeDiCI)
de la Universidad Nacional de La Plata, Argentina.
2. de la imagen entre otros. Cada uno de estos pasos permitirá reducir la variabilidad nociva al
momento de reconocer los textos manuscritos (ruido, niveles aleatorios de grises, inclinación de
caracteres, zonas con más y menos tinta), aumentando así la probabilidad de reconocer
adecuadamente los textos. En este trabajo se consideran dos métodos de adelgazamiento de
imágenes, se realiza la implementación y finalmente se lleva adelante una evaluación obteniendo
conclusiones relativas a la eficiencia, velocidad y requerimientos, así como también ideas para
futuras implementaciones.
En la primera parte del documento, se presentan algunas definiciones relacionadas con los métodos
utilizados, luego se muestran los resultados obtenidos sobre un mismo conjunto de imágenes
aplicando las teorías propuestas y finalmente, se exponen algunas ideas para optimizar los
algoritmos elegidos.
Palabras Claves: conservación patrimonial, digitalización, adelgazamiento, componentes conexas.
Introducción: En los últimos años la digitalización de piezas documentales custodiadas en
bibliotecas y archivos de todo el mundo ha tomado una enorme significación por sus infinitas
posibilidades, tanto para los especialistas como para un público más amplio. Este nuevo espacio
social, posibilitado por la tecnología digital permite descubrir un conjunto de objetos que
constituían una riqueza cultural poco conocida. Sin embargo, las ventajas actuales de esta
tecnología también han representado un duro aprendizaje que ha dejado tras de sí errores cruciales
que hemos pagado con la destrucción o el deterioro considerable de piezas originales. Por esta razón
de orden práctico, el problema de la digitalización y su propia naturaleza tecnológica, ha abierto un
espacio de reflexión internacional que se ha caracterizado primordialmente por el constante flujo de
información especializada y por presentar un permanente discurso de beneficio social.
Al ser digitalizados, los documentos son mejor preservados pero la búsqueda y el acceso a la
información allí contenida es un proceso lento, secuencial y por consiguiente, altamente ineficiente.
La catalogación de dichos documentos puede solucionar el problema, pero requiere una gran
cantidad de recursos humanos y temporales para llevar a cabo ese proceso; la indexación automática
de los documentos digitalizados, utilizando tanto sistemas de reconocimiento de patrones como
sistemas gestores de bases de datos, permite acelerar el proceso de catalogación así como también el
de búsqueda y acceso a los datos, convirtiéndola en una solución viable en cuanto a complejidad,
tiempos y costo se refiere.
Para reconocer la escritura manuscrita en un documento digitalizado deben realizarse un
conjunto de operaciones que permitan caracterizar individualmente cada uno de los objetos
extrayendo la mayor cantidad de características posibles de cada elemento. Para que este proceso de
extracción de características sea lo mas eficiente posible, debe realizarse un procesamiento previo
de la imagen, eliminando todo aquello que genere ambigüedades o confusiones entre objetos
similares. Una de las tareas más importantes a realizar es la obtención del esqueleto de los objetos,
lo cual se logra adelgazando dichos objetos manteniendo su tamaño y su forma.
Definiciones previas.
Una imagen puede verse como un conjunto de puntos que poseen un determinado valor que indica
el color del mismo.4
En las imágenes en tonos de grises esos valores oscilarán entre 0 (punto negro
– sin brillo) hasta 255 (punto blanco).
Las imágenes con las que trataremos ya han sido binarizadas (umbralizadas), aplicándoles
tratamiento previo en el cual, en base a un valor umbral, se les ha asignado 0 a todos los píxeles que
superen ese valor y 1 a todos aquellos que están por debajo del mismo. La nueva imagen constituida
por 1's y 0's permite trabajar en el reconocimiento de la escritura eliminando el problema de los
colores o tonos de grises. La elección del umbral puede ser manual o automática, existiendo muchos
4
Para imágenes a color, cada punto almacena 3 valores: nivel de rojo, de azul y de verde (RGB). El lector interesado
puede leer las referencias [10][11]
3. métodos para elegir el mejor umbral. Si bien una exposición detallada excede los propósitos de este
atículo, el lector interesado puede consultar la referencia [11].
El conjunto de píxeles (también llamados puntos p = (x,y) con x , y ∈ N ) que forman una imagen
puede verse de dos maneras5
:
a)Como una matriz, donde I [ p ] = I [ (x,y) ] = k; con k valor del pixel x,y (k ∈ [0,255] en
imágenes grises; k ∈ [0,1] en imágenes binarizadas)
b)Como una función Pixel: (Imagen , punto) -> valor
donde Pixel( I , p) = Pixel( I , (x,y) ) = k.
Para adelgazar una imagen manteniendo la topología (de modo de no alterar las formas) se
deberán eliminar puntos que pertenezcan al borde, o sea, que cumplan las siguientes propiedades:
1)Punto negro (no tiene sentido eliminar puntos blancos!)
2)Punto simple
3)Exclusión de punto final
Donde:
•Un píxel P se considera punto simple si el conjunto de los vecinos negros de P tiene una sola
componente conexa adyacente a P.
•Un píxel P se considera punto final si posee un solo vecino negro (punto extremo de la imagen).
Para eliminar los puntos del borde, se deberán realizar sucesivas pasadas (manteniendo de éste
modo la topología). En cada pasada, deberán marcarse todos los puntos “eliminables” y luego
proceder con la eliminación. Las pasadas continuarán mientras de esa operación resulte la
eliminación de al menos un píxel.
Concepto de Vecindad.
Los vecinos de un píxel están condicionados al tipo de mallado utilizado para representar la imagen.
Se define q-vecindad (también q-adyacencia) como el conjunto de píxeles vecinos de p. El valor de
q dependerá del tipo de mallado. Si se utiliza un mallado hexagonal, cada píxel de la imagen
(menos los bordes) posee 6 vecinos, en cuyo caso se habla de una 6-vecindad. Un mallado
cuadrangular presenta dos posibles opciones: una 4-vecindad (considerando como vecinos a los
píxeles que se encuentran a los lados, arriba y abajo del pixel) o una 8-vecindad (idem 4-vecindad
más los 4 píxeles de las diagonales).
Se define también (p,q)-adyacencia como:
p-adyacencia para píxeles negros
q-adyacencia para píxeles blancos6
Cálculo de componentes conexas en una imagen.
5
En el presente trabajo se prefiere la notación funcional, utilizando expresiones matemáticas y en algunas
oportunidades incluyendo matrices en los casos de conceptos tales como vecindad y adyacencia.
6
La q-distancia entre dos píxeles se conoce como la longitud del camino más corto que los une.
4. Una componente conexa (CC) de una imagen es un conjunto de píxeles que cumplen que, para todo
par existe un camino digital que lo une. Un camino digital de un pixel p a otro pixel q es un
conjunto de píxeles Ppq = { pi i=0..n} tal que:
1)∀ pi ∈ Ppq, color(pi ) = color(p) = color(q)
2)p0 = p; pn = q
3)Para todo i=1,...,n-1, pi tiene exactamente dos vecinos en Ppq que son pi-1 , pi+1
4)p0, pn tienen exactamente un vecino que son p1 y pn-1, respectivamente.
Finalmente, una componente conexa está acotada si no posee ningún pixel del borde.
Algoritmo para calcular las componentes conexas (se usa 4-adyacencia).
Consideraciones:
La imagen que se analiza ha sido binarizada. Los píxeles valen 1 (negro) ó 0 (blanco).
Se utiliza una matriz, del mismo tamaño que la imagen que almacenará etiquetas a utilizar para
caracterizar los píxeles de la imagen original de acuerdo a su clase de equivalencia.
Se recorre la imagen de izquierda a derecha y de arriba a abajo. Para cada pixel p=(x,y) se
examinan los vecinos p1=(x-1,y) y p2=(x,y-1).
•Si ambos valen 0 (son blancos) se crea una nueva etiqueta y se le asigna a P en la matriz de
etiquetas
•Si solo uno es 0, entonces se le asigna a P la misma etiqueta del otro (el que no es cero)
•Si ninguno es cero, se le asigna a P la etiqueta de cualquiera de los dos. Pueden presentarse dos
escenarios:
oLa etiqueta de p1 y la de p2 son iguales, con lo cual la etiqueta de p será igual a ambas
oLas etiquetas de p1 y p2 son distintas, en este caso a p se le da la etiqueta de cualquiera
de las dos. Supongamos que se le da la etiqueta de p1. Entonces deberá registrarse que
aunque p2 y p poseen diferentes etiquetas, pertenecen a la misma componente.
Si se consideran las etiquetas como clases de equivalencia a las que pertenecen los píxeles, si p1
pertenece a la clase 1 y p2 a la clase 2, y durante el procesamiento de la imagen se ha registrado que
p1 y p2 pertenecen a la misma componente, entonces la clase de equivalencia de p1 es la misma que
la de p2. Por lo tanto, Clase 1 = Clase 2. Para mantener este registro se utiliza un vector en memoria
que posee tantos lugares como etiquetas han sido utilizadas. Las etiquetas son número enteros lo
que permite utilizarlas para acceder directamente al vector como índices).
Cada posición del vector representará la etiqueta y su contenido la clase de equivalencia a la que
pertenece esa etiqueta. Por ejemplo, si se tiene el vector:
V = {1,2,3,2,3,1,4}
La primera posición del vector es la posición 0, la última es la n-1 (en nuestro caso, 6) y la
semántica del vector V es:
“la etiqueta ‘x’pertenece la clase de equivalencia V[x]”
Luego:
5. •Las etiquetas 0 y 5 pertenecen a la clase de equivalencia 1
•Las etiquetas 1 y 3 pertenecen a la clase de equivalencia 2
•Las etiquetas 2 y 4 pertenecen a la clase de equivalencia 3
•La etiqueta 6 pertenece a la clase de equivalencia 4
Lo que significa: sea Eq :: Etiqueta -> Entero una función que toma una etiqueta y retorna la clase
de equivalencia a la que pertenece esa etiqueta;
Eq(x) = V[x];
Con este procedimiento se ha obtenido una matriz que contiene las etiquetas de todos los píxeles de
acuerdo a sus clases de equivalencia. Varias etiquetas que pertenecen a la misma clase obligan a la
normalización de la matriz, recorriendo la misma y asignándole a cada elemento su clase de
equivalencia.
Este algoritmo también almacenará todos los elementos que pertenecen a cada clase, por lo cual una
opción sería mantener esta matriz en memoria. Esto generaría un gran desperdicio de la memoria,
ya que también se reserva espacio para los espacios en blanco (aquellos píxeles que no poseen valor
y que no pertenecen a ninguna clase de equivalencia). Como contrapartida, esta solución permite
acceder a la clase de equivalencia de un pixel determinado de manera directa.
Sea p = (x,y) pixel ∈ I imagen.
Eq(p) = I(x,y);
(cabe recordar que las imágenes pueden ser vistas como funciones que toman dos valores enteros x
e y, y retornan el valor del pixel en la posición (x,y)).
Otra solución planteada consiste en almacenar en el vector de las clases de equivalencias existentes
otro vector, donde por cada posición se almacenan todos los puntos que pertenecen a esa clase de
equivalencia. La definición de tipo sería
Type
Punto = record
X,Y : integer // píxeles
End;
VectorDePuntos = array of punto;
Clase = record
puntos : VectorDepuntos
numeroDeClase : integer
end;
Clases = array of Clase
La principal ventaja de ésta implementación radica en el ahorro de memoria, ya que solo se
almacenarán aquellos puntos que pertenezcan a alguna clase de equivalencia. Su principal
desventaja es que encontrar la clase de equivalencia de un determinado punto implicará recorrer el
vector de clases de equivalencia, y para cada clase, recorrer el vector de puntos que pertenecen a la
misma. En el mejor caso, esto significará un solo acceso (primera clase, primer punto). En el peor
caso:
Si todos los puntos de una imagen determinada I pertenecen a alguna clase de equivalencia y la
imagen I posee x píxeles de alto por y de ancho en un total de z = x*y. En el peor caso se
considerará que el punto buscado se encuentra en la última posición del vector y en la última clase
de equivalencia, y el acceso a este punto demandara z accesos a memoria.
6. El “peor” caso no es 100% realista, ya que es imposible que todos los puntos de una imagen
pertenezcan a alguna clase de equivalencia pues significaría que la misma posee, por ejemplo, todos
los píxeles negros. A partir de la experiencia adquirida, es posible estimar (para el tipo de imágenes
trabajadas) que menos de la mitad de los píxeles son negros y en algunos casos la cifra sólo llega al
20%.
Algoritmo de adelgazamiento de Zhang-Suen
Este método es rápido y sencillo de implementar, consta de dos subiteraciones en cada una de las
cuales se eliminan aquellos píxeles que cumplan con todas las reglas definidas para la iteración.
Recordando que:
•Un píxel es un punto final si tiene un único vecino de color negro, siendo todos los demás
blancos.
•La conectividad de un píxel se define como el número de objetos que podría conectar en la
imagen original y se calcula girando alrededor de un píxel en el sentido de las agujas del reloj y
contando cuántos cambios de color se producen. El número de cambios será la conectividad, es
decir, el número de regiones que une.
Como primer paso del algoritmo, se aplica un suavizado de la imagen, se borran todos los píxeles
que tengan dos o menos vecinos negros y conectividad menor a dos.7
Luego se realizan las dos iteraciones.
Para eliminar un píxel en la primera iteración, el mismo debe cumplir con las siguientes
propiedades:
•Tener conectividad 1
•Cantidad de vecinos negros entre 2 y 6 (incluídos)
•Al menos uno de los siguientes píxeles blanco: [x-1,y], [x,y+1], [x,y-1]
•Al menos uno de los siguientes píxeles blanco: [x-1,y], [x+1,y], [x,y-1]
En la segunda iteración se eliminarán los píxeles que cumplan las siguientes reglas:
•Tener conectividad 1
•Cantidad de vecinos negros entre 2 y 6 (incluídos)
•Al menos uno de los siguientes píxeles blanco: [x-1,y], [x,y+1], [x+1,y]
•Al menos uno de los siguientes píxeles blanco: [x,y+1], [x+1,y], [x,y-1]
Como expresamos anteriormente, las iteraciones continuarán mientras se eliminen puntos. Si no se
realiza el pre-procesamiento de la imagen, los resultados no son tan buenos, los resultados se
muestran en las Figura 1 y 2.
7
Notar que esto requiere un procesamiento extra, reduciendo la eficiencia del algoritmo.
7. a) b) c)
Figura 1: a) Imagen original b) Esqueleto de la imagen obtenido con el algoritmo basado en
Componentes Conexas c) Esqueleto obtenido con el método de Zhang-Suen.
a) b) c)
Figura 2: Similar a la Figura 1). Aquí se puede observar en detalle como se generan las líneas
en ambos métodos, se aprecia un grosor superior en el caso del método de Zhang-Suen.
Problema en los bordes con ruido.
De acuerdo a los experimentos realizados, los resultados no han sido tan buenos con ciertas
imágenes, por ejemplo en aquellos casos donde los bordes están difuminados o poseen ruido
aleatorio, en cuyo caso, el proceso de adelgazamiento produce líneas cortas aleatorias, generando
una deformación de la imagen, o lo que es lo mismo, una pérdida de su forma. Los problemas
expuestos en este tipo de imágenes conllevan dificultades a la hora del reconocimiento de
caracteres.
Las imágenes que presentan esta característica poseen un borde “sucio” con puntos distribuidos
aleatoriamente y al adelgazarlas, los puntos al azar no son eliminados ya que cumplen con las
características de punto del borde. Ambos algoritmos reaccionan del mismo modo ante este
fenómeno generando líneas a lo largo de todo el borde de la imagen, similares a ramificaciones del
esqueleto de la misma, en un intento por mantener unidos los puntos del borde con dicho esqueleto
(ver Figura 3).
Una solución simple.
Este problema puede ser solucionado aplicando un filtro medio a la imagen antes de adelgazarla
produciendo bordes más lisos y sin las imperfecciones anteriores. En los resultados obtenidos (ver
Figura 4) se han conseguido esqueletos de imágenes claramente mejores, especialmente con el
algoritmo de Zhang Suen, ya que con el método basado en CC no se obtienen siempre las mismas
mejoras. Como desventaja, éste método agrega un costo extra de procesamiento.
8. Figura 3 Esqueletos de la primer imagen obtenidos con CC en el primer caso y con Zhang-Suen
en el segundo caso.
Figura 4 Imagen a la que se aplicó el filtro medio; Esqueleto de la misma imagen con CC;
esqueleto de dicha imagen con Zhang-Suen
Optimización del método basado en Componentes Conexas.
El problema del algoritmo de adelgazamiento basado en el cálculo de componentes conexas es su
elevada complejidad e ineficiencia., puede ser mejorado utilizando otro método para reconocer los
puntos simples (principal uso del algoritmo) sin la necesidad de obtener todas las componentes
conexas. Esta técnica tiene la misma base que el método basado en componentes conexas: los
puntos que se podrán eliminar son aquellos que son simples y no son punto final, pero requiere un
tiempo considerablemente menor para determinar si un punto es simple.
La idea de esta optimización consiste en verificar cada punto en un determinado lado; esto quiere
decir que un punto puede verse como punto simple en una dirección si sus vecinos cumplen con
ciertas condiciones en esa misma dirección.
El algoritmo realiza varias pasadas, verificando en cada una un lado distinto: lado norte, sur, este y
oeste. En cada una de las pasadas se realiza un recorrido por la imagen buscando aquellos puntos
negros que son simples de acuerdo al sentido en que se esté recorriendo y que no sea punto final.
Sea d la dirección en que se está analizando el punto P. Llamaremos Pd al conjunto de las
condiciones que indicarán si el punto P es punto simple en el sentido d. Desde luego, para cada d
posible (norte, sur, este y oeste), el conjunto Pd será distinto. A los elementos del conjunto Pd los
llamaremos funciones ci
ci : (Imagen, Punto) -> [F,T] (F = FALSE, T = TRUE)
La estructura del conjunto Pd es similar para todos los casos: existen un conjunto de condiciones
que NO deben cumplirse otras que deberán cumplirse necesariamente. Una condición común es que
el punto P tenga el valor negro, la cual será ignorada aquí como miembro del conjunto (ya que
siempre se considera que se están analizando puntos negros).
9. Sea I(x,y) : Imagen -> [0,1] función que retorna el valor del punto (x,y). (1= blanco, 0 = negro)
Sea Sn:: Punto -> [F,T] Sn es la función que indica si un punto es simple norte. (F = FALSE, T =
TRUE)
d = Norte
•c1= I(x,y-1) =0 ^ I(x+1,y) =1 ^ I(x,y+1) =0
•c2= I(x,y-1) =1 ^ I(x-1,y-1) =0 ^ I(x-1,y) =1
•c3= I(x-1,y) =1 ^ I(x-1,y+1)=0 ^ I(x,y+1) =1
•c4= I(x,y+1)=1^ I(x+1,y+1)=0 ^ I(x+1,y) =1
•c5= I(x+1,y)=1^ I(x+1,y-1) =0 ^ I(x,y-1) =1
En la Figura 5 pueden verse gráficamente las 5 condiciones.
Figura 5: Casos que permitirán identificar un punto simple norte.
Los puntos negros y blancos son los puntos que deberán poseer ese valor. Los puntos grises son
puntos en los que su valor no es de interés. El punto marcado con una (x) es el punto que está
siendo analizado.
Análogamente, se define Ss(p) (Punto Simple Sur), Se(p) (Punto Simple Este) y So(p) (Punto
Simple Oeste) como:
d = Sur
•c1 = I(x-1,y)=1 ^ I(x,y+1)=0
•c2,c3,c4 y c5 se mantienen iguales
d = Este
•c1 = I(x-1,y-1)=1 ^ I(x-1,y)=0 ^ I(x+1,y)=0
•c2,c3,c4 y c5 se mantienen iguales
T si I(x+1 , y)= 1 ^ ¬∃ c
i∈
P
d
c
i
= T con i=1, 2,3,4,5
Ss(p)
T si I(x , y+1)= 1 ^ ¬∃ c
i∈
P
d
c
i
= T con i=1, 2,3,4,5
Se(p)
T si I(x-1 , y)= 1 ^ ¬∃ c
i∈
P
d
c
i
= T con i=1, 2,3,4,5
Sn(p)
10. d = Oeste
•c1 = I(x,y+1)=1 ^ I(x-1,y)=0 ^ I(x+1,y)=0
•c2,c3,c4 y c5 se mantienen iguales
Como se habrá observado, las condiciones c2,c3,c4 y c5 son siempre las mismas y han sido
incluidas en el conjunto Pd por una cuestión de implementación del algoritmo, en donde se realiza
un or lógico entre todas las condiciones del conjunto (luego ese resultado es negado para simbolizar
el ¬∃ de la definición de cada función)
Una vez encontrados los puntos que cumplen las condiciones de punto simple (en la dirección que
corresponda) y no final, se eliminan cambiando su valor a blanco. Esto se repetirá, al igual que en el
algoritmo anterior, mientras se encuentren puntos que cumplan alguna condición
Bordes distintos.
En la Figura 6 se muestran imágenes, dos de las cuales han sido adelgazadas con cada uno de los
algoritmos descriptos; el adelgazamiento en ambos (b y c) casos ha sido correcto, manteniendo la
topología y sin efectos indeseados, pero si se observa con un nivel superior de detalle, podrá verse
que la línea que genera el algoritmo de CC es más delgada que la línea que genera Zhang-Suen.
En la Figura 6 se muestran tres imágenes. La primera es una línea adelgazada usando CC, y la
tercera es la misma línea, pero se utilizó Zhang-Suen. En la imagen central se pueden apreciar en
color gris cuales son los nuevos puntos que aparecen al utilizar el último algoritmo.
Figura 6: Las líneas 1 y 3 han sido adelgazadas con los métodos de CC y Zhang-Suen
respectivamente. La línea central muestra la “diferencia” entre ambas.
Esto se debe a que, al usar 4-adyacencia en CC, para mantener una línea unida (dentro de la misma
CC) solo deberán tocarse sus vértices. Si bien en este caso el problema no pasa a mayores, en
muchas situaciones es deseable que las líneas estén más definidas. La solución a esta situación
particular es bastante simple: en vez de tomar 4-adyacencia, utilizar 8-adyacencia al hallar las CC; o
sea, en vez de considerar solo dos puntos se deberán considerar 4. En la Figura 7 se muestran en
gris, en primer lugar, los puntos que se consideran con 4-adyacencia mientras que a continuación, se
presentan con 8-adyacencia.
Figura 7: Píxeles a analizar si se toma 4-adyacencia y 8-adyacencia.
Al utilizar 8-adyacencia, se obtienen resultados similares en ambos algoritmos.
T si I(x , y-1)= 1 ^ ¬∃ c
i∈
P
d
c
i
= T con i=1, 2,3,4,5
So(p)
11. Conclusiones:
Si bien ambos algoritmos producen resultados adecuados, el algoritmo de Zhang-Suen demostró ser
más sencillo de implementar y, en materia de eficiencia empírica, se observó que generalmente éste
algoritmo demanda menores tiempos de ejecución que el algoritmo basado en CC, incluso en su
versión mejorada. Los datos pueden apreciarse en las Figuras 8 y 9, donde se observa gráficamente
los tiempos que tomo la ejecución de cada algoritmo en su versión simple así como también luego
de aplicar filtros.
Figura 8 Análisis de los tiempos para las
distintas técnicas desarrolladas sobra la
imagen de la Figura 1.
Figura 9: Diagrama de tiempos aplicadas a
las Figuras 3 y 4 con los distintas técnicas.
No quiere decir que sea siempre mejor utilizar el primer algoritmo. Uno de los problemas hallados
con el algoritmo de Zhang-Suen es que si existen líneas gruesas que se intersecan, al adelgazarlas se
genera un efecto en el cual la intersección produce un segmento en vez de un simple punto. A esto
se lo conoce como efecto necking; y para solucionarlo se debe hacer un preprocesado de la imagen,
poniéndole más énfasis sobre sus ángulos cerrados. Pero esto también implica más procesamiento,
lo que se traduce en tiempo extra de ejecución.
Por otro lado las componentes conexas de una imagen son utilizadas también para otros fines, por
ejemplo, conocer la cantidad de zonas cerradas en una imagen (agujeros), invirtiendo la imagen
(cambiando blancos por negros y negros por blancos). Luego, todos los puntos que pertenezcan a la
misma CC, pertenecerán a la misma zona encerrada. Y la cantidad total de zonas cerradas será la
cantidad total de componentes conexas menos 1. El método también es utilizado como base para
segmentar la imagen en palabras, tomando en principio elementos de la misma componente conexa
como elementos simples.
Si se toma una visión global del sistema, utilizar componentes conexas puede beneficiar la
eficiencia, ya que se calculan solo una vez y luego se utilizan tantas veces como se requiere.
Referencias:
[1] Elisabetta Bruzzone, Meri Cristina Coffetti; Elsag spa – R&P Departament. An algorithm for
CC Zhang-
Suen
Filtro
Medio
CC fil-
trado
Zhang-
Suen fil-
trado
0
250
500
750
1000
1250
1500
1750
2000
2250
Analisis sobre Figura 1
Tecnica
Tiempo
CC Zhang-
Suen
Filtro
Medio
CC fil-
trado
Zhang-
Suen fil-
trado
0
2500
5000
7500
10000
12500
15000
17500
20000
22500
Analisis Figuras 3 y 4
Tecnica
Tiempo
12. Extracting Cursive Text Lines, Genova – Italy
[2] Radmilo M. Bozinovic, Sargur N. Srihari; IEEE TRANSACTIONS ON PATTERN ANALYSIS
AND MACHINE INTELLIGENCE. VOL 11 NO. 1 Off-Line Cursive Scrtipt Word Recognition
[3] K. Badie and M. Shimura. Machine recognition of roman cursive script in Proc. 6th
. Int. Conf.
Patternt Recognition, Munich, West Germany, Oct 1982.
[4] R. Manmatha, Chengfeng Han, E. M. Riseman and W. B. Croft; Indexing Handwriting Using
Word Matching Center for Intelligent Information Retrieval, Computer Science Department,
Univeristy of Massachusetts, Amherst.
[5] Toni M. Rath and R. Manmatha; Features for Word Spotting in Historical Manuscipts.
Multi-Media Indexing and Retrieval Group. Center for Information Retrieval. University of
Massachusetts, Amherst.
[6] L. Fletcher and R. Kasturi. A robust algorithm for text string separation from mixed
text/graphics images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 10:910-
918. 1988
[7] F. Wahl, K. Wong and R. Casey. Block segmentation and text extraction in mixed text/image
documents. Computer Vision Graphics and Image Processing, 20:375-390,1982
[8] D. Wang and S. N. Srihari. Classification of newspaper image blocks using texture analysis.
Computer Vision Graphics and Image Processing, 47:329-352
[9] Michel Weinfeld, Reconnaissance d'ecriture manuscrite: segmentation de mots.
Département d'Enseignement et de Recherche en Informatique. École Polytechnique, Paris, France
[10] William Prat, John Wiley & Sons, Digital Image Processing, 1991, Second Edition
[11] Gonzalez Rafael, Woods, Addison-Wesley Digital Image Processing, 1992, Second Edition
[12] T. M. Rath, R. Manmatha. Word Spotting for Handwritten Historical Document Retrieval