2. Importancia de Digitalizar
• Ampliación del acceso: a través de los archivos digitales, se da acceso a
libros desde todo Chile a solo funcionarios, a través del Portal Seguro.
• Servicio 24 horas: los sistemas informáticos permiten proveer servicios
sin restricciones de horarios que extienden el uso de la colección.
• Usuarios concurrentes: uno o más funcionarios pueden acceder en
forma simultánea a un mismo libro, sin las limitaciones de la consulta
presencial.
• Incremento de usuarios: la facilidad de uso de los catálogos en línea,
permite que aumente la demanda y más personas accedan a las
Bibliotecas del Poder Judicial.
• Nuevas interfaces de recuperación y visualización: el encontrar en
forma simple y rápida la información requerida, a través de una sola
ventana de búsqueda.
• Preservación y conservación: una de los aportes principales de la
digitalización, es que contribuye a extender la vida útil del libro impreso.
4. Proceso y Tareas
Tareas:
- Selección de Libros.
- Cambio de estado
- Envío a laboratorio.
Tareas:
- Recepción y
verificación de estado
del libro.
-Escaneo
-Ingres o cambio de
estado en Workflow
Tareas:
- Control de Calidad de
imágenes
-Edición y limpieza de
imágenes.
- Re-dimensión.
- Corrección de errores.
- Generar OCR.
Tareas:
- Control de calidad PDF.
- Creación de tabla de
contenidos.
- Generación de libro
animación.
-
Tareas:
- Traspaso de archivos
-Validación de BCS
-Ingreso de Metadatos.
- Enlaces.
-Publicación en V.B.
7. Otros Softwares
• Picture shark
• Easy thumnails
• A.F.5. rename your files
• Convert Doc
• http://www.softinterface.com/Convert-Doc/Foreign/Spanish/Convertir-
Doc.htm
• Paper Flex
• http://flexpaper.devaldi.com/
• Tiffteller
• http://www.coolutils.com/es/TiffTeller
8. OCR (Reconocimiento ópticos de caracteres)
• Cualquier
imagen con
texto
• Aplicación en
rubros
bancarios,
legales,
retail,
médicos e
industriales.
• Ejemplos:
– Libros
– Facturas
– Cheques
– Patentes
de auto
– Letreros
– Fichas
medicas
– Fotos
• Las
herramienta
s de captura
soportan
uno o
múltiples
idiomas.
• Solo texto
tipográfico o
manuscrito
sin cursiva
Importar archivos de imágenes o
video(jpg, tiff, gif, bmp, png, pdf, avi)
Definir idioma del texto
de la imagen(uno o
varios idiomas)
Definir área de OCR (un
archivo, algunas
paginas, solo un sector
de la pagina, código de
barras)
Establecer salida como
archivo de texto, TOC,
Numero de página,
datos del documento
(word, excel, pdf, txt,
rtf)
Generar OCR
Usar para (búsqueda,
reutilización de texto,
numeración, TOC,
alimentar datos,
identificar)
• Imágenes
limpias
aseguran
mejor
calidad del
OCR
• Este texto se
puede
emplear en
crear un gran
índice de
búsqueda full
text, permite
autopaginar,
permite
AutoTOC,
permite
identificar
dato
especifico
como código
de barras ,
patente, folio,
n° factura,
etc.
• Procesos de
binarización,
segmentación,
adelgazamient
o de
componentes,
comparación
de patrones.
• Dar usabilidad al
OCR generado:
Motor de
búsqueda
Editar
AutoToc
Autopáginación
“Para las técnicas de OCR
se utilizan técnicas de
segmentación, es decir, se
aislan los caracteres y
luego se reconocen; pero
la escritura manuscrita es
ligada y no hay técnicas
que lo separen
automáticamente, por lo
que el proceso de
reconocimiento no se
puede abordar carácter a
carácter sino como un
todo de caracteres,
palabras y líneas”, ha
explicado.
Transcriptorium se
desarrolla en castellano ,
holandés, alemán e
inglés, aunque, el
investigador ha señalado
que el grupo de trabajo de
la UPV también ha
explorado documentos
“en árabe y otras
lenguas”.
De esta forma, para un
volumen de unas mil
páginas, unas 50 se
transcriben a mano y una
vez hecho esto, “se
entrenan modelos para
proporcionar resultados
razonables para el resto
9. Formatos de entrada
• Imágenes master:
– Generadas por escáner robotizado Kirtas Kabis III
– Por resolución dpi: La resolución que tenemos desde principios
del proyecto de digitalización es de 325 dpi.
– Por color (Color, Blanco-Negro, Escala de Grises)
– Formato: JPG
– Tonalidad: Color 24 bit
– Dimensión : en pixeles son aproximadamente 4080x2720
10. Formatos de salida
• Pdf (versión actual 1.5 (Acrobat 6.x)
– Archivo con páginas alineadas, centradas, limpias, sin errores.
– Con fondo blanco.
– Tamaño: 160 mm de ancho y alto equivalente
– Resolución dpi: de alta con 300 dpi Blanco y negro.
– La tapa y contratapa a color
– Enriquecidos con OCR y ToC acorde a reglas internas.
– Software utilizado: BSE o LIMB 2.0, Foxit Reader 5.4 y jpdfbookmark para backup
de ToC
• Miniatura jpg:
– Por Snagit a color 420x550 pixeles con 72 dpi
– Futuro: se genera automáticamente desde Primo (420x550 pixeles con 72 dpi)
• Publicación:
– Se genera con software Flipping book 2.6 a partir del pdf de alta resolución. Se
utiliza plantilla con logo, fondo y sonido interior.
11. Estructura del libro
- Tipo de Documento
- Características Físicas
- Estructura Interna del documento
Esquema del diseño de un libro común.
1 Faja
2 Solapa
3 Guarda anterior
4 Cubierta
5 Borde superior
6 Borde frontal
7 Borde inferior
8 Página derecha, recto
9 Página izquierda, verso
10 Lomo.
Deterioro
Márgenes
Papel Delgado
Sombras
Estado de Libro y sus problemáticas:
12. Complejidades de origen
Imagen con exceso de
luminosidad
Textos con firmas o marcas
Curvaturas de páginas Hojas Reparadas
Hojas sueltas y bordes rotos
Lomo grueso
13. Dilema de los medios modernos
Paul Conway : “La Preservación en el Mundo Digital” 1996
“La información digital - la evidencia del mundo en que vivimos - es
más frágil que los fragmentos de papiros que se encontraron
enterrados junto con los faraones”.
15. Portal de Recursos
de información
Portal de Recursos de Información
Suscripciones
Open Data
• Bases de Datos de
interés nacionales
y extranjeras
• Gobierno de Chile,
BCN, otras
institucionales
nacionales o
extranjeras
Convenios
• Tesis U. Chile
• Colecciones
otras
instituciones
Recursos de Información externos
Recursos de información internos
• Autoacordados,
• Etc.
Base de datos locales
Colecciones físicas y digitales
• Libros
• Revistas
• Tesis
• Bases Jurisprudenciales
• Audio
• Videos
• Fotografías
• Colección Patrimonial
• Registros de sentencias
16. Portal de Recursos de Información
• Un sistema de descubrimiento que posea un buscador y
herramientas de interconexión para contenidos documentales y
multimedia.
• Facetas
• FRBR
• Deduplicación
• Índice de
búsqueda
• Estante
electrónico,
visores, etc.
• OAI-PMH
(cosecha)
• Dublin Core
(metadatos)