SlideShare una empresa de Scribd logo
1 de 17
Digitalización
Pedro Guillermo Contreras Flores
petercontrains@gmail.com
30 de Junio 2015
Importancia de Digitalizar
• Ampliación del acceso: a través de los archivos digitales, se da acceso a
libros desde todo Chile a solo funcionarios, a través del Portal Seguro.
• Servicio 24 horas: los sistemas informáticos permiten proveer servicios
sin restricciones de horarios que extienden el uso de la colección.
• Usuarios concurrentes: uno o más funcionarios pueden acceder en
forma simultánea a un mismo libro, sin las limitaciones de la consulta
presencial.
• Incremento de usuarios: la facilidad de uso de los catálogos en línea,
permite que aumente la demanda y más personas accedan a las
Bibliotecas del Poder Judicial.
• Nuevas interfaces de recuperación y visualización: el encontrar en
forma simple y rápida la información requerida, a través de una sola
ventana de búsqueda.
• Preservación y conservación: una de los aportes principales de la
digitalización, es que contribuye a extender la vida útil del libro impreso.
Proceso de digitalización
Proceso y Tareas
Tareas:
- Selección de Libros.
- Cambio de estado
- Envío a laboratorio.
Tareas:
- Recepción y
verificación de estado
del libro.
-Escaneo
-Ingres o cambio de
estado en Workflow
Tareas:
- Control de Calidad de
imágenes
-Edición y limpieza de
imágenes.
- Re-dimensión.
- Corrección de errores.
- Generar OCR.
Tareas:
- Control de calidad PDF.
- Creación de tabla de
contenidos.
- Generación de libro
animación.
-
Tareas:
- Traspaso de archivos
-Validación de BCS
-Ingreso de Metadatos.
- Enlaces.
-Publicación en V.B.
Tipos de Escanners
Tipos de Softwares
Otros Softwares
• Picture shark
• Easy thumnails
• A.F.5. rename your files
• Convert Doc
• http://www.softinterface.com/Convert-Doc/Foreign/Spanish/Convertir-
Doc.htm
• Paper Flex
• http://flexpaper.devaldi.com/
• Tiffteller
• http://www.coolutils.com/es/TiffTeller
OCR (Reconocimiento ópticos de caracteres)
• Cualquier
imagen con
texto
• Aplicación en
rubros
bancarios,
legales,
retail,
médicos e
industriales.
• Ejemplos:
– Libros
– Facturas
– Cheques
– Patentes
de auto
– Letreros
– Fichas
medicas
– Fotos
• Las
herramienta
s de captura
soportan
uno o
múltiples
idiomas.
• Solo texto
tipográfico o
manuscrito
sin cursiva
Importar archivos de imágenes o
video(jpg, tiff, gif, bmp, png, pdf, avi)
Definir idioma del texto
de la imagen(uno o
varios idiomas)
Definir área de OCR (un
archivo, algunas
paginas, solo un sector
de la pagina, código de
barras)
Establecer salida como
archivo de texto, TOC,
Numero de página,
datos del documento
(word, excel, pdf, txt,
rtf)
Generar OCR
Usar para (búsqueda,
reutilización de texto,
numeración, TOC,
alimentar datos,
identificar)
• Imágenes
limpias
aseguran
mejor
calidad del
OCR
• Este texto se
puede
emplear en
crear un gran
índice de
búsqueda full
text, permite
autopaginar,
permite
AutoTOC,
permite
identificar
dato
especifico
como código
de barras ,
patente, folio,
n° factura,
etc.
• Procesos de
binarización,
segmentación,
adelgazamient
o de
componentes,
comparación
de patrones.
• Dar usabilidad al
OCR generado:
 Motor de
búsqueda
 Editar
 AutoToc
 Autopáginación
“Para las técnicas de OCR
se utilizan técnicas de
segmentación, es decir, se
aislan los caracteres y
luego se reconocen; pero
la escritura manuscrita es
ligada y no hay técnicas
que lo separen
automáticamente, por lo
que el proceso de
reconocimiento no se
puede abordar carácter a
carácter sino como un
todo de caracteres,
palabras y líneas”, ha
explicado.
Transcriptorium se
desarrolla en castellano ,
holandés, alemán e
inglés, aunque, el
investigador ha señalado
que el grupo de trabajo de
la UPV también ha
explorado documentos
“en árabe y otras
lenguas”.
De esta forma, para un
volumen de unas mil
páginas, unas 50 se
transcriben a mano y una
vez hecho esto, “se
entrenan modelos para
proporcionar resultados
razonables para el resto
Formatos de entrada
• Imágenes master:
– Generadas por escáner robotizado Kirtas Kabis III
– Por resolución dpi: La resolución que tenemos desde principios
del proyecto de digitalización es de 325 dpi.
– Por color (Color, Blanco-Negro, Escala de Grises)
– Formato: JPG
– Tonalidad: Color 24 bit
– Dimensión : en pixeles son aproximadamente 4080x2720
Formatos de salida
• Pdf (versión actual 1.5 (Acrobat 6.x)
– Archivo con páginas alineadas, centradas, limpias, sin errores.
– Con fondo blanco.
– Tamaño: 160 mm de ancho y alto equivalente
– Resolución dpi: de alta con 300 dpi Blanco y negro.
– La tapa y contratapa a color
– Enriquecidos con OCR y ToC acorde a reglas internas.
– Software utilizado: BSE o LIMB 2.0, Foxit Reader 5.4 y jpdfbookmark para backup
de ToC
• Miniatura jpg:
– Por Snagit a color 420x550 pixeles con 72 dpi
– Futuro: se genera automáticamente desde Primo (420x550 pixeles con 72 dpi)
• Publicación:
– Se genera con software Flipping book 2.6 a partir del pdf de alta resolución. Se
utiliza plantilla con logo, fondo y sonido interior.
Estructura del libro
- Tipo de Documento
- Características Físicas
- Estructura Interna del documento
Esquema del diseño de un libro común.
1 Faja
2 Solapa
3 Guarda anterior
4 Cubierta
5 Borde superior
6 Borde frontal
7 Borde inferior
8 Página derecha, recto
9 Página izquierda, verso
10 Lomo.
Deterioro
Márgenes
Papel Delgado
Sombras
Estado de Libro y sus problemáticas:
Complejidades de origen
Imagen con exceso de
luminosidad
Textos con firmas o marcas
Curvaturas de páginas Hojas Reparadas
Hojas sueltas y bordes rotos
Lomo grueso
Dilema de los medios modernos
Paul Conway : “La Preservación en el Mundo Digital” 1996
“La información digital - la evidencia del mundo en que vivimos - es
más frágil que los fragmentos de papiros que se encontraron
enterrados junto con los faraones”.
Arquitectura de Almacenamiento
Backup 1
(pdf, catatulas, fb)
Escaneados Editados Publicados
3 Editores
Operador 1
2 Publicadores
1,8 TB
Operador 2
2 TB 2 TB
t
70 TB
Operador 3
Backup2
(tif, pdf, fb)
Backup
Preservación
Portal de Recursos
de información
Portal de Recursos de Información
Suscripciones
Open Data
• Bases de Datos de
interés nacionales
y extranjeras
• Gobierno de Chile,
BCN, otras
institucionales
nacionales o
extranjeras
Convenios
• Tesis U. Chile
• Colecciones
otras
instituciones
Recursos de Información externos
Recursos de información internos
• Autoacordados,
• Etc.
Base de datos locales
Colecciones físicas y digitales
• Libros
• Revistas
• Tesis
• Bases Jurisprudenciales
• Audio
• Videos
• Fotografías
• Colección Patrimonial
• Registros de sentencias
Portal de Recursos de Información
• Un sistema de descubrimiento que posea un buscador y
herramientas de interconexión para contenidos documentales y
multimedia.
• Facetas
• FRBR
• Deduplicación
• Índice de
búsqueda
• Estante
electrónico,
visores, etc.
• OAI-PMH
(cosecha)
• Dublin Core
(metadatos)
¡Muchas gracias!
¿Consultas?

Más contenido relacionado

Similar a Plataforma de Digitalización

Trabajo digitalizacin presentación
Trabajo digitalizacin  presentaciónTrabajo digitalizacin  presentación
Trabajo digitalizacin presentación
Wilder Agudelo Parra
 
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
UIS
 
DIGITALIZACIÓN DE DOCUMENTOS
DIGITALIZACIÓN DE DOCUMENTOS DIGITALIZACIÓN DE DOCUMENTOS
DIGITALIZACIÓN DE DOCUMENTOS
UIS
 
Digitalización
DigitalizaciónDigitalización
Digitalización
ilypatico
 
presentacion de base de datos para su creacion de ella
presentacion de  base de datos para su creacion de ellapresentacion de  base de datos para su creacion de ella
presentacion de base de datos para su creacion de ella
LuisMagaa45
 

Similar a Plataforma de Digitalización (20)

Trabajo digitalizacin presentación
Trabajo digitalizacin  presentaciónTrabajo digitalizacin  presentación
Trabajo digitalizacin presentación
 
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
DIGITALIZACIÓN DE DOCUMENTOS ELECTRÓNICOS
 
DIGITALIZACIÓN DE DOCUMENTOS
DIGITALIZACIÓN DE DOCUMENTOS DIGITALIZACIÓN DE DOCUMENTOS
DIGITALIZACIÓN DE DOCUMENTOS
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Digitalización Eje Tematico 4
Digitalización Eje Tematico 4Digitalización Eje Tematico 4
Digitalización Eje Tematico 4
 
Digitalización
DigitalizaciónDigitalización
Digitalización
 
Eje temático 4 Digitalización Definitivo
Eje temático 4 Digitalización DefinitivoEje temático 4 Digitalización Definitivo
Eje temático 4 Digitalización Definitivo
 
Deber ntics
Deber nticsDeber ntics
Deber ntics
 
Deber ntics
Deber nticsDeber ntics
Deber ntics
 
Seminario
SeminarioSeminario
Seminario
 
Herramientas Web 2.0
Herramientas Web 2.0Herramientas Web 2.0
Herramientas Web 2.0
 
Aprender3c - Tecnología y procesos aplicados a la inclusión de estudiantes un...
Aprender3c - Tecnología y procesos aplicados a la inclusión de estudiantes un...Aprender3c - Tecnología y procesos aplicados a la inclusión de estudiantes un...
Aprender3c - Tecnología y procesos aplicados a la inclusión de estudiantes un...
 
Pergamo Software para Gestión Integral de Bibliotecas y Centros de Documentación
Pergamo Software para Gestión Integral de Bibliotecas y Centros de DocumentaciónPergamo Software para Gestión Integral de Bibliotecas y Centros de Documentación
Pergamo Software para Gestión Integral de Bibliotecas y Centros de Documentación
 
Digitalización Documentos - Xerox - Productos DOKMEE
Digitalización Documentos - Xerox  - Productos  DOKMEEDigitalización Documentos - Xerox  - Productos  DOKMEE
Digitalización Documentos - Xerox - Productos DOKMEE
 
Sistema integrado de Gestión Bibliotecaria Koha
Sistema integrado de Gestión Bibliotecaria KohaSistema integrado de Gestión Bibliotecaria Koha
Sistema integrado de Gestión Bibliotecaria Koha
 
presentacion de base de datos para su creacion de ella
presentacion de  base de datos para su creacion de ellapresentacion de  base de datos para su creacion de ella
presentacion de base de datos para su creacion de ella
 
Internet.pdf
Internet.pdfInternet.pdf
Internet.pdf
 
Transformación Digital
Transformación DigitalTransformación Digital
Transformación Digital
 
como realmente_trabaja_internet
 como realmente_trabaja_internet como realmente_trabaja_internet
como realmente_trabaja_internet
 

Más de Pedro Contreras Flores

Más de Pedro Contreras Flores (20)

El dilema de las redes sociales
El dilema de las redes sociales El dilema de las redes sociales
El dilema de las redes sociales
 
Tipos de sistemas de información
Tipos de sistemas de informaciónTipos de sistemas de información
Tipos de sistemas de información
 
Text Analytics - JCC2014 Kimelfeld
Text Analytics - JCC2014 KimelfeldText Analytics - JCC2014 Kimelfeld
Text Analytics - JCC2014 Kimelfeld
 
Servicio de información para bibliotecas
Servicio de información para bibliotecasServicio de información para bibliotecas
Servicio de información para bibliotecas
 
Gestión del conocimiento
Gestión del conocimientoGestión del conocimiento
Gestión del conocimiento
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Bibliotecas moviles y calidad
Bibliotecas moviles y calidadBibliotecas moviles y calidad
Bibliotecas moviles y calidad
 
Sistemas y servicios de informacion intro
Sistemas y servicios de informacion introSistemas y servicios de informacion intro
Sistemas y servicios de informacion intro
 
Red de transporte urbano
Red de transporte urbanoRed de transporte urbano
Red de transporte urbano
 
Packing
PackingPacking
Packing
 
Hormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San MartínHormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San Martín
 
Tecnologías de la información
Tecnologías de la informaciónTecnologías de la información
Tecnologías de la información
 
Modelamiento y simulación
Modelamiento y simulaciónModelamiento y simulación
Modelamiento y simulación
 
Java 3D
Java 3DJava 3D
Java 3D
 
Complementos de programación
Complementos de programaciónComplementos de programación
Complementos de programación
 
4 memoria dinamica
4 memoria dinamica4 memoria dinamica
4 memoria dinamica
 
3 recursividad
3 recursividad3 recursividad
3 recursividad
 
2 punteros y lenguaje c
2 punteros y lenguaje c2 punteros y lenguaje c
2 punteros y lenguaje c
 
Programación grafica en lenguaje c
Programación grafica en lenguaje cProgramación grafica en lenguaje c
Programación grafica en lenguaje c
 
2 archivos
2 archivos2 archivos
2 archivos
 

Último

LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
bcondort
 
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdfMODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
vladimirpaucarmontes
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
gustavoiashalom
 

Último (20)

UNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesUNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotenciales
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
Sesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdfSesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdf
 
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADOPERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdfMODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
 
clasificasion de vias arteriales , vias locales
clasificasion de vias arteriales , vias localesclasificasion de vias arteriales , vias locales
clasificasion de vias arteriales , vias locales
 
Herramientas de la productividad - Revit
Herramientas de la productividad - RevitHerramientas de la productividad - Revit
Herramientas de la productividad - Revit
 
Gestion de proyectos para el control y seguimiento
Gestion de proyectos para el control  y seguimientoGestion de proyectos para el control  y seguimiento
Gestion de proyectos para el control y seguimiento
 
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAINTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
 
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
 
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Ejemplos aplicados de flip flops para la ingenieria
Ejemplos aplicados de flip flops para la ingenieriaEjemplos aplicados de flip flops para la ingenieria
Ejemplos aplicados de flip flops para la ingenieria
 
Ejemplos de cadenas de Markov - Ejercicios
Ejemplos de cadenas de Markov - EjerciciosEjemplos de cadenas de Markov - Ejercicios
Ejemplos de cadenas de Markov - Ejercicios
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiología
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 

Plataforma de Digitalización

  • 1. Digitalización Pedro Guillermo Contreras Flores petercontrains@gmail.com 30 de Junio 2015
  • 2. Importancia de Digitalizar • Ampliación del acceso: a través de los archivos digitales, se da acceso a libros desde todo Chile a solo funcionarios, a través del Portal Seguro. • Servicio 24 horas: los sistemas informáticos permiten proveer servicios sin restricciones de horarios que extienden el uso de la colección. • Usuarios concurrentes: uno o más funcionarios pueden acceder en forma simultánea a un mismo libro, sin las limitaciones de la consulta presencial. • Incremento de usuarios: la facilidad de uso de los catálogos en línea, permite que aumente la demanda y más personas accedan a las Bibliotecas del Poder Judicial. • Nuevas interfaces de recuperación y visualización: el encontrar en forma simple y rápida la información requerida, a través de una sola ventana de búsqueda. • Preservación y conservación: una de los aportes principales de la digitalización, es que contribuye a extender la vida útil del libro impreso.
  • 4. Proceso y Tareas Tareas: - Selección de Libros. - Cambio de estado - Envío a laboratorio. Tareas: - Recepción y verificación de estado del libro. -Escaneo -Ingres o cambio de estado en Workflow Tareas: - Control de Calidad de imágenes -Edición y limpieza de imágenes. - Re-dimensión. - Corrección de errores. - Generar OCR. Tareas: - Control de calidad PDF. - Creación de tabla de contenidos. - Generación de libro animación. - Tareas: - Traspaso de archivos -Validación de BCS -Ingreso de Metadatos. - Enlaces. -Publicación en V.B.
  • 7. Otros Softwares • Picture shark • Easy thumnails • A.F.5. rename your files • Convert Doc • http://www.softinterface.com/Convert-Doc/Foreign/Spanish/Convertir- Doc.htm • Paper Flex • http://flexpaper.devaldi.com/ • Tiffteller • http://www.coolutils.com/es/TiffTeller
  • 8. OCR (Reconocimiento ópticos de caracteres) • Cualquier imagen con texto • Aplicación en rubros bancarios, legales, retail, médicos e industriales. • Ejemplos: – Libros – Facturas – Cheques – Patentes de auto – Letreros – Fichas medicas – Fotos • Las herramienta s de captura soportan uno o múltiples idiomas. • Solo texto tipográfico o manuscrito sin cursiva Importar archivos de imágenes o video(jpg, tiff, gif, bmp, png, pdf, avi) Definir idioma del texto de la imagen(uno o varios idiomas) Definir área de OCR (un archivo, algunas paginas, solo un sector de la pagina, código de barras) Establecer salida como archivo de texto, TOC, Numero de página, datos del documento (word, excel, pdf, txt, rtf) Generar OCR Usar para (búsqueda, reutilización de texto, numeración, TOC, alimentar datos, identificar) • Imágenes limpias aseguran mejor calidad del OCR • Este texto se puede emplear en crear un gran índice de búsqueda full text, permite autopaginar, permite AutoTOC, permite identificar dato especifico como código de barras , patente, folio, n° factura, etc. • Procesos de binarización, segmentación, adelgazamient o de componentes, comparación de patrones. • Dar usabilidad al OCR generado:  Motor de búsqueda  Editar  AutoToc  Autopáginación “Para las técnicas de OCR se utilizan técnicas de segmentación, es decir, se aislan los caracteres y luego se reconocen; pero la escritura manuscrita es ligada y no hay técnicas que lo separen automáticamente, por lo que el proceso de reconocimiento no se puede abordar carácter a carácter sino como un todo de caracteres, palabras y líneas”, ha explicado. Transcriptorium se desarrolla en castellano , holandés, alemán e inglés, aunque, el investigador ha señalado que el grupo de trabajo de la UPV también ha explorado documentos “en árabe y otras lenguas”. De esta forma, para un volumen de unas mil páginas, unas 50 se transcriben a mano y una vez hecho esto, “se entrenan modelos para proporcionar resultados razonables para el resto
  • 9. Formatos de entrada • Imágenes master: – Generadas por escáner robotizado Kirtas Kabis III – Por resolución dpi: La resolución que tenemos desde principios del proyecto de digitalización es de 325 dpi. – Por color (Color, Blanco-Negro, Escala de Grises) – Formato: JPG – Tonalidad: Color 24 bit – Dimensión : en pixeles son aproximadamente 4080x2720
  • 10. Formatos de salida • Pdf (versión actual 1.5 (Acrobat 6.x) – Archivo con páginas alineadas, centradas, limpias, sin errores. – Con fondo blanco. – Tamaño: 160 mm de ancho y alto equivalente – Resolución dpi: de alta con 300 dpi Blanco y negro. – La tapa y contratapa a color – Enriquecidos con OCR y ToC acorde a reglas internas. – Software utilizado: BSE o LIMB 2.0, Foxit Reader 5.4 y jpdfbookmark para backup de ToC • Miniatura jpg: – Por Snagit a color 420x550 pixeles con 72 dpi – Futuro: se genera automáticamente desde Primo (420x550 pixeles con 72 dpi) • Publicación: – Se genera con software Flipping book 2.6 a partir del pdf de alta resolución. Se utiliza plantilla con logo, fondo y sonido interior.
  • 11. Estructura del libro - Tipo de Documento - Características Físicas - Estructura Interna del documento Esquema del diseño de un libro común. 1 Faja 2 Solapa 3 Guarda anterior 4 Cubierta 5 Borde superior 6 Borde frontal 7 Borde inferior 8 Página derecha, recto 9 Página izquierda, verso 10 Lomo. Deterioro Márgenes Papel Delgado Sombras Estado de Libro y sus problemáticas:
  • 12. Complejidades de origen Imagen con exceso de luminosidad Textos con firmas o marcas Curvaturas de páginas Hojas Reparadas Hojas sueltas y bordes rotos Lomo grueso
  • 13. Dilema de los medios modernos Paul Conway : “La Preservación en el Mundo Digital” 1996 “La información digital - la evidencia del mundo en que vivimos - es más frágil que los fragmentos de papiros que se encontraron enterrados junto con los faraones”.
  • 14. Arquitectura de Almacenamiento Backup 1 (pdf, catatulas, fb) Escaneados Editados Publicados 3 Editores Operador 1 2 Publicadores 1,8 TB Operador 2 2 TB 2 TB t 70 TB Operador 3 Backup2 (tif, pdf, fb) Backup Preservación
  • 15. Portal de Recursos de información Portal de Recursos de Información Suscripciones Open Data • Bases de Datos de interés nacionales y extranjeras • Gobierno de Chile, BCN, otras institucionales nacionales o extranjeras Convenios • Tesis U. Chile • Colecciones otras instituciones Recursos de Información externos Recursos de información internos • Autoacordados, • Etc. Base de datos locales Colecciones físicas y digitales • Libros • Revistas • Tesis • Bases Jurisprudenciales • Audio • Videos • Fotografías • Colección Patrimonial • Registros de sentencias
  • 16. Portal de Recursos de Información • Un sistema de descubrimiento que posea un buscador y herramientas de interconexión para contenidos documentales y multimedia. • Facetas • FRBR • Deduplicación • Índice de búsqueda • Estante electrónico, visores, etc. • OAI-PMH (cosecha) • Dublin Core (metadatos)

Notas del editor

  1. http://www.onlineoc http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_recuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.htmlr.net/ https://latunicadeneso.wordpress.com/tag/ocr/