1. OCR.
EL RECONOCIMIENTO ÓPTICO DE CARACTERES (ROC), O
GENERALMENTE COMO RECONOCIMIENTO DE CARACTERES, ES
UN PROCESO DIRIGIDO A LA DIGITALIZACIÓN DE TEXTOS, LOS
CUALES IDENTIFICAN AUTOMÁTICAMENTE A PARTIR DE UNA
IMAGEN SÍMBOLOS O CARACTERES QUE PERTENECEN A UN
DETERMINADO ALFABETO, PARA LUEGO ALMACENARLOS EN
FORMA DE DATOS, ASI PODREMOS INTERACTUAR CON ESTOS
MEDIANTE UN PROGRAMA DE EDICIÓN DE TEXTO O SIMILAR.
CON FRECUENCIA ES ABREVIADO EN TEXTOS ESCRITOS EN EL
IDIOMA ESPAÑOL, UTILIZANDO EL ACRÓNIMO A PARTIR DEL
INGLÉS OCR.
2. VENTAJAS DEL OCR.
Si estás buscando solamente convertir cualquier documento en formato digital
editable entonces no hay nada mejor que servicios del OCR. El proceso de
caracteres ópticos del reconocimiento ahorra la época y el esfuerzo de
desarrollar una reproducción digital de cualquier documento. Ninguna necesidad
de mecanografiar caracteres manualmente en un archivo digital. El lugar justo la
copia dura del documento dentro de un explorador y consigue el formato digital
de ese documento con la ayuda de software del OCR.
Con proceso del OCR puedes convertir un documento en varios formatos
electrónicos como - Microsoft Word, Excel, el HTML, el pdf, el texto o los
formatos de texto ricos.
Los documentos, que se convierten con proceso del OCR, son editable y
permiten que el usuario modifique el contenido. Comparado al servicio manual
de la entrada de datos el coste de servicio del OCR es absolutamente menos
para desarrollar la reproducción electrónica de cualquier documento. El servicio
del OCR probó mejor que el servicio de la entrada de datos para las
organizaciones, que se contratan a desarrollar la copia electrónica de libros
impresos.
3. DESVENTAJAS DEL OCR.
Hay varias desventajas del servicio del OCR con respecto al coste así como el proceso de reconocer los
caracteres. Inicialmente, el coste de desarrollar la reproducción con proceso del OCR puede parecerse
lucrativo pero si consideras el coste del ciclo vital entero del sistema del OCR, el coste será mucho más
alto que servicio de la entrada de datos. Corregir errores del OCR cuenta más coste que preparando un
formato digital del documento.
El alto software del OCR de la exactitud puede leer más de 400 caracteres/en segundo lugar,
aproximadamente, y genera menos número de los errores del OCR comparados a cualquier software
ordinario del OCR. Por lo tanto, si estás buscando proceso del OCR tienes que mantener un sitio de
trabajo separado para corregir errores del OCR.
El software del OCR no es eficiente en el reconocimiento del cursivo y de las fuentes, que son
absolutamente similares al cursivo. En tales casos el mecanografiar manual desempeña un papel mejor
que proceso del OCR.
¿Cómo eficiente es el servicio de la entrada de datos que el OCR?
Comparado al proceso ordinario del OCR, el coste de ciclo vital de la conversión está menos en servicio
de la entrada de datos y proporciona flexibilidad completa a los operadores de entrada de datos que
elaboran documentos digitales de formatos múltiples como copia dura o archivos audio. Considerar el
servicio de la transcripción médica donde necesitas elaborar documentos digitales de archivos audio. El
OCR no puede elaborar el documento digital explorando ninguna archivos audio. En tales servicios, la
entrada de datos puede probar mejor que el OCR.
4. BENEFICIOS DEL OCR.
El dispositivo que obtiene la imagen puede
introducir niveles de grises al fondo que no
pertenecen a la imagen original.
La resolución de estos dispositivos puede
introducir ruido en la imagen, afectando los
píxeles que han de ser procesados.
La distancia que separa a unos caracteres de
otros, al no ser siempre la misma, puede
producir errores de reconocimiento.
La conexión de dos o más caracteres por
píxeles comunes también puede producir
errores.
5. UTILIDADES DEL OCR.
La mayor parte de algoritmos de ROC parten como base de una
imagen binaria (dos colores) por lo tanto es conveniente convertir
una imagen de escala de grises, o una de color, en una imagen
en blanco y negro, de tal forma que se preserven las propiedades
esenciales de la imagen. Una forma de hacerlo es mediante el
histograma de la imagen donde se muestra el número de pixeles
para cada nivel de grises que aparece a la imagen. Para
binarizarla tenemos que escoger un umbral adecuado, a partir
del cual todos los pixeles que no lo superen se convertirán en
negro y el resto en blanco.
Mediante este proceso obtenemos una imagen en blanco y negro
donde quedan claramente marcados los contornos de los
caracteres y símbolos que contiene la imagen. A partir de aquí
podemos aislar las partes de la imagen que contienen texto (más
transiciones entre blanco y negro).