Localización y decodificación de códigos de barras EAN-13 en imágenes

Ingenier´ıa Informática
Proyectos Informáticos (E80)
Localización y decodificación de códigos de barras
en imágenes digitales
Proyecto presentado por:
Vicente Castelló Mart´ınez
y dirigido por:
Vicente Javier Traver Roig
Castellón de la Plana, Julio de 2005

Resumen
Esta memoria describe un método para la localización y posterior decodificación de códigos de
barras presentes en imágenes digitales. El código de barras puede aparecer en cualquier posición
y orientación dentro de la imagen, con lo cual debemos ser capaces de detectarlo y rectificar su
orientación, para as´ı poder decodificarlo de forma correcta.
Una técnica que se presenta, debido a que los códigos de barras poseen unas caracter´ısticas
muy definidas, como un método adecuado para la localización de un código de barras dentro
de una imagen es la detección de bordes. Además, como los puntos de borde pertenecientes al
código presentarán una orientación similar, el objetivo será de alguna forma homogeneizar esta
zona donde se encuentra el código, extendiendo el valor de la orientación obtenido de los puntos
de borde a los que no lo son. A continuación, debido a este proceso de expansión de la orientación
conseguiremos un conjunto de regiones candidatas, de las cuales debemos ser capaces de poder
elegir una de ellas como susceptible de contener el código. A partir de esta región debemos
calcular la orientación que presentan los puntos de borde de la misma, para poder rectificar
as´ı la imagen. Una vez conseguida una subimagen centrada en el código intentamos decodificar
éste con éxito, basándonos en lo que conocemos del tipo de codificación en concreto.
Por último comentar que durante toda la memoria se presentan los resultados que se van
consiguiendo para cada una de las fases en las que se divide el método, además de una serie de
experimentos para reforzar la comprensión del mismo o recalcar ciertos aspectos que se creen de
interés.
iii

Agradecimientos
En unas pocas palabras quisiera agradecer a una serie de personas la ayuda que me han presta-do
en la realización de este proyecto. Éstas son Ma Angeles López (por su implementación del
detector de bordes de Canny), Raúl Montoliu (por su código para el etiquetado de componentes
conexas) y V´ıctor Jiménez (por sus ideas acerca de posibles estrategias a seguir para la decodi-ficaci
ón), sin los cuales el esfuerzo realizado hubiese sido enormemente mayor. Por último y no
por ello menos importante, agradecer en gran medida a mi director, Javier Traver, el tiempo
que me ha dedicado y la paciencia que ha tenido conmigo, ya que sin su colaboración no hubiese
podido afrontar este proyecto. Simplemente, muchas gracias.
v

Índice general
1. Introducción 1
1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Organización de la memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Trabajos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Códigos de barras 7
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Ventajas e inconvenientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6. Clases de códigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.7. Dispositivos de escritura y lectura de códigos de barras . . . . . . . . . . . . . . . 11
3. Detección de bordes 15
3.1. Técnicas de localización de códigos de barras . . . . . . . . . . . . . . . . . . . . 15
3.2. Detector de bordes de Canny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4. Detección de regiones candidatas 19
4.1. Idea general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5. Etiquetado y filtrado de regiones 23
5.1. Etiquetado de componentes conexas . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6. Estimación de la orientación y rectificación 31
6.1. Idea general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.2. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
7. Decodificación 33
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7.2. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.4. Análisis de robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
vii

Índice general
8. Sistema experimental 45
8.1. Información general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8.2. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.3. Valores por defecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.4. Tiempo de ejecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.5. Duración del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9. Conclusiones 49
A. Detector de bordes de Canny 51
B. Algoritmo clásico de etiquetado de componentes conexas 53
C. Método de Otsu 55
D. Caracter´ısticas del código EAN-13 57
viii

1. Introducción
1.1. Motivación
Hoy en d´ıa los códigos de barras están muy presentes en nuestro quehacer diario, ya que
nos aparecen en los supermercados, tiendas de toda clase, en los libros de las bibliotecas, etc.,
debido a que permiten obtener una especificación única de un producto o material en concreto.
Sin embargo no debemos olvidar que los códigos de barras necesitan de instrumentos que puedan
leerlos, al igual que de un software que permita captar y procesar la información.
Además en entornos controlados, las cámaras pueden ser usadas para la identificación de
objetos, es decir, si los objetos de nuestro interés presentan etiquetas de códigos de barras en
una superficie visible, entonces un simple sistema de cámaras portátiles puede reconocer el código
de barras en el entorno y proporcionar al usuario información sobre el objeto etiquetado [26].
Por todo ello este proyecto intenta ofrecer un método de localización de un código de barras
dentro de una imagen, para su posterior decodificación. Se ha utilizado una serie de procedimien-tos
que nos han permitido conseguir nuestro objetivo y que se explican con detalle posteriores
cap´ıtulos de esta memoria.
Como es obvio, hay una gran variedad de códigos de barras, pero en este proyecto nos hemos
centrado en una clase en concreto, el código EAN (European Article Number) y más concreta-mente
en su versión EAN-13 [20], que aunque dicho de esta forma no nos suene mucho, es uno de
los códigos más presentes en nuestras vidas, ya que se utiliza en una gran cantidad de productos
de todo tipo, desde cualquiera de los art´ıculos presentes en un supermercado hasta toda clase
de libros. Es en este último uso donde nos centraremos, ya que los libros se codifican basándose
en un sistema internacional de numeración, el ISBN (International Standard Book Number) [9],
el cual utiliza para su codificación el código EAN-13.
Si sabemos que los d´ıgitos que encontramos normalmente impresos junto a las barras y espacios
de un código de barras suelen ser aquellos codificados dentro de éste, por qué no leer estos d´ıgitos
en lugar de decodificar estas barras y espacios. La razón principal es que, incluso con los modernos
sistemas de reconocimiento óptico de caracteres (OCR, Optical Character Recognition), no es
posible identificar las cifras de un código numérico con la suficiente rapidez, facilidad y fiabilidad
que se requiere y por tanto no queda otra solución más que representar el código mediante
s´ımbolos fácilmente legibles por el ordenador, empleando sus sistemas binarios.
Otra pregunta que puede surgir es por qué investigar en este tema si los sistemas existentes
ya funcionan correctamente. Una de las razones es la posibilidad de que cualquier persona con
una cámara, como por ejemplo una simple webcam, pudiese decodificar códigos de barras en su
propia casa si lo precisase, ya que es más fácil que un particular pueda adquirir una cámara de
este tipo que un lector láser por ejemplo, mucho más caro. Incluso podr´ıa ser utilizado por el
pequeño y mediano comercio, resultando una opción mucha más económica.
1.2. Organización de la memoria
La memoria está dividida en una serie de cap´ıtulos donde cada uno de ellos presenta la
siguiente información:
1

1. Introducción
El cap´ıtulo 2, ((Códigos de barras)), se dedica a aportar una serie de datos relacionados con
los códigos de barras: definición, ventajas e inconvenientes, aplicaciones, lectores, etc., a
modo de información introductoria al mundo de los códigos de barras.
En el cap´ıtulo 3, ((Detección de bordes)), se explica la idea fundamental que se sigue para
la localización del código de barras y es que debido a las caracter´ısticas que éste posee,
la detección de bordes se presenta como una técnica más que adecuada para su posible
detección.
En el cap´ıtulo 4, ((Detección de regiones candidatas)), nos centramos en la idea que a la hora
de detectar el código de barras los pixels que son puntos de borde y forman parte del código
van a tener una orientación similar. Con esta caracter´ıstica lo que se pretende es expandir
esta orientación a los vecinos de cada uno de los puntos de borde y as´ı, homogeneizar toda
la zona donde se encuentra el código con una misma orientación.
En el cap´ıtulo 5, ((Etiquetado y filtrado de regiones)), explicamos cómo tras el paso anterior
mediante un proceso de agrupamiento, extendiendo la orientación y gracias a una posterior
binarización, conseguimos obtener una serie de regiones susceptibles de ser la que se busca.
Utilizando algoritmos de etiquetado de componentes conexas y realizando a continuación
un filtrado, podemos quedarnos con la región que ((supuestamente)) contiene el código.
En el cap´ıtulo 6, ((Estimación de la orientación y rectificación)), se indica cómo, al poder
presentar el código cualquier ángulo dentro de la imagen, se debe calcular la orientación
que presentan los puntos de borde que aparecen en esta región susceptible de contener
al código y que hemos obtenido en el paso anterior. Una vez conocida esta orientación
simplemente debemos rectificar la imagen y conseguir una imagen centrada en el código,
para su posterior binarización.
En el cap´ıtulo 7, ((Decodificación)), se explica cómo basándonos en la imagen binarizada del
código de barras obtenida en el paso anterior, y empleando el conocimiento que tenemos
del tipo de código a interpretar (EAN-13 ), se obtiene la consiguiente decodificación del
mismo.
El cap´ıtulo 8, llamado ((Sistema experimental)), presenta información relativa al proyecto
y que creemos que debe ser mencionada, desde el software utilizado para la realización del
proyecto hasta el tiempo en que tarda en ejecutarse la técnica implementada.
En el último cap´ıtulo simplemente mencionamos las conclusiones a las que llegamos después
de la realización de este proyecto.
De forma gráfica el proceso que se ha seguido para la localización y posterior decodificación
de un código de barras se puede observar en la Figura 1.1. Cada una de las fases que componen
el proceso en general se explican con más detalle, y como hemos comentado anteriormente, en
los correspondientes cap´ıtulos que aparecen en esta memoria.
1.3. Trabajos relacionados
Previamente y durante la realización de este proyecto se ha ido recopilando información de
art´ıculos y trabajos relacionados con códigos de barras, algunos de los cuales vamos a comentar
en este punto, ya que han servido de complemento y ayuda al igual que nos han ofrecido ideas
para la realización del método, o simplemente pueden resultar de interés para conocer con mayor
detalle el estado del arte o profundizar en el tema.
2

La decodificación de códigos de barras dañados es un tema que se presta a estudio. Un ejemplo
ser´ıa la decodificación de los códigos de barras que nos aparecen en las recetas médicas y que se
ven afectados por firmas o cualquier otro tipo de mancha [22]. El método en cuestión se basa
en la utilización de la transformada de Hough como herramienta que permite la búsqueda de
l´ıneas verticales dentro de una imagen. La técnica implementada consigue leer alrededor de un
85% de las prescripciones que se analizan, sin embargo cabe destacar que el proceso asume que,
a diferencia de nuestro proyecto, el código ya se encuentra en una orientación más o menos
adecuada para ser procesado por el algoritmo.
Sin embargo los estudios realizados no sólo se han centrado en la localización de las barras
y los espacios que conforman el código, sino que han llegado a plantearse otra opción como, el
decodificar un código de barras a partir de los d´ıgitos presentes junto a las barras del mismo [5].
Los sistemas de análisis de imagen normalmente requieren que la imagen donde se encuentra el
código de barras a analizar tenga una resolución lo suficientemente buena para su decodificación.
Gracias a este nuevo método se consigue que la imagen pueda presentar una baja resolución y
se decodifique el código con éxito, ya que los caracteres o d´ıgitos presentes debajo del código
de barras pueden verse menos afectados por un emborronamiento o una baja resolución de
la imagen, con lo cual pueden convertirse en una acertada fuente de información, mejor que
el patrón de barras. En este método la localización del código de barras se realiza a partir
del análisis del gradiente. Una vez localizado el código, basándose en el tipo de codificación
que se quiere decodificar, se determina dónde se encuentra la zona que incluye los caracteres
que representan al código, para posteriormente mediante técnicas de probabilidad y estad´ıstica
determinar a qué d´ıgitos corresponden.
Dentro del campo de la robótica también resulta de interés la localización y posterior de-codificaci
ón de códigos de barras. Se ha llegado a investigar en temas como el desarrollo de un
sistema robotizado que, utilizando algoritmos de procesamiento de imágenes, intenta reconocer
y decodificar los códigos de barras que aparecen en una gran variedad de barriles utilizados
en algunos sectores industriales para almacenar toda clase de residuos. Al mismo tiempo este
reconocimiento sirve para realizar una especie de inventario de los barriles inspeccionados [31].
El procedimiento se basa en dos fases: una primera en la que la imagen es procesada aplicando
filtros adaptativos de umbralización del gradiente. Este filtrado identifica bordes verticales en la
imagen. En la segunda fase la imagen es analizada por áreas que tienen una alta concentración
de estos bordes verticales, asumiendo que son zonas con una alta probabilidad de ser el código
de barras, idea parecida a la que se utiliza en nuestro método donde se consiguen regiones de
orientación similar susceptibles de contener el código. Sin embargo presenta inconvenientes co-mo
la aparición de falsos positivos, debido a que la imagen puede presentar zonas con bordes
similares a los de un código de barras y por tanto detectarse como zona donde se encuentra el
código cuando no lo es. Además también se ve bastante influenciado por el tamaño del código
de barras respecto a la imagen.
Normalmente los sistemas de análisis de imágenes requieren que el código de barras esté con-tenido
completamente en la imagen, sin embargo se han realizado investigaciones para evitar
esta limitación. Un trabajo relacionado con este aspecto desarrollaba un método para la decod-ificaci
ón de códigos de barras captados con una cámara, cuyo campo de visión es más pequeño
que el tamaño del propio código, con lo cual deb´ıa capturar distintas imágenes, que una vez
juntas, reconstru´ıan el código, para posteriormente decodificarlo [28]. La localización del código
se realiza mediante el cálculo del gradiente y buscando zonas donde la orientación del mismo es
similar. Esta misma idea es en la que nos basamos en nuestro método para la localización del
código de barras. Una vez detectado el código se aprovecha el conocimiento que se posee del tipo
de código que se está analizando para conseguir una correcta decodificación. En nuestro proyecto
también explotamos este conocimiento que tenemos del código de barras para su decodificación.
3

1. Introducción
Relacionado con la problemática de la teor´ıa de señales podemos encontrar trabajos que tratan
de interpretar el código de barras a partir del tratamiento o reconocimiento de los picos presentes
en la señal u onda obtenida del mismo [18]. Se utilizan modelos estad´ısticos de reconocimiento
para clasificar estos picos como los caracteres presentes en el código. Mediante esta técnica se
consigue mejores resultados ante códigos emborronados, ya que el proceso es más resistente ante
tales contratiempos.
La ciencia no sólo ha investigado en la mejora de técnicas de decodificación de códigos de
barras en cuanto a procesamiento de imágenes, sino que también se ha preocupado por mejorar
las prestaciones de los escáneres lectores de códigos. Un ejemplo es una investigación realizada
con el objetivo de ofrecer mejoras en el funcionamiento de los escáneres a través de un muestreo
selectivo y el uso de filtros de realzado para mejorar la detección de bordes, que detectan las
fronteras entre áreas oscuras y claras (barras y espacios) [27]. Otros estudios se centran más
en obtener técnicas destinadas a la mejora de la decodificación de códigos de barras borrosos o
emborronados [30].
4

Figura 1.1.: Diagrama global del proceso implementado
5

2. Códigos de barras
2.1. Introducción
Como información preliminar, antes de comenzar a explicar el método desarrollado, se ha
cre´ıdo conveniente aportar información general sobre los códigos de barras. Por ello, en este
punto de la memoria se presentan una serie de datos acerca de este sistema de codificación.
Empezamos con una breve descripción de los códigos de barras, su nomenclatura básica y una
serie de caracter´ısticas. A continuación nos adentramos en su historia [2], cuándo surgieron y su
posterior desarrollo, ventajas e inconvenientes que presentan y un conjunto de aplicaciones en las
que los códigos de barras suelen ser de gran utilidad. Por último se mencionan las distintas clases
de códigos que existen, para acabar comentando diferentes tipos de impresoras [4] y lectores para
esta clase de codificación en concreto.
2.2. Definición
Los códigos de barras son un sistema de codificación creado con el objetivo de identificar
objetos y facilitar la obtención de información y de esta forma eliminar la posibilidad de error
en la captura. La utilización de este sistema de codificación es tan exitosa debido a la fiabilidad
que presenta en la recolección automática de datos, reduciendo los posibles errores humanos que
se pueden producir en el caso de una introducción errónea de información.
Podemos definir un código de barras como un patrón formado por barras y espacios parale-los
que codifica información mediante las anchuras relativas de estos elementos. Su estructura
básica consiste de un patrón de inicio, uno o más caracteres de datos, opcionalmente unos o dos
caracteres de verificación y un patrón de término.
Además implementar un sistema de captura de datos por códigos de barras es poco costoso
y el conocimiento necesario para utilizar el sistema es m´ınimo, por lo que no debe presentarse
como un problema el aprendizaje del personal que manipule el mismo.
El desarrollo de este sistema de codificación nos permite disponer de tres categor´ıas de códigos
de barras, dependiendo de la tecnolog´ıa que es necesaria para realizar una lectura de los mismos:
lineales, multifilas y bidimensionales. Una gran parte de la literatura existente llama también
códigos bidimensionales a los considerados multifilas. Por tanto se puede realizar una división
entre códigos de una dimensión (lineales) donde sólo importa el ancho de las barras y el espacio
entre ellas y códigos de dos dimensiones (multifilas y bidimensionales) donde importa la altura
y anchura del s´ımbolo.
Nomenclatura básica
La visualización f´ısica de los códigos de barras suele presentarse mediante barras verticales:
éstas representan caracteres de información mediante barras negras y espacios, donde el ancho
de las barras y espacios puede ser variable. Por tanto, cada d´ıgito o carácter representado en un
código está formado por barras y espacios que tienen una anchura total de una cierta cantidad
de unidades o módulos, dependiendo del código, de esta forma cada barra y cada espacio puede
tener una anchura de diversas unidades o módulos. De forma resumida se puede expresar de la
siguiente manera:
7

Módulo: es la unidad m´ınima o básica de un código. Las barras y espacios están formados
por un conjunto de módulos.
Barra: el elemento ((oscuro)) dentro del código. Se hace corresponder con el valor binario 1.
Espacio: el elemento ((claro)) dentro del código. Se hace corresponder con el valor binario 0.
Carácter: formado por barras y espacios. Normalmente se corresponde con un carácter
alfanumérico.
Todo esto se observa mejor gráficamente en la Figura 2.1.
Figura 2.1.: Cada carácter o d´ıgito está formado por un conjunto de módulos
Caracter´ısticas
Un s´ımbolo de código de barras presenta una serie de caracter´ısticas entre las cuales cabe
destacar las siguientes:
Densidad: es la anchura del elemento, ya sea barra o espacio, más estrecho dentro del
s´ımbolo de código de barras. Un código de barras no se mide por su longitud f´ısica sino
por su densidad, que viene dada en milésimas de pulgada.
Razón ancho-estrecho (Wide to Narrow Ratio (WNR)): Es la relación existente entre el
grosor del elemento más estrecho con respecto al más ancho. Normalmente es de 1:3 ó 1:2.
Zona muda (Quiet Zone): Es el área blanca que aparece al principio y al final de un
s´ımbolo de código de barras y que es necesaria para una acertada lectura del s´ımbolo.
2.3. Historia
El código de barras como sistema de codificación tiene aceptación mundial y hoy en d´ıa es un
requisito indispensable para que los productos de una determinada empresa puedan ser comer-cializados
tanto en el mercado interior como en el exterior. Pero mucho antes de que los códigos
de barras aparecieran, ya surg´ıan investigaciones relacionadas con sistemas de codificación de
información.
En 1932, Wallace Flint, un estudiante de la Universidad de Harvard, realizó un proyecto
final de carrera (master thesis) que desarrollaba un sistema mediante el cual los clientes de un
supermercado podr´ıan marcar aquello que quisieran comprar en una serie de tarjetas perforadas,
8

2.3. Historia
que posteriormente se introducir´ıan en una serie de lectores que activar´ıan un sistema automático
que les proporcionar´ıa aquello demandado.
Sin embargo la idea de código de barras conforme lo entendemos hoy en d´ıa nació en 1948. En
ese año Bernard Silver, un estudiante graduado del Instituto Drexel de Tecnolog´ıa de Filadelfia,
escuchó por casualidad como el presidente de una cadena de supermercados le ped´ıa a uno de los
decanos que emprendiese una investigación para desarrollar un sistema que permitiese la lectura
automática de información de los productos durante el cobro de los mismos.
Silver contó lo que hab´ıa escuchado a su amigo Normand Joseph Woodland, que ejerc´ıa como
profesor en esa misma universidad. La idea le fascinó y empezaron a investigar en el tema.
Después de un año de gran esfuerzo Woodland y Silver registraron en 1949 la primera patente
para un código de barras. El sistema que ten´ıa forma circular se denominó ((bull’s eye code)) y
consist´ıa en una serie de c´ırculos concéntricos con el objetivo de que pudiera leerse en cualquier
dirección.
Tres años más tarde, en 1952, construyeron el primer lector de códigos de barras, pero
lamentablemente el sistema no consiguió ser demasiado efectivo, al igual que resultaba caro,
por lo que no llegó a comercializarse.
Los códigos de barras se emplearon por primera vez a principios de la década de los 60 para
identificar material rodante ferroviario y de ah´ı en adelante ha venido avanzando su aplicación
y desarrollo. A finales de los años 60 y comienzos de los 70 aparecieron las primeras aplicaciones
industriales, pero sólo para manejo de información.
Durante esos años la Asociación Nacional de Cadenas Alimenticias (NAFC, de las siglas en
inglés) se dió cuenta que deb´ıan solucionar de una vez por todas los problemas que se presentaban
a la hora del cobro de sus productos. Por ello, en 1967, la cadena de supermercados Kroger instala
el primer sistema de venta basado en códigos de barras en su sucursal de Cincinnati (Ohio, EE.
UU.). El experimento presentó una serie de problemas que sirvieron para la mejora del sistema
y de esta forma su posterior adaptación a todos los productores y comerciantes del sector.
Durante los años 70 y primeros de los 80 se produjo la evolución de los códigos lineales. Su
utilización se difunde a varios sectores utilizándose en muy distintas tareas, desde el control de
documentos en bibliotecas, hasta la identificación y verificación automática en los bancos de
sangre.
En el año 1973 se anuncia la aparición del código UPC (Universal Product Code) que se
convertir´ıa en el estándar de identificación de productos en los Estados Unidos. Como anécdota,
comentar que el primer producto escaneado en un punto de pago utilizando este código fue un
paquete de chicles, el cual se encuentra hoy en d´ıa expuesto en el Museo Nacional de Historia
Americana. En 1976, Europa desarrolla su propia versión de UPC, el código EAN (European
Article Number), del cual se desarrollar´ıan dos versiones: el EAN-13 y el EAN-8.
En 1974, se inventa el código 39, el primero de tipo alfanumérico y trece años más tarde, en
1987, se desarrolla el primer código bidimensional, el código 49, primer código multifilas que
apareció en el mercado.
Poco a poco, durante los años 80 y 90, la tecnolog´ıa de identificación y manejo de datos a
través de códigos de barras, logra convertirse en un estándar al ser aplicada, cada vez con más
frecuencia, tanto en operaciones de distribución y manejo de materiales, como en organizaciones
de manufactura industrial, al igual que en todo tipo de nuevos ámbitos. Durante los años 90
fueron apareciendo nuevos tipos de códigos y se desarrollaron sobretodo los códigos de alta
densidad o bidimensionales.
9

2.4. Ventajas e inconvenientes
La tecnolog´ıa de código de barras presenta una serie de ventajas sobre otros procedimientos
de colección de datos, éstas son:
Se imprime con costes bajos.
Su precisión en la información, evitando o reduciendo de esta forma los errores.
Su eficiencia debido a la rapidez en la lectura, ahorrando tiempo y dinero.
La relativa flexibilidad y facilidad de conexión e instalación de los equipos de lectura e
impresión de código de barras.
Por contrapartida, no todo son ventajas, también presentan inconvenientes, como los que a
continuación mencionamos:
En general los códigos de barra no son fácilmente descifrables por las personas, necesitando
pues lectores que nos decodifiquen la información.
La facilidad con la cual es posible dificultar la legibilidad de ciertos códigos, es decir,
simplemente con agregar una barra al inicio o final del s´ımbolo o trazar una l´ınea paralela a
las barras en cualquier lugar dentro del código, complica en gran manera su decodificación.
2.5. Aplicaciones
Las aplicaciones del código de barras cubren prácticamente cualquier tipo de actividad hu-mana,
lo podemos encontrar tanto en la industria, en el comercio, en instituciones guberna-mentales,
y en un sinfin de áreas, ya que cualquier sector puede beneficiarse del uso de este
sistema de codificación. Además, la tecnolog´ıa que conlleva ofrece una de las mejores maneras
de automatizar el manejo de información, ofreciendo un sistema de colección de datos mediante
identificación automática bastante rápido y seguro.
Cualquier sector donde se necesita un sistema para capturar información y as´ı mejorar la
productividad, puede optar por utilizar códigos de barras. Algunas de las aplicaciones en las
que el uso del código de barras se muestra como una elección acertada son: control de material
en proceso, control de inventario, contro de tiempo y asistencia, puntos de venta, control de
calidad, bibliotecas, bancos de sangre, control de acceso, identificación de carga, etc. Pero estas
son sólo una parte de la gran variedad de aplicaciones en las que se pueden utilizar códigos de
barras como procedimiento de codificación de datos.
En todas estas actividades el código de barras se presenta como una de las mejores tecnolog´ıas
para implementar un sistema de captación de datos mediante identificación automática, presen-tando
una serie de beneficios desde la mejora de la calidad y servicio al cliente hasta una mayor
competitividad.
2.6. Clases de códigos
La simbolog´ıa de un código de barras nos define los detalles técnicos de cada tipo particular
de código de barras, la anchura de las barras, la forma en que se codifica la información en las
barras y espacios del s´ımbolo de código de barras, etc.
Como hemos comentado anteriormente podemos distinguir entre códigos de una dimensión y
códigos de dos dimensiones. En los primeros, al efectuar la lectura, se tiene en cuenta el ancho
10

2.7. Dispositivos de escritura y lectura de códigos de barras
de las barras y los espacios entre ellas, en cambio la altura de las barras no otorga ningún dato.
En cierta forma estos códigos representan la clave para acceder a un registro de alguna base de
datos en donde realmente reside la información, o sea, los s´ımbolos no contienen información del
producto o art´ıculo, sino una clave única que lo identifica.
Por tanto la pequeña capacidad de codificación de estos códigos los hace depender de sistemas
de datos externos, sin el sistema externo el código no tiene significado. La dependencia de
sistemas externos de datos ofrece dos importantes ventajas:
Proporciona la posibilidad de acceder a gran cantidad de información utilizando un código
y s´ımbolo relativamente corto.
Permite cambiar los datos asociados a éste sin tener que editar o modificar nuevamente el
código.
El otro tipo de codificación que surgió no hace tantos años es la codificación bidimensional,
dentro de la cual tenemos los llamados códigos de barras apilados o multifilas (((stacked))) y los
códigos matriz (((matrix ))). La principal ventaja de utilizar códigos de dos dimensiones es que
los datos están codificados tanto en la altura como en la longitud del s´ımbolo y la información
no se reduce sólo al código del art´ıculo, sino que puede almacenar gran cantidad información
que puede ser le´ıda de manera rápida y fiable, sin necesidad de acceder a una base de datos en
donde se almacene dicha información, como ocurre en el caso de los códigos de una dimensión.
Por el contrario, al contener mucha más información que los códigos unidimensionales requieren
de un escáner especial cuyo coste es más elevado.
La seguridad que son capaces de incorporar estos códigos los hace casi invulnerables a los posi-bles
agentes externos que pueden causar su deterioro, ya que éste tipo de códigos han superado
innumerables pruebas de resistencia con el objetivo de determinar su integridad.
Los códigos bidimensionales deben ser considerados como un complemento a la tecnolog´ıa
tradicional de códigos unidimensionales, no como su reemplazo y las ventajas deben ser com-paradas
frente al incremento en coste. Por tanto, dependiendo del tipo de necesidades de iden-tificaci
ón interna del negocio o a los requisitos que se deben cumplir para comerciar según las
normas del mercado, se debe optar por un sistema de codificación u otro.
Normalmente cuando la gente piensa en códigos de barras los suele relacionar con la t´ıpica
simbolog´ıa de barras y espacios, por ello en la Figura 2.2 se muestran un par de códigos bidi-mensionales
como curiosidad, ya que éstos suelen ser, dentro de los códigos de barras, los más
desconocidos.
(a) (b)
Figura 2.2.: Códigos bidimensionales: (a) Codablock; (b) MaxiCode
Para poder imprimir los códigos de barras se nos presentan en el mercado distintos tipos de
impresoras que pueden llevar a cabo tal función. El empleo de una u otra dependerá de lo que
11

el usuario requiera para cada caso en particular.
Los códigos de barras se pueden imprimir en impresoras láser o de chorro de tinta con las cuales
se puede conseguir códigos de barras de alta densidad y calidad, pero, por el contrario, tambien
presentan problemas al imprimir en cantidad, al igual que las etiquetas donde se imprimen los
códigos deben tener un adhesivo especial que tolere las altas temperaturas generadas por la
impresora. Además, la imagen en el código de barras se puede dañar fácilmente, a menos que se
utilicen recubrimientos especiales en las etiquetas o bien laminarlas una vez que se ha impreso
el código.
Otra posibilidad es la impresión térmica directa, método más rápido y simple de gran aceptación
en la industria y el comercio. El coste de las etiquetas térmicas es mayor comparado con el de
las utilizadas para impresoras láser, pero sin embargo el coste del proceso global es menor. Por
tanto este tipo de impresión presenta una serie de ventajas como son su velocidad y calidad de
impresión, donde la imagen es duradera, al igual que es excelente para el trabajo por lotes. Por
el contrario también tiene inconvenientes como que requiere etiquetas de material especial y de
un tamaño limitado y que la imagen puede deteriorarse en caso de exponerse a la luz solar o a
altas temperaturas.
Para obtener unos mejores resultados que en las anteriores impresoras es necesario usar una
impresora espec´ıfica para etiquetas, una impresora de transferencia térmica, capaz de impri-mir,
con gran velocidad y calidad, rollos de etiquetas autoadhesivas. Estos equipos suelen ser
los mejores para aplicaciones de mediano y alto volumen, ya que reúnen las ventajas de las
impresoras láser y las térmicas directas.
En la figura 2.3 se muestra un ejemplo de cada uno de los diferentes tipos de impresoras que
hemos comentado en este apartado.
(a) (b) (c)
Figura 2.3.: Impresoras de códigos de barras: (a) láser; (b) térmica directa; (c) de transferencia
térmica
Para poder obtener la información presente en un código de barras necesitamos de dispositivos
que decodifiquen la información presente en el mismo, por ello los lectores de códigos de barras
nos permiten obtener esta información, de forma que pueda almacenarse en una computadora
para poder ser procesada.
Existen muchas opciones de conexión de lectores de códigos de barras a una computadora,
aunque existen dos tipos básicos: aquellos lectores que almacenan la información en memoria
para después transferirla a una computadora y los lectores de radiofrecuencia que transmiten la
información a la computadora en tiempo real. En los primeros si la computadora central falla,
la recolección de datos puede continuar, al igual que si falla una lector en particular, éste puede
ser reemplazado. Por su parte el segundo sistema presenta una verificación de datos inmediata y
más sofisticada, con una interacción con el usuario que consigue una mayor reducción de errores.
El funcionamiento de los lectores de códigos de barras se podr´ıa explicar de la siguiente manera:
el lector decodifica el código de barras a través de la digitalización proveniente de una fuente
de luz que cruza el código y mide la intensidad de la luz reflejada por los espacios blancos, ya
12

que las barras oscuras absorben la luz y los espacios la reflejan. El patrón de la luz reflejada se
detecta a través de un fotodiodo, el cual produce una señal eléctrica que coincide exactamente
con el patrón impreso del código de barras. Un decodificador usa algoritmos matemáticos para
traducir los impulsos eléctricos en un código binario y transmite el mensaje decodificado a una
computadora como si la información hubiese sido introducida por teclado.
En cuanto a los lectores existe una gran variedad, pero podemos destacar cuatro que son los
principales:
1. Lectores tipo pluma o lápiz (wand):
El modo de uso es simple, el operador coloca la punta del lector en la zona blanca que
está al inicio del código y lo desliza a través del s´ımbolo a velocidad e inclinación constante
haciendo contacto a lo ancho del código, enviándose una señal digital pura de las barras y
espacios a una frecuencia igual a la velocidad con que se desliza el lápiz.
Con este tipo de lector obtenemos una serie de ventajas como son su bajo precio y su
tamaño reducido, por contra son susceptibles a ca´ıdas debido a su forma, pueden ser
necesarias varias pasadas para conseguir una lectura correcta, por lo tanto tiene un bajo
Fisrt Read Rate (FRR) y sólo son prácticos cuando se leen códigos impresos de gran calidad
colocados preferentemente en superficies duras, planas y horizontales.
2. Lectores CCD (Charge Coupled Device):
Son lectores de contacto que emplean un fotodetector CCD formado por una fila de LEDs
que emite múltiples fuentes de luz y forma un dispositivo similar al encontrado en las
cámaras de v´ıdeo, es decir, mediante un arreglo de foto diodos toma una ((foto)) del s´ımbolo
de código de barras y la traduce a una señal, que puede ser similar a la enviada por el láser
o a la del lápiz óptico. Se requiere hacer contacto f´ısico con el código, pero a diferencia del
anterior no hay movimiento que degrade la imagen al escanearla.
Algunas de las ventajas que presenta son su rapidez de lectura, es bastante duradero por
no tener partes móviles, tiene un alto First Read Rate (FRR) y es económico. Sin embargo
no todo son ventajas ya que requiere estar muy cerca del código (0–1.5 cm) y no puede
leer s´ımbolos que rebasen el ancho de su ventana.
3. Lectores láser tipo pistola:
Realiza un barrido mediante una luz láser que genera una señal similar a la del lápiz
óptico, pero a una mayor frecuencia. Esta señal es conocida como HHLC (Hand Held
Laser Compatible). Un espejo rotatorio u oscilatorio dentro del equipo mueve el haz de
un lado a otro a través del código de barras, de modo que no se requiere movimiento por
parte del operador, éste solo debe apuntar y disparar. Además usan un mecanismo para
prevenir la lectura accidental de otros códigos dentro de su distancia de trabajo.
Presenta las siguientes ventajas: rápido, tiene un alto First Read Rate (FRR), puede leer
códigos estropeados o mal impresos y puede leer a distancia, desde unos pocos cent´ımetros
a varios metros.
Las desventajes son: puede tener problemas para leer con demasiada luz ambiental, es
relativamente caro y puede presentar problemas de durabilidad debido a sus partes móviles.
4. Lectores láser fijos omnidireccionales:
Se encuentran normalmente en las cajas registradoras de supermercados. El haz de láser se
hace pasar por un conjunto de espejos que generan un patrón ominidireccional, otorgando
as´ı la posibilidad de pasar el código en cualquier dirección, sin importar la orientación del
13

mismo. Los productos a leer se deben poder manipular y pasar a mano frente al lector.
Son recomendables cuando se requiere una alta tasa de lectura.
Las ventajas que se obtienen con este tipo de lector son las mismas ventajas que con el
láser de pistola, además de presentar un First Read Rate (FRR) de prácticamente el 100 %.
En contrapartida es un lector caro y el operador que lo utilice requiere que los art´ıculos
etiquetados no sean muy voluminosos pues el escáner se monta en posición fija.
En la Figura 2.4 se muestra un lector de cada uno de los diferentes tipos que hemos mencionado
anteriormente.
(a) (b) (c) (d)
Figura 2.4.: Lectores de códigos de barras: (a) tipo pluma o lápiz; (b) lector CCD; (c) láser tipo
pistola; (d) láser omnidireccional
14

3. Detección de bordes
3.1. Técnicas de localización de códigos de barras
Existen distintas técnicas para identificar dónde se encuentra un código de barras dentro de
una imagen [28]:
Algoritmo Morfológico Matemático: Método de localización basado en operaciones
morfológicas básicas como: dilatación, erosión, cierre y un conjunto de operaciones mor-fol
ógicas geodésicas. El algoritmo se basa en el hecho que los códigos de barras poseen
((valles estrechos)) (espacios estrechos existentes entre las barras), un alto contraste y l´ıneas
paralelas. Mediante una segmentación, estos valles se juntan para formar una región que
corresponde al código de barras, descartando pequeñas áreas que no pertenecen al código,
para a continuación aplicar filtros morfológicos en diferentes orientaciones con el fin de
extraer la orientación del código de barras.
Análisis de texturas mediante filtros de Gabor: La idea fundamental sobre la que
se basa este método es asumir que un código de barras es una región con una textura
homogénea. Además en una imagen donde se encuentra presente la textura, el nivel de
gris de los pixels individuales no proporcionan suficiente información para llevar a cabo
una segmentación satisfactoria de la imagen, por ello se hace necesario incluir las relaciones
espaciales existentes entre los niveles de gris de los pixels dentro de una vecindad local.
Detección de texto en las imágenes: Otra idea para la localización de códigos de barras
es utilizar técnicas provenientes de los algoritmos de búsqueda de texto, sin embargo este
tipo de métodos presentan como inconveniente que suelen consumir mucho tiempo.
Densidad de Gradiente: Otro método de localización de códigos de barras es el basado
en la extracción de áreas que poseen una alta densidad de gradientes mono-orientados.
La localización de códigos de barras en una imagen con baja resolución es el principal
propósito de este algoritmo, que utiliza para tal objetivo el cálculo de gradientes y filtros
morfológicos.
En nuestro método, la idea en la que nos basamos para la localización del código de barras,
es muy similar a la presente en la última técnica mencionada. Aunque debemos recalcar que
el conocimiento sobre estas técnicas no se produjo hasta bastante más tarde del comienzo de
este proyecto. Simplemente, el descubrir que exist´ıan y conocer en qué se basan, sobretodo esta
última, nos llevó a pensar que no ibamos mal encaminados en cuanto a la manera en que se
detecta y localiza el código de barras en nuestro proyecto.
Por tanto, el objetivo final que perseguimos es conseguir la decodificación del código de barras,
para lo cual un paso esencial es la localización dentro de la imagen del código en cuestión.
La idea fundamental que se ha seguido para conseguir esta tarea ha sido que los códigos de
barras presentan unas caracter´ısticas que permiten su localización basándonos en el método de
la detección de bordes, ya que cada uno de los puntos de borde que conforman el código de
barras ((supuestamente)) presentarán una orientación similar y por tanto, serán susceptibles de
ser clasificados como puntos de la imagen con una alta probabilidad de contener el código de
barras pretendido.
15

3. Detección de bordes
3.2. Detector de bordes de Canny
Un concepto relacionado con la extracción de bordes es el de la primera derivada, ya que ésta
es cero en todas las regiones donde no var´ıa la intensidad y tiene un valor constante en toda la
transición de intensidad. Por tanto un cambio de intensidad se manifiesta como un cambio brusco
en la primera derivada [24], caracter´ıstica ésta que puede utilizarse para detectar la presencia
de un borde.
Uno de los operadores basados en la primera derivada para la detección de bordes es el
algoritmo de Canny, que consiste en tres grandes pasos [24]:
Obtención del gradiente (magnitud y orientación del vector gradiente en cada p´ıxel).
Supresión no máxima o adelgazamiento del ancho de los bordes, obtenidos con el gra-diente,
hasta lograr bordes de un p´ıxel de ancho.
Histéresis de umbral al resultado de la supresión no máxima, con este proceso se pre-tende
reducir la posibilidad de aparición de falsos contornos.
Por tanto, en primer lugar a la imagen se le aplica un filtro gaussiano, para suavizar la imagen
y tratar de conseguir la eliminación del posible ruido que afecte a la misma. Sin embargo hay
que ir con cuidado para no realizar un suavizado excesivo de la imagen y perder detalles o
caracter´ısticas de interés, provocando de esta forma un peor resultado.
A continuación se realiza el cálculo del gradiente de la imagen suavizada, utilizando para ello
una aproximación del gradiente de la función Gaussiana.
La imagen correspondiente a la magnitud del gradiente de la función gaussiana tendrá valores
grandes donde la variación de la intensidad sea grande. Por esta razón se debe eliminar aquellos
pixels que no tienen una magnitud alta utilizando para ello un cierto umbral.
Posteriormente se realiza un proceso de eliminación de falsos bordes, conjuntamente a un
realzado de bordes poco definidos. Este proceso se consigue eliminando aquellos pixels que no
son máximos locales.
Un punto a tener en cuenta es la elección de los valores de las variables que se aplican en
cada uno de los pasos anteriores, ya sea el valor de los umbrales o de la varianza en los filtros
gaussianos por ejemplo, ya que según estos valores los resultados pueden ser mejores o peores.
Los valores que se han tomado definitivamente para estos parámetros se muestran más adelante,
en el cap´ıtulo 8.
En resumen, la detección de bordes usando operadores de aproximación del gradiente tiende a
funcionar bien en los casos en que se utilizan imágenes con transiciones de intensidad claramente
definidas y ruidos relativamente bajos [24].
El algoritmo de Canny para la detección de bordes se explica con más detalle en el apéndice A.
3.3. Ejemplo
Previamente a la utilización del algoritmo de Canny para la detección de bordes se probó con
otros operadores como los de Sobel, pero el resultado que se obten´ıa era bastante peor que
con el primero. Al aplicar el filtro de Sobel, para conseguir el gradiente y posteriormente su
magnitud y orientación, el resultado que se obten´ıa se ve´ıa afectado por el ruido que presentaba
la imagen. Por este motivo se pensó en aplicar previamente un filtro media o mediana para
suavizar la imagen y as´ı obtener mejores resultados, pero la imagen tend´ıa a emborronarse
en vez de suavizarse. Otra opción que se hubiese podido aplicar es la utilización de un filtro
Gaussiano previamente al filtro de Sobel, sin embargo esta posibilidad no se probó, ya que
directamente enfocamos nuestra atención hacia el detector de bordes de Canny.
16

3.3. Ejemplo
Un ejemplo de los resultados que se obtienen al aplicar el algoritmo de Canny se puede observar
en la Figura 3.1:
(a) (b)
(c) (d)
Figura 3.1.: Resultado de aplicar el detector de bordes de Canny: (a) imagen original; (b) orien-taci
ón; (c) supresión no máxima; (d) histéresis de umbral
17

4. Detección de regiones candidatas
4.1. Idea general
Una idea que manejamos a la hora de detectar el código de barras dentro de la imagen es que
((supuestamente)) los pixels que forman parte del código van a tener una orientación similar o
muy parecida, por ello se pretende extender la orientación de los puntos de borde de la zona
donde se encuentra el código a los puntos de ésta que no lo son, creando as´ı una región de
orientación similar que podrá seleccionarse como región que contiene el código. Los puntos de
borde representan la separación entre los espacios y las barras del código, por este motivo se
pretende extender la orientación de estos puntos a aquellos puntos que no son borde y en los
cuales no tenemos nada. De esta forma se consigue una zona amplia con orientación similar
donde se encuentra el código de barras.
Con este fin, una vez hemos conseguido el valor de la orientación del gradiente de intensidad
para cada uno de los pixels de la imagen, operación realizada en el paso anterior, se prosigue el
proceso realizando un análisis multiresolución de la imagen. Con esta operación vamos a obtener
una pirámide de imágenes donde cada imagen que precede a otra siempre será de mayor tamaño,
es decir, se van consiguiendo imágenes de menor tamaño. Pero esta operación no sólo conlleva
una reducción del tamaño de la imagen progresivamente, sino que se pretende, como hemos
comentado, conseguir extender la orientación de manera que podamos seleccionar una región de
la imagen como posible zona donde se encuentra el código de barras por poseer, localmente, un
valor de orientación común.
4.2. Procedimiento
El proceso que se sigue es el siguiente: se divide el tamaño de la imagen por dos, reduciendo
éste hasta alcanzar un determinado tamaño, por tanto cuatro pixels de la imagen en un cierto
nivel pasarán a ser uno en la imagen de nivel posterior. A partir del valor de la orientación de
estos cuatros pixels se calcula la media, pero sólo participan en esta operación los pixels que
pertenezcan a un punto de borde. As´ı, el pixel en la imagen reducida tomará un valor para la
orientación que será la media de los pixels de los que proviene, que serán aquellos que son puntos
de borde.
Además, si los cuatro pixels no pertenecen a ningún punto de borde, entonces el nuevo pixel
que se obtiene se etiqueta como ((no-borde)), de forma que nos va a servir para descartar zonas
donde no hay ningún punto de borde y por tanto es poco probable que el código de barras se
encuentre en ellas.
Por tanto, si partimos de una imagen I iremos cogiendo 4 pixels de la siguiente forma:
I(i, j) I(i + 1, j)
I(i, j + 1) I(i + 1, j + 1)
A partir de estos pixels se toman aquellos que son bordes y se realiza una media.
¯I =
X
(i,j)2N
I(i, j)
19

siendo N el conjunto de pixels que son borde dentro de la vecindad considerada.
El procedimiento implementado se muestra en el Algoritmo 1 en pseudo-código para una
mejor comprensión de los pasos realizados. Nos aparece en el mismo la función Vecindad() que
nos devuelve el conjunto de pixels vecinos de un determinado punto según la vecindad indicada.
Además esta función ya tiene en cuenta no acceder a puntos de fuera de la imagen. Esta función
también será usada en algoritmos que aparecen más adelante.
Algoritmo 1 Agrupamiento de la orientación según la vecindad
Entrada: La imagen O de la orientación de tamaño M ×N, la imagen E de bordes de tamaño
M × N y la vecindad Vx × Vy utilizada
Salida: La imagen S de tamaño M
Vx
× M
Vy
1: for x ( 1 to M with step Vx do
2: for y ( 1 to N with step Vy do
3: numbordes ( 0
4: Suma ( 0
5: for all (i, j) 2 Vecindad(x, y, Vx, Vy) do
6: if E(i, j) = 1 then
7: numbordes ( numbordes + 1
8: Suma ( Suma + O(i, j)
9: if numbordes = 0 then
10: S( x
Vx
, y
Vy
) ( ((no-borde))
11: else
12: S( x
Vx
, y
Vy
) ( Suma
numbordes
Debemos señalar que este algoritmo se utiliza sólo para el primer nivel, es decir, cuando
partimos de la imagen de la orientación obtenida en el punto anterior. A partir de entonces el
algoritmo a utilizar es muy similar a éste, simplemente cambia que la entrada será la imagen de
salida del Algoritmo 1 y por tanto en vez de quedarnos con aquellos puntos que son bordes nos
quedaremos con aquellos que no estén etiquetados como ((no-borde)). El resto del funcionamiento
del algoritmo es el mismo.
Una vez hemos obtenido la última imagen del escalado, es decir, hemos llegado al último nivel
L, realizamos ahora el proceso inverso, es decir, si hemos subido en la pirámide de imágenes vamos
ahora a bajar, de forma que un p´ıxel extenderá su valor a los cuatro pixels de los que proven´ıa.
Con este proceso se pretende extender, en la zona donde se encuentra el código, la orientación
de los pixels que eran bordes a aquellos que no lo eran, todo ello para intentar homogeneizar la
orientación en nuestra región de interés y as´ı, de esta forma, poder posteriormente elegir todos
estos pixels como posible zona donde pueda encontrarse el código de barras. El procedimiento
utilizado se describe en el Algoritmo 2.
Algoritmo 2 Reconstrucción para extender la orientación
Entrada: Imagen I de tamaño M × N y la vecindad Vx × Vy utilizada
Salida: Imagen S de tamaño (M · Vx) × (N · Vy)
1: for x ( 1 to M do
2: for y ( 1 to N do
3: i ( x · Vx
4: j ( y · Vy
6: S(i, j) ( I(x, y)
20

4.3. Ejemplo
Sin embargo, después de realizar esta operación, es decir, subir y bajar en la pirámide de
imágenes, la zona donde se encontraba el código no presentaba esa homogeneidad que se pre-tend
´ıa y todav´ıa exist´ıa demasiada variación dentro de la zona en cuestión.
Por tanto se pensó que para este proceso se podr´ıa coger una división mayor y en vez de
un conjunto de 2 × 2 pixels de los que pasamos a uno, realizarlo de 3 × 3 o superior, pero los
resultados tend´ıan a ser peores, es decir, cuanto más grande es la vecindad que cogemos para
reducir, los resultados empeoran, de forma que la homogeneización, en cuanto al valor de la
orientación de la zona donde se encuentra el código, es peor.
Esto puede ser debido a que al coger más puntos para realizar la media, en la zona próxima al
código estamos cogiendo un número mayor de pixels que son puntos de borde y que no pertenecen
al código y cuyo valor afecta de manera negativa a la hora de calcular la orientación. De alguna
manera estamos provocando el proceso contrario al pretendido, ya que el valor de la orientación
de los puntos de borde de la frontera exterior al código y que no pertenecen al código de barras,
dominan a los puntos de borde de dentro del código, provocando que su orientación se extienda
hacia dentro del código y reduciendo as´ı la región donde se encuentra éste.
Otra opción con la que los resultados que se obtuvieran podr´ıan ser mejores, era la posibilidad
de utilizar la mediana y no la media, por su mayor robustez estad´ıstica. Al cambiar la media por
esta operación empezamos a conseguir lo que se pretend´ıa, debido, seguramente, a que la media
se pod´ıa ver afectada, a la hora de realizarse la operación, por un valor muy alto en cuanto al
resto de valores o viceversa.
4.3. Ejemplo
Por tanto con este nuevo paso los resultados que se consiguieron eran los deseados. En la
Figura 4.1 podemos observar un ejemplo de las imágenes que se obtienen en este nuevo proceso,
tanto cuando subimos en la pirámide, como cuando bajamos.
21

(a) (b)
Figura 4.1.: Detecci´on de regiones candidatas: (a) resultado del proceso cuando subimos; (b)
resultado del proceso cuando bajamos
22

5. Etiquetado y filtrado de regiones
5.1. Etiquetado de componentes conexas
Una vez realizado el paso anterior, deb´ıamos pensar una forma de poder discriminar el conjunto
de pixels que no nos proporcionan información relevante y quedarnos sólo con aquellos que nos
interesan por contener la región de la imagen donde supuestamente se encuentra el código que
se pretende detectar.
En busca de este objetivo se pensó en utilizar algoritmos de etiquetado de componentes
conexas, cuya idea básicamente consiste en agrupar pixels de una misma región dentro de la
imagen, para lo cual les asigna la misma etiqueta a cada uno de ellos. Simplemente se presentaba
un problema y es que la imagen a partir de la cual se aplican estos algoritmos debe ser binaria.
Por ello deb´ıamos binarizar, de alguna forma, el resultado obtenido en el proceso anterior, para
poder después aplicar el algoritmo de componentes conexas.
El concepto de componentes conexas es el siguiente: todos los pixels que tienen un mismo
valor binario “1” y están conectados entre s´ı (usando 4-conectividad u 8-conectividad) por un
camino o conjunto de pixels todos con ese mismo valor binario se les asigna una misma etiqueta
identificativa, que debe ser única de la región a la cual pertenecen los pixels y constituye su
identificador [24].
5.2. Procedimiento
Con el fin de obtener la binarización deseada se pensó en la siguiente idea: cuando ((subimos)) en
la pirámide, como comentamos en el punto anterior, estamos intentando que la zona de la imagen
donde se encuentra el código de barras se homogeinice, en cuanto al valor de la orientación, y
as´ı, posteriormente, poder elegir todos estos pixels, con valor similar, como posible zona donde
se encuentra un código de barras. Sin embargo, ahora cuando ((bajamos)), en lugar de extender
la orientación a los distintos pixels según la división implementada, podemos aprovechar para
binarizar y realizar a continuación su correspondiente expansión.
Por tanto una vez hemos llegado al último nivel (el más alto de la pirámide) nos disponemos
a binarizar dicha imagen siguiendo el siguiente criterio: si la mitad de los pixels de la vecindad
elegida para la división son parecidos o similares entre s´ı, es decir, no distan mucho en cuanto al
valor de la orientación, según un umbral predeterminado, entonces todos los pixels de la vecindad
tendrán el valor binario ((1)), si no es as´ı serán ((0)), al igual que si más de la mitad de los pixels son
puntos etiquetados como ((no-bordes)), también toman el valor ((0)). Una vez tenemos la imagen
binarizada, simplemente se trata a continuación de extender esta binarización hasta el nivel
inicial, el cual se corresponde a una imagen de tamaño igual al de la imagen original. El proceso
de binarización se puede observar en el Algoritmo 3 y el proceso de extender la orientación es
similar al que aparece en el Algoritmo 2. En el Algoritmo 3 aparece la función RelPixels() que
simplemente se encarga de ver la relación existente entre los pixels de la vecindad elegida y,
según el umbral determinado, devolver una cantidad que nos indica el número de pixels que son
similares entre s´ı.
Se probó un poco con todas las posibles variables que nos dan juego a la hora de realizar este
proceso, para ver cuáles son las condiciones con las cuales se obtienen los mejores resultados.
23

Algoritmo 3 Binarización de un determinado nivel l de la pirámide
Entrada: Una imagen Ol de tamaño M × N, la vecindad Vx × Vy y un umbral U
Salida: Una imagen binaria S de tamaño M × N
1: mitad ( (V x · V y)/2
2: for x ( 1 to M with step Vx do
3: for y ( 1 to N with step Vy do
4: num ( 0
6: if I(i, j)6= ((no-borde)) then
7: V ect[num] ( Ol(i, j)
8: num ( num + 1
9: if num < mitad then
11: S(i, j) ( 0
12: else
13: n ( RelPixels(V ect,U)
14: if n > mitad then
16: S(i, j) ( 1
17: else
19: S(i, j) ( 0
Se realizaron pruebas con diferentes tamaños en cuanto a las operaciones de agrupamiento de
los pixels vecinos 3 × 3, 5 × 5, etc., al igual que se probó a realizar el proceso de binarización
no desde el último nivel sino desde cualquier otro de los calculados. Después de varias pruebas
se pudo comprobar que utilizar una vecindad de 2 × 2 es la mejor opción, al igual que realizar
la binarización a partir, no desde el último nivel, sino desde dos niveles menos. Además, otra
conclusión que se obtuvo después de probar distintas opciones, es que el nivel desde el cual es
mejor empezar a binarizar depende del tamaño del código de barras con respecto al tamaño de
la imagen, algo que, en nuestro caso asumimos, por su simplicidad, como constante.
Una vez obtenida la imagen binarizada del mismo tamaño que la imagen inicial, una compro-baci
ón para asegurarnos que vamos por el camino acertado, no a nivel del algoritmo, sino como
comprobación visual nuestra, es superponer a la imagen original esta imagen binarizada, para
ver que conjunto de pixels se están eligiendo, es decir, aquellos pixels que son la zona donde
supuestamente está el código. De esta manera se puede ver si el código de barras está dentro de
alguna de las regiones que detectaremos con los algoritmos antes mencionados. El resultado de
esta operación se puede ver en la Figura 5.1, donde las regiones obtenidas se superponen a la
imagen original que nos aparece en la Figura 3.1 (a).
Como hemos comentado, si cambiamos las opciones elegidas para realizar el proceso, el tamaño
de la vecindad con el que operar y el nivel a partir del cual binarizar, los resultados son bastante
peores como se puede observar en la Figura 5.2.
El algoritmo de etiquetado de componentes conexas que utilizamos es el que se denomina algo-ritmo
clásico [24] (Apéndice B). Este algoritmo realiza sólo dos pasadas a la imagen, necesitando
para todo el proceso mantener una tabla de equivalencias de etiquetas.
El resultado del algoritmo se muestra en la Figura 5.3, donde las regiones obtenidas se han
coloreado para que se observe mejor el resultado.
Por tanto, una vez aplicado el algoritmo a nuestra imagen, sólo falta, para finalizar, descartar
24

5.3. Resultados
Figura 5.1.: Imagen original con la máscara correspondiente a las regiones candidatas
(a) m = 2, L = L (b) m = 3, L = L − 2 (c) m = 5, L = L − 1
Figura 5.2.: Distintas imágenes obtenidas según la vecindad, de tamaño m, y el nivel L desde
el cual binarizar siendo L el último nivel de la pirámide: (a) resultado obtenido con
una vecindad 2 × 2 y binarizando a partir del último nivel; (b) resultado obtenido
con una vecindad 3×3 y binarizando a partir del nivel L−2; (c) resultado obtenido
con una vecindad 5 × 5 y binarizando a partir del nivel L − 1
aquellas regiones que no nos interesan y quedarnos con la que contiene el código de barras. Por
ello, en nuestro caso, nos quedaremos con la región con mayor número de pixels, que será, con
gran probabilidad, la región con más posibilidades de contener la zona donde se encuentra el
código de barras.
5.3. Resultados
A continuación mostraremos un conjunto de imágenes con el resultado obtenido al aplicar el
algoritmo de etiquetado de componentes conexas y quedarnos con aquella región con un mayor
número de pixels. De esta forma se podrá observar en qué casos el proceso funciona, en cuáles no
es exacto y qué factores afectan al mismo. Antes de todo recalcar que el algoritmo en un principio
se usaba para una 4-conectividad, pero se modificó para utilizar una mayor conectividad, ya que
de esta manera los resultados eran mejores.
En la Figura 5.5 podemos observar que tanto en la imagen (a) como en la (b) el resultado
es bastante bueno, aunque no se incluyan unos pocos puntos del código dentro de la región.
En la imagen (c) el código de barras previamente fue modificado manualmente, dibujando una
l´ınea al principio y otra al final del mismo para ver qué resultado obten´ıamos. Como se puede
25

Figura 5.3.: Resultado del algoritmo de etiquetado de componentes conexas
Figura 5.4.: La región de mayor tamaño de la Figura 5.3, hemos descartado las regiones que no
nos interesan y nos hemos quedado con la región que contiene un mayor número de
pixels
observar, la región obtenida después de realizar el proceso incluye estas dos falsas barras, como
es lógico, ya que el proceso las considera como propias del código. Este caracter´ıstica de los
códigos de barras, la facilidad con la cual es posible dañarlos, conlleva la consiguiente dificultad
para los lectores que intenten descifrar dicho código. Pero esto ocurre también con otros tipos
de codificación, por ejemplo, caracteres normales, los cuales si son dañados se dificulta, en gran
medida, su legibilidad.
En la Figura 5.6 podemos ver tres diferentes imágenes del mismo código de barras, pero en
cada una de ellas el código se ha visto afectado por distintos factores que provocan el deterioro
del mismo. Como se observa aunque el código está rayado, como en (a) o en (b), o incluso
emborronado, como en (c), la región que determina la zona donde se encuentra el código es
bastante acertada y no aparecen muchos huecos dentro de la misma. Esto es debido a que las
supuestas ((manchas)) que contiene el código, no tienen un trazo muy intenso con lo que no
afectan en gran medida al proceso, cosa muy diferente ser´ıa si fueran más intensas, más oscuras,
como en los siguientes ejemplos.
En la Figura 5.7 vemos como en las imágenes (a) y (b), el ruido provocado por unas rayas de
26

5.3. Resultados
(a) (b) (c)
Figura 5.5.: Resultado del proceso de localización ante un código de barras: (a,b) no dañado; (c)
al que se le ha dibujado una barra al principio y otra al final
(a) (b) (c)
Figura 5.6.: Diversas imágenes de un mismo código de barras dañado por una serie de factores:
(a) dañado con una sola l´ınea; (b) afectado por más de una l´ınea; (c) emborronado
trazo más intenso que en la Figura 5.6, s´ı que afectan en mayor medida al proceso, provocando
que la región que contiene el código no sea todo lo exacta que se precisa y dificultando su posterior
decodificación. En la imagen (c) se han complicado todav´ıa más las cosas, incluyendo además de
las rayas un elemento metálico (((clip))) encima del código para comprobar as´ı el funcionamiento
del proceso ante tal situación. Como era lógico la región que se obtiene descarta la zona del
código donde se encuentra el ((clip)), además de los puntos donde se encuentran las manchas, con
lo cual es muy poco probable que esta región nos pueda llevar a una posible decodificación con
éxito.
27

(a) (b) (c)
Figura 5.7.: Resultado del proceso de detección del código de barras ante diversas situaciones:
(a) código de barras rayado; (b) el mismo código que en la imagen anterior, pero al
que se le han añadido más modificaciones; (c) misma imagen que la anterior, pero
añadiendo un elemento ajeno al código de barras sobre él
(a) (b) (c)
Figura 5.8.: Conjunto de imágenes a las que se les ha aplicado una transformación geométrica:
(a) rotación de 30; (b) espiral de −45; (c) espiral de 100
Para una mayor comprobación, en cuanto al buen funcionamiento de este proceso, se ha
transformado una imagen digitalmente para ver qué ocurre cuando introducimos algún tipo de
transformación geométrica en la misma, esto se observa en la Figura 5.8. En la imagen (a) se
ha aplicado una rotación con un cierto ángulo, de esta forma en la imagen aparece además
del propio código a decodificar, un trozo del mismo en una esquina. La región que obtenemos
contiene tanto el código, como el trozo que aparece en la esquina inferior. Esto es debido a la
forma en que agrupamos los pixels con una orientación parecida según un cierto umbral. Como
28

5.3. Resultados
vemos esto tiene sus ventajas a la hora de capturar la zona donde se encuentra el código, cómo
se observa en la imagen (b) y (c), pero por el contrario provoca que aquellas partes de la imagen
donde la orientación es muy similar, y que no pertenezcan al propio código de barras, también
se puedan elegir como posible zona donde se encuentre éste.
En la imagen (b) y (c) la transformación geométrica realizada ha sido la misma en ambas, una
especie de remolino o espiral (((swirl))), pero utilizando ángulos distintos. Aunque parezca dif´ıcil,
obtenemos unas regiones que contienen el código de barras con bastante exactitud, sin embargo
la decodificación en nuestro caso es imposible. Para poder decodificar el código deber´ıamos ir
calculando las distintas orientaciones que el código presenta desde la primera barra hasta la
última, para as´ı poder ir rectificando el código con el ángulo adecuado en cada momento y
conseguir as´ı su decodificación.
Después de poder observar todos estos ejemplos parece que el proceso se comporta bastante
bien, siempre y cuando el código no se vea afectado, en gran medida, por algún tipo de ruido,
como manchas o rayas presentes en el código. Además incluso aquellas imágenes en las que se
les ha aplicado una transformación geométrica, la zona donde se encuentra el código se detecta,
aunque su posterior decodificación se complicar´ıa, y no se aborda en este proyecto.
Deber´ıamos comentar que se intentaron capturar imágenes que sufrieran algún tipo de defor-maci
ón geométrica natural, realista, cómo puede ser que la hoja donde se encuentre impreso el
código de barras esté doblada por ejemplo. El proceso de localización creemos que igual fun-cionar
´ıa en estos casos, el problema de no poder tener imágenes para comprobarlo ha sido por
culpa del enfoque. La imagen del código de barras, si ten´ıamos doblada la hoja, presentaba zonas
donde era dif´ıcil enfocar y obtener resultados n´ıtidos.
También pudimos comprobar que algunas pruebas en las que el código no presentaba ninguna
raya ni mancha el resultado obtenido no era el deseado. Esto es debido a que el proceso se ve
bastante afectado por la calidad de la imagen, por lo que algunas mejoras para incrementar la
robustez del método pasar´ıan, posiblemente, por realizar algún tipo de preproceso de la imagen
con el objetivo de evitar esta dependencia.
29

30

6. Estimación de la orientación y rectificación
6.1. Idea general
Todos los pasos realizados hasta este instante nos han permitido poder localizar la región de
la imagen donde se encuentra el código de barras. Como es obvio, el código de barras puede estar
en cualquier posición dentro de la imagen, al igual que puede presentar cualquier orientación, lo
que dificulta su localización.
Por tanto, debemos calcular la orientación que presentan los puntos de borde que contiene
la región susceptible de contener al código y que hemos obtenido en el paso anterior. Una vez
conocida esta orientación simplemente debemos rectificar la imagen y conseguir a continuación
una imagen que sólo contenga el código. Esta subimagen será binarizada para su posterior
decodificación.
6.2. Procedimiento
El procedimiento utilizado para averiguar el ángulo que debemos aplicar en la rotación de
la imagen y que de esta manera se nos quede en sentido horizontal, es decir, con las barras
verticales, ha sido el siguiente: de todos los puntos de borde que se encuentran en la región que se
ha seleccionado, que es donde se encuentra el código, nos quedamos con el valor de la orientación
de cada uno de ellos y calculamos la mediana para conseguir el valor más representativo de la
orientación en esa zona. Se calcula la mediana en vez de la media, ya que ésta primera resulta
ser más robusta.
Una vez obtenemos la orientación que representa a todo el conjunto de puntos que conforman
la zona donde se encuentra el código, simplemente tenemos que utilizarla para rotar la imagen
original una cantidad igual al ángulo estimado.
(a) (b) (c)
Figura 6.1.: Rotaciones con la orientación estimada usando la mediana: (a) imagen original; (b)
imagen original rotada; (c) región donde hemos estimado que se encuentra el código
Una vez realizada la rotación, lo que se pretende es obtener una imagen de tamaño igual a la
caja de m´ınima inclusión [13] que contiene el trozo de imagen original rotada que se corresponde
31

6. Estimación de la orientación y rectificación
al código de barras. Para ello debemos basarnos en la región obtenida en el paso anterior y en la
imagen original rotada, siendo el resultado el que se muestra en la imagen (a) de la Figura 6.2.
Una vez obtenida esta nueva imagen, sólo nos queda binarizarla para facilitarnos su posterior
decodificación. Con el objetivo de obtener una mejor binarización realizaremos una ecualización
del histograma [12] que nos permitirá conseguir un mayor constraste entre las barras negras y
los espacios como se puede observar en la imagen (b) de la Figura 6.2.
(a) (b)
Figura 6.2.: Caja de m´ınima inclusión que incluye la región donde hemos determinado que se
encuentra el código: (a) antes de la ecualización del histograma; (b) después de la
ecualización del histograma
Para la obtención del umbral a partir del cual realizar la binarización existen diversos métodos
automáticos de búsqueda de éste [11], como el algoritmo de Otsu [8], que es el empleado en
nuestro caso. El umbral que se obtiene con este método se considera aquel punto que parte los
pixels de una imagen en dos clases de niveles de gris C0 = {0, 1, . . . , t} y C1 = {t+1, t+2, . . . ,L},
siendo L el valor máximo de niveles de gris y t el umbral óptimo que maximiza la separabilidad
de estas dos clases. El método se explica con más detalle en el Apéndice C.
De esta manera, el resultado que se obtiene después de la binarización, utilizando como umbral
el obtenido con el algoritmo de Otsu, es el que aparece en la Figura 6.3.
Figura 6.3.: Binarización utilizando el algoritmo de Otsu
Tanto la ecualización del histograma como la búsqueda automática del umbral, mejoran los
resultados de la binarización, ya que en un primer momento no usábamos estas técnicas, siendo
además el umbral un valor fijo, con lo cual se obten´ıan unos resultados bastante peores. Esto se
podrá comprobar, con mayor detalle, en el siguiente cap´ıtulo.
32

7. Decodificación
7.1. Introducción
Durante la fase de decodificación surgieron bastantes problemas que nos hicieron pensar que
la decodificación no es un proceso tan trivial como en un principio pueda parecer, una vez
conseguida la localización del código dentro de la imagen.
Mientras se pensaba en un procedimiento que nos permitiese decodificar el código obtenido
en las fases anteriores, surgió la idea de utilizar técnicas relacionadas con el reconocimiento del
habla. Dentro de estas técnicas encontramos los modelos de Markov [25], que a base de entre-namiento
consiguen identificar palabras de una frase analizando los fonemas que las caracterizan.
Sin embargo dominar esta técnica requiere de mucho tiempo, además una vez determinados los
autómatas que conforman el modelo se necesita de un aprendizaje, con el consiguiente gasto de
tiempo que ello conlleva y sobretodo, no se ten´ıa la certeza de que fuera a funcionar en nuestro
caso. Debido a estas razones, y a la limitación del tiempo que ten´ıamos para la realización de
nuestro proyecto, se descartó su uso.
Otra técnica relacionada con la anterior es la técnica DTW (Dynamic Time Warping) [23, 15].
Este método intenta el reconocimiemto de palabras conectadas en una frase, pero al contrario
que en los modelos de Markov no requiere de entrenamiento. Llegó a implementarse un algoritmo
representativo de esta técnica, pero adaptado a nuestro caso en particular, es decir, en vez de
conseguir descifrar palabras dentro de una frase intentamos descifrar d´ıgitos de una secuencia
binaria. Los resultados no fueron los deseados y se desestimó esta opción.
Otro motivo que provocó que desestimaramos estas dos opciones es que son métodos dema-siado
generales para lo que se pretende en este proyecto. Tiene sentido reconocer palabras con
estas técnicas, ya que las palabras pueden sufrir deformaciones según quien las pronuncia, el
acento, etc. Nosotros no vamos a alargar nuestro código, ni sufrirá deformaciones similares a las
indicadas, sólo nos afecta la correcta estimación de la orientación para la rectificación del código
de barras. Por tanto tendr´ıa sentido utilizar estas técnicas, si nuestro código si que sufriese esa
serie de transformaciones que provocasen su alargamiento, por ejemplo.
Incluso se pensó en utilizar la técnica de crestas y valles (ridges and valleys) [21], utilizada en
ciertos campos, como la medicina o en el procesamiento de huellas digitales. Para ello se utilizan
estas crestas o valles que aparecen en la imagen como caracter´ısticas geométricas útiles en el
análisis de imágenes.
Uno de los trabajos relacionados con los códigos de barras [28], del cual obtuvimos bastante
información y que mencionamos en el primer cap´ıtulo de esta memoria, intentaba decodificar
el código de barras de la siguiente forma: una vez obtenida la región de interés se extra´ıa de la
misma una onda donde aparecer´ıan crestas y valles correspondientes a los espacios y las barras
del código. La onda se umbraliza para conseguir que los elementos de las barras y espacios del
código se distingan con claridad. Se extraen elementos de la onda según las anchuras que éstos
presentan en el tipo de código a interpretar. Finalmente, conociendo lo que ocupa un carácter
según el tipo de codificación, se van obteniendo los distintos caracteres que contienen el código
y se decodifican.
33

7. Decodificación
7.2. Procedimiento
La decodificación se basa en el conocimiento del tipo concreto de código de barras que se
utiliza, en nuestro caso el código EAN-13. Por este motivo recordar que la forma de codificación
del código EAN-13 se explica en el Apéndice D página 57 de esta memoria, por lo que en caso
de duda, ante algunos de los comentarios que vamos a mencionar sobre el tipo de codificación,
sirva este apartado como gu´ıa o ayuda.
En cuanto a la decodificación del código de barras podemos aprovechar las posibles ventajas
que se nos presenten, es decir, podemos utilizar el conocimiento ((a priori)) que tenemos, para
simplificar el problema. En nuestro caso en particular, la ventaja primordial es que nosotros pre-tendemos
decodificar códigos de barras utilizados para codificar la numeración ISBN de los libros
y, debido a ello, conocemos de antemano que los códigos de barras de este tipo de publicaciones
empiezan con los d´ıgitos 978. Sabemos pues que el primer d´ıgito es el 9 y, consecuentemente,
la disposición en cuanto al tipo de codificación que presentará la primera parte del código, es
decir, el d´ıgito 9 se corresponde con la secuencia ABBABA. Por todo ello podemos determinar que
nuestro código presentará la siguiente forma (Tabla D.4 página 59):
9 ABBABA CCCCCC
donde cada d´ıgito se codifica según el tipo de codificación que se ha determinado.
Para decodificar nuestro código vamos a trazar una serie de l´ıneas imaginarias horizontales
sobre la imagen binaria centrada en el código obtenida en la fase anterior, a modo de los lectores
láser, quedándonos con el valor de cada p´ıxel por el que se atraviesa. El trazar más de una l´ınea
persigue una mayor seguridad a la hora de que la decodificación sea correcta, por ello el número
de l´ıneas que vamos a realizar será igual a la altura de la imagen.
Las l´ıneas que obtengamos debemos poder dividirlas en segmentos correspondientes a cada
uno de los posibles patrones que debemos encontrar, es decir, patrón inicial y final, el patrón
intermedio y el correspondiente a cada uno de los d´ıgitos que componen el código. El patrón
inicial y el final están formados por tres módulos (101), donde un módulo como se explicó en el
apartado 2.2 (página 7), es la unidad m´ınima o básica de un código. El patrón intermedio, por su
parte, está formado por cinco módulos (01010) y cada uno de los d´ıgitos está compuesto por 7
módulos. Con esta información, si sabemos que en el código nos aparecen 12 d´ıgitos codificados,
ya que el primero no lo está, tendremos una cantidad total de módulos de 95:
Inicio Seis d´ıgitos Intermedio Seis d´ıgitos Fin Número de módulos
3 6 · 7 5 6 · 7 3 95
Pero las l´ıneas que calculemos van a tener una cantidad de pixels que dependerá de la escala
a la que esté el codigo dentro de la imagen. Por ello debemos calcular esta deformación y ver
como nos afecta en nuestro caso, calculando cuántos pixels por módulo tenemos, es decir:

= n
M
donde n es la cantidad total de pixels que conforman el c´odigo en nuestra imagen,

será el
número de pixels por módulo y M es la cantidad total de módulos que aparecen en un código,
que en nuestro caso, como hemos visto, vale 95.
Una vez obtenemos este dato podemos averiguar la relación de pixels que se corresponde con
cada uno de los patrones antes mencionados, simplemente multiplicando el número de módulos
por el número de pixels por módulo

, es decir, el tamaño de un d´ıgito será el valor que se
obtenga de multiplicar el número de pixels por módulo

por 7 m´odulos que forman un d´ıgito.
34

7.2. Procedimiento
Con estos datos podemos ir dividiendo la l´ınea y quedarnos con los pixels correspondientes
a cada d´ıgito dentro de la l´ınea e intentar averiguar cuál es este d´ıgito. Actuaremos de la
siguiente manera: si sabemos que un d´ıgito codificado con la codificación de tipo A va a seguir
un determinado patrón, teniendo una cantidad de ceros seguida de otra de unos, luego más ceros
y por último otra vez unos, podemos determinar el tamaño máximo que nos va a ocupar un
d´ıgito de la siguiente manera:

= m ·

(número de pixels por módulo) es 2 y m = 7, siendo m el número de módulos que forma
un d´ıgito,
= 14, siendo
el número máximo de pixels que ocupará un d´ıgito. Dentro de este
tamaño buscaremos el patrón que hemos comentado (0101, con una cierta cantidad en cada caso
de ceros y unos). Podemos encontrar este patrón dentro de los 14 pixels y que el último p´ıxel
sea el número 14 o no, y sea el 13 o el 12, simplemente donde nos quedemos será el p´ıxel de
comienzo del siguiente d´ıgito y a partir de éste empezaremos a buscar el patrón correspondiente
al siguiente d´ıgito en los 14 pixels que le siguen. Para un mejor entendimiento veamos este
ejemplo,
. . . 11 |0000111{z1000111}
14
|000110{0z001111}
13
0
| {z }
14
000 . . .
Como se observa, el primer d´ıgito ocupa los 14 pixels que puede tener como máximo, sin
embargo el segundo d´ıgito no ocupa los 14 pixels sino 13, luego la posición en la que empezará el
siguiente d´ıgito será el p´ıxel que se encuentra dentro de una caja y no el subrayado, como hubiese
sido si el d´ıgito ocupase el máximo número de pixels posible.
Vemos que, a pesar de determinar las cantidades de pixels que cogemos para un d´ıgito concreto,
este valor puede tener una pequeña variación con lo que realmente ocupa el patrón correspon-diente
al d´ıgito, debido a la pérdida de información con los decimales y sus redondeos. Por esta
razón buscamos los diferentes patrones o cambios que deben aparecer en cada caso dentro de la
cantidad de pixels que hemos calculado y si se encuentra antes del tamaño máximo que se ha
determinado, entonces ese punto en concreto será el principio del siguiente d´ıgito.
Una vez tenemos el conjunto de unos y ceros correspondiente a cada d´ıgito, como sabemos
con que tipo de codificación, A, B ó C, se ha codificado, simplemente tenemos que averiguar con
que d´ıgito se corresponde. Para ello vamos a calcular la distancia que presenta este conjunto con
cada uno de los d´ıgitos del tipo correspondiente de la siguiente forma: podemos representar la
forma de codificación de un d´ıgito en vez de como un patrón de unos y ceros, como un patrón
de número de módulos que representan estos unos y ceros, es decir,
D´ıgito Codificación A Número de módulos
0 0001101 3211
Como vemos, tenemos tres módulos correspondientes a un espacio ancho, dos módulos corres-pondientes
a una barra ancha, un módulo para un espacio estrecho y un módulo para una barra
estrecha.
Siguiendo esta idea lo mismo haremos nosotros para el conjunto de ceros y unos que obtenga-mos
de la l´ınea calculada y que representan un d´ıgito, para a continuación emplear la fórmula
de la suma de cuadrados y calcular para que d´ıgito esta distancia es menor.
Xn
i=1
(xi − yi)2
35

7. Decodificación
siendo xi cada uno de las cantidades correspondientes al número de módulos del conjunto de
unos y ceros obtenidos de la l´ınea calculada, yi cada una de las cantidades de módulos de un
d´ıgito en la codificación correspondiente y la variable n que se corresponde al valor 4 ya que
tenemos este número de cambios en un d´ıgito.
Para que se entienda mejor este paso vamos a explicarlo con un ejemplo. Si tenemos el siguiente
conjunto de pixels para un d´ıgito en concreto:
00001111000111
calculamos el número de unos y de ceros que contiene el conjunto de la siguiente manera,
|00{0z0}
4
|11{1z1}
4
|0{0z0}
3
|1{1z1}
3
a continuación dividimos el número de unos y ceros por el número de pixels por módulo

, de
esta forma obtendremos el valor equivalente de m´odulos en cada caso.
|00{0z0}
4

= 2 obtendr´ıamos,
|00{0z0}
2
|11{1z1}
2
|0{0z0}
1,5
|1{1z1}
1,5
Ahora simplemente debemos aplicar la fórmula de la suma de cuadrados con los 10 d´ıgitos con
los que debemos comparar y con aquel que el resultado sea menor, será el d´ıgito representado
por el conjunto de unos y ceros que se está analizando.
Para todas las l´ıneas que realizamos, una vez decodificadas, calculamos el checksum o carácter
de verificación según la codificación EAN-13, con el objetivo de asegurarnos que la decodificación
es correcta. En caso de no ser as´ı ese resultado se descarta por no ser correcto y sólo se tienen
en cuenta para el resultado final aquellas l´ıneas donde el checksum sea correcto. Un pequeño
problema que se nos presenta es que en ocasiones aparecen combinaciones de d´ıgitos que con-siguen
que el checksum sea correcto, pero sin embargo el código no representa al que aparece en
la imagen, provocando que el resultado final no sea correcto.
Como explicaremos a continuación, los d´ıgitos finales que elegiremos como resultado se pueden
obtener mediante diferentes métodos, teniendo en cuenta todas las l´ıneas obtenidas con un
checksum correcto.
Una forma es calcular el número de veces que aparece un d´ıgito en una determinada
posición y elegir como más probable aquel que más veces se repite en esa posición en
concreto.
Otra posible opción es utilizando probabilidades, es decir, calcularemos a partir de las
distancias que hemos calculado previamente la probabilidad que presenta un d´ıgito de ser
el correcto y nos quedaremos con aquel d´ıgito cuya probabilidad sea más alta. La obtención
de estas probabilidades se realiza a partir de la siguiente fórmula:
p = e
−d
2
donde p será la probabilidad que presentará un valor de ser el correcto, d es la distancia
obtenida con la suma de cuadrados para ese determinado valor y 2 es la varianza del
conjunto de valores obtenidos con la suma de cuadrados para cada uno de los d´ıgitos con
los que se ha realizado la operación.
36

7.3. Resultados
Otra forma de obtener el resultado es combinando la probabilidad con la confianza, me-diante
su producto y eligiendo aquel d´ıgito para el cual se obtenga un mayor valor de esta
operación. Cuando nosotros trazamos una l´ınea, ésta puede cruzar por una zona que no se
haya elegido como perteneciente al código, por ser una mancha o cualquier otra clase de
ruido, pero que, sin embargo, puede ser una zona m´ınima que igual permita al resto de la
l´ınea obtener un código válido. Además los pixels que conforman esta zona están etiqueta-dos
como puntos de la imagen que no contienen información válida del código. Por tanto
cuando realizamos las distintas divisiones de la l´ınea para compararlas con los d´ıgitos del
tipo de codificación que se corresponda para cada posición en concreto, puede ocurrir que
un conjunto de esos pixels contenga algunos etiquetados como puntos con información no
válida. Por ello la confianza nos vendrá dada por el porcentaje de puntos con información
válida dentro del conjunto de pixels.
Como última opción estudiada es una igual que la anterior pero en vez de coger el valor
máximo, calculamos la mediana y nos quedamos con el valor que se obtenga.
Como existen diferentes caracter´ısticas o información a la hora de la decodificación del código,
se debe de alguna forma intentar clasificar y combinar esta información [19], con la intención de
ofrecernos ayuda a la hora de interpretar el código. En nuestro caso ha sido una tarea bastante
complicada y se optó por lo siguiente: una vez calculados los cuatro, elegimos aquel resultado
cuyo código sea correcto en cuanto al cálculo del checksum y además empiece por 978 que, como
comentamos al principio de este apartado, son los tres primeros d´ıgitos con los que empieza un
código ISBN. Veamos un ejemplo:
Tabla 7.1.: Ejemplo de posibles resultados según la opción elegida
Técnica N.o decodificado Checksum ¿Inicio 978?
N.o veces aparición 9788428323086 Correcto S´ı
Máxima probabilidad 9478228323088 Correcto No
Máxima probabilidad × confianza 9488428323086 Incorrecto No
Mediana probabilidad × confianza 9788428323085 Incorrecto S´ı
En este ejemplo vemos el resultado obtenido con cada una de las opciones antes mencionadas,
por tanto según estos resultados elegir´ıamos la primera opción.
7.3. Resultados
A continuación se muestra una serie de imágenes junto al código que hemos conseguido de-codificar.
En caso de haber algún d´ıgito del código erróneo, éste aparece dentro de una caja
indicando que no era el correcto. As´ı, de esta manera, se podrá apreciar aquellos casos en los
que el método funciona correctamente y en cuáles falla uno o varios d´ıgitos.
Como podemos observar en la Figura 7.1, se ha conseguido para cada una de esas imágenes
decodificar el código y obtener los distintos d´ıgitos que lo componen sin ningún error. Pero estas
imágenes pertenec´ıan a códigos sin ningún tipo de deterioro provocado por rayas o manchas,
por ello vamos a analizar como se comporta el método ante situaciones menos favorables.
El comportamiento del método ante códigos deteriorados lo podemos observar en la Figura 7.2
donde nos aparecen códigos con algún tipo de marca que dificulta su decodificación, sin embargo
la solución obtenida ha sido la deseada sin ningún tipo de error. Esto es debido a que las manchas
que presenta el código de barras no son lo suficientemente fuertes como p o marcadas para evitar
la correcta decodificación del mismo. En cambio, en ciertos casos como los que mostramos en la
37

7. Decodificación
9788428323086 9789706860507 9788428328647
Figura 7.1.: Distintas imágenes con el código que se ha obtenido al aplicar nuestro método
Figura 7.3, el resultado final s´ı que presenta algún d´ıgito que no se corresponde con el d´ıgito del
código en cuestión.
9788428324304 9788428326360 9788428326360
Figura 7.2.: Una serie de imágenes en las que el código sufre alguna alteración en cuanto a
presentar rayas o manchas sobre él, pero la decodificación final es completamete
correcta
9788428326 8 77 978842 79 27336 97884 1 8328111
Figura 7.3.: Conjunto de imágenes en las que la decodificación del código de barras presenta
algún d´ıgito erróneo
Pero no siempre el resultado que se obtiene es aceptable. A veces, el resultado conseguido
presenta un número de d´ıgitos la mayor´ıa de ellos erróneo, como se observa en la Figura 7.4.
Este mal funcionamiento es debido a la intensidad de las marcas que presenta el código, que
como comentamos en apartados anteriores, afecta a la hora de la detección de la zona donde se
encuentra éste. Esta mala detección provoca que esta última fase de decodificación sea errónea
al no tener la región que contiene al código la suficiente información, de manera que permita la
decodificación del código de barras con éxito.
38

7.4. Análisis de robustez
9 0 8 7 42 4 3 42 3 63 978 51121 2864 0 9 34747551 8 301
Figura 7.4.: Imágenes donde el método no consegu´ıa los resultados deseados
De forma global, los resultados que se han obtenido, basándonos en un conjunto de imágenes
de prueba, han sido los que se muestran en la Tabla 7.2. Sólo comentar, que de las 15 imágenes
en las que no se consiguió obtener el código correcto, casi la mitad de ellas, más exactamente en
7, el código sólo presentaba un d´ıgito erróneo.
Tabla 7.2.: Comportamiento del método
Resultados
Caso analizado N.o imágenes Correcto Incorrecto Porcentaje
Limpia 10 7 3 70
Dañada 24 12 12 50
Total 34 19 15 56
7.4. Análisis de robustez
En este apartado se van a presentar una serie de ejemplos o experimentos para comprobar
hasta qué punto el método puede ser fiable, o simplemente con el propósito de dejar claro ciertos
aspectos que creemos pueden resultar de interés.
Automatización del proceso de binarización
Como comentamos en el cap´ıtulo anterior, previamente a la binarización se realiza una ecua-lizaci
ón del histograma, Este paso junto a la utilización del método de Otsu para encontrar el
umbral a partir del cual binarizar, mejoran dicha binarización y por consiguiente, la posterior
decodificación. En la Figura 7.5 se muestra el resultado que se obtiene tanto sin ecualizar y
con un umbral fijo, como el mismo resultado ecualizando el histograma y aplicando Otsu para
encontrar dicho umbral.
Se puede observar que la subimagen que se obtiene del código de barras sin haber realizado
la ecualización y con un umbral fijo, es peor que en el otro caso comentado. Además la decodi-ficaci
ón no tiene éxito, debido a que la imagen binarizada no es lo bastante buena para poder
ser decodificada correctamente. De ah´ı la importancia, tanto de la ecualización previa de la
imagen como del cálculo automático del umbral a partir del cual binarizar, ya que si éste es fijo,
en ciertas imágenes nos va a resultar adecuado, pero en otras no. Debido a esto no pod´ıamos
encontrar un valor que fuese adecuado para todos los casos, por lo que se pensó en el método
de Otsu para evitar este contratiempo.
39

Localización y decodificación de códigos de barras EAN-13 en imágenes

Localización y decodificación de códigos de barras EAN-13 en imágenes

Recomendados

Recomendados

Más contenido relacionado

Similar a Localización y decodificación de códigos de barras EAN-13 en imágenes

Similar a Localización y decodificación de códigos de barras EAN-13 en imágenes (20)

Más de Henry Quilla

Más de Henry Quilla (8)

Último

Último (20)

Localización y decodificación de códigos de barras EAN-13 en imágenes