El documento describe conceptos básicos sobre la captura, procesamiento y almacenamiento de imágenes digitales. Explica que las imágenes digitales están compuestas de pixeles y cómo los sensores electrónicos capturan la luz y la convierten en datos numéricos. También describe formatos de video digitales, compresión, medición de imágenes y otros aspectos técnicos fundamentales de la producción de video y cine digital.
1. IUNA- Artes Audiovisuales- OTAA- Iluminación y Cámara.
Cátedra Leotta
Conceptos sobre Video Y Cine Digital
La captura de la imagen
A lo largo de toda la cadena que comienza en el momento de la toma y termina en el momento de la proyección,
la imagen digital pasa por una serie de pasos en los que ciertos parámetros técnicos determinan su “calidad”. Es
decir que los medios por los que se produce, procesa, almacena y exhibe la imagen modifican sus
características. Dejando de lado momentáneamente las cuestiones estéticas y semánticas, podemos definir la
calidad de una imagen digital como su grado de semejanza con una imagen ideal, en la que cada punto coincide
exactamente en luminosidad y color con su correspondiente en el espacio fotografiado en un momento dado.
Hasta hace no mucho, el desarrollo que se había alcanzado en los sensores electrónicos de imagen CCD y
CMOS, y en los sistemas de proceso y almacenamiento de información no permitía alcanzar calidades muy altas,
por lo que el sistema electrónico estaba reservado a la pantalla chica. A medida que los avances tecnológicos
permiten calidades de imagen cada vez mayores, el sistema electrónico va reemplazando al fotoquímico también
para la producción, posproducción y exhibición en la pantalla grande.
Los sensores electrónicos
Los sensores que se encargan de captar las imágenes tienen en su superficie una grilla de elementos
electrónicos fotosensibles llamados fotositos o pixeles, que producen una respuesta eléctrica variable según la
intensidad de la luz que reciben. Es por esta razón que, a diferencia de las imágenes captadas sobre película
fotosensible, la imagen digital está compuesta por un grupo de puntos cuya cantidad y ubicación son fijas, y no
azarosas como el grano de la película. Asimismo, no existe movimiento mecánico en la captura o proyección.
Esto hace que las imágenes tomadas y proyectadas por medios electrónicos tengan una fijeza y una
“transparencia” características.
2. La digitalización de la imagen se produce en la instancia siguiente a la respuesta eléctrica de los elementos del
sensor y consiste, en resumidos términos, en la medición de la intensidad eléctrica de cada pixel y el
almacenamiento del resultado de esta medición en forma numérica en código binario.
Uno de los parámetros más importantes que determinan la calidad de la imagen es la cantidad de pixeles que la
componen. Cuanto mayor es, más finamente dividida se encuentra la imagen, y por lo tanto, menor es la
distancia entre pixeles vecinos, y mayor es la posibilidad de reproducir detalle. Se suele llamar resolución al
tamaño de la imagen medido en pixeles, aunque el término se utiliza en óptica con un significado levemente
distinto.
En una imagen digital podemos designarla de tres maneras:
Ancho y alto de la imagen en pixeles.
Megapíxeles: la cantidad total de millones de pixeles, obtenida multiplicando estas medidas.
Nombre del estándar al que corresponde, a veces corresponde al ancho en pixeles de la
imagen, sin tomar en cuenta el alto, que cambia según las proporciones del cuadro o ratio
de aspecto, por ejemplo 4k, aproximadamente 4000 pixeles de ancho.
Estandar Ancho y alto en pixeles Megapixeles
VGA 640 x 480 0,31
Video PAL digital 720 x576 0,41
Video NTSC digital 720 x 480 0,35
HD 720 1280 x 720 0,92
HD Full ó 1080 1920 x 1080 2,07
2k 2048 x 1152 (en 16:9) 2,36
4k 4096 x 2304 (en 16:9) 9,44
3. Proceso de la imagen en la cámara
Existen dos formas de generar la información de color en las cámaras digitales:
Utilizando un único sensor con filtro Bayer, o por medio de tres sensores y un prisma de espejos dicroicos que
separa la luz en rojo, verde y azul para que sea captada por tres sensores independientes.
Filtros Bayer o mosaico de Bayer
Prisma de espejos dicroicos - 3 sensores
El filtro Bayer es utilizado en casi todas las cámaras fotográficas digitales, así como en muchas cámaras de
video y la mayor parte de las cámaras de cine digital (Arri Alexa, Red One, Phantom); mientras que el sistema
de tres sensores es muy frecuente entre las cámaras de video y televisión de alta calidad.
La información que los sensores generan es procesada y codificada por los circuitos de la cámara, de modo que
pueda almacenarse en un soporte de registro (tarjetas, discos, cintas) o transformarse en una señal para su
visualización o grabación en equipos externos.
4. Soporte de grabación
La información digital puede ser copiada de un medio a otro con relativa facilidad, pudiendo almacenarse en
Discos ópticos: CD, DVD, Blue Ray
Tarjetas de memoria: SD, CF, SxS
Cintas magnéticas digitales : DV-CAM, HVD, miniDV, HD-CAM
Pendrives, discos rígidos (HDD), discos de estado sólido
Como soporte para la captura, los discos rígidos, los discos de estado sólido y las tarjetas de memoria ofrecen la
ventaja de que el material puede transferirse de forma mucho más ágil al equipo de edición que con los discos
ópticos o las cintas. En contrapartida, estos últimos sistemas ofrecen un soporte barato que una vez transferido
su contenido al equipo de edición puede almacenarse directamente como material de archivo.
Cuando el material de cámara se graba sobre discos o tarjetas, estos deben ser copiados a otros soportes
durante el rodaje o inmediatamente después. Funcionan en este sentido como con contenedor temporario de la
información que debe ser vaciado para poder grabar nuevas tomas. Lo más usual es contar con un juego de dos
o más discos o tarjetas para poder descargar uno mientras se graba sobre el otro.
El sistema numérico binario
A diferencia del sistema numérico decimal que utilizamos habitualmente, el sistema binario no se basa en diez
dígitos sino en dos: 0-1. Esto permite procesar los datos por medio de los circuitos electrónicos y simplificar el
método de transcripción de los valores a soportes físicos, y reduce enormemente las posibilidades de generar
errores en el proceso de lectura y escritura de datos, ya que sólo hay que distinguir entre dos valores. Así, si
donde debía grabarse la secuencia de valores “1 0”, se graba “0,3 0,8”; el sistema interpreta nuevamente “0 1”.
00 0000
01 0001
02 0010
03 0011
04 0100
05 0101
06 0110
07 0111
08 1000
09 1001
10 1010
11 1011
12 1100
13 1101
14 1110
15 1111
5. Profundidad de bits
Se llama así a la cantidad de unos y ceros (bits) que utiliza el sistema para definir el valor de cada pixel. De la
tabla anterior puede deducirse que con 1 bit sólo pueden producirse dos valores: 0 y 1; con 2 bits, cuatro valores.
La tabla anterior llega hasta los 4 bits, con 16 valores posibles.
Usualmente los sistemas de video trabajan con 8, 10, 12 ó 14 bits de profundidad por “canal” (rojo, verde y azul,
si la imagen está en modo RGB; o luminancia, Cr y Cb si la imagen está en modo YUV)
La cantidad de posibles valores por canal que esto permite equivale a 2 elevado a la potencia correspondiente.
Por ejemplo, en 8 bits, 28 = 256 valores. Evidentemente, a mayor profundidad de bits, mejor calidad. Pero así
como crece la calidad, aumenta el “peso” en MB, GB o TB de las imágenes capturadas y la complejidad de los
sistemas de proceso y almacenamiento.
o 1 bit – 2 valores
o 3 bits – 8 valore s
o 8 bits – 256 valores
o 10 bits – 1024 valores
o 12 bits – 4096 valores
Peso o tamaño de los archivos
En computación, las unidades de medida que se utilizan son el “byte” (que equivale a un grupo de 8 bits) y sus
múltiplos:
Kilobyte (KB) 1024 bytes
Megabyte (MB) 1024 kilobytes
6. Gigabyte (GB) 1024 megabytes
Terabyte (TB) 1024 gigabytes
De no mediar ningún sistema de compresión, el peso de una imagen de video en bytes puede calcularse grosso
modo por la siguiente fórmula:
Cantidad de pixeles X profundidad de bits por canal X 3 X cadencia de cuadros X duración en segundos / 8
Por ejemplo, una grabación de 10 minutos en video PAL a 8 bits de profundidad por canal nos da720 x 576 x 8 x
3 x 25 x 10 x 60 / 8 = 17,38 GB. Esta sencilla cuenta, y su resultado, hacen evidente la razón por lo que existen
tantos sistemas de compresión de información de imagen: se necesitan sistemas de proceso y almacenamiento
muy potentes para trabajar esta cantidad de información.
Subsampling o submuestreo
Basándose en las características del ojo, los sistemas de video asignan mayor cantidad de información o
ancho de banda a la luminancia que a la crominancia.
Esto se codifica como cantidad de muestreos de Y:U:V
El descarte de parte de la información de color, antes de la compresión, permite disminuir la cantidad de
información sin reducir la calidad visual de la imagen en igual forma.
Suele describirse como la proporción entre muestreos de luminancia y crominancia de rojo y de azul. 4:2:2, por
ejemplo, significa que de cada 4 pixeles, todos tienen un valor de luminancia, pero sólo 2 tienen información de
color. A simple vista es difícil distinguir la diferencia, no así cuando se hacen correcciones a la imagen en
posproducción.
4:4:4 Se utiliza únicamente en algunos sistemas de cine digital de muy alta calidad
4:2:2 Es el estándar en video profesional de alta calidad
4:1:1 y 4:2:0 Son habituales en video semiprofesional y hogareño.
4:4:4 4:2:2 4:1:1 4:2:0
7. Compresión y codificación
El codec (codificador-decodificador) o formato de un archivo de imagen es el sistema matemático que organiza la
información de la imagen. Algunos trabajan sin compresión, otros con compresión sin pérdidas, y otros con
compresión con pérdidas. Estas pérdidas se basan en el descarte de la información o el detalle que el ojo no
percibe o percibe con mayor dificultad.
El constante desarrollo que se hace en este área permite lograr imágenes de cada vez mejor calidad utilizando
una cantidad relativamente menor de información.
Ejemplos de distintos codecs son DV, MJPEG, WMV, MPEG-1, MPEG-2, H.264, DNxHD, Redcode y ArriRaw.
Así como una cadena es tan fuerte como el más débil de sus eslabones, cuando una imagen pasa por distintos
medios y formatos digitales, el de menor calidad será el que limite la imagen final. Si una imagen que se origina
en un sensor de una cámara de cine digital de última generación se graba en un DVD de definición estándar, la
información que se pierde no puede ser recuperada por más que se la vuelva a copiar en el mejor formato de
video.
RAW
Las cámaras de cine digital que graban sobre soporte data/informático (discos rígidos y tarjetas de memoria)
utilizan un tipo de codec que se engloba dentro de lo que se llama “raw”, “crudo” en inglés. Estas imágenes están
crudas en el sentido de que la cámara no les aplica correcciones de colorimetría o valor tonal con posterioridad a
la captura. La gran profundidad de bits con que trabajan permite hacer este tipo de correcciones en
posproducción, dando lugar a un trabajo más delicado con un abanico más amplio de posibilidades y conservar
el material de cámara como punto de partida sin modificaciones.
Las imágenes en raw de las cámaras de cine digital suelen tener una compresión moderada, que resulta en una
muy buena calidad pero requiere un generoso espacio de almacenamiento que llega a contarse en terabytes.
Bitrate
El bitrate es una medida del flujo de información, en cantidad de bits por segundo. Nos da una idea de la
velocidad con la que puede transmitir, grabar o reproducir un sistema; o de la cantidad de información que
describe una imagen de video. Depende de la cantidad de información que la cámara genera (directamente
proporcional a la cantidad de pixeles y la profundidad de bits) y de la compresión que le aplique el codec de
grabación.
Por lo general, un bitrate mayor implica mayor calidad y mayores necesidades de espacio de almacenamiento.
Sin embargo, los codecs más nuevos suelen aprovechar mejor un bitrate menor que los codecs más antiguos y
pueden lograr muy buenas calidades visuales incluso con bitrates reducidos. De todas maneras, las posibilidades
de manipulación de este tipo de material en posproducción siguen siendo reducidas, ya que grandes cambios de
contraste o colorimetría suelen hacer evidentes ciertos artifacts o defectos, que de otra manera pasan
desapercibidos.
8. Sistemas de medición
Monitor de forma de onda – WFM
Es un osciloscopio adaptado a la señal de video. Tiene, en el sentido horizontal, una correspondencia espacial
directa con la imagen que representa; mientras que en el sentido vertical representa las diferencias de
luminosidad. Su escala puede estar en voltaje (usualmente de 0 a 1, con marcas cada 0,1 volt) o en IRE, una
medida que divide los 0,7 volts de la señal que corresponden a la imagen en porcentajes. 0% es 0,3 V, es decir,
negro; 100% es 1 volt, blanco. El nivel del gris medio suele corresponder al 45% IRE.
Existen como monitores independientes, de gran definición, utilizados generalmente de controles técnicos de
canales de televisión, o como un software incorporado en monitores donde se muestra como PIP1 como ayuda
para la exposición.
Monitor de Forma de onda
Vectorscopio
Representa, en un gráfico semejante a un círculo cromático, los colores que se encuentran en la imagen. El
ángulo indica el matiz, y la distancia al centro indica la saturación. Cerca del borde se encuentran los colores de
mayor saturación y en el centro los acromáticos (blancos, grises y negros).
1 . Picture in picture, un pequeño recuadro dentro de la imagen de video que se está midiendo
9. Histograma
Es una representación gráfica algo semejante a un gráfico de barras que muestra la proporción en la que se
encuentran los distintos tonos en la imagen. A la izquierda se encuentran las barras correspondientes al negro y
los tonos oscuros; a la derecha, el blanco y los tonos claros. Un histograma nos puede dar una idea rápida de la
clave tonal y el contraste de la imagen. Si Se encuentra muy volcado hacia el extremo izquierdo será de clave
tonal baja, y a la inversa si la mayor cantidad y altura de barras se encuentra la derecha.
En cuanto al contraste, si vemos grupos diferenciados hacia los extremos, se tratará de una imagen de mucho
contraste, mientras que si los tonos se encentran más uniformemente distribuidos y centrados, se trata de una
imagen de menor contraste.
Los histogramas suelen encontrarse como ayuda a la exposición y al trabajo sobre los valores tonales integrados
a las funciones de cámaras de video, cine digital y fotografía fija, así como en programas de posproducción de
imagen como Photoshop y AfterEffects.
False color
Es una herramienta recientemente incorporada entre las funciones de las cámaras de cine digital que muestra la
imagen coloreada según los valores tonales. Usualmente los valores más altos, claros, se colorean en colores
amarillo, naranja y rojo; y los más bajos, oscuros, en cian, azul y violeta. Es de lectura muy rápida y precisa.
10. Conexiones:
Las salidas de señal de video más comunes son
Video por componentes (SD y HD)
Consta de tres conexiones: luminancia, diferencia de color de rojo y diferencia de color de azul (YUV). Es la
conexión analógica de mayor calidad, ya que al viajar en forma separada las señales no se interfieren entre sí.
Existe en versión SD y HD. Lo más usual es que se usen cables coaxil con conectores BNC, aunque algunas
cámaras y monitores semiprofesionales utilizan conectores tipo RCA.
BNC RCA
Video compuesto (SD)
Es la conexión más simple y barata ya que unifica las tres señales. Sólo se usa para monitoreo de baja calidad
como el video assist. Utiliza los mismos cables y conectores que el video por componentes.
S-Video o super video (SD)
Es una conexión semiprofesional usada en SD en la que la luminancia y la crominancia viajan por dos canales
separados. Es más adecuado para instalaciones permanentes como la conexión de un monitor o un proyector a
un equipo de reproducción que para conexiones de monitoreo en set, ya que requiere un cable especial de
cuatro pines cuya conexión es algo delicada.
11. SDI y HD-SDI
Es una señal digital que integra video, audio y timecode. Es el estándar profesional de mayor calidad. Existe
tanto en SD como en HD y utiliza cables coaxil con conectores BNC.
HDMI
Es una señal que integra video y audio en HD. A semejanza del S-video, es más adecuado para conexiones
estables y a distancias cortas, ya que la señal no es muy fuerte y los conectores son algo delicados.
USB 1, 2, 3. Firewire 400 y 800. e-SATA, Thunderbolt.
Todos estos son protocolos de transferencia de información, y no de transferencia de señal de video.2 Se usan
para trasferir los archivos de video y audio entre soportes de almacenamiento de información a velocidades de
transferencia independientes de la de reproducción. Es decir que un minuto de imagen puede tardar en
transferirse un segundo, un minuto o una hora, dependiendo de la velocidad del puerto utilizado y del peso del
archivo.
2. Salvo el firewire 400, que con el nombre de iLink o ieee 1394 se utiliza en algunos equipos de DV y HVD para
transmitir una señal de video digital que puede ser grabada o reproducida en tiempo real.