{JG P1 cr:1L '0A .:~I L ..,o r+
Tecnología actual de televisión
EMILIO PAREJA CARRASCAL
INSTITUTO OFICIAL DE

RADIO Y TELEVISiÓN
COLECCIÓN MANUALES PROFESIONALES

Tecnología acrual de televisión. Emilio Pareja Carrascal. 200S
Diseño de cubierta: RUBÉN SERNA SANTOS
(O INSTITUTO OFICIAL DE RADIO YTELEVISIÓN. RTVE
Carretera Dehesa de la Villa, s/n.
28040 Madrid, 2004

ISBN: 84--88788-60-6
Depósito legal: M. 15_ J 13-2005

Imprime: Neografis, S. L.
ÍNDICE
PóB-
CAPiTULO 1: LA SEÑAL DE ViDEO 21

1. Un poco de historia . 21

2. Características de la visión humana 22

2.1. Anatomía del ojo 23

2.2. La acomodación .... 23

2.3. El iris . 24

2.4. La retina . 24

2.4.1. Funcionalidad de la retina 25

2.4.2. Percepcion cromática .. 26

2.5. Resolucion espacial lumínica y cromática 27

2.6. Agudeza visual ... 28

2.7. Persistencia visual ... 29

3. La señal de vídeo .... 30

3.1. Frecuencia de cuadro 30

3.2 Entrelazado de campos 31

3.2. 1. Parpadeo interlínea . 32

3.3. Frecuencia de línea . . . . . . ..... 33

3.4. Proporciones de la imagen 34

3.5. Duración de una línea . 34

3.6. Niveles de tensión ... 35

3.7. Duracion de un campo 37

3.8. Ancho de banda .,. 38

Resumen . . 40

CAPiTULO 2: EL COLOR .•.. . 43

1. Naturaleza del color .. _ __ __ ... 43

1. 1. Aspectos físicos del color . 43

1.2. Aspectos psicofísicos del color . 43

1.3. Mezcla auditiva 44

1.3. 1. Colores primarios luz .. 44

1.3.2. Las leyes de Grassmann 45

1.4. Mezcla sustractiva . 46

1.5. Igualación de colores . 47
JlliJiITTECb'J)LOGJA ACTUAL DE TFL[,I.'lIÓN
P<íH"Pág.
1.6.	 Escalas normalizadas . 48 4.2. Digital
102

102
.6.1. El sistema Runge 48 5. Conversión A/D

103
.6.2. El sistema Munsell 49 5.1. El muestreo

106
.6.3. El sistema Ostwald 50 5.2. A]¡ossing

109
.6.4. El triángulo intemacional de colores 50 5.3. La cuantificación .

110
1.7.	 Crominancia de un color 53 5.3.1. El ruido de cuantificación
1J 12.	 Las componentes de color 59 5.4. El dither . . . .

112
2. l. La corrección de gamma 62 6. El filtro de reconstrucción .. . .

114
2.2.	 Multiplexado de las componentes 64­ 7. El diagrama del ojo . . . . . . . . . .

115
Resumen 65 8. Tipos de señales digitales de vídeo .

116
CAPiTULO 3: Los SISTEMAS DE TELEVISiÓN . 67 Resumen .

119
1.	 Introducción . . . . . . . . .. 67 CAPiTULO 5: LA NORMA 4:2:2 ...

119
2.	 El sistema NTSC . . . . .. 67 1. Introducción...... . ..

120
2.1.	 Atenuación de las componentes . .. . .... 68 2. La norma 4:2:2 . . . . . . . . . . ..

120
2.2.	 Modulación en cuadratura de fases ... 68 2. 1. Elección de la frecuencia de muestreo .

120
2.3.	 Formación de la señal compuesta 69 2.1 . l. Frecuencia de muestreo de la luminancia ....

122
2.4.	 Descripción matemática .... .. . . .. 71 2. 1.2. Frecuencia de muestreo de CH y CR •••••••• • ••

123
2.5.	 El vector de crominancia . . . .. . .. 71 2.2. Señales codificadas . . . . . . . . . . . . . ...

125
2.6.	 Suma de luminancia y crominancia 73 2.2.1. Convenciones sobre notación . . . . . ....

126
3.	 Un formato intermedio: Y/ C . . .. .., 73 2.3. La línea digital . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .

128
4-. Un sistema PAL . 74 2.4. Los filtros .

130
4-. 1. Los errores de fase . . . . ., . 75 2.5. Familia de normas .

131
4-.2. Alternancia de la polaridad de "V" . . . . . . . . . 75 2.5.1. La norma 4:4:4 " . . . . . . . . . . . . . . .

132
4-.3. El codificador PAL . . . . . . . 77 2.5.2. Lanorma4x4 . .

132
4-.4-. El decoficador PAL . 78 2.5.3. Las normas 2:1:0,4:1:1 y4:2:0 .

133
5.	 El sistema SECAM . . . . . . . . . . . . . . . . . . . .... 79 2.6. Cálculo de las frecuencias binarias .

134
6.	 Elección de la frecuencia de la subportadora de color 80 2.7. Aplicaciones de las distintas normas .

135
7.	 La secuencia PAL de 8 campos . . . . . . . .. 81 3. Interfaces para 4: 2: 2 .

136
8.	 Tipos de señal de vídeo . . . . . . .. 82 3.1. El interfaz paralelo para señal 4: 2: 2 . . . . . . . . . . . . . .. . .

137
9.	 Espectro de la señal de vídeo. .,. 84 3.1.1. Nivel 4:2:2 .

138
9. l. Patrones visuales y frecuencias . 84 3.1.2. Nivel 4:4:4 y 4- x 4 .. . .

139
9.2.	 Espectro de las señales complejas .. . ., . 85 3.1.3. Disposición de las muestras en la línea digital 4: 2: 2 .

140
10.	 Listado de normas de televisión por países . 87 3.1.4. El borrado de campo digital .

140
10.1	 Variantes de sistema PAL . . . . . . . . . 92 3.1.5. La referencia temporal . .

142
Resumen . . . . . . . 92 3.1.6. Características eléctricas del interfaz paralelo .

143
CAPITULO 4: LA DIGITALIZACiÓN . 95 3.2. El interfaz serie para señales 4: 2: 2 .	 .

144
l.	 Ventajas de los sistemas digitales . 95 3.2.1. El código de canal .

145
1.l. Ubicuidad de los sistemas digitales . . 96 3.2.2. Características eléctricas del interfaz serie para señales 4:2:2 .

145
2.	 Situación de la televisión digital .. . . 96 4. Datos auxiliares .

146
3.	 Señales de vídeo y anchos de banda . 97 4.1. Capacidad de almacenamiento .

147
4.	 Definición de analógico y digital . . . . . . . . . .. . . 100 4.2. Formato de los datos auxiliares . . . . .

148
4.1. Analógico	 . 100
 Resumen
9
TECNOLO(;IA ACTUAL DE TEI EVISIÓN
Indice
Póo	 Póg
CAPITULO 6: LA SEÑAL DIGITAL COMPUESTA. . . . . . . . . . . . . . .. . .
 151 10. Todas las herramientas juntas	 . 203
1. Introducción	 . 151 11. El b'1Jer de salida .	 205
2. Elección de la frecuencia de muestreo . . . . . . . . . . . . .
 152 12. Compresión temporal .	 206
2. l. Muestras por línea . . . . . . . . . . . . . . . . . . . .. . . 153 12.1. Redundancia temporal _ .	 207

2.2. Fase de muestreo	 . 155	 12.2. Compensación de movimiento . 208
3. Rango de amplitudes	 . . 157	 13. Combinar espacial y temporal _ . 210
4. Numeración de las muestras	 . 160 14. Precompresión . . 211
5.	 Referencia temporal de identificación . 162 14. 1 El ruido . . . . . . . . . . . __. .' . 212
.6. El campo digital	 164 14.2. Exceso de corrección de apertura . 212
7. Características de los interfaces . 167 14.3. Suavizado de imagen. . . . 213
Resumen . 167 14.4. Otros defectos de entrada . 213
CAPITULO 7: COMPRESIÓN EN VIDEO . . . • . • • . . • . • . • • . • • . . • • . . • . . • . . . . . . . 171 15. Artificios de la compresión . . 213
1. Introducción............................................
 171 Resumen	 . . 214
.2. ¿Para qué comprimir?	 172 CAPITULO 8: Los SISTEMAS DE COMPRESiÓN ........•.••.••..........•.... 217

3. Teoría de la información	 . 173	 1. Introducción .. _. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

3.1. Tipos de compresión	 . 174 2. El sistema JPEG . . 217
3.2. Entropla vs redundancia	 . 174 2.1. Aplicación de la codificación Huffman . 219
4. Redundancias y entropla en las imágenes de televisión . 176 2.2. Características del JPEG	 . 221
4. l. Redundancia estadlstica	 . 176 3. El M-JPEG	 . 222
4.2. Redundancia percentual	 . 176 3. J. Variantes M-JPEG '" . 223
4.3. Entropla de las imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177	 4. La familia MPEG . . . . . . . . . . . . . . . . . . . . 224

4.4. Redundancia en tres dimensiones	 . 177	 4.1. El sistema MPEG-l . . 225
5. Técnicas de reducción de datos	 . 179 4.1.1. Compensación de movimiento . . 226
6. Técnicas de compresión sin pérdidas	 . 180 4. J.2. Imágenes 1, P, B . 226
6. 1. Supresión de borrados	 . 180 4.1.3. Diagrama de bloque del codificador MPEG-I 227
6.2. Codificación de secuencias	 181 4.2. El sistema MPEG-2 . 228d.
6.3. Codificación de longitud variable	 . 182 4.2. J. Perflles y niveles en MPEG-2 . 229
6.3.1. El código HuIfman	 . 183 4.2.2. Escalabilidad en MPEG-2 . 231
6.3.2. La codificación aritmética	 . 184 4.2.3. Estrutura del múltiplex MPEG-2 . 232
6.4. Introducción a la DCT	 . 185 4.2.4. Notas sobre el múltiplex MPEG-2 . 233
7. Técnicas de compresión con pérdidas	 . 186 4.2.5. Reordenación de las imágenes . 236
7.1. Codificación diferencial (DPCM)	 . 186 4.2.6. El lanzamiento en MPEG-2 . 237
7.1.1. DPCM con predicción adaptativa . 187	 4.2.7. Estimación y compensación de movimiento . 239
7.1.2. Combinar DPCM yVLC	 . 188 4.2.8. Predicción basada en cuadro y en campo . 241
7.2. El submuestreo	 . 190 4.2.9. MPEG-2 en entorno profesional . 244
8. Codificación pro transformación	 . 19] 4.2.10. Calidad de la imagen 4:2:2P@ML . 246
8.1. Transformada de Fourier	 . ]92 4.2. J1. Transporte de los datos en MPEG-2 . 248
8.2. Teoría de la DCT	 . 193 4.2.12. Corriente de transporte multiprograma . 251
8.2.1. Interpretación de la DCT	 . 195 4.2. 13. Cabeceras e identificadores . . . . . . . . . . . . . . . . 252
8.2.2. La DCT no comprime: ¡ayuda a comprimir! . 197	 4.2.14. Control del reloj del sistema . 254
8.2.3. Lectura en "zigzag"	 . 199 4.3. El sistema MPEG-4 . 256
9. Recuantificación de los coeficientes	 . 201 4.3.1. MPEG-4 perfil estudio . 257
10
11
TEC;-';OLOGIA ACTuAL DE TEL[,lSIUN
Pós pós·
4.4. El MPEG-7 . 258 2.1.1. Muestreo ideal y muestreo real . 298
4.5. El MPEG-21 . 259 2. I .2. Criterio de N)'quist . 299
4.6. Los miembros de la familia perdidos 259 2. 1.3. Frecuencias de muestreo en la práctica 301
s. El sistema DV 260 2.1.4. Aliasina en audio . 303
S. 1. Entrelazado de campos en DV 261 2.2. La cuantificación .. ' . 305
5.2. Bloques, macrobloques y superbloques. 262 2.2. 1. La relación señal a ruido de cuantificación 30&
5.3. Análisis previo a la DCT 263 2.2.2. Cuantificación diferencial y no lineal 310
Resumen 265 2.3. Códigos ponderados), no ponderados . 311
CAPíTULO 9: EL AUDIO ANAlÓGICO . 269 2.3.1. Complemento a dos . . 312
¡ . Naturaleza del sonido . . .. . .. 269 2.4. El dither . . . . . . . . .. . . 314
1.1. Intensidad del sonido 269 3. Interfaces digitales para audio . . 315
1.2. Tono de un sonido . 270 3.1. ElinterfazAES/EBU .. . 316
1.3. Timbre del sonido .. . .... 270 3.2. Terminología.. . . 316
1.4. Nivel de presión sonora . 271 3.3. Estructura del interfaz. . . . . . . . . . . . 318
1.5. Nivcles de sonoridad . .. 272 3.3. I . Estructura dc la subtrama . 318
1.6. Rango dinámico audible . . 273 3.3.2. Estructura de la trama . 319
I.7. Resolución espcctral del sistema de audición . 274 3.3.3. Codificación del canal . 320
2. Caractedsticas e1ectricas del sonido 275 3.3.4. Los preámbulos . 321
2.1 . Medidas de nivel 275 3.4. Formato de los datos de estado del canal . 322
2.1.1. El dBm 275 3.5. El interfaz SPDlF . 323
2.1.2. EldBu 275 3.5. l. Diferencias y similitudes entre AES/EBU y FPDlF . 324
2.1.3. EldBV 276 3.6. El Interfaz MADI . 325
2.1.4. EldBW 276 Resumen 326
2.2. Líncas equilibradas y no equilibradas .... . ... 276 CAPITULO 11: COMPRESiÓN EN AUDIO ...........•.. 329
2.3. Señales de alto y bajo nivel. . . . . . . . . . . . . . . .. 278 l. Introducción . 329
2.3.1. Micrófonos: sensibilidad e impedancia . .. ..,. 278 1.1. Utilidad de la compresión en audio . 330
2.3.2. Nivel de linca: sensibilidad e impedancia . 280 1.2. Redundancia................... . . 331
2. Medición y monitorizado de nivel . . . . . . 282 2. Anatomía del oído . . . . . . . . . . . . . . . . . .. . " . 332
2.1. El vúmetro ... .... . . . . .. 282 2.1 . División funcional del oído . . 332
2.2. El picómetro . . . . . . . . . . . .. 283 2.1 .1 . El oído externo . 332
3. Ruidos y distorsiones . . . . . . . . . . . . . . 284 2. I .2. El oído medio . . 332
3.1. Ruido 285 2.1.3. El oído interno . 333
3.3.1. Ruido aleatorio . 286 2.2. Fenómenos de enmascaramiento .... 333
3.3.2 Ruido periódico 288 2.2.1 . Enmascaramiento frecuencial 334
3.4. Distorsiones lineales .. 288 2.2.2. Enmascaramiento temporal 337
3.5. Distorsiones no lineales . 288 3. División en subbandas . . .. . .. 338
3.6. Lloro y fluctuación .. 289 3.1 . División mediante filtros . . . . . . .. 338
Resumcn
289 3.2. Codificación de las subbandas . . . . . .... 340
CAPITULO 10: El AUDIO DIGITAL
293 3.3. División por transformación. 341
1. Conceptos generales . 293 3.3.1. El efecto de pre-eco 342
2. Conversión A/D .. 295 3.4. Toma de decisiones. .. . .. 343
2. 1. El muestreo . 296 4. Los sistemas de compresión . 343
J2 13
T[CNOI OCiA ~mL DE TFI.EVISI()N
Póo
4.1. Las normas MPEG de audio. 344
4.1.1. El MPEG-I . 345
4. J.2. Aspectos generales de MPEG·¡ . 356
4.1.3. Las nuevas normas MPEG·2 . 357
4.2. El sistema AC·3 de Dolby . 360
4.2. ¡ . Precedentes históricos . 360
4.2.2. Codificación AC-3 . 361
4.2.3. FABA vs BABA . 362
4.2.4. Detalles del AC-3 . 363
4.3. El sistema ATRAC de Sony . 365
4.3.1. Principios básicos del ATRAC . 366
4.3.2. Unidades tempo·frecuenciales . 367
4.3.3. Variantes del sistema ATRAC . 368
4.4. El sistema APT-X . 370
Resumen .... , " '" " . 372
A mi bijo Carlos
14
Agradecimientos
Mi primer y más grande expresión de gratitud es para mi empresa, RTVE,
porque aquí he aprendido la mayor parte de lo que sé sobre tecnología de tele­
visión, tanto en mi primera etapa como técnico en TVE, como después en el
Instituto Oficial de Radio y Televisión. Creo que este libro no hubiera sido posi­
ble sin el aporte de quienes han asistido a mis clases, ya sea en los cursillos impar­
tidos en el IORTV o en otras instituciones. Ellos me han obligado a organizar y
sistematizar los conocimientos y a encontrar mejores ejemplos y explicaciones.
También debo dar las gracias a quienes me han facilitado información, desde
compañeros de RTVE hasta colegas de empresas como Sony o Panasonic. POl­
último, sería injusto si no tuviera en consideración y agradeciera la paciencia
mostrada por mi propia familia. Escribir un libro es algo muy gratificante, pero
roba muchas horas de asueto.
17
Presentación
Los años treinta del siglo pasado vieron el nacimiento de la televisión, los sesen­
ta la llegada del color y ahora, con el nuevo milenio, se generaliza la televisión digi­
tal. Con la tercera ola de tecnología, se está produciendo una verdadera revolución
en la forma de producir televisión. Esto es consecuencia no solo de la natural
madurez de la técnica y la ingeniería, sino también de la confluencia de tres secto­
res clave, que hasta ahora evolucionaban por separado: las telecomunicaciones, la
informática y la televisión. Estos tres campos se unen para crear algo nuevo: el
mercado audiovisual digital.
En la actualidad, están cambiando la forma en que se generan los contenidos, la
forma en que se postproducen y sobre todo el modo en que se distribuyen. Muy
pronto los c1ips de video y audio se moverán dentro y fuera de los centros de pro­
ducción en forma de archivos informáticos (AAF, MXF... ), por redes LAN o WAN
(Ethernet, Fiber Channel ... ). Pero cuando un estudiante de imagen y sonido o un
ingeniero de telecomunicaciones intentan comprender el último sistema de com­
presión de video o el más moderno interfaz para transmisión de datos audiovisua­
les, a menudo se encuentra con que les falta un conocimiento preciso de las seña­
les de video y audio. Para comprender los sistemas de compresión avanzados hay
que conocer la señal digital sin comprimir. Para comprender la señal digital, hay
que dominar primero la analógica. Para entender la señal analógica es necesario
conocer los principios básicos de la colorimetría y la percepción visual y auditiva.
El conocimiento siempre se asienta en otros conocimientos previos más básicos.
En este libro se ha intentado estructurar los conocimientos sobre tecnología de
televisión, desde los condicionantes de la percepción visual y auditiva humana,
hasta los sistemas avanzados de compresión de video y audio digital. El co­
nocimiento sobre tecnología de televisión no termina, ni mucho menos con el últi­
mo capítulo de este libro. Más allá hay temas relacionados con el tratamiento
matemático de la información digital, como códigos de canal y tratamiento de
errores o sobre equipamiento digital profesional: cámaras, magnetoscopios, equi­
pos de postproducción ... o con la utilización de equipos informáticos en la pro­
ducción de televisión: discos duros y servidores de video/audio, sin olvidar la
próxima revolución: Televisión en Alta Definición Digital y Cinematografía Elec­
trónica.
19
Por tanto, este libro trata sobre la tecnología convencional de televisión; la que
actualmente se esta aplicando en la producción de programas. Se ha intentado
actualizar al maximo los contenidos, de forma que abarquen cualquier conoci­
miento técnico actualmente aplicado en la generación, producción, post­
producción), distribución de los programas de televisión.
El libro se inicia con tres capítulos dedicados a la señal analógica: un capítulo
dedicado al sistema de percepción visual)' a la señal en blanco)' negro; un capítu­
lo donde se tratan los principios de la colorimetría), la formación de las señales de
color en televisión y un capítulo dedicado a los tres sistemas básicos de televisión
en color actuales: PAL, SECAM y NTSC. El capítulo cuatro es, probablemente, el
más técnico y trata sobre la digitalización de las señales de video. Aunque es el de
más contenido matemático hay pocas fórmulas ya que en general se han evitado en
la medida de lo posible en todo el libro; el experto en matemáticas no las necesi­
ta y al que no las entiende solo le confunden.
Los capítulos 5 y 6 se dedican a las dos normas actuales de televisión digital; La
norma por componentes recogida en la Rec. 601 y conocida como 4:2:2 y la
norma de video digital compuesto conocida como 4fsc. El capítulo 7 es lll10 de los
más extensos y trata la teoría en que se fundamentan los sistemas de compresi6n
de video. El capítulo 8, por su lado explica los sistemas reales de compresi6n de
video, es decir la aplicación práctica de las explicaciones del capítulo 7, desde los
sistemas MPEG hasta la compresi6n YCPRO.
Los capítulos 9 al 11 están dedicados al audio y siguen la lógica progresi6n de:
audio analógico, audio digital y compresión de audio. En este último capítulo se
recogen los mas modernos sistemas de compresión: el MPEG-AAC, e! AC-3 de
Dolby, el ATRAC de Sony, o las normas APT-X.
El propósito de este libro es el de proporcionar, en un solo volumen los cono­
cimientos que toda aquella persona relacionada con la tecnología de television
debería dominar. Si en alguna medida esto se consigue, el autor se considerará sufi­
cientemente compensado.
CAPÍTULO 1
La señal de vídeo
1. Un poco de historia
La television, tal y como la conocemos hoy en día, nació y se definió en los años
30, una época de rápidos avances tecnol6gicos. Aunque ya han pasado más de
sesenta años, las normas y sistemas actuales de televisión sufren, en parte, las limi­
taciones tecnológicas de aquella época. Las soluciones adoptadas por los pioneros
de la televisi6n no s6lo estaban limitadas por la tecnología existente, sino que debí­
an ser, además, econ6micamente aceptables, tanto para e! radiodifusor como para
el espectador. Por otro lado, no todos los avances tecnol6gicos posteriores pudie­
ron ser aplicados, ya que cualquier innovación debía ser, además, compatible con
los millones de receptores instalados en todo el mundo.
La historia del desarrollo de la te!evisi6n ha sido, en esencia, la historia de la
búsqueda de lll1 dispositivo adecuado para explorar imágenes. El primero fue e!lIa­
mado disco Nipkow, patentado por e! inventor alemán Paul Gottlieb Nipkow en
1884. Era un disco plano y circular, que estaba perforado por una serie de peque­
ños agujeros dispuestos en forma de espiral partiendo desde el centro. Al hacer
girar el disco delante del objeto, e! agujero más alejado de! centro exploraba una
franja en la parte más alta de la imagen y así sucesivamente, hasta explorar toda la
imagen. Sin embargo, debido a su naturaleza mecánica, e! disco Nipkow no fun­
cionaba eficazmente con tamaños grandes y altas velocidades de giro, necesarios
para conseguir una mejor definici6n y lll1a buena reproducci6n de! movimiento.
Después de muchos experimentos poco satisfactorios con elementos mecáni­
cos, aparecieron, a mediados de los años 30, los primeros sistemas basados en la
exploraci6n e1ectr6nica de la imagen. Estos sistemas, denominados entonces de
"alta resoluci6n" iniciaron sus emisiones de forma casi simultánea en Inglaterra,
Francia y Alemania. Las imágenes de aquella época tenían una resoluci6n vertical
de lll1as 400 líneas (405 en Inglaterra y 441 en Francia y Alemania). En los Estados
Unidos de América, después de experimentar con distintos sistemas e!ectronicos
20 21
TECNOI'odA ACTUAL DE TE:LlVIS¡ÓN
de 300 a 400 líneas, se optó en 1941 por el sistema de la NationalTe!evision System
Committee (NTSC) de 525 líneas, que, con pequeñas modificaciones, se ha man­
tenido hasta la actualidad. La relación de aspecto (relación entre la anchura y la
altura de la pantalla) fue desde un principio, y en todos los casos, de 4: 3. Esta rela­
cion de aspecto se mantiene en los sistemas actuales convencionales.
Después de la segunda guerra mundial, Inglaterra continuó con su sistema de
405 líneas y Francia con el suyo de 441 líneas. En 1948 Francia adopto un sistema
de 819 líneas, que, al menos por el número de líneas de exploración, podría con­
siderane como el predecesor de la HDTY. Alemania y e! resto de Europa adopta­
ron el sistema de 625 líneas.
Los Estados Unidos de América introdujeron el color en 1953 (sistema NTSC),
mientras que en 1968 nació el sistema de color PAL, adoptado por la mayoría de
los países europeos y de otros continentes. Francia diseñó su propio sistema de
codificación de! color (SECAM), que también adoptaron muchos de los países del
este de Europa y de! norte de África. Durante años no solamente había en Europa
tres sistemas de exploración y dos métodos de codificación del color, sino que,
además, convivían siete normas de transmisión incompatibles entre ellas. Esta
situación se corrigió en parte durante los años 80, cuando Francia e Inglaterra
abandonaron sus sistemas de 819 y 405 líneas, respectivamente, en favor del siste­
ma de 625 líneas. Esto demuestra lo difícil que es cambiar un sistema de televisión;
los arcaicos sistemas de los años 30 tardaron cincuenta años en ser sustituidos.
Actualmente en Europa sólo hay dos sistemas de televisión en color: e! PAL Y
el SECAM, ambos con 625 líneas. Puede darse cuenta el lector de que todos los
sistemas, actuales o no, utilizan un número impar de líneas. La explicación se verá
un poco más adelante.
2. Características de la visión humana
Es evidente que cualquier medio de reproducción de imágenes debe e~tar adapta­
do a las características y capacidades del sistema de percepción visual humano. En el
caso de la televisión esto es especialmente cierto, ya que los limitados anchos de banda
de grabaCión y transmisión obligan a optimizar, de forma muy cuidadosa, qué infor­
mación se capta, procesa y, finalmente, se envía al espectador. Por esto es especial­
mente importante e! conocimiento de! sistema visual humano.
En ocasiones suele compararse el ojo con una cámara fotografica y, aunque se
parecen en ciertos aspectos, difieren en muchos otros. En primer lugar, la cámara
no esta "conectada" a un cerebro capaz de interpretar las imágenes. La cámara es
imparcial, mientras que el ojo ve las imágenes de forma selectiva e inteligente.
Otras diferencias importantes entre el ojo humano yla cámara fotografica se refie­
ren a la capacidad del primero a, por ejemplo, reconocer los colores con indepen­
dencia del tipo de luz que los ilumina, a la disposición de las terminaciones sensi­
tivas en la retina, que proporcionan una gran definición en el centro de la imagen,
en torno al eje óptico, al hecho de que la película cinematografica integra la luz en
el tiempo, etc. Pero todos estos aspectos serán comprendidos mejor analizando la
anatomía y funcionalidad del ojo humano.
La s~ñal de vídeo
2.1. Anatomía del ojo
La figura 1.1 muestra las partes más importantes de! ojo humano. En primer
lugar podemos apreciar la córnea, que junto con el cristalino forman el sistema de
lentes de! ojo. Mientras que la córnea puede considerarse como una lente de lon­
gitud focal fija, el cristalino, gracias a su capacidad para variar de curvatura, ofre­
ce una longitud focal variable. En efecto, de forma automática e imperceptible, e!
cristalino, gobernado por los músculos ciliares, adapta su curvatura para formar
siempre una imagen nítida sobre e! fondo del ojo. Cuando miramos un objeto cer­
cano, el cristalino, que está formado por una serie de capas transparentes (como
una cebolla), se redondea para acortar su longitud focal. En el caso contrario, es
decir, cuando miramos algo lejano, la longitud focal aumenta, como consecuencia
de que e! cristalino se aplana. El proceso de adaptación de la longitud focal, es
decir, de la curvatura del cristalino, se denomina acomodacion. Cuando una per­
sona envejece, el cristalino pierde flexibilidad y disminuye su capacidad de aco­
modación. Entre la cornea y el cristalino se encuentra una zona llena de líquido vis­
coso denominado humor acuoso. De la misma forma, e! interior de! globo ocular,
entre el cristalino y e! fondo del ojo, está ocupado por e! humor vítreo.
2.2. La acomodación
Una persona joven puede enfocar sin dificultad desde unos 15 cm hasta infini­
to. A esta distancia de 15 cm se le llama "punto próximo", mientras que a unos
CÓRNEA RETINA
(Detalle de la

capa pigmentaria

en lomo 8 111 1'6vea)

[l CONO
::~:
BASTÓN
o(
~'k ~
I ~
11:o(
~"
(Oetalle de la

capa pigmentaria

en la zona periférica)

NERVIO OPTICO
HUMOR ACUOSO
Figura 1.1.

Anatomla del ojo humano (izquierda) y detalle de organización funcional de la retina

(derecha).

2322
---
Lil ~l:Ú~L~Jc dU<;QTeCNOLOGíA ACTUAL DE TELE'-''-''I'''SI"Ó'''N'--- _
SO m se encuentra el "punto remoto". fS!() significa que la extensión de la acomo­
dación varía entre 1S cm (c:uando el cristalino está mas redondeado y SO m (cuan­
:do eTcri;;:alino se encuentra más aplanado).
La-ext~).ón de la acomodación se mide en dioptrías y es igual a:
. ¡ l l
Distancia al punto remoto (m) Distancia al punto próximo (m)
La amplitud de acomodación expresada en dioptrías representa la potencia de
la lente que sustituiría al mecanismo de acomodación.
2.3. El iris
Bañado por el humor acuoso se encuentra el iris. Se trata de un mecanismo
capaz de regular la cantidad de luz que pasa por el ojo, para permitirnos ver los
objetos del mundo exterior en muy variadas condiciones de iluminación. Al igual
que el diafragma de una camara, se cierra cuando las imágenes son muy brillantes
y se abre en condiciones de escasa iluminación. Sin la ayuda del iris las imágenes a
plena luz del Sol nos cegarían. Como sucede con e! cristalino, e! trabajo de adap­
tación del iris es automático e imperceptible.
El diámetro mínimo de la apertura formada por el iris es unos 2 milímetros,
cuando está totalmente cerrado, mientras que el diámetro máximo, cuando está
totalmente abierto es de unos 8 mm. Ante un estímulo luminoso, el iris reacciona
abriéndose o cerrándose. El tiempo necesario para que el iris se cierre al máximo
es de unos 0,3 segundos, mientras que el tiempo para abrirse es aproximadamen­
te 1,2 segundos. Cuando un rayo de luz penetra en el ojo, pasa a través de la cór­
nea transparente, e! humor acuoso, el cristalino y e! humor vítreo, todo lo cual
ayuda a enfocar la luz sobre la capa de terminaciones sensitivas en e! foqdo de! ojo,
denominada retina.
2.4. La retina
La retina es la superficie interior sensible del ojo humano. Se u-ata de un complejo
sistema de terminaciones nerviosas, formada por dos clases de células sensitivas, llama­
das conos ybastoncillos, capaces de convertir la luz en impulsos eléctricos.
Además de los conos y los bastoncillos, otros tipos de células retinianas, como
las bipolares, horizontales, amacrinas y ganglionares, llevan a cabo una serie de pro­
cesos de tratamiento de la información, antes de enviarla a traves del nervio óptico
al cerebro. Entre estos procesos destacan: la detección del movimiento y su direc­
ción, el realce de bordes, la intensificaci6n por contraste y la compresion o reduc­
ción de la cantidad ele información. Así, la retina, en lugar de sacar un mapa punti­
llista de la imagen que sobre ella se forma y enviar la información punto a punto al
cerebro, extrae de dicha información todo lo importante, optimizando la vía de
enlace con el cerebro, que es el nervio 6ptico.
/~- PUNTO CIEGO
1
0:::« 
°w0...0::: 1I ICf).«
Ww 11
0::: 
°0
0
f-«0...
W_0 /
OZ /W:J
o:::
--/"
"
Figura 1.2.
80 40 O 40 80 Disposición dc conos y bastuncs
DESPLAZAMIENTO ANGULAR
en la retina. La máxima densidad
DE LA RETINA (EN GRADOS)
dc fotorreceptores se concentra
BASTONES en la fóvea, coincidiendo con el
eje visual.- - - CONOS
2.4.1. Funcionalidad de la retina
Como consecuencia de la especial disposición de conos y bastones en la retina,
se obtiene una imagen totalmente nítida en una zona que abarca unos 2°, tomando
como centro e! eje visual. A partir de 10° la imagen comienza a hacerse borrosa.
En cuanto al color, aparece una cierta desaturación a partir de 2°, mientras que la
imagen en la periferia es totalmente desaturada.
El campo visual abarcado en el sentido horizontal es de unos 170°, de los cua­
les 110° corresponden alIado exterior y 60° alIado nasal. Girando e! ojo se puede
abarcar un campo nítido de unos 75° sin mover la cabeza.
Pero volvamos a los conos y los bastones. Dispone cada retina, en el hombre, de
unos 7 millones de conos y 160 millones de bastones. Los conos están diseminados
entre los bastones, pero se localizan, preferentemente, en el centro de la retina,
coincidiendo con el eje óptico, en una zona denominada fóvea. Por su color amari­
llento también se suele llamar a esta zona mácula lutea o mancha amarilla. Tan s610
la fóvea es capaz de ver las cosas con detalle, es decir, perfectamente definidas y
como esta zona abarca un ángulo, con respecto al centro de! cristalino, de aproxi­
madamente un grado o poco más, sólo los objetos situados en el eje 6ptico pueden
analizarse con detalle. Colocados a un metro de una libreria, abarcamos con la
visi6n unos dos metros de libros, sin necesidad de mover la cabeza ni e! globo ocu­
lar, pero únicamente podemos leer con claridad el título del libro que esta justo
frente a nosotros. Ésta es una diferencia muy importante con respecto a la cámara,
ya sea de fotografía, cine o televisión. En los tres casos la imagen presenta aproxi­
madamente la misma definici6n o nitidez en toda su superficie. Nosotros, en cam­
bio, vemos las cosas definidas de forma secuencial: primero una y luego otra.
2524
TlCNOLOGIA ACTUAL DE TELEVISIÓN
A pesar de que cada retina contiene unos 170 millones de células sensitivas,
entre conos y bastones, sólo dispone de un un millón de fibras para enviar la infor­
mación al cerebro. Así pues, la retina ha de comprimir la información antes de
conectarla al nervio óptico. De esto se encargan las células bipolares, las cuales
conectan varias células sensitivas a una sola fibra del nervio óptico. En e! centro de
la retina, es decir, en la fóvea, cada célula sensitiva, sea ésta cono o bastón, está
conectada a una fibra, mientras que e! número de células sensitivas conectadas a
una misma fibra del nervio óptico aumenta a medida que nos acercamos a la peri­
feria.
Las células amacrinas y horizontales trabajan transversalmente, sumando y res­
tando la información proporcionada por distintas células sensitivas, más o menos
cercanas, para procesar la información, resaltando bordes o detectando movi­
miento.
2.4.2. Percepción cromática
Como se ha dicho, hay en la retina dos clases de células sensitivas, conos y basto­
nes. Sin embargo, existen tres tipos de conos: los que presentan máxima sensibilidad
a la luz de longitud de onda corta, es decir, a los azules; los que responden sobre todo
a la luz de onda larga (rojos) y los sensibles a las longitudes medias (verdes). En pre­
sencia de un estímulo de luz roja, por ejemplo, e! grupo de conos "rojos" es e! que
envía más potencial de impulsos al cerebro. Si la luz es amarilla, tanto los conos "rojos"
como los "verdes" envían potenciales de acción al cerebro, mientras que los conos
"azules" quedan prácticamente inhibidos. De esta forma, mediante proporciones
variables de información "roja", "verde" y "azul", e! cerebro es capaz de reconocer
millones de colores distintos. La visión en color es, pues, función de los conos, los cua­
les enviarán al cerebro distintas combinaciones de información roja, verde y azul para
cada uno de los colores.
Con niveles altos y medios de iluminación, los conos no tienen problemas para
convertir la luz en impulsos eléctricos, pero cuando e! nivel de luz disminuye,
como, por ejemplo, durante la noche, los conos son incapaces de trabajar. En esta
situación entran en funcionamiento los bastones, los cuales son mucho más sensi­
bles que los conos. Se calcula que los bastones son capaces de convertir la energía
luminosa de un solo fotón (la mínima cantidad de luz posible) en información útil
para e! cerebro. Como sólo se dispone de un tipo de bastón y no de tres, como en
e! caso de los conos, la visión nocturna carece de color y, como suele decirse, "de
noche todos los gatos son pardos".
Mientras que durante e! día, cuando trabajan los conos, la máxima sensación de
brillo se obtiene para los colores medios del espectro (verdes y amarillos), duran­
te la noche ésta se desplaza hacia los azules. En el primer caso se habla de visión
fotópica, mientras que en el segundo de visión escotópica.
Con visión escotópica el ojo enfoca a unos 6° de! centro de la fóvea, para apro­
vecharse de la mayor densidad de bastones fuera del eje óptico, y adquiere "miopía
nocturna" de 2 dioptrías, al no enfocar exactamente sobre la retina. Además
aumentan las aberraciones geométricas al abrirse totalmente e! iris.
500 600 700
(NANÓMETROS)
La señal de "ideo
í
SENSIBILIDAD ESCOTÓPICA
« ' ..
2': 1,0 I //-....,/"'. SENSIBILIDAD
~ I I /,  FOTÓPICA
w 0,75 i / ' I
a:: I I
o I
§ 0'5 : "
- I
Q:l 035 I
(J)' /
Z /
1W , Figura 1. 3.(J) 0' , ------"c
Curvas de sensibilidad fotópica )'400
escotópica.
2.5. Resolución espacial lumínica y cromática
La resolución espacial lumínica se cifra en l' de grado. Esto significa que si dibu­
jamos sobre una pizarra blanca dos puntos negros, uno encima del otro, y nos ale­
jamos lo suficiente como para que los dos puntos formen con el centro del ojo un
ángulo igualo inferior a l' de grado, comenzaremos a percibirlos como uno solo.
Éste es el límite de resolución o "agudeza visual" de una persona normal. Esta capa­
cidad de resolución sólo se obtiene en la parte central de la retina (la fóvea), es
decir, la zona correspondiente al punto donde centramos la mirada. A medida que
nos alejamos del eje visual la resolución disminuye progresivamente, de la misma
forma que disminuye el número de células. Esto es lo que se ha intentado repre­
sentar en la figura 1.4, donde puede verse que la parte central de! campo visual
excita muchas más neuronas de! córtex visual que e! campo periférico. En otras
palabras, la imagen neuronal está distorsionada; la mayoría de las células corticales
procesan la información correspondiente al centro de! campo visual.
En general, la resolución cromática es inferior a la resolución lumínica. Esto
significa que e! sistema de percepción visual obtiene imágenes de muy alta resolu­
ción en lo relativo a detalles y texturas que presentan cambios de brillo, pero
resuelve bastante peor cuando las imágenes sólo presentan cambios cromáticos (de
matiz y/ o saturación).
Para zonas visuales que abarquen ángulos de menos de 4' de grado no hay sensa­
ción cromática. Entre 4' y 12' de grado se obtiene sensación cromática sin precisión
de! matiz. A partir de 12' es posible apreciar todos los matices, si bien después de 2°
comienza una pequeña desaturación, la cual se hace total en la periferia de la retina.
Podemos ver que la agudeza visual a la información de color es, en el mejor de los
casos, cuatro veces menor que la agudeza a la información de blanco y negro. Éste es
un hecho muy importante, de! que sacan partido todos los sistemas de TV
Por último, la información proporcionada por las células sensitivas es llevada, a
través de las células bipolares, a las ganglionares. Estas últimas son en realidad las
terminaciones de las fibras del nervio óptico, e! cual tiene como misión transmitir
las señales visuales, convertidas en impulsos eléctricos, al cerebro.
2726
TLCNOLOGIA ACTUAL DE TUL VISiÓN ___La sdl.-ªt<lk,Ihkº
as fueron diseñados teniendo en cuenta esta agudeza visual de 1' Yasumiendo una dis­
tancia de visionado eCluivalente a seis veces la altura de la pantalla. La relación entre el
,r;,­ número de elementos de imagen que pueden resolverse, en función dc una altura de
imagen y una distancia de visionado determinada, es:
'R' Nv =_1_
011<,,-j J:~-JT"
OJO DERECHOI
 "­
NERVIO OPTICO
OJO IZQUIERDO .-- ~Jwt,.~J1,t
.;;r QUIASMA. Opnco
IMAGEN
RETINIANA
'-' -' CUERPO GENICUlADQ
LATERAl (OERECHO)
.. '
...TU8~RCUlO ....SUPERIOR
¡;. ¡- '~:;."~~--:t...:)~~. "'C
J ..CUERPO GENICUlAOO 1
LATERAl (IZQUIERDO) ~
+.'. ."'i ,t- ... ~r, '-..J
RADIACIONES
ÓPTICAS
!~"".:>~~ V;l,.~J·t>~ ,Figura 1.4.

Sendas visuales que conducen L ~¡::~";' '~.
rk:~ .e7
·u··~~::"r.
CORTEX VISUAL . ÁREA"· ....~ •
EXTRlADO .
la información desde el ojo VISUAL ". ~--;-
hasta el cerebro.
Diversos nervios motores actúan sobre los músculos que regulan el movimien­
to del globo ocular y ele! parpado superior. El nervio óptico es un haz de finas fibras
conectado a la parte posterior de la retina, en una mancha un tanto descentrada
hacia la nariz, denominada punto ciego, ya que es insensible a la luz, por carecer
de células sensitivas. Dibujando una cruz en el centro de la página de la izquierda
de un cuaderno y un círculo negro en el centro de la pagina de la derecha es posi­
ble detectar la presencia del punto ciego. Basta con cerrar el ojo i~quierdo y,
mirando la cruz, alejar y acercar e! cuaderno hasta que e! círculo desaparece, pues­
to que su imagen está cayendo justamente en el punto ciego del ojo derecho. Es
sorprendente cómo el sistema de percepción visual se "inventa un trozo de imagen"
para compensar e! efecto del punto ciego.
2.6. Agudeza visual
La agudeza visual se mide como el ángulo que forman los límites del detalle más
pequeño que puede discernirse con respecto al centro del ojo humano. En el caso
de la televisión, esto equivaldría a la separación de dos líneas de exploración con­
secutivas.
Los sistemas de televisión se han diseñado tomando como referencia para la agu­
deza visual 1 minuto de grado. En televisión, la medida de la resolución se expresa
como el número de líneas alternativamente blancas y negras que puede resolverse
(separarse visualmente) sobre la altura total de la imagen y se expresa como "líneas
por altura de imagen" (Lines per Ficture Heiaht o LPH). Los sistemas de 525 y 625 line­
siendo Nv el número total de elementos que pueden resolverse en la dirección
vertical.
a= El angula mínimo discernible por el ojo (en radianes).
n = D/H (distancia de visionado partido por altura de la imagen)
Ahora si a =1 minuto de arco, o 2,91 x 10·4 radianes y n =6, entonces
Nv = 1 ~ 570 [{neas
(6 x 2,91 x 10-')
2.7. Persistencia visual
Es la capacidad del sistema de percepción visual humano para retener las imá­
genes retinianas después de que ha cesado el estimulo. Esto significa que la sensa­
ción visual "persiste" durante un pequeño período después de que ha desaparecido
la imagen óptica de la retina. En condiciones normales, este breve período es de
aproximadamente una décima de segundo. Sin embargo, una frecuencia de exhibi­
ción de 10 imágenes por segundo (10 ips) sería insuficiente para reproducir ade­
cuadamente el movimiento. Por esto en cinc y televisión se utilizan frecuencias de
exhibición de mas de 10 ips.
Se define como "frecúencia crítica de parpadeo" la mínima frecuencia a la que
se debe encender y apagar una fuente de proyección sin que la imagen parezca par­
padear. La perceptibilidad de! parpadeo depende en gran medida de las condicio­
nes de visionado. El umbral de parpadeo viene determinado, entre otros, por los
siguientes factores: la luminancia de! área parpadeante, e! color del área, e! ángulo
sólido subtendido por el ojo y e! area visual, e! tamaño absoluto del área parpade­
ante, la luminancia de! area que rodea a la imagen y la adaptación del observador
a las condiciones de visionado.
En televisión, la frecuencia de encendido-apagado o frecuencia de repetición
viene determinada por la frecuencia de campo, que es de 50 Hz para las normas de
625 líneas y de 60 Hz para las normas de 525 líneas. Esto es así porque cada una
de las 25 ó 30 imagenes (según la norma) que se proyectan cada segundo se divi­
de en dos "semiimagenes" o "campos", tal como se vera un poco mas adelante en
este mismo capítulo.
Como se ha visto, e! umbral de parpadeo depende del brillo de la imagen.
Cuanto más brillante sea la imagen, más alta debera ser la frecuencia de refresco
de la pantalla para que no se perciba el parpadeo. La tabla 1.1 muestra el umbral
de parpadeo (la luminancia a la cual empieza a percibirse el parpadeo) para las fre­
cuencias de exhibición más utilizadas.,
2928
TECNOLOGJA ACTUAL ,,,Il,,,E--,".='E.c.Lc.E'-"'-=""'l'l"'N'--- _
Tabla 1.1 Umbral de parpadeo en función de la frecuencia de exhibición.
Frecuencia de Imágenes por Umbral de parpadeoTIpo de imagen
Exhibición (Hz) segundo (cd/m')
PELfCULAS 48 24 68
TELEVISiÓN (SO Hz) SO 2S 100
TELEVISiÓN (60 Hz) 60 30 600
Como puede verse en la tabla anterior, la baja frecuencia de encendido-apaga­
do de las imágenes de cine hace que pueda aparecer parpadeo incluso con brillos
de imagen relativamente bajos (68 cd/m'). Sin embargo, el hecho de que las imá­
genes de cine se proyecten en ambientes oscuros ayuda a reducir la sensacion de
parpadeo. También puede apreciarse el incremento exponencial del umbral de par­
padeo en funcion de la frecuencia de exhibición (se pasa de 100 a 600 cd/m' al
incrementar en 10 Hz la frecuencia.de exhibicion).
3. La señal de vídeo
Una imagen de television puede ser considerada como una informacion que
fluye simultáneamente en tres direcciones: horizontal, vertical y temporal. Puesto
que la señal de vídeo solo puede discurrir en una direccion (el tiempo), se hace
necesario descomponer la imagen en dos de sus tres dimensiones.
Desde los inicios de la televisión se opto por analizar el contenido de la imagen
siguiendo un patrón de líneas, de izquierda a derecha y de arriba abajo. El proceso
se realiza de forma similar a como los humanos leemos la información de una pági­
na impresa: comenzamos por la esquina superior izquierda y avanzamos hasta la
parte derecha. A continuación volvemos la vista rápidamente a la izquierda y un
poco más abajo para comenzar la línea siguiente y así sucesivamente hasta termi­
nar la página. A cada punto de la imagen le corresponde un valor de coniente eléc­
trica proporcional al brillo de ese punto si se trata de blanco y negro o tres valo­
res distintos si se trata de una imagen de color. Una vez terminada una imagen, se
analiza la siguiente y así sucesivamente.
3. 1. Frecuencia de cuadro
Para comenzar es necesario determinar cuántas imágenes se han de analizar en
un segundo. De esto depende la suavidad y naturalidad con que será reproducido
el movimiento.
Como se ha visto en el apartado anterior, en cine profesional (que es anterior al naci­
miento de la television) se trabaja con 24 fotogramas por segundo (fPs), cadencia sufi­
ciente para una buena reproducción de las imágenes en movimiento. En televisión se
opto por 25 imágenes por segundo (ips) en Europa y 30 en Estados Unidos.
La razón de emplear una frecuencia de imagen (se suele llamar frecuencia de
cuadro) de 25 ips es doble. En primer lugar, permite sincronizar la frecuencia de
imagen con la frecuencia de la red eléctrica (50 Hz es justo el doble de 25 Hz), lo
La señaI de vídeo
que simplifica el diseño del receptor, al tiempo que, al ser la frecuencia de la red
múltiplo exacto de la frecuencia de imagen, cualquier interferencia que, provenien­
te de la red, se produzca sobre la imagen se mostrará como estacionaria, lo cual es
subjetivamente menos molesto que una interferencia movil. En segundo lugar, 25
ips está muy cerca de los 24 fotogramas que se emplean en cine, de manera que el
material filmado se puede pasar directamente por televisión.
3.2. Entrelazado de campos
Una desventaja de esta frecuencia relativamente baja es que produce parpadeo.
En cine este problema se resuelve proyectando cada fotograma dos o tres veces,
de manera que la frecuencia real de proyeccion es de 48 o 72 fps, lo cual resulta
suficiente como para eliminar la sensacion de parpadeo de la imagen. Al proyec­
tar cada fotograma varias veces no se utiliza más película que en el caso de pro­
yectarlo una sola vez, con lo que el sistema resuelve el problema del parpadeo sin
un coste adicional.
Se podría pensar que la solución lógica en television consistiría en doblar el
número de imágenes por segundo, trabajando con 50 ips en lugar de 2S. Sin
embargo, esto presentaría un problema importante: se doblaría también el ancho
de banda, y por tanto, la anchura del canal de transmision. Dicho de otra forma,
harIa falta el equivalente a dos canales de TV para transmitir un solo programa.
Puesto que los canales de transmisión y el espacio radioeléctrico en su conjunto
son un recurso natural, hay que optimizarlo.
CAMPO 1 CAMPO 2 CUADRO
LINEA LINEAESCRITURA 313 ,~RITURA
2,
".
315 ~" 315
:E==El "'~
31;~
313
3
'.
",
RETRAZADO RETRAZADO
====­ = -= == ==-;;;
~
....
Figura 1.5.

Entrelazado de campos. La imagen de 625 líneas se divide en dos campos entrelazados de

312,S líneas cada uno.

30 31
TE_eNOLOGÍA ICTUIL DE ·II.:.LE'rS",16L.lN,-'	 _
Dado que la imagen de televisión está descompuesta en líneas, una solución inteli­
gente para resolver e! problema del parpadeo sin aumentar el ancho de banda podría ser
ésta: en lugar de transmitir las líneas en su secuencia natural, es decir, primero la línea
1, después la 2, después la 3, etc., hasta terminar con la 625, se dÍ;de la imagen en dos
partes llamadas "campos", cada uno de los cuales tiene 312,5 líneas. El primer campo
contiene W1a de cada dos líneas, que se numeran en el orden en que son transmitidas y
que van de la 1 a la 312, más la primera mitad de la 313. El segundo campo contiene las
líneas intercaladas, no transmitidas en e! primero, comienza a la mitad de la línea 313 y
termina al final de la 625. Así pues, tal como se ven en la pantalla de! TRC, a la línea 1
no le sigue la 2, sino la 314. Las líneas de los dos campos se transmiten intercaladas o
entrelazadas. (Véase figura 1.5.)
De esta forma se obtiene una frecuencia de repetición de 50 Hz (frecuencia de
campo), sin incrementar e! número de imágenes totales, que sigue siendo de 25, y
sin incrementar, por tanto, el ancho de banda. A este proceso se le denomina
"entrelazado de campos".
3.2.1. Parpadeo interlínea
Aunque e! entrelazado proporciona una frecuencia de refresco de pantalla sufi­
ciente como para que la imagen en su conjunto no parpadee, se produce en oca­
siones un cierto parpadeo local, denominado "parpadeo interlínea" (/nteline twit­
ter). Tal artificio aparece cuando la señal de vídeo contiene líneas de exploración
cuyo nivel de luminosidad es muy distinto al de sus vecinas. Por ejemplo, si imagi­
namos una línea blanca sobre un fondo totalmente negro, tal línea parpadeará fuer­
temente, puesto que su ciclo de encendido-apagado será de 25 Hz (en e! sistema
europeo) o de 30 Hz (en e! americano), lo cual está por debajo de! umbral de par­
padeo para frecuencias espaciales medias y altas, el cual se cifra en unos,40 Hz. Hay
que entender que una línea concreta corresponde a un campo concreto (ya sea el
par o e! impar) y que, por tanto, la frecuencia a la que tal línea aparece no es la fre­
cuencia de campo, sino la mitad.
El parpadeo interlínea suele aparecer, sobre todo, en e! caso de imágenes sinté­
ticas como las generadas por ordenador para los "mapas de! tiempo". Cuando las
líneas son más gruesas no se percibe tal artificio, ya que tan pronto como se "apaga"
una línea se "encienden" las vecinas del otro campo. Este efecto es mucho más per­
ceptible en el caso de imágenes sintéticas que en e! caso de imágenes tomadas por
cámara..Los receptores d~.tel~Yi,';jºnqlledupj¡canlínea§/campos eliminan o mini­
IQizan este a~!ifl~~__R.:~~0!aJ~~:es_a.I1-t~.q'!e este pro1?l~maera mucho menos g~ave
al inicio de la televisióI1.$!~_actualm.m!~-, .Yi! que las cámaras y, sobre todo! lasp~n­
tallas de los receptores no tenían sufici_<o.~t.e.~~s.2luc:ióncomo para confinar una fina
línea horiz2J1..!.~L<I}!nª--ILneª,.de-c.:xplor..ación.. En..el caso de las imágenes i:omadaspor
cám~~~.f~c:19_~~_r~..?ll.~eno!_abl~;tE~I1!e~()_J110consecuencia del filtrado espacial
illtrPQ.ucici.Q...por.eL ob.je.t~ve '/' ·en-especial,por el solapamiento del perfil del ~az
explorador del tubo de cámar~ o d~e! filtro ópticopaso-bajode la cámara CCO.
3.3. Frecuencia de línea
Un parámetro muy importante a determinar es el número de líneas con que se ha
de formar una imagen. Cuantas más líneas se empleen, mayor defmición o resolución
tendrá la imagen. Por otro lado, cuantas más líneas, mayor será e! ancho de banda
necesario. Se ha de encontrar, por tanto, una solución de compromiso.
Un punto de partida en la elección del número de líneas es la "agudeza visual"
de! espectador, es decir, la capacidad de éste para discernir o separar pequeños
detalles que se encuentran en proximidad. Esta agudeza visual se cifra en un minu­
to de grado para un espectador medio, tal como se ha explicado en e! apartado de
''AgiRIezaviSual" de este mismo capítulo.
--Xla distancia normal de visionado (unas 6 veces la altura de la pantalla) son sufi­
cien'tes unas 5'70 Iíneaspara que dos líneas consecutivas formen un ángulo igualo infe­
¡i";¡:-irae grado con respecto al centro del ojo del espectador (figura 1.6).
« ~~t,-­
Figura 1.6.
La agudeza visual humana se cifra en l' de grado.
En Europa se ha optado por 625 líneas por las siguientes razones:
•	 Debe ser un número impar para asegurar el entrelazado de campos. En efecto,
para que los dos campos se entrelacen y no se solapen, es necesario que el pri­
mero comience en la esquina superior izquierda y termine a la mitad de la parte
baja de la pantalla. El siguiente campo no puede comenzar también en la esqui­
na superior izquierda, ya que ambos campos se solaparían. En lugar de esto el
segundo campo comienza a la mitad de la parte alta de la pantalla y termina en
la esquina inferior derecha, tal como puede verse en la figura 1.5. Por tanto,
ambos campos contienen un número entero de líneas, más media. Podemos, por
tanto, escribir, que un cuadro o imagen contiene: 2(n+ 1/2) líneas. Cualquier
valor que se le dé a "n", el resultado será un número impar. Ésta es la raz6n por
la cual todos los sistemas de televisión, actuales u obsoletos, tienen un Diímero
impar de líneas.
De las 625 líneas, no todas serán visibles en la pantalla, ya que se necesitan
algunas (25 en cada campo o 50 en total) para e! retorno vertical del haz de
electrones desde la parte baja hasta la parte alta de la pantalla. Por tanto, en
el mejor de los casos dispondremos de 575 líneas útiles, lo cual está ligera­
mente por encima de! mínimo teórico de 570 líneas.
32 33
,Tf:CNOLOGIA ACrUAl [)ll"l:lI:VIS¡ÓN La señal de yidco
• Existe "na relacjón-s'ellcilla-~e1 numero de líneas.pru:.imagen-*--elnúmcro
de imágenes e9r s~do (625 =2~)-.tl~q!!~ simplifica el "istema.
~~o que-un<:l.-~~gt':1l.~~c.:-;~p;~de6_2SIineas.}'Ullcuadm-(-Goseampos}.se-pw­
¿lucecaaaT72~egun~~afr~~~_~c.:i.a:_geJ!I}_e.ª~cr.Lfí2.S._?<_25:.::::.15,625Bz. _
3.4. Proporciones de la imagen
/. Cf-/:JíAI-To
_~ rela.ci?l1_de imagen normalizada ell.la televisión actuales. de4! 3, es derir,.la_pan­
--!.alla aertelevisor es un.Jl"1d4il:::: J ,33)más411Cha.que.alta,_Es.ta relación de aspec­
to debe mantenerse desde la cámara hasta la pantalla del televisor si se quiere respetar
la compatibilidad. En la actualidad se está revisando el tema de la relación de aspecto,
ya que el público muestra preferencia por formatos más apaisados.
3.5. Duración de una línea
..En..~_n~!.'!!.1a ~1u:~de625--líneas·y50eampos -Iafrecuenda de línea-es de
l5.625Hz. Esto significa que cada línea durará 1115.625 s. o, lo queeslo.mismo,
64 microsegundos (~s) De.es.tQs..Q:t us, 52 Se_lltiljzan para analizar la~ge
i~guierda a derecha (período activo de línea) y los 12¡Jsrestantes para vQlveJ: de
~cha a izquierda _(~_()xLª-doosupresión4le línea).Véase figura L 7.
E"i1Tanorm-a-;;'mericana de 525 líneas y 60 campos la frecuencia de línea es de
15.734 Hz y el período de línea 1/15.734 =63.556 ¡JS. La línea activa americana
NIVEL DE BlANCO (100%)
~ PÓRTICO ANTERIOR ________o....!!."
NIVEL

DE NEGROS

(30%]
.....'J'Io
..-QdV.
T[~l. "~ :
FONDO DE I ISINCRONISMOS
(0%)
BORRADO O PERIÓDO ACTIVO
SUPRESiÓN DE LINEA DE LINEA
Figura 1.7.
Oscilograma mostrando una línea de televisión, con los valores de tensión y tiempo más
importantes (norma 625/50).
dura un poco más que la europea (52,856 )1s), mientras que el borrado de línea en
la norma americana es de 10,7 ¡JS.
Dentro del borrado de líneaE9_?~mos distinguir: los pórticos anteriol:J'_posterior,
los cuales están al nivel de borrado (OY), el sincronismo deJllleiid'1l.l.l.r.s.L..o..~~
color", el cual sólo estaráE~s=-r:t:._c:~~c:.::_~~a seña~ de co!~r.
3.6. Niveles de tensión
La parte de la imagen (período activo de línea) queda ubicada entre dos niveles
de tensión eléctrica, correspondientes al pico de blanco (0,7V en 625/50 y 0,714
Ven 525/60) y al nivel de negro (OVen 625/50 Y0,0535 Ven 525/60). La señal
de vídeo de blanco y negro se mantendrá siempre en estos niveles. La señal de
color puede variar ligeramente como consecuencia de la presencia de la subporta­
dora de color.
Los sincronismos se extienden desde Oa -0,3V en 625/50 Ydesde Oa -0,285V
en 525/60, con lo que la amplitud total de la señal de vídeo (contando la infor­
mación de imagen y los sincronismos) es de 1V entre extremos de la señal, tanto
para la norma americana como para la europea. Suele emplearse la expresión "1
voltio pico a pico" o 1V (p-p).
Nivel de blanco
O.7V~
90% (J (~90% f
0,
B=PERloDO DE BORRADO DE LINEA 12 ± 0.3 us
C=PDRTICO
F=
0.3%;0,11-15
"'----""
1,5iO.31.15
ANTERIOR
E:::PÓRTlCO
•
10,5 ¡JS
POSTERIOR
5.8 ¡JS
... )
".__ ~
F=
0,3;,1:0,1 ¡.I:l
10% )10%
OV__ ~
r--------....J~~~,1t;-.-:.
F y G .. Ilempo de formación Nivel de
D=IMPUlSO DE de los nancos IInlro el borrado >
DS~~f:E~~~~~~~s toO ) 10 Yel 90% ~
G=O.2:l0.1 IJS
f
G=O.2:l0.1 IJs ~
''---'O
-O.3V____ 1~-=-_~ __X()~~E.~"~ln_Cr()rliSmOS
Figura 1.8.

Detalle del borrado de línea (para una señal de blanco ynegro, en la norma 625/50). Cualquier

medida temporal sobre la línea de televisión se realiza con respecto al instante OH, el cual se defi­

ne como el punto de media amplitud del flanco anterior del impulso de sincronización horizontal.

Comparando las figuras 1.8 Y1.9, así como analizando la tabla 1.2 puede verse que
la señal de vídeo de la norma americana de 525 líneas y 60 campos presenta algunas
diferencias notables con respecto a la norma europea de 625 líneas y 50 campos. No
sólo las duraciones son distintas. Además los niveles de tensión del pico de blanco y del
34 35
__
TCCNOLOGI., ACTUAL DE TELCV1Slór;
Nivel de Blanco
0,71~ 1
90%6 ~O%
0"
A=PEAIODO DE BORRADO DE UNEA 10,7uS
C",PORTICO B-9.2+0,2. -0,1 ¡.lS ~
ANTERIOR. ~ I F.O.14
F..o,14
1.5±O.1~S	 E-PORTICO POSTERIOR ~ ±O.02~S±O,02IJS
~ •.5~S ~
"-----"
10% .
sg¡mv1·-· _'m _t-JIV.el.d.e.~egr()S'lmmmmm __rº~fr;~gg
F Y G =tiempo de lormaci6n
D.IMPULSO DE de los flancos entre el
10 y el 90%.SINCRONIZACiÓN loÓ
DE LINEA •.7±O.1~S

G"'O.14±~ 1~·14±O,02IJS

.O,285Y  I Fondo de Sincronismos t
Figura 1.9.

Detalle del borrado de linea (para una señal de blanco y negro, en la norma 525/60).

Cualquier medida temporal sobre la linea de television se realiza con respecto al instante OH,

el cual se define como el punto de media amplitud del nanco anterior del impulso de sincTO­

nizacion horizontal.

Tabla 1.3	 Parámetros de la señal de vídeo en torno al sincronismo de línea. Algunos
parámetros no tienen tolerancia, puesto que son derivados de otros más bási­
cos.
S{MBOLO PARAMETRO	 NORMA 525/60 NORMA 625/50
H Período de línea, ).1s 63,556 64
A Intervalo de borrado de línea, ms 10,7 12.± 0,30
B Desde OH hasta el final del borrado
de línea, ).1s 9,2 + 0,2/-0,1 10,5
e Pórtico anterior, ).1s 1,5 ± 0,1 1,Si 0,3
D Impulso de sincronización horizontal, ).1s 4,7 ± 0,1 4,7±0,1
E Pórtico posterior, ).1s 4,5 5,8
F Tiempo de formación de la señal, ).1S 140 ± 20 300 ± 100
G Tiempo de formación de los
sincronismos, ).1S 140 ± 20 300 ± 100
fondo de sincronismos son también diferentes. Otra diferencia importante se refiere al
llamado "pedestal", que no existe como tal en la norma europea. El pedestal no es otra
cosa que una ligera separación del nivel de negros con respecto al nivel de borrado o
supresión. En la norma americana esta separación equivale aI7,5% de la señal de video,
desde el nivel de supresión al nivel de blancos, lo que, traducido en niveles de tensión,
son 53,5 mV En la norma europea el nivel de negros es exactamente el mismo que el
nivel de supresión, es decir, OV
La scil.l! de 'ídC:Q
Tabla 1.4	 Niveles de tensión de la señal de vídeo en blanco y negro para las normas
525/60 y 625/50.
PARAMETRO	 NORMA 525/60 NORMA 625/50
Nivel de blanco 100 IRE (714,3 mV) 700 mV
Nivel de negro (pedestal) 7,5 IRE (53,5 mV) OV
Nivel de borrado O IRE (O V) OV
Fondo de sincronismos --40 IRE (-285,7 mV) -300 mV
Adem~s__cl~_bS-'Qltios y los milivoltios, su.de I,Itilizarse en la medida deaJTIpli.
_tucl.de l¿¡señal de vídeo una unidad denominada "IRE", que son las iniciales d~l ins­
tituto que las nonnalizó(/rlStituteq[ Radio En8ineers). Este tipo de unidades. se uti­
ll;.a sobretodOen-l~norma americana 525/60. Básicamente se divide la scñal de
~'ídeo~cresde'élfó[;'do dcsincronismosnasta el pico de blanco en 140 unidacl~~IR~.
P'U'eStOque¡;l~~f¡~rde vídeo en su conjunto tiene una amplitud de lvoltio p-p, UI1<i
u-;;TaaofRE corresponde a 1V/140 = 7,14 m V El valor "cero IRE" se hace coinci·
dJ~..con el nivel de supresión o borrado.
3.7. Duración de un campo
En la norma europea de 625 líneas y 50 campos, un campo dura exactamen­
te 1/50 de segundo o, lo que es lo mismo, 20 milisegundos (20 ms). De este
~ieÍnpo;'aproximadamente 1,6 ms corresponden al borrado vertical, es decir, a
la~-Iírieas--que necesita el haz para retornar de la parte baja a la parte alta de
§iinta:1fa (L'5"X'b4~s--= t ,6 ms). Dentro de estos 1,6 ms se encuentra el sin­
cromsmocreéampo'ü"slñcronis'ino verticáI, élcuá! dura el tiempoequivalcnt~ a
~<.:~- de.!~ _es d~~ir, 160 ).1s. El impulso de sincronización de campo :,stá
~~~qlle.ado por otros dos trenes de impulsos: el de preigualación y el de pC!.sti­
guaJ.a¡;¡ón. En total se emplean para propósitos de sincronización vertical 7,5
lí.!1e.as de TV La mayor parte <id_res~hª.stacompletar..@~25JiTlº~Lcie_borrado
vertical,puede emple.¡¡.rsep_arª_-ªplj<::<IcioI)_e..s_e._~ialcs,como, por ejemplo,
t~, señales test Cs.tl.e_per:mitcD .cyalll.a,r objetivall1ef.lte_l~ ..c:¡¡li~;¡i~.e~!a ima­
gen) o..<::?3ígOdetiemp2..sJtll1-,u~tilidad muy importante .en la po.spmduccÜ2D_de
1ª-.s,JI1!.ágenes_d~ tV1·__
El período activo de campo durará, por tanto, 20-1,6 ms = 18,4 ms. En la práctica,
el borrado vertical incluye, además de las 25 lineas, un borrado de línea extra, con lo
que el período activo de campo durará un poco menos. Véa~e figura 1.10.
En la norma americana de 525 líneas y 60 campos la duración de un campo es
de16,683 ms. En esta norma el borrado vertical utiliza 20 líneas, lo que corres­
ponde a 1,272 ms, dejando 15,411 ms para el período activo de campo. Al igual
que sucede en la norma europea, el sincronismo de campo se estructura en tTes
trenes de impulsos: preigualación, disparo y postigualación, e igualmente se trata
de pulsos cortados a ritmo de H / 2, sólo que en este caso se utilizan seis impulsos
para cada uno de los trenes en lugar de cinco.
36 37
TECNOLOGIA ACTUAL DE TELEVISiÓN f,
__-----.f>.E~Jººº-º~f_A~~q~_?º __n~~__¡...-­
i 160 1Jf> (2.5 LINEAS)
~ .~~
r---------------;o
SINCRONISMO

DE CAMPO O
 1SINCRONISMO

VERTICAL
 1
PERIoDO ACTIVO DE CAMPO ..
BORRADO DE CAMPO
1.6
I
--j."ÚlTIMA LINEA ACTIVA PRIMERA LINEAACTJVA
. DEL CAMPO ANTERIOR DEl CAMPO SIGUIENTE,
1°,7V.2,5 H 2,5 H 2,5 H
----'Xn nn'~T~nn~~"""r' ~i
j uuuuu~ ~ ~ ~ ~ ~ ~ ~ ~. ~ ~ l. _lO,3V
- 80~fu_º.Q...Qf__º&tt>.P~§1:L!__.JlllL~------- --~J
3.8. Ancho de banda
Figura 1.10.

Datos de la norma 625/50, El

período de campo (20 ms)

incluye el borrado de campo

(1,6 ms) y éste a su vez el sin,

cronismo de campo (160 flS).

En la parte baja de la figura se

muestra más detallado el

borrado de campo.

El ancho de banda de la señal de vídeo, en la mayoría de los países europeos, es de
5,5 MHz. Esto significa que la señal de vídeo puede cambiar su estado eléctrico, como
máximo, hasta 5,5 millones de veces por segundo. Como veremos, el ancho d~ baI'!da
e~roporcional al número de lineas.,.alaLesolución.horiwn.talddese~.alardªGi.QrL
_~e aspect~~,J..lJÍmero_de.im.ªgl;ne_sp-ºLSegundo. '-­
Como sabemos, en..ili~ceg!.orc!~ televisión sól2.i75.de las º2SJí.J1(~!1_Ss9_n. vi~i­
~s. Las 50 líneas "perdidas"..s2.!:.r~.s.pQ!1.den.¡¡ljnt~ry.ak.ci~borradoy.erÍ:ic¡l ant~s
G~~o. Porta.nto, la resolllc:iól1 xerttcª! teÓrit.:as~rªck.FS!ín~s.
SBifll:>~.gQ.,g.resoluciónvertical efectiva es algo menor que la teórica. Esto
es cO['lsecuencia de queelgrosQ.r.~eL~~~e~J:l(:~<l.ªt?~_d_e.!.!..u_~_~_~_c:~IIl<lr~,al igu!}
<Lue sucede con el gro~L4el ha~t:__e.!.e~!~9..n_~.~~L!~~()_C!e_!".aJ_o.~S.2:t9QiººLCI!tC)...,
4eL t~l~visor, es algo may()r que el espacio. que s~para dos líneas. COrls~c:.lltivas.,~e
televisión. Ademásel perfil de energía del haz electrónico dista mucho de ser rec­
tangular, pareciéndose más a la curva de Gauss o gausiana, especialmente_cuando
se trabaja con un sistema entrelazado, donde el solapamiento entre línea~.vedl)..as
(que corresponden a distintos campos) debe ser mayor que en un sistema~ec:u.en­
cial puro (figura 1.11).
, Para calcular la resolución v~~tical efectiva ~~e m~.tiplicar el número de
lmeas por unfactor 9.e cor,re.C:ClOn, menor que la urlR1aCt, ~'L:OTIuce-como
"Factor de Kell", en honor de R: D. KelI, ciulerílbc1toacl?lí(jcen~nlo~añ2s_}0.
Atmque este factor depende del tipo de dispositivo que se emplee en la~mara
(tubo o sensor CCD), la respuesta de la óptica, el ajuste del haz de electrones del
TRC, etc. en la práctica se ha normalizado aO,75.Por tanto, 0,75 x 575 =430 líneas
---------_._--~-,,~-_.- ,.
La señal de vÍdeo
Figura 1.11 .

El perfil de energía del haz de electrones

tiene forma de "gausiana" y limita la resolu­

ción vertical efectiva.

de resolución vertical. Puesto que el ojo humano presenta, aproximadamente, la
misma agudeza en la dirección horizontal que en la vertical, una resolución equi.
valente en el sentido horizontal requeriría 430 x 4/3 =574"líneas". 4/3 es la rela­
ción de aspecto, es decir, la relación entre la anchura y la altura de la imagen nor'
malizada.
~rior signiJlca gue podemos "meter" como máxi~o 287 líneas blancas y 287
~~~a-pacteizquierdaa.1a p;uJe9cerec:h¡¡de la imagen. Así pues, 52 ~
p¡¡fesddil)eas =O,1 ~1!11Uhsponi~1fé:s_p¡¡Ea cadapaLbJ¡¡.~co~negro~ .-----,,- ,­
PQde.mos c:onsiderar cada par blanco,negrQ C:9.J!l..2 uni:l'Io=~,kTI1t:ntal, y si éste
_dura O, 181 J:i~,en uns~gu_fldohabrán:---- - ----­
U) 6~0
tia
z
'ºü 300
:3 200
o
~ 100
lY
o
LINEAS DEL CAMPO 1
__ PERFIL DE ENERGIA DE LAS
./ LINEAS DEL CAMPO 1
- :} -- -- -- -- - - - -- - ­
I
"r
......
1 __ - _
}. - --~'-~ - - - -- - - -- - -- -­
 ",", PERFIL DE ENERGIA DE LAS
~ LINEAS DEL CAMPO 2
.......~~ LINEAS DEL CAMPO 2

1
"" 5,5MHz
0,181 J.1S
./
V
//
V
V
/
v
1/
Figura 1.12.
Relaci6n entre líneas de resoluci6n y
ancho de banda, Para pasar de una a otra
12345678
medida, multiplicar o dividir por 80,
ANCHO DE BANDA EN MHz
38 39
TeCNOLOGíA KTUAl DE HlEI'ISION
Así pues, tenemos un sistema con una resolución horizontal cfectiya dc 574
'----'- . . . . --- ---- -- -_. ­.
líneas, uñili:esO!üCi6n yertical dc 430 líncas y un ancho dc banda dc 5,5MHz,
Por tanto:
1/2 x 3/4 Z"[R1
A" = 52 I1S
dü;-de: Z"IRT =Kx575,
K =factor de Kell =0,75
A" =ancho de Banda en MHz
Tabla 1,5 Parámetros más importantes de las normas de televisión de 525 y 625 lineas
PARAMETRO
Número líneas por cuadro
Número líneas por campo
Relación de aspecto (H:V)
Número cuadros / segundo
Número campos / segundo
Frecuencia de exploración horizontal (fHl Hz
Duración del borrado de campo (líneas)
Duración del borrado de cuadro (líneas)
Número de líneas activas por cuadro
Resolución vertical (Nv) en LPH
Duración de la línea total (lJs)
Duración del borrado horizontal (lJs)
Duración de la línea activa
Pixel horizontales para igual resolución
HN(2)
Duración de un ciclo en horizontal (T) IJs
Ancho de banda para igual resolución
HN (MHz)
Factor de resolución horizontal Qineas!MHz) (3)
Resolución horizontal real (NH) LPH
Relación de resolución HN
NORMA 525/60
525

262,5

4:3

29,97 (1)

59,94 (1)

525 x 29,97 =15,734,25

20

40

485

485 x 0,75 =360

63,556

10,07 ± 0,1

52,856

360 x 4/3 = 480

52,85 / 240 = 0,22

1fT =4,5

360/4,5 = 80

336 (para un ancho

de banda del

canal =4,2 MHz)

0,933

NORMA 625/50
625

312,5

4:3

25

50

625 x 25 =15,625

25

50

575

575 x 0,75 =430

64

12 ± 0,3

52

430 x 4/3 = 574
52/287 = 0,181

5,5

430/5,5 = 78

390 (pará un ancho

de banda del

canal = 5 MHz)

0,907

(1) En el sistema americano (normas M) la frecuencia de campo para blanco y negro era de 60 Hz, A par­
;' tir de la -introducciÓn del color en el sistema americano NTSC en 1953, la frecuencia de campo pasó a ser,de
59,97002996 (y más decimales], Este cambio se hizo con la intención de que 11LnUElya,pQ[tadQra de color no
interfiríerac:onlaportadora ét~ sonido: ' - .•
!
(2) Dato teórico no normalizado, a partir del cual se puede calcuiar el ancho de banda
(3) Es frecuente hacer una traslación entre líneas de resolución y ancho de banda, Dividiendo las líneas de
resoiución por 80 se obtiene el ancho de banda en MHz, Igualmente, si conocemos el ancho de banda de un canal,
podremos saber qué resolución horizontai puede proporcionar multiplicando el ancho de banda expresado en MHz
por el factor fijo 80, Puede verse Que esto es válido tanto para el sistema 525/60 como para el 625/50,
Resumen
• La televisión nació y se definió en los años 30, Muchas de las características y
limitaciones de los sistemas actuales son consecuencia de la necesidad de
compatibilidad con aquellos sistemas pioneros.
LJ_~cJl~!.1.h.lJ.t,kº
• Los	 tres sistemas de televisión actuales son: NTSC (EE.UU" Sudamérica )'
países del Pacífico), SECAM (Francia, Europa del este)' norte de África) )'
PAL en el resto del mundo. PAL y SECAM utilizan 625 líneas)' 50 campos;
NTSC utiliza 525 Hneas )' 60 campos.
• Para	entender los parametros en que se basa la televisión es necesario cono­
cer las características de la visión humana, en especial la anatomía y funciona­
lidad de la retina. La resolución espacial lumínica se cifra, para un espectador
medio, en un minuto de grado. Esta resolución sólo se obtiene en el centro
de la retina, en una zona denominada fóvea,
Otra característica visual muy importante es la persistencia visual, la cual se
cifra, en condiciones normales de observación, en l/lOs. Sin embargo, para
obtener una reproducción suave de! movimiento es necesario trabajar con una
frecuencia de imagen por encima de 20 ips. En cinl" se optó por 24 ips, mien­
tras que en televisión se eligió una frecuencia de imagen de 2S ips en la norma
europea y de 30 ips en la americana,
• Aunque 2S ips (30 ips en e! sistema americano) es suficiente para reproduci¡' el
movimiento de forma suave, a esta frecuencia de exhibición se produce un fuer­
te parpadeo de la imagen. La solución adoptada en televisión es el "intercalado
de campos". De esta forma se evita el parpadeo sin aumentar el ancho de banda.
Así, la frecuencia de refresco de la pantalla =a la frecuencia de campo =50 Hz
en la norma europea y 60 Hz en la americana.
El entrelazado de campos fue una buena solución en su momento, aunque,
por otro lado, introduce sus propios defectos y artificios. Los futuros sistemas
de televisión digital para multiprogramación y HDTV utilizarán, seguramen­
te, exploración no entrelazada, tamhién llamada "progresiva".
• En la	 norma europea se emplean 625 líneas por imagen (312,5 líneas por
campo), mientras que en la norma americana se utilizan 525 (262,5 por
campo). En cada campo de la norma europea se utilizan 25 líneas para el
borrado vertical, de forma que el número de líneas activas por imagen es de
575. En la norma americana se utilizan 20 líneas POl- campo para el bOlTado
vertical, siendo el número de líneas activas por imagen de 485.
•	 La resolución vertical efectiva es menor que el número de líneas activas, ya
que se ve afectada por el factor de Kell, quedando en 430 líneas en la norma
europea y 360 en la americana. Teniendo en cuenta la relación dI" aspecto, una
resolución horizontal equivalente daría 574 líneas por anchura de imagen en
la norma europea y 480 en la americana. (, ~"? '." -:-- l - .­
•	 La frecuencia de línea se deduce multiplicando la frecuencia de imagen por el
número de líneas que componen cada imagen y es de 15,625 Hz en la nOl'ma
europea y de 15.734 Hz en la americana. En todas las normas de televisión
convencional se utiliza una relación de aspecto de 4: 3,
•	 La duración de una línea es de 1/15.625 =64 IJS (en 625/50) y de 1/15.734
= 63,55 I1S (en 525/60). El borrado de línea en la norma europea es de 12
mS, lo que deja 52 I1S para la línea activa. En la norma americana el borrado
de línea dural0,07 IJS y la línea activa 52,85 I1S.
• Los niveles de amplitud de la señal de vídeo en blanco y negro se extien­
4140
~
TrcNOLOclA AnUAL DE THEVISION
den desde OY para el negro hasta O,7Y para el pico de blanco. Entre O y
-0,3Y se encuentran los sincronismos. En total la señal de televisión ocupa
una extensión, desde el fondo de sincronismos hasta el pico de blancos, de
0,7+0,3 = lV
o El ancho de banda es proporcional al numero de líneas, a la resolución hori­
zontal deseada, a la relación de aspecto y al numero de imágenes por segun­
do y es de 5 ó 5,5 MHz en los sistemas europeos (puede ser más elevado en
SECAM) y de 4,2 MHz en el sistema americano.
i
I
f~
I¡
i,
¡
¡
CAPÍTULO 2
El color
t
1. Naturaleza del color
1.1. Aspectos físicos del color
Por definición, el color comprende todos los aspectos de la luz, excepto las
variaciones en tiempo y espacio. El color es un aspecto de nuestra experiencia
visual y, desde el punto de vista físico, depende de las longitudes de onda de la
radiación que ilumina e! objeto, de las longitudes de onda que reneja dicho obje­
to, de! color de los objetos circundantes y de la absorción o renexián de las sus­
tancias que se interponen en la trayectoria de la luz. ~+-Qesde u~a ó-Eli.fa
c:i~n tífica,podemos reconocer un co!qr por la longitud de-Ondadominante ql!e
em.ite o reneja, a la cuaLañadiremos.sumonocrornaticidad..o..pureza.La luz del
láser, por ejemplo, puede ser roja (en el láser de rubi) o de otros colores, pero
siempre es monocromática, porque está formada por una unica longitud de onda.
En este caso basta con decir de qué longitud se tI-ata (por ejemplo,
700 nm) para identificar, sin lugar a dudas, e! color de dicha luz. Cuando no se trata
de luces o colores monocromáticos, además de la longitud de onda dominante es
necesario conocer en qué medida dicho color está contaminado de luz blanca.
1.2. Aspectos psicofísicos del color
Son tres: matiz, saturación y brillo, ninguno susceptible de ser medido directa­
mente.
42
,
¡
1
1
o Por matiz entendemos la sensación de color por la cual distinguimos las par­
tes del espectro: rojo, azul verde, amarillo, etc. El equivalente f1sico del matiz
es la longitud de onda dominante de la luz para cada color.
o Saturación es e! grado de pureza de un color, es decir, la medida en que está
43
TlC;,'OLOGí., ACTUAL DE TELErJSIÓN
contaminado de blanco, gris o negro. Un "rosa" difiere de un rojo puro en su
saturación. Se dice que el "carmín o escarlata" es un rojo saturado al 100%,
mientras que el "rosa" es un rojo saturado, por ejemplo, al 50%. Cuanto mas
pálido sea un color, menor sera su saturación y viceversa .
•	 El brillo es la sensación de luminosidad de un color. Esta asociado con la canti­
dad de luz y la sensación visual. Un gris y un blanco, por ejemplo, difieren sólo
en el brillo (el segundo es mas brillante). Si mezclamos al 50% pintura roja y pin­
tura blanca obtendremos un rosa o, lo que es lo mismo, un rojo saturado al 50%
y de un cierto brillo. Pero si en lugar de pintura blanca utilizamos pintura negra
para mezclarla con el rojo, tendremos también un rojo saturado al 50%, aunque
ahora con menor brillo que antes.
Es posible encontrar en otros textos denominaciones distintas a las usadas aquÍ.
Podemos establecer la siguiente equivalencia aproximada:
Matiz =tinte =tono

Saturación =pureza =c¡-oma

Brillo =luminosidad = valor

1.3. Mezcla aditiva
Siempre que trabajamos con luces (como en el caso de la televisión) se dice que
estamos empicando mezcla aditiva de colores. En efecto, si sobre una pantalla
blanca de una habitación a oscuras proyectamos un haz de luz roja, tendremos una
cierta cantidad de luz. Si a continuación hacemos converger sobre la mancha de luz
roja otra de luz verde, obtendremos la suma de la luz de ambos proyectores (la
pantalla refleja la luz roja y también la luz verde). Cada vez que añadimos luz, el
color resultante es mas luminoso.
1.3.1. Colores primarios luz
La designación de ciertos colores como primarios es un hecho arbitrario que,
sin embargo, está basado en algunas consideraciones. Por ejemplo, sabemos que los
conos de la retina se dividen en tres grupos, los cuales presentan maxima sensibi­
lidad, cada uno de ellos, a las luces roja, verde y azul. Ademas rojo y azul quedan
en los respectivos extremos del espectro de luz visible, mientras que el verde cae
justamente en el medio. Por estas razones se han elegido como primarios luz los
colores rojo, verde y azul.
Con estos tres colores es posible, mezclandolos en las proporciones adecuadas,
obtener cualquier color, ya sea éste natural (se encuentra en la naturaleza) o artificial.
La figura 2. 1 muestra los tres colores primarios luz, así como los secundarios. Por
secundarios se entiende los colores que se forman al mezclar dos primarios en canti­
dades iguales. Por ejemplo, con rojo y verde se obtiene amarillo; con verde y azul
tenemos el cian o cianino, que es un azul turquesa; con rojo y azul logramos el magen­
ta, que es una especie de granate algo violáceo. La mezcla de los tres primarios, rojo,
verde y azul, en la misma proporción da el blanco; la ausencia de los tres, el negro.
Figura 2. J.

Mezcla aditiva.

Se dice que dos colores son complementarios cuando entre los dos pueden
producir el blanco si se mezclan en la misma proporción. Por ejemplo, amari­
llo y azul son complementarios, ya que el amarillo está formado por rojo y
verde y al mezclarlo con azul lo que realmente estamos haciendo es mezclar
rojo, verde y azul. Dos colores complementarios presentan el máximo contras­
te cromatico. El complementario del rafa es el cián; el del verde, el magenta, y
el del azul, el amarillo.
1.3.2. Las leyes de Grassmann
Como sabemos, es posible obtener cualquier color mediante la mezcla aditiva
de tres fuentes de luz primaria Fl, F2 YF3, siempre que estos primarios hayan sido
adecuadamente seleccionados. Fue precisamente Grassmann uno de los primeros
en demostrar la afirmación anterior. Además enunció una serie de leyes sobre tri­
cromía que son de gran interés:
•	 Dos radiaciones cromaticamente equivalentes a una tercera son equivalentes
entre sÍ.
•	 Si sobre el ojo actúan varias radiaciones simultáneamente, es posible sustituir
una o varias de estas radiaciones por radiaciones cromáticamente equivalen­
tes.
•	 Si dos áreas visuales producen la misma sensación de color, ésta no cambia si
en ambas se disminuye la luminosidad o brillo sin cambiar el matiz ni la satu­
ración.
• La luminancia de un color es igual a la suma de las luminancias de sus com­
ponentes espectrales.
Basándonos en las leyes anteriores, hagamos el siguiente experimento. Colo-
j
44 45
,
TECNOLOGJA ACTUAl. DE TELEVISiÓN El color
f
¡
quemas tres proyectores, uno rojo, otro verde y otro azul de igual potencia, a la

izquierda de una cartulina blanca doblada, tal como muestra la figura 2.2. A la

derecha de la cartulina colocamos un proyector de luz blanca. Ahora ajustemos

mediafl!.~~.spQSitivorcOmO,_POfejemplQ) un filtro Q un reóstato) la intensi­

dad l.':1~i':.i~a d~c~~a_E!,_o+~!ou;l~hU.zquierda hasta que la sensación visu¡ll perci­

bi9_ª.JtQLdQbservª!lQI sea idél!!ica.~n..amb.as_caras de.lacartulina.

Suponiendo que lall~.c,lt:Lpr-º'yegQr.sle.Jaderecha. se-a per-fe€tameflteblanca

(c0!!1~Ja~l11itidapor.el Sol), 10sproye~tQre5.-deJaizquierda habrán sido ajustados

aJ_~sig.uie.I1!~s__p.o~iciQnes:

v
ROJO
tVERDE
I t,
¡
t
t
[
tt
~
~I LUZ
AZUL -BLANCA i,
 I
~

 / ,~
 f
, i ~
','
Figura 2.2.""~--'
OBSERVADOR Igualación del blanco mediante proyectores R, G YB.
Proyector rojo = 30%
Pr.°l~c:.t?r.~~rd.t:=j2%._
! Proyector azul =11 %

El expe¡'imeD.lo ant~Ijm:_g~mu~~tLa_qg~.la..I1!~.Qlªn<;:ª_~.tªLQrm.ada,..s.obrUºº.o,

por luz verde (59%), algo de radiación roja (30%) y muy poca azul (lIr )
o
1.4. Mezcla sustractiva
Supongamos una cartulina blanca que refleja el 80% de la luz que recibe. Es
blanca porque refleja en la misma proporción todas las componentes de la luz. Si
sobre dicha cartulina aplicamos un trazo de pintura roja) los pigmentos de que está
compuesta la pintura absorberán parte de la luz (todas las componentes excepto
las rojas) que antes se reflejaba. El resultado será menos luz. Si mezclamos la pin­
tUfa roja con otra verde) el nuevo color absorberá más luz que las pinturas indivi­
duales. Realmente habremos obtenido un marrón oscuro) bastante menos lumino­
so que el rojo o el verde originales.
¡46
!
..1
Figura 2.3.

Mezcla sustractiva.

La conclusión es que cada vez que añadimos un nuevo color pigmento estamos qui­
tando luz. Por tante;.í este tipo de mezcla de colores se denomina mezcla sustractiva.
Los colores cián, magenta y amarillo, que son secundarios en mezcla aditiva, pasan
a ser primarios en mezcla sustractiva. Si queremos pintar un cuadro a todo color con
sólo tres tubos de pintura, serán precisamente cián, magenta y amarillo los que debe·
remos elegir. José María Parramón, un excelente pintor dedicado a la enseñanza,
recomienda el amarillo de cadmio, el carmín de Garanza oscuro y el azul de Prusia
para aquellos que quieran hacer la prueba de pintar un cuadro con sólo tres tubos de
color. Si se trata de pintura al óleo, por ser pigmentos opacos, deberá emplearse, ade­
más, pintura blanca para rebajar o mermar la saturación de los colores. Los tres colo­
res de pintura de Parramón son los más parecidos, dentro de los catálogos de fabri­
cante de tubos de óleo, a cián, magenta y amarillo.
Lo importante es no confundir los colores luz (mezcla aditiva) con los colores
pigmento (mezcla sustractiva).
1.5. Igualación de colores
Son procedimientos físicos que consisten en lograr una mezcla de colores que
visualmente se parezca a otra muestra dada. Sea por mezcla aditiva, mediante
luces, o por mezcla sustractiva, utilizando pigmentos, la igualación puede lograr­
se. Cualquier color puede obtenerse sumando luz espeQ1gL1!l91lQgomátic-ª-X-Iuz
Ma~01.:..S!Il_emb.,!rg(»l()s.,p~rpuras no pu,edep Oº!~lJ,crs~_de.es:ta.m.anexLE9J:.aello
h.aceJ~l~ ~uIl1ar dos lu~es ~spe.ctr'!le.s..)_9.Qncre);'!I!:lgI!!e.lª§.<:.Qrn:sp.Qll.dimt~s_ª-.LQ1>
.~JS.tr.emos del espectro (rQjo y violeta). A estos colores se les conoce también como
~ no espectra~s:.Pordefini9§IlL~n.colorn()espectral no pertel1ec:.e~_~.E..ec­
~, por tanto,~"'p.:::,ª~~del1.~ifi<:~rse'porsu longitud de.Qoda dominante. En
l~ga.r~eestose indica la longitud de onda del¡:olor complem~ntari().J"a luz de este
color com...El~.!!l..e.Il.t~~i~E1.e~cl~~acon la del purpúreo en cuestión da blanco.
47
Tr.CNOLOG1, tC fU:1 !JI TllE ISlÓN
1.6. Escalas normalizadas
Se utilizan para garantizar que las pruebas de percepción del color se realizan
en condiciones objetivas. Un factor muy importante es la iluminación, ya que los
resultados son distintos según sea el tipo de aquélla (natmal, artificial, incandes·
cente, etc.).
Dos muestras de color que aparecen igualadas con una iluminación A pueden
parecer distintas con la iluminación B. Para evitar cualquier duda en la iluminación
de las muestras se utilizan fuentes de luz normalizadas. Aunque en tales condicio­
nes tampoco se asegura que todos los observadores apreciarán el mismo efecto,
sacando el promedio estadístico de las apreciaciones de muchos individuos se
obtiene el observador normalizado, quien verá siempre las cosas del mismo modo.
Los primeros intentos serios de sistematización del color aparecen en el siglo
XVI!, con el desarrollo de las ciencias exactas. Sin embargo, habrá que esperar
hasta finales del siglo XVIII para encontrar un moelelo que siga unas pautas cientí­
ficas. El primer modelo lógico, que proporciona una imagen clara de lo que podrí­
amos llamar el "espacio de los colores", se debe a Philipp atto Runge, pintor de la
escuela romántica alemana.
1.6.1. El sistema Runge
El modelo de Runge tiene la forma de una esfera, tal como si se tratara del
globo terráqueo. En este modelo, al polo norte le corresponde el color blanco,
mientras que el polo sm representa el negro (véase figura 2.4).
ClAN (TURQUESA) NARANJA
V!."RDE
AMARilLO ROJO MAGENTA
EJE: OEL GRIS
(b)
VERDE
MAGENTA
Figura 2.4.
Representacion de los colores en
(e)
el espacio de atto Runge.
El círculo ecuatorial posee los colores en tintes puros (saturados), variando del
rojo al naranja, al amarillo, al verde, al cián, etc., de manera que viajando a lo largo
del ccuador iríamos "ariando el matiz. Los dos polos están conectados por meri­
dianos, que cruzan el ecuador y los paralelos.
Puesto que se trata de un objeto sólido, podemos definir tres ejes, los cuales se
relacionarán con Jos tres aspectos psicofísicos del color: el eje que conecta los dos
polos es el eje del brillo (o luminancia), de mancra que los colores se van hacien­
do más oscuros a medida que nos movemos hacia el polo sur.
La saturación varía desde el centro de la csfera hacia la periferia, de forma que
en el núcleo encontraríamos tonos grises, mientras que los colores saturados puros
habria que buscarlos en la periferia. En realidad, tales colores puros sólo estarían
presentes en el circulo ecuatorial, ya que se desaturarÍan hacia blanco si nos move­
mos por la superficie hacia el polo norte y hacia negro si lo hacemos hacia el polo
sur. Las variaciones de matiz las vamos a encontrar moviéndonos radialmente a lo
largo de un mismo paralelo.
Las figuras 2.4 (a) y 2.4 (b) representan dos vistas de la esfera de Runge; una
pone al descubierto el polo norte y la otra el polo sur. La figura 2.4 (c) es un corte
de la esfera a lo largo de un meridiano, de manera que vemos aumentar el brillo
del sur al norte. La figura 2.4 (d) ¡'epresenta un corte a lo largo del ecuador, mos­
trando que, para una altitud determinada, deberíamos encontrar niveles de gris
unifonne
La ventaja del modelo de Runge está en su atractivo visual y en su simplicidad.
Sin embargo, adolece de varios defectos:
1.	 Si se observan todos los eampos de color se verá que en algunas regiones los
matices cambian muy rápidamente, mientras que en otras parece haber
zonas demasiado grandes de color constante.
2.	 Aunque en este sistema el brillo crece de sur a norte, si nos movemos por
un paralelo determinado no encontramos los mismos niveles ele gris, ya que
en los matices amarillos, por ejemplo, el brillo es muy superior al corres­
pondiente a los azulcs.
3.	 Situados en el ecuador y a una cierta distancia del centro de la esfera debe­
ríamos encontrar los mismos grados de sensación de pureza o saturación. Sin
embargo, el rojo aparece como más saturado y puro <¡ue su complementario
el cián.
1.6.2. El sistema Munsell
Fue ideado por Albert H. Munsell, pintor y profesor de arte, y consiste en una
serie de muestras de color dispuestas ordenadamente. Partió del sistema de Runge,
como idea general, pero no se basó en la forma de la esfera. El modelo de Munsell
se parece más a un árbol y de hecho así lo denominó el propio autor.
, Munsell utiliza tres características del color: matiz, croma o intensiclad y valor.
Estos son aproximadamente equivalentes a los aspectos psicofísicos estudiados
(matiz, saturación y brillo). Los matices se disponen en orden espectral alrededor
de un círculo, cuyo eje es una escala de diez valores de brillo, desde el O para el
¡
1
49
TECNOLOGIA ACTUAL DE T[.[VISIÓN
r
tVALOR O ,BRILLO
f,,
UNA PÁGINA DEL ¡~,~~SATURACION
~-"
I
CATÁLOGO DE MUNSELL
¡ TONO
oc~9D

O sDD"~ COLOR CLARO
~ 7DUD
o 6 bhll:iEl~[ill
g 5• • • •
ii 4 • • • •
al¡3••••
2• •
/~' COLOR OSCURO -~SATURACIÓN f// //
I
¡
/>'
"  / / '
'''-~----
Figura 2.5.

El árbol de Munsell.

•l
inegro en la base hasta 9 para e! blanco en la parte superior. Así pues, e! árbol de ¡
Munsell aumenta de brillo a medida que crece. La saturación varía a lo largo de! f
radio, desde mínima en e! eje hasta máxima en e! perímetro.
En la práctica, e! sistema Munsell es un atlas de 100 páginas de papel, cada una í
de las cuales muestra una serie de colores, dispuestas en forma de árbol alrededor ~
i
de un eje vertical. Todas las muestras de una página tienen el mismo matiz, pero
tvarían su saturación de izquierda a derecha y su brillo de abajo arriba. Las diferen­
f
cias entre fichas contiguas se han elegido de modo que psicológicamente presen­
ten intervalos iguales.
La ventaja del sistema Munsell con respecto al sólido de Runge, está en que cada
"rama" o "página" de! árbol puede tener una forma distinta e incluir más o menos
muestras de color.
1.6.3. El sistema Ostwald
Utiliza una serie de muestras de color similares a las de! Munsell y, como éste,
adolece de las deficiencias propias de los colores impresos, que no pueden repro­
ducir por completo todos los posibles colores.
Este sistema utiliza las variantes físicas de! color: longitud de onda, pureza y
luminosidad, en lugar de las psicofísicas de! Munse!l. Este sistema suele ser prefe­
rido por los artistas.
1.6.4. El triánBulo internacional de colores
,
Se le conoce también como sistema CIE (Comission lnternationale de l'Éclai­ í
i
rage) y aprovecha ciertos detalles de los sistemas Ostwald y Munsell, de modo que !
so j
El color
es posible pasar de uno a otro. Mediante e! sistema CIE es posible describir un
color en términos matemáticos)' representar la longitud de onda dominante (rela­
cionada con e! matiz) y la pureza o saturación de una muestra. La única variante de
la que no informa e! sistema CIE es e! brillo o luminosidad de los colores. A la suma
de las informaciones de matiz y saturación se denomina cromaticidad, que pasa a
llamarse crominancia en televisión. El hecho de que el sistema CIE no informe del
brillo no es muy importante en televisión, ya que este parámetro suele tratarse por
separado de la crominancia. Hay que recordar que la televisión nació en blanco )'
negro, lo que significa que la señal de vídeo sólo contenía información de brillo. A
esta información de brillo se le añadió después una nueva: la crominancia.
Como hemos visto, tanto e! sistema Runge como e! MunselJ o el de Ostwall
representan e! color en función de tres variables, lo que genera necesariamente un
espacio tridimensional sólido.
Igualmente podríamos imaginar un sistema de representación basado en tres
variables, pero en este caso no serían las de matiz, saturación y brillo, sino las can­
tidades de rojo, verde y azul (figura 2.6).
VERDE AMARILLO ,-", -.'
A
CIÁN
,BLANCO
EJE

MONOCRO­

MÁTICO

NEGRO
ROJO
Figura 2.6.

El cubo de color RGB,

-, AZUL
Obtendríamos así un cubo cuyos ocho vértices representarían los tres colores
primarios: rojo, verde y azul; los tres colores complementarios: cian, magenta y
amarillo; así como el blanco y e! negro.
Sin embargo, resulta mas conveniente, a efectos de su representación sobre el
papel o sobre un instrumento de medida, disponer de un sistema de representa­
ción plano, basado en dos coordenadas. Si prescindimos de la luminancia, tal siste­
ma podría consistir en e! hexagono que se forma al mirar e! cubo de la figura 2.6,
haciendo coincidir el punto del blanco y el de! negro. Los seis vértices de este
hexagono corresponderían a los tres colores primarios y a los tres colores com­
plementarios, mientras que su centro geométrico representaría el blanco (figura
2.7). Este tipo de representación, que suele verse en algunos tratados sobre el
color, presenta una desventaja, ya que las coordenadas "x" e "y" de! plano no corres­
ponden a ninguno de los colores primarios.
SI
MAGENTA
_______________ Ll colorTEq''¡OLOGíA ..,el UAl DE -r [UVJ~ró~
FUENTE.

DE..LUZ _

c::=(])=t~
BLANCO ~_. __
.--. --.( "' ~ _
-
Figura 2.7.

Proyección del cubo de color RGB.

Un sistema similar al anterior, pero más sencillo y adecuado, podría basarse en
una representacion triangular, como se muestra en la figura 2.8. AqUÍ e! eje "x"
corresponde al eje del rojo y el eje "y" al del verde, mientras que el azul se encuen­
tra en el origen.
Nótese que este sistema representa sólo los parámetros de matiz y saturacion, pero
no informa sobre el brillo de los colores. En efecto, si nos movemos alrededor de! trián­
gulo y por su periferia, estaremos variando e! matiz, mientras que si nos movemos de la
periferia hacia el centro, o al revés, iremos variando la saturacion.
Si quisiéramos ver cómo varía la luminancia, tendríamos que imaginar este
triángulo como un solido, de manera que debajo de él habría otro igual, pero un
poco más oscuro y más abajo otro más oscuro, etc.
.EJE "y"
I .~--VERDE
Figura 2.8.
f.MARILLO

ClAN ,.,//

../
/
.".
BLANCO RruO
I
J .~  ~ET Sistema de representación basado en
AZUL MAGENTA	 coordenadas U x"u y".
1.7. Crominancia de un color
Se define como la diferencia entre los valores triestÍmulo de un color dado
(representados por las cantidades de rojo Er, verde Eg y azul Eb) Ylos valores tries­
tÍmulo de un blanco de referencia de la misma luminancia (para el cual
Eg =Er =Eb = Ey), es decir, de un gris, cuyo nivel de brillo iguale al de! color
m~edido. Los valores de crominancia de una señal sedn, por tanto:
Er-Ey ; Eg-Ey j Eb-Ey
Para poder especificar un color con independencia de su luminancia se definen
unas coordenadas de cromaticidad ur", ug" y "b", donde:
R G B
r~ ; g= j b=---- (1)
R+G+B R+G+B R+G+B
Notese que si la luminancia de un color cambia en un factor "a" (por ejemplo,
se reduce a la mitad), entonces, por la ley de Grassman, R, G Y B deben cambiar
en el mismo factor y, por tanto, r, g y b permanecen inalteradas, ya que el nume­
rador y el denominador cambiarían en la misma magnitud (en este caso se reduci­
rían a la mitad).
También de la ecuacion (1) se deduce (por ejemplo, sumando las ecuaciones)
que r + g + b = 1, de forma que si se conocen dos de las tres coordenadas de cro­
maticidad se puede deducir la tercera. Si conocemos, por ejemplo, los valores de
"r" y "g", podemos obtener el valor de ub" restándole a la unidad los valores de ur"
y "g" sumados. Esto nos permite representar la cromaticidad en un diagrama bidi­
mensional (figura 2.9).
El sistema de la figura 2.9 nos permite representar la crominancia de cualquier
color mediante tres parámetros (Ur", ug" y "b") Yello a pesar de ser un sistema de
representacion plano. Por ejemplo, e! blanco está formado por 0,33 de "r", 0,33 de
"g" (ambos medidos en el triángulo) y 0,33 de ub" (deducido).
EJE
0.1jJ~UL
.. B
0-
I I i I I I I I
0,7-­
0,6­
05-1 ..·
0,4­
0,3­
0,2-	
~
ROJO	 Figura 2.9.
Representación basada en coordenadas
. . 'EJE'" «r"~ u
g", "bU.O 0,1 0,2 0,3 0,4 0,5 0.6 0,7 0.8 0,9 1 r'
5352
I
:;
~..-J
1,0
0,8
06' I ---+-t- V I  =tW
o:: 0,4
~(j) 0,2
w
=>a..
°(j)
w
o:: -0,2
-0,4
380 420 460 500 540 580 620 660 700
TECNOLOGíA ACTUAL DE TELEVISlc)N
f
1Un problema que presenta el sistema de la figura 2.9 es que hay ciertos colores
que no pueden ser igualados con los tres primarios de referencia ur", ug" y ub". Por
ejemplo, supongamos que deseamos obtener un cierto color cián sumando luces
verde (g) y azul (b) Yque no encontramos ninguna combinación de cantielades ele
verde y azul que lo logren. Entonces deberiamos escribir:
e = g + b - kr
Siendo uc" el color que se quiere igualar. Ahora bien, resulta que si, por ejemplo,
le sumamos una cierta cantidael de rojo al color que queremos igualar, tal iguala­
ción sí es posible, ele elonde:
c .. g+b
Siendo "la" una cierta cantidad de rojo.
Igualmente poelemos escribir:
e + kr = g + b
La ecuación anterior significa que para poder igualar cualquier color puede
ser necesario sumar cantidades positivas y negativas ele los primarios "1''', "g" y
"b". Hay que notar que se trata de un truco matemático, ya que desde el punto
de vista f1sico no tiene sentido sumar luces negativas. Sin embargo, en matemá­
ticas no presenta ningún problema trabajar con cantidades negativas y, en reali­
dad, el sistema de representación basado en coorelenadas cartesianas lo permite
perfectamente.
Volviendo al experimento de igualación de colores (figura 2.10), el obsetvador mira
un pequeño campo circular de luz. El campo está dividido en dos mitaeles, de manera
que el color que se desea igualar (e) ocupa una ele ellas, mientras que una mezcla regu­
lable de primarios ur","g" y"b" ocupa la otra mitad. Estos primarios pueden ser cualquier
conjunto, siempre que ninguno ele ellos pueela obtenerse por suma ele los otros elos. El
experimentaelor ajusta las cantielaeles de los tres primarios hasta que logra igualar (a jui­
cio del observador) e! color ele prueba (c).
Para ciertos colores de prueba resulta imposible lograr la igualación' con cantida­
des positivas ele primarios, así que se ha ele rediseñar el experimento de forma que
uno o más ele los primarios puedan ser sumados al color de prueba. En este caso la
cantidad de! primario sumado al color en prueba se entiende como una cantidad nega­
tiva de tal primario necesaria pa¡'a igualar el color de prueba.
COLOR DE

PRUEBA

Figura 2. IO.
Igualación de colores.
¡
¡
¡
i
1
Si se realiza este experimento utilizanelo como colores de prueba Jos colores
espectrales totalmente saturados (colores monocromáticos puros), se obtiene un
conjunto de funciones o valores ele igualación del color, es decir, las cantielades de
primarios necesarias para igualar los colores espectrales. La figura 2.11 muestTa un
conjunto ele funciones de igualación RGB.
AZUL VERDE ROJO
Figura 2. I 1.
Cantidades relativas de primarios necesarios para generar todos los colores del espectro.
Las funciones ele igualación de la figura anterior muestran cantidades negativas
para los tres primarios, indicando que muchos colores espectrales caen fuera de!
rango de colores obtenido mediante mezcla positiva de los tres primarios. Si qui­
siéramos dibujar un triángulo como e! de la figura 2.9, pero teniendo en cuenta
estas cantidades negativas, obtendríamos la representación de la figura 2.12.
Colocando en este gráfico todos los colores espectrales se nos formaría un espacio
en forma de herradura.
Otra característica interesante de las leyes de Grassman es el concepto de que
cualqUier conjunto de primarios puede ser igualado mediante otro conjunto dife­
rente, esto es, que cualquier conjunto de primarios es una transformación lineal de
cualquier otro. Supongamos que definimos un nuevo conjunto de primarios que
denominamos XYZ. Ahora podemos escribir una ecuación matricial que relacione
este nuevo conjunto con el conjunto original RGB.
LONGITUD DE ONDA EN NANÓMETROS
donde
Xr Xgx
y Yr Yg
:H~]Z Zr Zg
x = XrR + XgG + XbB... , etc.
5554
T[CNOLOGí: AC-rU,'L Dl fELEYISll)7'l
+g
... 2.0
- 1.8520
510 r--.:."----. 1.6
"----.530 t 1.4
1,2
500  540~1
~ ~
:"'" 550
I0.8~560
1 06 ~570
490 '~ i' '" 580
, 0.4 "'- 600
480" I 0,2 , _ _
"'" 700
47L~I-º-~ -¡-~ +r
-r... -¡' -, L 8 ~ ,----,-0.4-'~~-, t ,02 0.4 0,6 0.81__ ~ -0.6 -0,2 ¡ 1,0
-1.2 -1,0 -. _g
Figura 2,12.
Localización del espectro (espectrus Jocus) basaelo en coordenadas rgb posi­
tivas y negativas.
En 1930, cuando se estableció el sistema CIE, se optó por un nuevo conjunto de
primarios denominados XYZ, que son transformaciones lineales de RGB, pero que
tienen la ventaja de no presentar valores negativos, lo que simplifica los cálculos. Esta
tTansformación supone que los nuevos primarios CIE son "primarios no reales", es
decir, primarios que caen fuera del espectrus locus.También se suele decir que son pri­
marios ficticios o supersaturados. El primario X (rojo) tiene valores de x = 1, Y= O.
El primarioY (verde) tiene valores de x = O, Y= 1, mientras que el primario Z (azul)
tiene valores de x =0, y =o. La figura 2.13 muestra las funciones de igualación de
color del observador normalizado CIE. •
El sistema CIE de igualación de colores incluye procedimientos de cálculo y
z x
Figura 2, 13,

Funciones ele igualación del color normalizadas CIE.

El color
representación gráfica normalizada de los datos. Las cantidades de primarios elE
necesarias para una igualación se del)ominan "valores triestímulo" )' se denotan
mediante los símbolos XYZ.
En 1931, el CIE normalizó una representación gráfica, denominada "diagrama
de eromaticidad", que es una proyección bidimensional del espacio de color XYZ.
Esta rep¡-esentación utiliza las coordenadas "x" e "y". La coordenada "z" queda
sobreentendida, ya que en todo momento x + y + z = 1.
El diagrama de cromaticidad desarrollado por la CIE sirve para representar
cualquier color, mediante dos coordenadas (x e y), del diagrama, más una cifra que
determina el brillo.
La figura 2.14 muestra el diagrama de color normalizado. Algunas de las carac­
terísticas más relevantes son: todos los colores del espectro, tal como pueden verse
en el arco iris, están representados, con sus correspondientes longitudes de onda a
y P""535 FUlll1te A
.. 520 " "0,4476
O8, -, --,- V '-r,"- ,--- '" " y =OA074
I "", 530 FU9nte B
•  l(" 0,3485I
(0.7
~, - 1--- ~~.O y=0.J517
' ' ' ' '510 Gc -  I1,
550 Fue"teJI; " 0.3101e
1 1. '1=0.3163
°6505 /- l' 1',' I Fuen'. o (6500 K)
, ~ "~60 '=3127
': I yo 329
0'_  _ : . _ 57~ Fuente E
o,51500 , : ~' ,eO.3333
, I ' 680 yo 0.3333
1 I "30ooK , ­
041 [' '~a'-' '-'-~""590, l' 495 i'. i 2.000 K -hOO
O 5,600 K
I , - ,-, 1000 K' lo" 630
°, 31 ' 10 000 K' le, Re"'"
r  '9~ 20000 K '/ ! i I "~i) ,700
0,21  I rf>{ ~" l., ./"'C R~
i 4851 Be~
0,11 , !
i 1180 'f~4 70 ¡
I I 450, i : XFigura 2.14. 1" ._.. I ..° 0, ]'0.2 0,3 0,4 0,5 0,6 0.7 0,8Diagrama de cromaticidad CIE- J931. 400
lo largo de la curva exterior. Las coordenadas "x" e "y" son magnitudes dimensio­
nales, a partir de las cuales puede determinarse tanto el tono o matiz como la satu­
ración de cualquier color. En la recta que sirve de base al triángulo se representan
los colores no espectrales (los púrpuras). El brillo o luminancia (suele represen­
tarse por la letra "Y") no está representado en el triángulo. Los puntos situados
sobre la curva exterior corresponden a colores saturados, mientras los puntos inte­
riores representan colores no saturados (contaminados de blanco). El punto "E" es
el centro del triángulo de color (x == 0,33; Y=0,33) Yrepresenta un blanco ideal,
es decir, un blanco para el que todos los colores del espectro aportan igual canti­
dad de energía (blanco equienergético).
Si nos fijamos (figura 2.14) en la línea PE, P (x =0,195; Y=0,78) representa
un color verde totalmente saturado (longitud de onda = 535 nm). El punto Gc
57
56
TECNOLOGIA ACTUAL DE TELEVISiÓN
representa e! mismo color, pero menos saturado. La saturación en este caso queda
definida por:
E
Gc =-- X 100% =85%
PE
Siendo E e! punto que representa el blanco.
La curva Rc - A - Z representa los colores emitidos por e! cuerpo negro ideal
cuando es calentado. Las diferentes temperaturas de color están representadas en
esta curva en grados Kelvin. Una lampara incandescente que tenga una tempera­
tura de color de 2.800° K emitira una luz igual a la señalada en e! punto A. El punto
B representa la luz solar al mediodía; el O, el promedio de luz diurna, etc.
Los colores utilizados en televisión como basicos (rojo, verde y azul), que sue­
len representarse por sus iniciales en ingles R, G YB, pueden encontrarse en e!
tr¡angulo de color con las indicaciones Rc, Gc y Bc. La situación de estos puntos
demuestra que sólo Rc es un color totalmente saturado.
Las figuras 2.15, 2.16 Y 2.17 muestran algunas de las utilidades de "triangulo
internacional de colores". En la figura 2.15 puede verse que cualquier color situa­
do en la recta O-E puede obtenerse mezclando cantidades proporcionales de los
colores definidos por O y E. También es posible determinar e! grado de saturación
o pureza de cualquier color contenido dentro de! triangulo. Por ejemplo, para
saber cual es e! grado de saturación de! color "G" basta con dividir la distancia de
este color al punto blanco por la distancia al color de! mismo matiz situado en la
periferia.
yCUALQUIER
MEZCLA ENTRE
D Y E SE SITÚA
ENDE
............-: ~

LA LONGITUD DE ONDA
DOMINANTE DE "L" ES "N"
PUREZA DEL _ LD
COLOR "L" - DJ
"O" Y "P" SON COMPLE·
MENTARIOS. PUESTO
QUE O+P = BlANCO
~K
Figura 2.15.

Mezcla de colores en el "triangulo inter·

COLORES NO ESPECTRALES
nacional". (PÚRPURAS O MAGENTAS)
------~ X
Colores no espectrales.
Figura 2.16.
:f
1
Figura 2.17.
...........- - - ---.---------., XPrimarios empleados enTY.
En la figura 2.16 se muestran resaltados los colores no espectrales, es decir,
aquellos que no pueden obtenerse por suma de una sola luz monocromatica y blan­
co. Estos colores se inscriben en el pequeño triángulo formado por E-D-K. Puesto
que no son colores espectrales, no se les puede, en principio, identificar por su lon­
gitud de onda dominante. Lo que se hace es dar la longitud de onda del color com­
plementario, pero negada (poniendo una rayita encima de la cifra). Por ejemplo,
la longitud de onda de! color "J" es de 540 nm. Para calcular la pureza de los colo­
res no espectrales se procede como en el caso de los colores espectrales, es decir,
expresando la distancia relativa al punto blanco. También puede verse en esta figu­
ra que la mezcla de dos colores complementarios en las proporciones adecuadas
proporciona el blanco.
La figura 2.17 muestra los colores utilizados como primarios en televisión: Rc
para el rojo, Gc para el verde y Bc para el azul. Tan sólo el rojo es un color real­
mente saturado. En principio los colores reproducibles en un sistema de televisión
quedan limitados al triángulo definido por los primarios utilizados, de manera que
la televisión (igual que otros medios graficos) es incapaz de reproducir todos los
colores.
¡¡
2" Las componentes de color
!
!(
Se sabe que, en teoría, cualquier color puede ser obtenido mediante la mezcla
aditiva de tres colores primarios en las proporciones adecuadas. Como colores pri­
¡ marios han sido elegidos el rojo, el verde y el azul (normalmente nos referiremos
t a ellos mediante sus iniciales en inglés R, G, B), debido a varias consideraciones.
l
¡ Una de ellas es que los colores no deben estar situados en el espectro uno cerca de
otro, ya que en este caso sería necesario sumar cantidades negativas de algunos de
! los primarios para obtener ciertos colores, y otra razón es que los primarios ele­
¡ gidos deberán corresponder, preferiblemente, a los fósforos disponibles en los
1
J 5958
TECNOLOGíA ACTUAL DE TELEVISiÓN
tubos del televisor. Además los conos de la retina humana, que son responsables de
la visión en color, están divididos en tres grupos, cada uno de los cuales presenta
su máxima sensibilidad en el rojo, el verde yel azul, respectivamente.
En una cámara de televisión en color la imagen es dividida, mediante el prisma
o espejo dicroico, según el caso, en estos tres colores primarios y enviada a tres
sensores CCO de la cámara (uno para cada color). Estos tres sensores determinan
la intensidad de cada color y suministran las señales R, G YB.
A comienzo de los años 50 el Comité Federal de Comunicaciones de los Estados
Unidos de Norteamérica encargó a un grupo de expertos la creación de un siste­
ma de televisión en color. El Comité Federal impuso al grupo de expertos dos pre­
misas:
1. Compatibilidad directa e inversa.	 La señal de color debería poder ser vista
en los receptores de blanco y negro, aunque, por supuesto, en blanco y
negro. Además las emisiones que se siguieran haciendo en blanco y negro
deberían poder ser mostradas por el televisor de color, aunque, como es
lógico, en blanco y negro.
2. El sistema	 de televisión en color nuevo no debería ocupar más ancho de
banda que el viejo sistema de blanco y negro. Esto significa que para la tele­
visión en color se seguirían utilizando los mismos canales de radiodifusión
que habían sido otorgados a la televisión en blanco y negro.
De las premisas anteriores se deduce que la nueva señal de color debería ser una
"seudoseñal de blanco y negro", en el sentido de que al televisor de blanco y negro
le siguiera pareciendo una señal de blanco y negro y que las nuevas informaciones
le pasaran inadvertidas. El televisor de color, por su parte, sería capaz de separar la
información de blanco y negro de la información nueva y, procesándolas, obtener
los valores de R, G YB. En cierto sentido se puede decir que en los sistemas actua­
les de televisión la información de color está "escondida" o "disfrazada" en la infor­
mación de blanco y negro.
Como sabemos, la luz blanca (por ejemplo, la que nos llega del Sol) no es otra
cosa que la suma de luces de muchos colores. Es posible comprobar esto último
descomponiendo la luz blanca mediante un prisma u observando el arco iris.
Parecería lógico que si queremos obtener luz blanca a partir de tres primarios R,
G YB, deberíamos mezclar estos a partes iguales, es decir, 33% R + 33% G + 33%
B. Sin embargo, si nos fijamos en la distribución espectral de la luz blanca veremos
que está formada por mucha más radiación verde que roja y por muy poca radia­
ción azul.
Si queremos obtener una señal de blanco y negro (y la necesitamos para cum­
plir con la compatibilidad) a partir de las señales R, G Y B proporcionadas por la
cámara de color, deberemos sumar éstas en las proporciones: 30% R + 59% G +
11 % B (véase experimento del la figura 2.2). La señal así obtenida (prácticamente
idéntica a la que proporcionaría una cámara de blanco y negro) se denomina "Iumi­
nancia" y se abrevia como "Y" (figura 2. 18). Por tanto:
Y = 0,3 R + 0,59 G + 0,11 B	 (2)
La señal de luminancia "Y" sería suficiente para el televisor de blanco y negro,
[J loL~r
pero el televisor de color necesita saber cuánto rojo, cuánto verde y cuánto azul
contiene cada punto de la escena. A la señal de luminancia hay que añadir, por
tanto, una información adicional que permita al televisor de color conocer los
valores de R, G YB. Esta señal adicional se llama "crominancia".
Puesto que la señal "Y" se obtiene sumando, aunque de forma ponderada, las seña­
les R, G YB Ypuesto que tenemos que enviar forzosamente la señal "Y" para cumplir
con la compatibilidad, será suficiente enviar, además, dos de los tres sumandos. El ter­
cero podrá ser deducido en el televisor restando de "Y" la suma de los otros dos.
SEPARADOR

CROMATICO
 .,---SENSOR CCD
~
ROJOff --- "-,- ~ O~
30%
O~ VERDE
LUMINANCIA
"Y"
59%
I O~I~ '" I I
Figura 2.18.
Obtención de la señal de luminancia a partir de los primarios RGB.
La señal G es la que más contribuye al valor deY (59%). Por tanto, podríamos
enviar como información adicional R y B. Sin embargo, resulta más apropiado
enviar "R - Y" Y"B - Y", es decir, e! valor de! "rojo-menos-luminancia" y el valor
de! azul-menos-Iuminancia. En e! televisor será suficiente volver a sumar "Y" para
obtener "R" y"B". Por otro lado, restando "R" + "B" de "Y" (respetando las ponde­
raciones) obtendríamos e! valor de "G". En e! fondo, Y, R - Y Y B - Y no son más
que otra forma de expresar R, G YB. Matemáticamente:
Y =0,3 R + 0,59 G + 0,11 B; R -Y =0,70 R - 0,59 G - 0,11 B; B -Y =-0,3
R - 0,59 G + 0,89 B
Igualmente:
R =Y + (R - y); G =Y-O,509 (R - Y) - 0, 194 (B - y); B = Y -- (B -Y)
Lo anterior puede representarse también mediante las siguientes matrices (aquÍ
los coeficientes se han expresado con precisión de tres decimales):
[	
1
~	 =[MJIX[R~Y =[: - 0,509 - o~941]X[R ~y]
B B-Y 1 O 1 B-Y
60 61
TECNOLDCIA ACTUAl DE TI:I.[VISI()N El color
r
La elección de R -y YB- Y como señales de crominancia se basa en los siguien­
tes postulados:
1.	 Cualquier señal monocroma (en blanco y negro) dará valores nulos tanto
para R - Y como para B - Y, es decir, valdrán O.
2.	 Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener
en cuenta el signo, resultarán proporcionales a la saturación o pureza de los
colores.
En efecto, cualquier señal monocromática proporcionará a la salida de los CCO
iguales valores de R, G YB. La luminancia, en este caso, valdrá lo mismo que R,
que G o que B. Por tanto, R -y =°y B - Y =O. Por ejemplo, un gris medio dará:
R = G = B = 0,5; su luminancia será: 0,30 x 0,5 + 0,59 x 0,5 + 0,11 x 0,5 =
0,5; R -y = 0,5 - 0,5 =0; B -y = 0,5 - 0,5 = O.
El sistema es coherente; puesto que R - Y YB - Y, que representan la cromi­
nancia, es lógico que valgan cero cuando se trata de señales en blanco y negro (que
por definición no tienen crominancia). Igualmente es lógico que los valores de la
crominancia sean proporcionales a la cromaticidad o pureza del color que repre­
sentan.
Tanto R - Y como B - Y pueden presentar valores positivos y negativos. Por
ejemplo, supongamos que mostramos a la cámara una cartulina de un color ama­
rillo saturado al 100%. Tanto el tubo rojo como el tubo verde darán el máximo
(que normalizamos, por simplificación, a 1). El tubo azul dará O, puesto que el
amarillo no contiene azul. La luminancia valdrá 0,3 (de! rojo) + 0,59 (del verde)
= 0,89. Puesto que R = 1, R - Y = 1 - 0,89 = 0,11. Ahora, puesto que B = 0, B
-y = 0- 0,89 = -0,89.
Al conjunto "Y", "R - Y" Y"8 - Y" se le conoce como: componentes de vídeo y son
las señales con las que trabajan los magnetoscopios denominados "Por componen­
tes", como el Betacam y el MIl, si nos referimos a los analógicos, o el 01 Y05, si
nos referimos a los digitales. Además todos los formatos modernos que utilizan
compresión se basan también en el uso de las componentes de color.
Las señales R - Y YB - Y presentan valores extremos, que resultan, en general,
muy grandes. En la mayoría de las aplicaciones estos valores son atenuados, multi­
plicándolos por algun coeficiente menor que la unidad.
Así pues, las componentes de vídeo constan de tres señales simultáneas: la lumi­
nancia (Y) y dos señales diferencia de color (R - Y YB - Y).
2. 1. La corrección de gamma
Uno de los primeros pasos que sufre la señal de vídeo, ya sea en blanco y,negro
o en color, es una "predistorsión" conocida como "corrección de gamma". Esta es
consecuencia de las características de transferencia electro-óptica del TRC (tubo
de rayos catódicos) del televisor; el brillo proporcionado por la pantalla no es line­
almente proporcional a la tensión suministrada al tubo (la señal de vídeo). Para
conseguir una transferencia global lineal, es decir, para que los incrementos de bri­
llo de la escena se traduzcan en incrementos iguales en la pantalla del televisor es
necesario introducir en el sistema una compensación no lineal.
I
Aunque la falta de linealidad se produce en e! televisor, históricamente la com­
pensación de gamma se ha realizado en la cámara y así está definido en los sistemas
de televisión. Así pues, las señales R, G Y8 son predistorsionadas en la cámara para
compensar la falta de linealidad del TRC. Hay dos razones para realizar la correc­
1 ción de gamma en la cámara, en lugar de hacerlo en e! televisor. Por un lado, resul­
! ta más económico realizar la corrección de gamma una sola vez en la cámara que
hacerlo millones de veces en cada uno de los televisores. Por otro lado, esta pre­
distorsión de la señal ayuda a disimular el ruido que se añade a la señal durante la
transmisión.
Para que los resultados finales sean correctos es necesario definir unas caracte­
rísticas electro-ópticas normalizadas para el TRC y sus métodos de compensación.
Aunque la corriente del haz de electrones deITRC (y, por tanto, el brillo de la pan­
talla) es proporcional a, aproximadamente, el cubo de la tensión aplicada a la reja
de control (la señal de vídeo), en televisión se trabaja como si dicha relación fuera
y = Xl." siendo "y" el brillo o luminosidad del TRC y "x" el voltaje que controla
dicho TRC. Este "trucaje" de la gamma del sistema se hizo para compensar la rela­
tivamente baja relación de contraste que podía afrontarse en las imágenes de tele­
visión y, aunque este aspecto ha mejorado notablemente, el "valor de gamma del
TRC = 2,2" se mantiene (otra herencia de los inicios de la televisión.
Si se asume una gamma del TRC de 2,2, será necesario, para compensarla, pre­
distorsionar la señal de vídeo en la cámara, aplicando una gamma de
1/2,2 = 0,45. La figura 2.19 muestra que el efecto sumado de la precorrección de
gamma de la cámara y la distorsión introducida por el TRC logran una gamma o
respuesta final lineal. Las señales que han sido corregidas en gamma se denotan
mediante una comilla del tipo R' , G' , B' , oY' , que se lee "R-prima, G-prima, etc.
Así la fórmula (2) debería escribirse como:
Y' = 0,30 R' + 0,59 G' + 0,11 B'
Puesto que se trata de tensiones eléctricas, es frecuente encontrar la fórmula
anterior como:
u
~
~
(§
«
~
a::
1­
z
UJ
~
...J
°v......-----== I
11­
Y
-l-----¡I l y=xo,..
o,a/ ~g~~~~~~~_I LL. _
0,6
0,4'­
0,2,
0,2 0,4 0,6 0,8
TEN810N DE CONTROL DEL TRC
(SEÑAL DE ViDEO)
E'Y = 0,30 E'R + 0,59 E'G + 0,11 E'B
Figura 2.19.
Las curvas de gamma de cámara ydel
TRC se compensan mutuamente. La
corrección de gamma en la cámara
equivale a "estirar los negros" y
! X.	 "comprimir los blancos", En el
receptor de televisión se produce el
efecto complementario.
62 63
TlC~OLCJG¡' :ClLJAI rH: TE1JV1SIÓN
2.2. Multiplexado de las componentes
En todos los sistemas convencionales de televisión las señales primarias RGB
suministradas por la cámara son procesadas para producir una señal de video ana­
lógica compuesta, ya sea NTSC, SECAM o PAL. Los principales componentes de
estos sistemas son: una señal de banda ancha (Y) y dos señales diferencia de color
de banda estrecha (R - Y YB- Y). Cada una de estas dos señales de banda estrecha
modlllan una portadora de alta frecuencia. La forma en que las señales de cromi­
nancia modulan a la portadora de alta frecuencia varia de un sistema a otro. La fre­
cuencia de la portadora se hace lo más alta posible, porque de esta forma se redu­
ce su visibilidad en la pantalla, y es de 3,58 MHz en el sistema americano NTSC y
de 4,43 MHz en el europeo PAL. En SECAM las dos señales diferencia de color
modulan en frecuencia sendas portadoras situadas en 4,25 y 4,406 MHz.
E'yE'
RETARDO I •
SALIDA

ViDEO

COMPUESTO

E'
~
SUMADOR~ MATRIZ
E'
~
LPF = FILTRO	
1 -1
E'R_Y I LPF I I .1
PASO-BAJO GENERADOR DE
SUBPORTADORA
Figura 2.20.

Diagrama de bloques simplificado del codificador de la señal de color compuesta.

Las señales de luminancia y crominancia son multiplexadas por "división en fre­
cuencia", para obtener una señal de vídeo única (que puede encaminarse por un solo
cable), adecuada al canal de transmisión de que se trate. La figura 2.20 muestra el dia­
grama de bloques de un codificador genériCO. La matriz sirve para obtener la señal de
luminancia y las señales diferencia de color a partir de los primarios RGB.
Internamente esta matriz está formada por swnadores, restadores y amplificadores
lineales. La linea de retardo introducida en el camino de la luminancia sirve para com­
pensar el mayor retardo de las señales diferencia de color al pasar por los filtros paso­
bajo. Las señales producidas por los filtros paso-bajo son enviadas a sendos modula­
dores. Las dos señales moduladas son sumadas a continuacion a la señal de luminan­
cia, para obtener una señal compuesta única. El diagrama de la figura 2.20 es una ver­
sión simplificada, que puede servir para los tres sistemas de televisión en color.
La figura 2.21 muestra el diagrama de bloques simplificado del decodificador
del receptor. Puesto que se trata de volver a obtener los primarios RGB, básica-
E' E'
2- ...----[RETA3OOJ-.-_l'.J
DEMODULADOR
VIDEO	 s·y
COMPUESTO FILTRO	 E'B-YI I	
l lE'.. ~ ..MATRIZ~
DEMODULADOR
R:::Y
T~~
E'R_Y~ lE'__B ..
Figura 2.21.
Diagrama de bloc¡ues simplificado del decodificador de la señal de color compuesta.
mente se realizan los procesos inversos a los obtenidos en el codificador. En pri­
mer lugar, la señal compuesta tiene que ser separada, mediante filtrado, en lumi­
nancia y crominancia. La componente de crominancia es posteriormente demodu­
lada de una forma especial, que varía según el sistema de televisión en color, para
obtener las señales diferencia de color R - Y YB - Y. Por su parte, la señal de lumi­
nancia (Y) es retardada, para igualar en el tiempo a las señales diferencia de color.
Estas tres señales (la luminancia y las dos señales diferencia de color) son enviadas
a una matriz activa para proporcionar los primarios RGB.
Resumen
•	 Tres son los atributos psicofisicos del color: matiz, saturación y brillo. Por
matiz entendemos la sensación de color por la cual distinguimos las partes del
espectro: rojo, azul verde, amarillo, etc. Saturación es el grado de pureza de
un color, es decir, la medida en que está contaminado de blanco, gris o negro.
El brillo es la sensación de luminosidad de un color. Está asociado con la can­
tidad de luz y la sensación visual.
•	 La mezcla aditiva se basa en sumar luces. Cada vez que se añade un nuevo
color el resultado es una mezcla más luminosa. Los colores primarios en mez­
cla aditiva son el rojo, el verde y el azul.
•	 Las leyes de Grasmann rigen los principios básicos de la mezcla de colores:
dos radiaciones cromáticamente equivalentes a una tercera son equivalentes
entre sí. Si sobre el ojo actúan varias radiaciones simultáneamente, es posible
sustituir una o varias de estas radiaciones por radiaciones cromáticamente
eqUivalentes. Si dos áreas visuales producen la misma sensación de color, esta
no cambia si en ambas se disminuye la luminosidad o brillo sin cambiar el
matiz ni la saturación. La luminancia de un color es igual a la suma de las lumi­
nancias de sus componentes espectrales.
En mezcla sustractiva se utilizan pigmentos. Los colores primarios en mezcla
sustractiva son: cián, magenta y amarillo.
65
64
TECNOLOGI.I¡, ACrUAL DE THEVI~16N
o	 Las escalas normalizadas se utilizan para garantizar que las pruebas de per­
cepción de! color se realizan en condiciones objetivas. Un factor muy impor­
tante es la iluminación, ya que los resultados son distintos, según sea e! tipo
de aquélla (natural, artificial, incandescente, etc.).
o Entre los sistemas históricamente más importantes de normalización de!
color destacan: el sistema Runge, e! Munsell y e! Ostwald. Todos ellos se
basan, con pequeñas diferencias, en la ordenación de los tres parámetros psi­
cofísicos de! color (matiz, saturación y brillo).
o En televisión es de especial importancia e! sistema de! CIE conocido como
"triángulo internacional de colores". Este sistema sólo informa de dos de los
tres atributos de! color: matiz y saturación. El brillo se trata por separado y
esto es perfectamente consistente con la forma en que trabaja la televisión.
o Las componentes de color se basan en la utilización de tres señales separadas:
una señal de luminancia "Y" y dos señales diferencia de color "R - Y" Y"B -Y".
Esto tiene sus orígenes en los inicios de la televisión en color, cuando uno de
los requisitos más importantes era e! de la compatibilidad entre la señal en
blanco y negro y la señal en color.
o	 La señal de luminancia "Y" se obtiene sumando los primarios rojo, verde y
azul en las siguientes proporciones:Y =0,3 R + 0,59 G + 0,11 B. Puesto que
la señal "Y" se obtiene sumando, aunque de forma ponderada, las señales R,
G Y B Ypuesto que tenemos que enviar forzosamente la señal "Y" para cum­
plir con la compatibilidad, será suficiente enviar, además, dos de los tres
sumandos.
o	 B - Y representa la cantidad de azul menos su propia luminancia y lo mismo
sucede con R - Y. La elección de R - Y YB - Y como señales de crominancia
se basa en los siguientes postulados: cualquier señal monocroma (en blanco y
negro) dará valores nulos tanto para R -y como para B - Y, es decir, valdrán
O. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener
en cuenta e! signo, resultarán proporcionales a la saturación o purez3<de los
colores.
o	 La corrección de gamma sirve para compensar la falta de linealidad del TRC
y consiste en predistorsionar la señal de vídeo de forma complementaria a
como lo hace el tubo de! televisor. La gamma de! TRC se ha normalizado a
2,2 y, por tanto, la gamma de cámara será de 0,45.
o	 En los sistemas de televisión compuestos las componentes de color son mul­
tiplexadas en frecuencia (de una forma distinta en cada sistema), para formar
una única señal de vídeo que se graba o se transmite por un único canal. En
el múltiplex la señal de luminancia se transmite con todo su ancho de banda,
mientras que las señales diferencia de color se transmiten o se graban con un
ancho de banda reducido.
CAPÍTULO 3
Los sistemas de televisión
1. Introducción
Aunque estamos ya de lleno dentro de la era digital, con canales de televisión
que se producen y distribuyen en forma de bits, ya sea por vías terrenas, de cable,
de satélite, y aunque la publicidad nos hable de pantalla ancha, home cinema, alta
definición, cinematografía electrónica, etc., la realidad es que seguimos recibien­
do en nuestras antenas la misma señal (en nuestro caso, PAL) que nos trajo el color
hace casi cuarenta años. Probablemente dentro de una década el sistema PAL (al
igual que e! NTSC y el SECAM) habrá desaparecido. De hecho, existe un informe
de la Comisión Nacional de Comunicaciones que propone el "5witch-c:JJ" del PAL
para el 2012, aunque seguramente se demorará algo más. Incluso así es necesario
conocer la forma en que se estructura la señal PAL, no solamente porque una déca­
da es mucho tiempo, sino también porque en tecnología nada muere del todo.
Los sistemas más avanzados no dejan de ser variaciones más o menos afortuna­
das de ingenios pretéritos.
En un mundo ideal debería haber una única norma de televisión en color. En e!
mundo real hay tres: PAL, SECAM y NTSC, más algunas variantes menores. Si un
inglés se va de vacaciones a un camping de Francia con su caravana o si alguien se
compra un reproductor de vídeo en EE.UU. y se lo trae a Europa, se dará cuenta
de los problemas que supone la falta de una norma única.
2. El sistema NTSC
NTSC son las siglas de dos grupos de normalización americanos (National
Television Standards Commitee y National Television 5ystem Committee) , e! primero de los
cuales estableció (en 194-0) el sistema de 525 líneas y 60 campos, mientras que el
segundo diseño y normalizó (en 1953) e! sistema de color que lleva su nombre.
66 67
TLCNOIOGI, ACTU ..l !lE TELE'J),~I(",N,-' _
El NTSC se emplea como sistema de television en color en los Estados Unidos
de América, en Canada, en Méjico)' en todo Centroamérica (excepto en las peque­
ñas islas francesas de Saint Pierrc y Miquelon). También es el sistema usado en la
mayor parte del Caribe, Sudamérica, Asia y el Pacífico. Barbados fue el único país
en el mundo que transmitió color NTSC con un sistema "no-525/60", aunque muy
pronto se paso a las 525 líneas/60 campos (norma "M" del CCIR). Por otro lado,
el único país que actualmente emite 525 líneas/60 campos, pero sin codificación
NTSC del color, es Brasil, que emplea el llamado PAL-M.
Con el NTSC se sentaron las bases de la televisión en color. La mayoría de los
procesos y principios que se siguen en la codificacion de! color en otros sistemas
fueron ya definidos en 1953 por el NTSC. Las señales diferencia de color, la modu­
lacion en cuadratura, el burst, etc., existen desde la aparicion del NTSC. Es impor­
tante conocer como funciona el NTSC, no sólo porque lo utiliza una buena parte
de la poblacion mundial, sino también porque el sistema PAL, que es e! que utili­
zamos en Europa, no es mas que una adaptación revisada del sistema NTSC. Por
esta razon algunas cuestiones se explicaran de forma simultanea, con datos para
NTSC y para PAL.
2.1. Atenuación de las componentes
Como vimos en el capítulo anterior, el primer paso consiste en lograr una única
señal de crominancia a partir de R - Y YB - Y, la cual se sumara posteriormente a
la luminancia "Y". Los valores de R -y YB - Y resultan excesivos, ya que la señal de
crominancia obtenida a partir de ellos produciría, al sumarse a la luminancia, una
señal compuesta cuya amplitud saturaría los equipos de transmision, grabacion,
etc., pensados para señales monocromas y, por tanto, para amplitudes de 1Y p-p.
Cuando se diseñó e! sistema NTSC en EE. UU., se pensó que los equipos po­
drían soportar, con ligeras modificaciones, señales que excedieran un 3il% los
valores del pico de blanco y de! nivel de negros de la señal monocromatica.
Basandose en esto, se establecieron unos coeficientes de ponderación que son:
0,49 para B - Y Y0,88 para R - Y. Estos coeficientes se utilizan tanto en el sis­
tema americano de 525 líneas y 60 campos como en el europeo de 625 líneas y
50 campos.
B-y YR - Y atenuadas pasan a llamarse "1" y"Q" en el sistema americano NTSC
y "U" Y"Y" en e! sistema europeo PAL.
I YQ modulan, por separado, dos subportadoras de color. Ambas subportado­
ras son idénticas en amplitud y frecuencia (3,58 MHz en el sistema NTSC), pero
difieren en fase: estan desfasadas 90 grados. Las dos subportadoras moduladas por
R - Y YB - Y ponderadas son sumadas a continuación.
2.2. Modulación en cuadratura de fases
Gracias a que ambas subportadoras estaban desfasadas 90 grados, se cumple que
si en un instante determinado una de ellas pasaba por un máximo, la otra estaba,
Los sistema:- (le- lelcQsión
S-Y R-Y
ORIGINAL SUSPORTADORA ORIGINAL
MUESTREAR AQU!
PARA S-Y (R-Y = O)
/)/-

MUESTREAR AQul
PARA R-Y (S-Y = O)
Figura 3.1.

Gracias a estar desfasadas 90 grados, B - Y vale cero cuando R - Y vale máximo y viccversa.

en ese mismo instante, en cero (figura 3.1). Esto se conoce como "modulacion en
cuadratura de fases".
Midiendo, o muestreando, la subportadora de color (que es la suma de dos
senoides desfasadas 90 grados) en los momentos adecuados, el receptor puede
recomponer los valores individuales de R -- Y Y B - Y a partir de la señal de cro­
minancia. A este proceso se le denomina "demodulacion sincrónica".
Para que el proceso de demodulacion funcione correctamente, el receptor
necesita conocer en que momentos debe muestrear la señal de crominancia. Esta
información la proporciona el "bUTst".
El receptor de TY dispone de un oscilador local que trabaja, aproximadamente,
a la misma frecuencia que el oscilador que genera la subportadora de la cámara.
Cada 64 flS en PAL o cada 63,5 flS en NTSC, es decir, una vez por cada línea de TV,
el bUTst resincroniza en frecuencia y en fase el oscilador local del televisor.
2.3. Formación de la señal compuesta
El bUTst está formado por nueve ciclos de subportadora sin modular en NTSC y
por diez ciclos en PAL, los cuales van colocados en el portico posterior del borra­
do de línea (figura 3.2).
Para ver cómo se obtiene la señal compuesta podemos utilizar el ejemplo de
las barras de color normalizadas (figura 3.3). Estas barras siguen la secuencia: blan­
co, amarillo, cián, verde, magenta, rojo, azul y negro (de izquierda a derec:la). En
la parte superior puede verse la señal de luminancia, es decir, la señal en terminas
de blanco y negro. Se aprecia claramente una escalera de luminancia o brillo decre­
68 69
TH'NOLOGIA ACTUAL DE TELEVISIÓN
NTSC PAL
BURST
(S ciclos de
subportadora)
..>! >'El E:
81gL
­
¡¡~~ M'
Y
l2.51 IJS
(S.1/3,58 Mhz)
, i
~3,3S IJSJ
¡,,-­
(10.1/4.43 Mhz)
Figura 3.2,

El bum sirve para resincronizar e! oscilador local de subportadora de color de! televisor. El

bum sólo está presente en las señales de vídeo de color. Compárese la figura 3.2 con la 1,8,

ciente. Ciertamente, si a un televisor que esté reproduciendo las barras de color le

reducimos e! control de color a mínimo, lo que veremos será una escala de grises,

desde el blanco, a la izquierda, hasta el negro, a la derecha.

En la parte central izquierda de esta misma figura se ha representado la crominan­
cia, la cual se sumará a la luminancia, para formar la señal compuesta. Nótese que el
valor medio de la señal compuesta sigue siendo la señal de luminancia, mientras que las
desviaciones, con respecto a este valor medio, vienen a representar la crominancia.
La separación de las señales de luminancia y crominancia en e! receptor, es
decir, la separación entre e! nivel medio y las desviaciones con respecto a este nive!
medio se realizan mediante filtros-pasa-banda.
SEÑAL DE UCROMINANGIA
SEÑAL DE~ I
'--+
Figura 3.3.
Formación en el codificador y descomposición en e! receptor de la señal compuesta de vídeo,
Los sistemas cle tele'isión
2.4. Descripción matemática
Veamos cómo se obtiene la señal de erominancia. Básicamente se trata de sumar
las dos señales diferencia de color. Tomemos como ejemplo el sistema PAL, donde:
U =0,49(B - y); V =0,87(R - Y)
Puesto que la señal B - Y atenuada o "U" ha modulado una senoide, podemos
escribir:
sen 2:rt fe modulado con U = Usen2:rtfc
(U= 0,49 x R - Y)
Ypuesto que R - Y atenuada °"V" ha modulado la misma senoide, pero desfasada
90 grados:
eos 2:rt fc modulado con V = Veos2:rtfe.
(V =0,87 x R - Y)
"fe" es la subportadora de color (de frecuencia 3,58 MHz en el sistema NTSC y de
4,43 MHz en PAL). U YV representan a B -y YR -y atenuados. Se trata, por tanto,
de dos portadoras desfasadas 90 grados y moduladas, que podemos representar.
mediante un diagrama polar. El eje horizontal representará los valores de U, mien­
tras que el eje vertical nos dará los valores de V. La suma vectorial de U yV nos pro­
porcionará una representación gráfica de los vectores de crominancia obtenidos.
2.5. El vector de crominancia
La figura 3.4 muestra el diagrama polar en el caso de las barras de color satu­
radas al ¡00%, indicando sus ángulos y longitudes.
Como puede verse, el ángulo de! vector resultante es función del matiz, mien­
tras que la longitud nos indica su saturación.
ROJO +V
(1°1°), l

"

MAGENTA
(61°)
/)
0,59
1- 0,44 , ~
- U - - - - - - - - - - - ­
~) AZUL
(347°)
i 
/
0,59
VERDE
Figura 3.4.
(241°) ,.
u	 Representación vectorial de las barras de
color normalizadas.-V
70 71
TECNOLOGír rCTU:'~L-,[)"L,-,'¡-,[~LE"-',-,'I",S1",,6,,N _
Por tanto, cualquier error en la amplitud del vector de crominancia se tradu­
cirá en un error de saturación, mientras que los errores de fase del vector supon­
drán un giro en el matiz del color. Estos ultimos son muy fáciles de detectar por
parte del sistema de percepci6n visual humano. El sistema NTSC es propenso a
presentar errores de matiz, que son consecuencia de errores diferenciales de fase,
entre la subportadora de color y la referencia de croma (el burst), Por esto una
interprC'taci6n jocosa del acr6nimo NTSC, muy difundida en EE. UU. es "Ncl'er
J¡vice Sarne Color" (Nunca tienes similar color).
Matemáticamente la longitud del vector (K) puede calcularse como:
K=.JU~+V~
Igualmente es posible calcular el angulo (eL)
U
a =arctg-
V
En e! sistema NTSC no se utilizan las componentes de color "U" y "V", sino que
en su lugar se transmiten las componentes ''1'' y "Q". Estas coordenadas "Y" y "Q"
se obtienen girando 33 grados U yY en sentido antihorario. La intenci6n de este
giro de los ejes "U" y "Y" es la de optimizar el ancho de banda de la crominancia.
El eje ''I'' coincide con la máxima resoluci6n del ojo humano al color, en términos
de discernimiento o separaci6n de matices cercanos y, como puede verse en la
figura 3.5, se situa en el eje rojo-cian. Por el contrario, el eje "Q" coincide con la
mínima resoluci6n cromatica de! sistema visual humano en e! eje verde-magenta.
Podemos escribir las siguientes equivalencias:
1 = Y x cos33° ~ U x sen33°
Q =Y x sen33° + U x cos33°
j
Rojo V


Magenta

Amarillo u-,o
Azul
Verde
Figura 3,5.

Los ejes ''1'' y "Q" del sistema NTSC

estan girados 33 grados con respecto

a los ejes "U" y "V".

___Los ::¡istcmas dc_t..clC'lSiQn
En el sistema NTSC los anchos de banda utilizados para la transmisi6n de ambas
señales diferencia de color son distintos:
Señal 1 = J ,3 MHz

Señal Q = 0,5 MHz

2.6. Suma de luminancia y crominancia
Hasta aqui hemos conseguido formar una unica señal de crominancia "C", que, sin
embargo, transporta informaci6n de R - Y YB -y Yque puede ser descompuesta de
nuevo en el receptor. No s610 estamos en el buen camino de lograr una unica señal de
transmisi6n, sino que, además, disponemos de una señal "c" que representa la croma­
ticidad de la imagen, es decir, los atributos psicofísicos de matiz y saturaci6n.
El último paso consiste en sumar la subportadora de color a la señal de lumi­
nancia, para obtener as] la señal compuesta. La figura 3.6 muestra el diagrama de
bloques del codificador NTSC. La señal compuesta, denominada CYBS (Color­
Video, Blanking and Syncs) se obtiene sumando la luminancia y la crominancia. A su
vez, la crominancia se logra sumando las componentes "1" y "Q" moduladas.
" ' 1
IRETARDO:
,- - - ~~~>, 1 ~s r-
i _
1

¡

1 IV.! ',FILTRO', I -1 I MODU-¡
• 1 ; PASO! .IRETARDO:....J LADOR _,
G MATRIZ " 0 BAJO :-"
Ó 1 I 0,6 ~s I I I

B 1 1 1,3 MHz:
 I I [------ --,,---~-- ¡ --- ..' ., CVBS
1 t
fFsc= 123'.. I (SUMADOR! >SUMADOR! NTSCo
" _ ¿ ' I 1-'A. "... I, FILTRO ! MODU. I
33+90 I I,', PASO ¡ J LADOR 1=123' -o, BAJO

'----¿~~' : 0.5 MHz ! Q

 _ _;{_~__ ---.J
I II 33' ¡. fFsc=33'
fFSC=O'¡ ,
i
I,GÉ,NE,AA,D,O,R,J ií DEL BURST
r- I
I "'1 IOSCILADOR I GENERADOR ¡' I
1DE SUBPOR-', ,.. DE BORRADOS , ,J
LT~88~R~E ¡ lY~IN_CRONIS_f<1<:S!
Figura 3.6.

Diagrama de bloques del codificadO!' NTSC.

3. Un formato intermedio: Yle
Aunque nunca se ha considerado como un tipo de señal de vídeo profesional, el
formatoy/e está cobrando cada vez mas importancia, especialmente con la popu­
larizacion de los sistemas multimedia basados en ordenador. Por esto puede resul­
tar util dedicarle aquí unas lineas.
72 73
TECNOLJ>GiA ACTUAL UE TElf"IS1ÚN	 Los sistema~ de tc!c'isión
'r
i
El formato YIC se basa en la generación, enrutamiento, manipulación)' grabación
de la señal de vídeo de color mediante dos componentes separadas: la luminancia y la
crominancia. Así, la "Y" representa la luminancia y "c" la crominancia. Este tipo de
señal de vídeo podría considerarse como un estado intermedio entre las componentes
de color y la señal compuesta, tanto en lo que se refiere al nUmero de etapas de pro­
cesado que sufre la señal de vídeo como en cuanto a la caüdad que ofrece la imagen.
Este formato nació en 1988 con la introducción, por parte de JVC, de los mag­
netoscopios S-VHS, por lo que también se conoce precisamente así: S-VHS.
Igualmente se utiliza la nomenclatura "S-Video". La figura 3.7 muestra un diagra­
ma de bloques conceptual de la codificación de las señales por componentes, YI C
y compuesto. Puede verse que realmente la señal YI C se sitúa a medio camino
entre la señal por componentes y la señal compuesta.
Cámara Magnetoscopio Receptor
o::y y8 R y O RYü o
<í N :5Ü
o: G ;i' LUZ~ /LUzi ill1- o:: ü: f-O
D C/)
eL O '.tB z
z O :::E B ~üw wC/)
o
~I
, YUV JBetacam
Mil
Figura 3.7.
El formato yI e puede considerarse como un estado intermedio entre "componentes" y "com­

puesto".

Como puede verse en la figura 3.7, el formato YI C se basa en la utilización de

dos cables o vías de comunicación separadas. Esto aporta una serie de ventajas con

respecto a la señal de vídeo compuesta, en la que las señales de luminancia y cro­

minancia se multiplexan en frecuencia para formar una señal única:

• No se merma la resolución de luminancia por filtrado.
•	 Se aumenta en un 50% la resolución de crominancia con respecto a la señal
compuesta.
•	 No se producen efectos de intermodulación entre la luminancia y la cromi­
nancia, como el famoso cross-colour.
4. El sistema PAL
En 1962 la UER formó un grupo de trabajo cuya misión era escoger el que
debería ser el sistema europeo de televisión en color. Para entonces Francia ya
tenía desarrollado su propio sistema: el SECAM. Un año más tarde, Walter Bruch,
de la empresa alemana AEG-Telefunken, complicó la elección al proponer el siste­
ma PAL. Finalmente en la conferencia plenaria de! CCIR de 1966 en Oslo se pro­
dujo la ruptura: Francia, la antigua URSS y los países socialistas escogieron e!
SECAM, mientras que Alemania, Inglaterra, Holanda y Bélgica optaron por e! sis­
tema PAL. El resto de los paises europeos fueron decidiéndose mas tarde, mayori­
tariamente por el PAL.
4. 1. Los errores de fase
El PAL no es mas que una variante mejorada del sistema NTSC. Hay un pro­
blema que debemos considerar: la precisión del color. Una variación de 5 grados
en la fase del vector de crominancia produce errores claramente visibles. Los erro­
res de fase se producen con facilidad, especialmente en las altas frecuencias (que es
e! caso de la señal de color, como se vera mas adelante) y se traducen en errores
de "matiz" o "tinte". Este tipo de errores son muy fáciles de detectar por parte del
ojo humano y resultan muy molestos.
Desde luego, si el burst esta afectado del mismo error de fase que e! vector de
crominancia "K", el angula "u" del vector de crominancia demodulado no cambia­
rá, de forma que el receptor reproducirá el color apropiado.
Sin embargo, cuando se altera la diferencia de fase entre e! burst y "K", en algún
punto de la vía de transmisión, se producirán errores de matiz en el color.
Para corregir los errores de fase de la subportadora de color, que se traduciri­
an en errores de matiz en la pantalla del televisor, e! sistema PAL invierte la pola­
ridad de! vector "V", línea a línea, es decir, durante una línea se envía R - Y nor­
malmente, en la siguiente con el signo cambiado, en la siguiente normal, etc.
Vamos a ver cÓmo se consigue esto: para simplificar, supongamos quc no se ha alte­
rado la fase de! burst, pero que el vector de crominancia ha girado lOgrados en sen­
tido horario. Para corregir este error el sistema PAL no transmite el vector "K" de
forma ininterrumpida, sino que alterna entre K = Usen2Jtfct +Vcos2Jtfct, duran­
te una línea y K* = Usen2Jtfct - Vcos2Jtfct durante la linea siguiente, es decir,
durante una línea se transmite el vector "K" normalmente y durante la línea
sigUiente con la componente "V" invertida.
Como consecuencia de esta complicación será necesario invertir la componen­
te "V" en e! receptor cada vez que se reciba un vector K*, de forma que se obten­
ga de nuevo:
Usen2Jtfct + Vcos2Jtfct
4.2. Alternancia de la polaridad de "V"
¿Cuál es la razÓn de esta alternancia de fase a ritmo de línea, que da nombre al
sistema PAL (Phase Alternation on Lines)7
Supongamos que estamos transmitiendo un color rojo (a = 76,6°). Esto significa
que la cámara estara proporcionando un vector K con un angula u de 76,6° para una
línea y K* con U *= -76,7° para la siguiente (se toma como referencia la fase de -U,
7S74
TEC¡,:OlO(.;iA ACTU:L !JI: TU.l'ISIÓi
que es justamente la fase media de! bum, es decir, 180 grados). Al llegar al televisor,
ex' de K valdrá 76,6°+10° = 86,6°, mientras que ex*' de K* valdrá -76,6°+10" =
-66,6°. El receptor cambiará la polaridad de la componente V correspondiente a los
vectores K*, de manera que lo que obtendrá serán vectores con angulas de 66,6° y
86,6°, que se alternarán a frecuencia de linea. Vease figura 3.8.
De esta manera, si todas las líneas pares (n) de una imagen determinada tienen
un ex' que excede en + 10" Ytodas las líneas impares (n + 1) tienen un ex*' que no
llega a a por - 10", e! resultado será que el color ele las líneas pares será ligera­
mente morado, mientras que el de las líneas impares aparecera ligeramente ama­
rillento.
Si un observaelor situado a suficiente distancia observa un conjunto de líneas
que tira ligeramente a morado, intercalado con otro conjunto que tira a amari­
llento, lo que realmente observará será e! color rojo puro.
Este proceso no es perfecto, ya que produce, por un lado, perdida de resolución
c¡'omática vertical, al basarse en el promediado de líneas, lo cual es perfectamente
asumible, y, por otro, ligeras desaturaciones del color, pero éstas son mucho menos
molestas que los errores de matiz.
Es necesario que el receptor sepa qué líneas le están llegando con un vector K
y qué otras con K*. También de esto se encarga el burst. En lugar de enviar siem­
pre el burst con fase 180°, como en NTSC (se mide con respecto a U), en PAL se
ANTES DE LA DESPUES DE LA DESPUES DE LA
TRANSMISiÓN TRANSMISiÓN INVERSiÓN
K Vector deco­
dificado en K
86.6',r linea "n' K8~6'6'VI
666"~o. ~- ~ V~clor deco- . .
u dlficado en a *. . I
.':~ -u Burst ' linea "n+1" 4_LU,_ ------ U
8ursl : Bursl ..
iI . .
Bur~ ,,'

_K~~:_lInean

~I
K(
w
INVERSOR DE
(Óa = 10°)
SIGNO DE OV" ~-:l ~
I~-~f~ ,I , I / , .
-7¡~66' V  6' -.11_ V86 V
• K •
Bursl __ _ _ U 16.6" ~ 
Burs~ - U 4~.Á I _ }¡.Vec'nop<o'
.! f ~.~med,ado . __ U
o' 10' '. I B~'st~ I RESULTADO
-76.6"
; .6~f" I FINALK'
Figura 3.8.

Eliminación automatica de los errores de fase en el sistema PAL. Los angulas están medidos

con respecto a -U, es decir, en función de la fase del burst. "w" es el elemento (por ejemplo la

vía de propagación) que introduce el retardo diferencial entre la subportadora y el burst.

76
,
Lus si;¡lCmas d_~~~~.G2
envía e! burst con fase 180° - 45° = 135° en aquellas lineas en que el vector que
transportan "K" (componente "V" normal) y con fase 180° + 45° = 225° en aque­
llas que transportan K* (componente V invertida).
4.3. El codificador PAL
La figura 3.9 muestra un diagrama de bloques del codificador PAL. La "matriz
Y" proporciona la señal de luminancia mediante sumas y restas de los primarios
RGB. Invirtiendo la señal de Juminaneia y sumandosela a R y B se obtienen las
señales diferencia de color R - Y YB -Y. Ambas señales diferencia de color son fiI·
tradas a 1,3 MHz. La linea de retardo de 0,4 ps sirve para compensar e! tiempo de
propagación necesario para atravesar los filtros de 1,3 MHz.
El siguiente paso consiste en atenuar las señales diferencia de color (0,49 x
B - Y =U Y0,87 x R - Y =V). Las dos señales diferencia de color, filtra­
das y atenuadas, modulan sendas subportadoras. La señal "U" modula una porta­
dora de 4,43 MHz, cuya fase se toma como referencia y se etiqueta como O°. La
señal "V" modula la misma portadora de 4',43 MHz, pero desfasada 90° con res­
pecto a la portadora de "U" en una línea, 270° en la siguiente, 900
en la siguiente,
etc.
A continuación las dos subportadoras moduladas son sumadas, para ohtener así
la señal de crominancia. Para que el receptor sepa en qué líneas "V" está modulada
R
 SALIDA
5ENAL
COMPUESTA
~
SINCRONISMOS
...J BANDERA
~
¡DEL BURST
PUERTA (K)
BURST ~ -
MODULADOR
CON SUBPOR,
TADORA
SUPRIMIDA
" I
G

B
P-----¡ I
180' -1-::0 'C:::..
H~
p~dO de "P" = 2H = 7.8 KHz
Figura 3.9.

Diagrama de bloques del codificador PAL.

77
Tl:CNOloc;jA ACTUAl. DE T([.EVlSIÓN
0
con [ase 90 yen qué otras con 270°, se alterna la fase del bum entre J80 _ 450 Y '¡
'f
180 + 45
0
ASÍ, la fase media del burst sigue siendo de 1800
, lo que permite utili­ i
•
zar el bum para medir la fase de la subportadora de color. Por otro lado, las varia­

ciones con respecto a la fase media sirven para detectar la polaridad del vector de

color "V". Puede verse, en la vía del burst, un bloque etiquetado como "puerta del

burst". Se trata de una "puerta" que se cierra durante unas pocas líneas del borrado

vertical (concretamente 9 por campo). Las líneas concretas que no contienen burst

varían de un campo a otro, formando una secuencia de cuatro campos. Esto se hace

para simplificar e! trabajo del receptor, ya que así la primera línea que contiene

burst en cada campo presenta siempre la misma polaridad de "V".
4.4. El decodificador PAL
En la figura 3.10 puede verse el trabajo del decodificador PAL. La señal com­
puesta de entrada es separada mediante filtros en luminancia y crominancia. El "fil­
tro trampa" deja pasar todas las frecuencias, excepto una banda muy concreta (la
que corresponde a las frecuencias de crominancia). El retardo de lH (64 )1s)
"suma" la crominancia de dos líneas consecutivas, para compensar así los errores de
fase que pudieran producirse durante la transmisión. Lo anterior supone reducir la
resolución vertical de crominancia, aunque esto es perfectamente tolerable por
parte del sistema visual humano; si aceptamos mermar la resolución horizontal de
croma, ¿por qué no hacer lo mismo con la vertical?
La señal de crominancia se envía a los demoduladores, así como al separador del
bum. Este último está gobernado por una puerta temporal denominada "puerta del
burst" derivada de los sincronismos horizontales. Su salida se utiliza para sincroni-
SEÑAl DE

ViDEO

COMPUESTA

SEPARADOR

DE

SINCROS

GENERADOR

DE LA PUERTA

DEL BURST DEL
1
P,LL

(resincroniza

el oscilador

local)

OSCILADOR J
LOCAL ,f--l---------."
A4,43 MHz
~
Figura 3.10.

Diagrama de blogues del decodificador PAL.

Ei'RE'y
FILTRO
PASO·
BANDA
SEPARADORl
I
Los sist~mas de tcJerisián
zar un generador de subportadora controlado por cristal de cuarzo, mediante un
PLL (lazo enganchado en fase). La fase del bum varía línea a línea y se encuentra
alternativamente a ±135 grados con respecto al vector de referencia "U". La alta
constante de tiempo de! PLL integra las variaciones de voltaje resultantes, de
manera que la subportadora reconstruida a partir del burst presenta una fase esta­
ble de +180 grados con respecto a la referencia "U". Como se ha dicho, la salida
del filtro paso-banda se envía a una línea de retardo de 64 flS, así como a un suma­
dor y a un restador. La señal a la salida del sumador está formada por las bandas
laterales de "U", mientras que la salida del restador contiene alternativamente las
bandas laterales de "±V". Las dos señales se envían a sus correspondientes demo­
duladores sincrónicos. La fase de la subportadora que controla el demodulador "U"
es constante, mientras que la fase de la subportadora que controla e! demodulador
"V" alterna ±90 grados línea a línea (a frecuencia de 7,8125 KHz) con respecto a
la que controla el demodulador de "U". Las dos señales diferencia de color demo­
duladas y la señal de luminancia, adecuadamente retardada, se envían a una matriz
que reconstruye las señales primarias originales. Para reducir la visibilidad de los
restos de portadora que pudieran quedar se utiliza un filtro notch en la vía de la
luminancia.
5. El sistema SECAM
En Francia, en 1959, a partir de los resultados y de las experiencias de Henry
France, se puso en marcha el sistema de televisión en color denominado SECAM.
Al igual que e! PAL, el sistema SECAM fue creado después que el NTSC y supone
una mejora, con respecto a éste, en lo referente a los errores de fase. También,
igual que el PAL, e! SECAM se basa en la presunción de que la crominancia de dos
líneas consecutivas no cambia mucho y, si lo hace, el ojo humano no es capaz de
apreciarlo. Así, en e! sistema SECAM las dos señales diferencia de color no se trans­
miten simultáneamente. Por el contrario, ambas señales se alternan línea a línea,
es decir, durante una línea sólo se transmite información de R - Y, durante la
siguiente B - Y, luego R - Y, etc. En e! receptor se necesita una memoria de una
línea, ya que es necesario sumar ambas componentes para obtener el color correc­
to de la escena. Transmitiendo las componentes por separado se elimina la posibi­
lidad de errores de fase, ya que en realidad no existe un factor de color, sino dos
señales separadas, que en todo caso serán afectadas de igual forma durante la
transmisión. Las dos señales diferencia de color modulan en frecuencia y por sepa­
rado sendas portadoras. Véase figura 3. 11.
SECAM es e! acrónimo de "Sequentiel Avec Memom" (color secuencial basado en
memorias). Aunque el sistema SECAM es muy bueno en condiciones de transmi­
sión de trayectoria múltiple, no puede procesarse como consecuencia de la modu­
lación en frecuencia (FM) de la croma, es decir, no es posible 0, por lo menos, no
resulta práctico posproducir en SECAM. La idiosincrasia del sistema SECAM ha
llevado a la interpretación alternativa de su acrónimo: "Sistema Esencialmente
Contra los Americanos".
78
79
TES---NOlOGtA ICTUAL DE TEkLftc:cl'/.2!SI!,!Ói:N _	 Lo~ ;;;iSlCllliJ5 <lud-cü<;JOI1
R-Y
S-Y
MATRIZ
x-J­
MODULADOR =r:~S~~~~FM SUMADOR ----­
------.---- rfH/2 fF	 Borrados
y sincros
}F - ~~~Ui~- ~B-Y
FB_~
:1 { - ­l]
B Y
i I FR_Y MODULA- I-.. R-Y
L,D4~S ~-~'I~,	 DORFM
Figura 3.11.

Diagrama simplificado del codificador SECAM (arriba) y del decodificador (abajo).

6. Elección de la frecuencia de la subportadora de color
La frecuencia de la subportadora de color, en NTSC, es de 3,579545 MHz, aun­
que normalmente se simplifica a 3,58 MHz. La elección de esta frecuencia se basa
en varias consideraciones:
J.	 Debe ser lo más alta posible, a efectos de producir un patrón de puntos sobre
el receptor de blanco y negro lo más fino posible.
2.	 La subportadora y sus bandas laterales deben ubicarse en el espectro de la
señal de vídeo (4,2 MHz en el caso americano).
3.	 La frecuencia exacta de la subportadol-a debe asegurar el intercalado de los
espectros de luminancia y crominancia.
Para cumplir con los puntos anteriores se determinó que la frecuencia de la
subportadora de color NTSC fuera:
fse '~,r = 455 fL = 455x15.734,264 =3,579545 MHz
",.. 2 2
Donde fl. es la frecuencia de líneas.
De esta forma cada línea completa de TV está formada por un número entero
de ciclos más medio (227,5 ciclos/línea), Jo cual minimiza la visibilidad del patrón
interferente de puntos y asegura el intercalado de espectros. Esto se conoce como
"offset o desplazamiento de media línea".
Como consecuencia de la alternancia línea a línea de la polaridad de "V" en el sis­
tema PAL, no es posible trabajar con un número entero de ciclos de subportadora
fH/2
más medio por línea completa; se obtendría un patrón interferente muy molesto
(en forma de barras) en e! receptor de blanco y negro yno se ase,6TUraría el interca·
lado de espectros.
La solución en PAL fue escoger como frecuencia de la subportadora de color un
múltiplo de la frecuencia de líneas más un cuarto (desplazamiento horizontal de
1/4 de ciclo). Para optimizar aún más esta frecuencia se sumó un ?1Jset o desplaza­
miento vertical de un ciclo por imagen o, lo que es lo mismo, 1/2 ciclo por campo.
Así pues, la frecuencia de la subportadora PAL queda como sigue:
fSC PAL = 1.135fL + ~v =4,43361875MHz
7. La secuencia PAL de 8 campos
En e! sistema PAL cada línea incluye exactamente 283,7516 ciclos de subpor­
tadora. Para simplificar, olvidaremos los 0,0016 ciclos por línea que son resultado
de! desplazamiento vertical y que no tienen consecuencias en el estudio de la
secuencia PAL. Tenemos entonces 283 ciclos por línea más 3/4 de ciclo, es decir,
más 270°.
Ahora si numeramos un cierto cuadro como "cuadro 1" Ysi su línea 1 comien­
za con la subportadora de color a 0°, esta línea 1 terminará a 270°. La línea 2
comenzará a 270° y terminará a 180°. La 3 comenzará a 180° y terminara a 90°. La
4 comenzará a 90° y terminará a O°. La línea 5 comenzará a 0° igual que la prime­
ra, la 6 comenzará a 270°, etc. Vemos que se forman paquetes de cuatro líneas, en
lo que se refiere a la fase de subportadora con que tales líneas comienzan.
Por otro lado, estamos trabajando con un sistema de 625 líneas. Si dividimos
625 por 4, el resultado será 156 y nos sobra una línea, es decir, podemos conside­
rar las 625 líneas como 156 paquetes de 4 líneas más una línea adicional. Esto sig­
nifka que la línea 625 es como la línea 1: comenzará con fase 0° y terminará con
fase 270°. Por tanto, la línea J ele la imagen 2 (que sigue a la línea 625 de la ima­
gen J) comenzará con 270° y terminará con J80°. Dicho de otra forma, la línea J
de la imagen 2 es como la línea 2 de la imagen J. De igual forma, la línea 1 de la
imagen 3 es como la 3 de la imagen J y la línea J de la imagen 4 es como la 4 de
la imagen 1.
Ahora la línea J ele la imagen 5 es como la línea 5 de la imagen J y, por tanto,
como la línea J de la imagen 1, es decir, comienza con O°. Hemos tardado 4 imá­
genes completas, es decir, 8 campos, hasta volver a encontrar una línea J que
comenzara con O°.
En realidad, excepto la línea J del campo 1, ninguna de las 2.500 lineas que
conforman los 8 campos comienza con 0°, como consecuencia de! pequeño des­
plazamiento vertical de medio ciclo por campo.
Hay otra forma de descubrir la secuencia PAL de 8 campos:
Siendo
fSC PAL
= l.l3.5f L
+ ~ = 4,43361875MHz
80 81
TECNOI OCiA ACTUAL DE TELE"ISU)N
el número de ciclos de subportadora por cuadro será:
fscm = 177.334,75
25
Dos cuadros deTV contendrán: 177.334,75 x 2 = 354.669,5 ciclos de sub­
portadora. Tres cuadros deTV contendrán: 177.334,75 x 3 = 532.004,25 ciclos
de subportadora. Cuatro cuadros deTV contendrán: 177.334,75 x 4 = 709.339
ciclos de subportadora. Solo después de cuatro cuadros (ocho campos) se obtiene
un número entero de ciclos al terminar un cuadro de te!evision. Esta secuencia de
fases se mide con respecto al punto de media amplitud del flanco anterior del sin­
cronismo de línea y se conoce como "colourframina", o "secuencia de color" y es de
ocho campos en PAL y de cuatro en NTSC. También se conoce como "relacion
Sc/H".
Resumiendo, para poder resolver los posibles errores de matiz que se produ­
cirían como consecuencias de errores diferenciales de fase entre la subportado­
ra de color y la referencia estable (e! burst), el sistema PAL introduce la alter­
nancia de la polaridad del vector "V" línea a línea. Como consecuencia de esta
alternancia, y para asegurar una correcta cance!acion del patron interferente de
puntos (cruce de luminancia), se establece una relacion compleja entre la fre­
cuencia de la subportadora de color y la frecuencia de líneas: fsc =(1. 135fl/4)
+ fv12. Esta relacion de frecuencias es la culpable de la aparicion de la llamada
"secuencia PAL de 8 campos", que tanto complica la edicion electronica. Por esto
una traduccion jocosa de! acronimo PAL podría ser: Problems Appear Later (los
problemas aparecen luego).
La secuencia PAL de ocho campos supone un problema a la hora de "montar" o
"editar" una cinta vídeo. Si se empalman dos segmentos de material grabado, pero
de tal forma que e! número de imágenes cortadas no es múltiplo de cuatro, la
secuencia se rompe. En el punto de empalme aparece un burst cuya fase está gira­
da 90, 180 Ó 2700
con respecto al que llegaría si se hubiera respetado la se~uencia.
El receptor tarda unos instantes en reajustarse a la nueva fase, suficiente como para
mostrar pequeños saltos o indecisiones de color.
8. Tipos de señal de vídeo
La forma más inmediata de señal de vídeo es e! formato RGB. Se dice entonces
que se trabaja con primarios o con componentes primarios. Mientras las cámaras
de vídeo sigan trabajando con tres sensores CCD separados, e! formato RGB exis­
tirá en algún lugar de la cadena de cámara, incluso aunque no llegue a utilizarse
exteriormente. En este formato los tres canales R, G Y B presentan un ancho de
banda total, lo que puede ser útil en determinadas circunstancias. Suele usarse para
obtener imágenes fijas de la máxima calidad, cuando se traL..;d, por ejemplo, en
grafismo o en CAD. Es frecuente encaminar las señales RGB de la cámara hacia el
mezclador, el cual las utilizará para incrustaciones de croma (cToma-key). No existe
ningún formato de grabación basado en los primarios R,G y B, aunque se utilizó
en modelos experimentales.
Los sistemas de telc'¡sión
Otra posibilidad es trabajar "por componentes". Este formato se basa en Ul)a
señal de luminancia de ancho de banda total, más dos señales "diferencia de color",
R - Y Y B - Y, de ancho de banda menor. En las instalaciones modernas es típico
que las señales diferencia de color presenten un ancho de banda igual a la mitad del
ancho de banda de la luminancia por ejemplo, la luminancia tendría 5,75 MHz y
las señales R - Y YB - Y 2,875 MHz cada una. En la figura 3.12 puede observarse
la presencia de! bloque "LPF" (filtro paso-bajo) en la vía de las señales diferencia de
color.
UNIDAD DE CONTROL DE CÁMARA
CABEZA DE CÁMARA H.r~¡r-'i-~--···i-··· I,l z '
I?~ fi ~ ~~y 1 ~
....,'.B~ ~;¡ I .f0rMDD..u. LA +"i .'
I'n"¡-~ ::;3 ! ~ 1 DOR DE.~. 1 1, .. . I I CROMI· I
, i'I '--$-~ 1° NANCiAI
I~ 1¡ ~~ ,.R'YJ LPF J .. ~1
r ii ~ IB./'=
JI
I' )--,~ !--- LPF
"llt,[! l" ¡IeM'~III III !h ,- - SENAl
RGB COMPONENTES COMPUESTA
Figura 3.12.

La cámara envía los primarios R, G Y B a la estación de procesado, donde pueden utilizarse

directamente, convertirse en componentesY, R ~Y YB ~Y, o codificarse como una señal com­

puesta PAL, SECAM o NTSC.

La reducción del ancho de banda de las señales diferencia de color supone que
la resolucion de croma será inferior a la de luminancia, pero esto no debe preocu­
par, ya que e! sistema de percepción visual humano presenta muy poca capacidad
para resolver o separar pequeños detalles que sólo difieren en su cromaticidad.
Dicho de otra forma, la resolucion visual cromática es mucho menor que la lumí­
nica. Los magnetoscopios "Betacam", "MIl", "D-l", "O-S", "Betacam Digital",
"DVC-PRO", "DVCAM", "DIGITAL-S", "BETACAM-SX" Y"MPEG-IMX" graban
por separado las señales de componentes "Y", "R - Y" Y"B - y".
Un último formato (hasta ahora e! más utilizado) lo constituye la señal de "vídeo
compuesto". A diferencia de los dos formatos anteriores, que necesitan dc tres
cables o vías, e! formato compuesto se procesa y encamina a traves dc una única
vía. Se trata de la señal codificada PAL o NTSC, donde las señales de luminancia y
crominancia se multiplexan en frecuencia, presentando la luminancia un ancho de
banda total (o casi total) y, las señales diferencia de color anchos de banda muy
reducidos (1 ó 1,3 MHz). Este es el tipo de señal que utilizan los formatos llama­
dos "compuestos", como los "Pulgada-B", "Pulgada-C", "U-matic", "D-2" y "D-3".
También es, hoy por hoy, el formato obligado en las emisiones analógicas conven­
cionales.
82
83
•••
•••
•••
TlCNOLOGJA ACTUAL DE T[l['ISIOt'-'
9. Espectro de la señal de vídeo
Como sabemos, la imagen de televisión se transforma en señal de ddeo, des­
componiéndola en campos y líneas.
Esto significa que la imagen es "muestreada", de manera que sólo existe infor­
mación de la imagen en los momentos en que se toman las muestras. Por ejemplo,
no tenemos información de la imagen durante el intervalo de borrado vertical (1 1 6
de cada 20 ms). Tampoco tenemos información durante los borrados horizontales
(12 de cada 64 ¡Js). La señal de vídeo es, por tanto, discontinua o discreta en el
tiempo.
El período básico de muestreo de la señal de vídeo es el período línea
(64 J.ls) y, por tanto, la frecuencia básica de muestreo 15.625 Hz. Toda señal mues­
treada presenta un espectro cuya energía tiende a agruparse a frecuencias múltiplo
de la frecuencia de muestreo.
9.1. Patrones visuales y frecuencias
La figura 3.13a está formada exclusivamente por patrones visuales de orienta­
ción horizontal. Si la imagen de más arriba de esta figura fuera analizada por una
cámara de televisión, el nivel de vídeo de la primera mitad de las líneas de cada
(a) (b) (e)
Figura 3.13.

Análisis, mediante líneas de TV, de distintos patrones visuales.

Lo~ s¡~tcmas d(' tcIcÜ~;¡úlJ
campo correspondería al nivel de negros. La segunda mitad daría nivel de blancos.
Prescindiendo de los impulsos de sincronización (que de todas formas se repiten a
ritmo de lineas), la señal de vídeo de esta imagen seria una onda ¡'ectangular a fre­
cuencia de campo (50 Hz).
La imagen central de la figura 3.13 (a) mUestra dos franjas negras intercaladas
con dos franjas blancas. Su oscilograma sería una onda ,rectangular de dos veces la
frecuencia de campo. Igualmente en la imagen ele más abajo de la figura 3.13 (a)
obtendríamos una señal de vídeo cuya frecuencia sería 4 veces la frecuencia de
campo.
Si la imagen estuviera formada 312,5 lineas negras intercaladas con 312,5 líne­
as blancas (estamos olvidando el horrado vertical a propósito), lo cual sería un caso
límite, la señal obtenida sería una ancla rectangular que cambiaría a mitad de la fre­
cuencia de líneas (7.812,5 Hz).
Por tanto, los detalles de orientación horizontal producen frecuencias que están
por debajo de la mitad de la frecuencia de línea y que son múltiplos de la frecuen­
cia de campo.
Sin entrar en mayores detalles, existen frecuencias que están por debajo de 50
Hz y que son producto del movimiento de la imagen. La figura 3.13 (b) esta com­
puesta exclusivamente por detalles de orientación vertical. En la imagen de más
arriba obtendríamos, al analizarla por líneas, un oscilograma rectangular que nos
darla media línea negro y media línea blanco, es decir, un ciclo alto-bajo por cada
línea. Su frecuencia sería, por tanto, la frecuencia de líneas (15.625 Hz). La fre­
cuencia de la imagen central seria 2 fL = 31.250 Hz y la de más abajo 4 fL = 62.500
Hz.
Cualquier imagen compuesta exclusivamente por detalles de orientación verti­
cal proporcionaría frecuencias que serian múltiplo de la frecuencia de líneas.
Puesto que nuestro sistema deTV está limitado a 5,5 MHz, el número máximo de
pares de lineas blanco-negro que podemos "meter" es de 352 (352 fL =5,5 MHz).
Es cierto que se trata, en estos ejemplos, de ondas o funciones rectangulares y
que deben ser analizadas ydescompuestas para ver cuál es su contenido real de fre­
cuencias, pero, como sabemos, la descomposición de una onda rectangular nos da
contribuciones senoidales que son múltiplo de la frecuencia fundamental, es decir,
de la frecuencia de línea.
9.2. Espectro de las señales complejas
Por supuesto, las imágenes reales no estan formadas tan solo por detalles de
orientación horizontal y vertical. La figura 3.1 3c muestra detalles de orientación
diagonal. Si analizamos la imagen de más arriba mediante líneas de TV, veremos
que tardamos algo menos de una línea (64 J.ls) en pasar de negro a blanco y de
nuevo a negro; el período es un poco más corto y la frecuencia algo más alta. Algo
similar sucedería en caso de movimiento: si la rejilla se mueve hacia la izquierda,
la frecuencia aumenta, y si se mueve hacia la derecha, disminuye.
La presencia de distintas orientaciones diagonales y de movimiento hace que apa­
rezcan en el espectro de la señal de vídeo frecuencias que no son exactamente múlti­
84 85
TECNOLOGIA ACTUAL DE THEVIS/ON
plo de la frecuencia de líneas, pero que están próximas a ella. Dicho de otra forma, la
energía de la señal de vídeo tiende a agruparse en torno a múltiplos de la frecuencia
de línea. Se trata de un hecho estadístico que depende del contenido de la imagen.
La figura 3.14a muestra el espectro correspondiente al movimiento (más a la
izquierda) y a los detalles de orientación horizontal. En la figura 3.14b se aprecia
la forma en que la energía tiende a agruparse en torno a múltiplos de la frecuen­
cia de líneas. La figura 3.14 (c) muestra el espectro completo, desde Oa 5,5 MHz
de la señal de blanco y negro.
El análisis del espectro de la señal compuesta es algo más complicado.
Esencialmente se trata de los espectros de la luminancia y la crominancia entrela­
zados, o intercalados, uno con otro.
En NTSC la frecuencia de la subportadora es igual a 227,5 veces la frecuencia
de líneas (figura 3.1 S (a». Puesto que la subportadora de color está modulada en
amplitud por el vector de crominancia, se producen bandas laterales a la izquierda
y a la derecha de la frecuencia de la subportadora de color. Gracias a los vacíos
existentes en el espectro de la señal de luminancia es posible ubicar en él la señal
de crominancia, de forma que después puedan separarse en el receptor.
"illH~I~I~~IIJ¡'__~llllill~~~.__ (a)
50 Hz 100 Hz 150 Hz 200 Hz
IIII~ ~ (b)
111111.
fl 2 fl 3fl 4 fl
LUMINANCIA (e)
ot~~ ~.~ AjjuL!iA AAflAA .AA.3~~
=5,5 Mhz
I R-Y
lllli!)ljulli~)
I S-y
o~JUlLil)ll!~~;)
Figura 3.14.

Espectro de la señal de luminancia (arriba) y de las señales diferencia de color (abajo).

Los sistemas de televisión
(a)
I
I
(bl
o f L 2 fL 3 fL 4 fL ...
.,.'.'.'0. • v.u.u.u . .ka1 .
Figura 3.1 S.

Espectro de la señal NTSC (a) y de la señal PAL (b).

La figura 3.1 S (b) muestra el espectro de la señal PAL. El] este sistema la fre­
cuencia de la subportadora de color es de 283,7516 veces la frecuencia de líneas.
Como consecuencia de la inversión de R -y línea a línea, se dividen en dos las fre- /
cuencias espectrales; en una línea R - Y produce un espectro similar al de B - Y Y
en la línea siguiente desplazado media línea, es decir, como el <;le "Y".
Por esta razón no es posible utilizar un cjJset o desplazamiento de 112 ciclo por
línea como en NTSC. En cambio, el desplazamiento de 3/4 de ciclo permite e!
entrelazado de los espectros de la luminancia y la crominancia.
10. Listado de normas de televisión por países
En la lista que sigue a continuación la columna denominada "Banda IIlll" se
refiere a la norma que un determinado país utiliza en las bandas normalmente
conocidas como "VHF", mientras que la columna denominada "IVIV" se refiere a
las bandas de emisión normalmente conocidas como "UHF".
Estas especificaciones corresponden a las definidas en la conferencia ordinaria
de! CCIR publicada en Ginebra en 1990 (anexo al volumen 11, parte 1).
La primera letTa (a veces una letra seguida de un número) que define el siste­
ma se refiere a los parámetros eléctricos de la señal de vídeo, con independencia
de la forma en que se codifica el color. Estos parámetros incluyen e! número de
imágenes por segundo, e! factor de entrelazado, e! número de líneas por campo y
cuadro, la frecuencia de líneas, las duraciones de los períodos activos y de borra­
do, los anchos de banda ytiempo de formación de señales, etc. A continuación apa­
rece una barra (/) y después e! sistema de codificación de! color empleado (PAl,
SECAM o NTSC). SegUn este tipo de nomenclatura, España utiliza e! sistema
B/PAl en las emisiones en VHF y el G/PAL en las emisiones en UHF.
86
87
LOl; si.stnlli~~!::1c,:SI()Il
TECNOlOGIA AC rUAl D[ TEllVISIÓN
Tabla 3.1 Listado de normas de televisión por países (continuación).Tabla 3.1 Listado de normas de televisión por paises.
PAIs BANDA 1/11I BANDA IV/V PAIs BANDA 1/11I BANDA IV/V
Afganistán
Argelia
Alemania (Rep Federal)
Angola
Antillas Neerlandesas
O/SECAM
B/PAL
B/PAL
IIPAL
M
G/PAL
G/PAL
I/PAL
-
I

Guinea-Bissau
Guinea Ecuatorial
Hong Kong
Hungría
India
I/PAL
B/PAL
O/SECAM
B/PAL
I/PAL
G/PAL
I/PAL
K/SECAM
Arabia Saudita
Argentina
Australia
Austria
Baherein (Estado de)
Bangladesh
Bélgica
Benin (Rep. Pop.)
Bermudas
Birmania (Rep. Soc.)
Bolivia
Botswana
Brasil
Brunei (Darussalam)
Bulgaria
Burkina Faso
Burundi
Camerún
Canadá
Cabo Verde
Centroafricana (Rep.)
Chile
China (Rep. Pop.)
Chipre
Colombia
Comoras (Rep. Islám.)
Congo
Corea
Costa Rica
Cote d'lvoire
Cuba
Dinamarca!
B/SECAM, PAL
N/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
K1/SECAM
M/NTSC
M/NTSC
M/NTSC
I/PAL
M/PAL
/PAL
D/SECAM
K1/SECAM
K1/SECAM
B/PAL
M/NTSC
K1/SECAM
K1/SECAM
M/NTSG
D/PAL
B/SECAM
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC
G/SECAM
N/PAL
B/PAL
G/PAL
G/PAL
-
H/PAL
K1/SECAM
-
-
M/NTSC
IIPAL
M/PAL
-
K/SECAM
K1/SECAM
K1/SECAM
G/PAL
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
O/PAL
G/SECAM
M
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC
I
Indonesia
Irak (Rep. Islámica)
Irán (Rep. Islámica)
Irlanda
Islandia
Israel
Italia
Jamaica
Japón
Jordania
Kenya
Kuwait
Lesotho
Libería
Libia
Luxemburgo
Madagascar
Malasia
Malawi
Maldivas
Mali
Malta
Marruecos
Mauricio
Mauritania
México
Mónaco
Mongolia
Montserrat
Mozambique
Namibia
Niger
B/PAL
B/SECAM
B,G/SECAM
I/PAL
B/PAL
B/PAL
B/PAL
N
M/NTSC
B
B/PAL
B/PAL
l/PAL
B/PAL
B,G/PAL
B/PAL
K1
B/PAL
B/PAL
B/PAL
B/SECAM
B/PAL
B,G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
USECAM
D/SECAM
M/NTSC
G/PAL
I/PAL
K1/SECAM
G/SECAM
G/SECAM
IIPAL
G
G/PAL
G/PAL
M/NTSC
G
B,G/PAL
G/PAL
IIPAL
G/PAL
B,G/PAL
G/PAL, USECAM
K1/SECAM
G/PAL
I/PAL
G/SECAM
G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
G/PAL, G/SECAM
G/PAL
I/PAL
K1/SECAM
Groenlandia! Nigeria B/PAL I/PAL
Islas Feroe
Djibouti
Egipto
El Salvador
Emiratos Árabes
España
Estados Unidos Amér.
Etiopía
Finlandia
Francia
Gabonesa (Rep.)
Gambia
Ghana
Gibraltar
Grecia
Guinea
B/PAL
B/SECAM
B/SECAM
M/NTSC
B/PAL
B/PAL
M/NTSC
B,G/PAL
B/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
B/PAL
B/SECAM
K1/SECAM, PAL
G/PAL
-
G/SECAM
-
G/PAL
G/PAL
M/NTSC
G/PAL
G/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
G/PAL
G/SECAM
K1/PAL
Noruega
Nueva Zelanda
Omán (Sultanía)
Uganda
Pakistán
Panamá
Países Bajos
Papúa Nueva Guinea
Perú
Polonia
Portugal
Qatar
Rep. Árabe de Siria
Rep. Democ. Alemana
Rep. Popular Corea
Rumania
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
M/NTSC
B/PAL
B/PAL
M/NTSC
D/SECAM
B/PAL
B/PAL
B/PAL
B/SECAM
D/PAL
O/PAL
G/PAL
G/PAL
G/PAL
G/PAL
M/NTSC
GIPAL
G/PAL
M/NTSC
K/SECAM
G/PAL
G/PAL
G/PAL
G/SECAM
K/PAL
K/PAL
88 89
TtCNOLocfA ACTlIAI DE TELF.VISrÓN
1
 Los sistemas de tele'isióni
Tabla 3.1 Listado de normas de televisión por países (continuación).
PA!S	 BANDA 11/11 BANDA IVIV
Reino Unidol
Irlanda del Norte ­ I/PAL
Ruanda K1/SECAM K1/SECAM
San Cristóbal y
Nieves M/NTSC
Santo Tomé y Príncipe B/PAL
Senegal K1/SECAM K1/SECAM
Seychelles B/PAL

Sierra Leona B/PAL
 G/PAL
Singapur B/PAL G/PAL
Somalia	 B/PAL G/PAL
Sudán B/PAL G/PAL
Sri Lanka (Rep. Soc.) B
Sudafricana (Rep.) I/PAL I/PAL
Suecia B/PAL G/PAL
Suiza B/PAL G/PAL
Suriname (Rep.) M/NTSC
Tanzania I/PAL I/PAL
Chad (Rep.) K1/SECAM K1/SECAM
Checoslovaca (Rep.) D/SECAM KlSECAM
Tailandia	 B/PAL G/PAL
Togolesa (Rep.) K1/SECAM K1/SECAM
Túnez B/SECAM, PAL GlSECAM, PAL
Turquía B/PAL G/PAL
URSS (Rusia y otros
excomponentes) D/SECAM KlSECAM
Uruguay N/PAL
Venezuela M/NTSC
Vietnam D/SECAM KlSECAM
Vírgenes (Brit. Islas) M/NTSC
Yemen (Rep. Árabe) B/PAL G/PAL
Yemen (Rep Dem. Pop.) B/PAL
Yugoslavia B/PAL G/PAL
Zaire K1/SECAM KlSECAM
Zambia GlPAL G/PAL
Zimbabwe G/PAL	 G/PAL
a
OH
b~
d.­
Figura 3.16.
Detalle de los parámetros
más importantes en torno
al borrado de línea, en
relación a la tabla 3.2.
Tabla 3.2 Parámetros más importantes de las normas B, G, H, 1, D, K, K1, L, M Y N (véanse
figuras 3.16 y 3.17)
Símbolo Características M (1) N (2) B, G, H,I,
D,K,Kl,L
h Período nominal de linea (¡.¡s) 63,492
(63,5555)
64 64
a Duración de la señal de supresión 10,2 a 11,4 10,24 a 12 ± 0,3
de línea (¡.¡s) (10,9 ± 0,2) 11,52
(12 ± 0,3)
b Intervalo entre la referencia de tiempos 8,9 a 10,3 8,96 a 10,24 10,5
(OH) Yel borde posterior del impulso de (9,2 a 10,3) (10,5)
supresión de línea (¡.¡s)
c Pórtico anterior (¡.¡s)
(
1,27 a 2,54
1,27 a 2,22)
1,28 a 2,56
(1,5 ± 0,3)
1,5 ± 0,3
d Impulso de sincronización (¡.¡s) 4,19 a 5,71
(4,7 ± 0,1)
4,22 a 5,76
(4,70,2)
4,70,2
v Periodo de campo (ms) 16,667(2)
(16,6833)
20 20
j Intervalo de supresión de campo (19 a 21 H)+a (19 a 25 H)+
25 H + a
a (25 H + a)
I Duración de la primera secuencia de 3H 3H 2,5 H
impulsos de igualación (2,5 H)
m Duración de la secuencia de impulsos 3H 3H 2,5 H
de sincronismo (2,5 H)
n Duración de la segunda secuencia de 3H 3H 2,5 H
impulsos de igualación (2,5 H)
(1) Los valores que figuran entre paréntesis en esta columna se aplican a los sistemas M/NTSC.
(2)	 Los valores entre paréntesis en esta columna se apiican al sistema N/PAL utilizado en Argentina y
Uruguay.
J
ID n
~I
""--',....--""'"1,....--""'"1"""''''''' ,..j r--"" r--"" 1"'"'""" r--"" r--"1 r-------" r--------. r-------" r7h .------, ~
LJLJLJLJL
Figura 3.17.

Detalle de los parámetros más importantes en torno al borrado de campo, en relación a la

tabla 3.2.

90
T(:C.NOU)(jIA ACTUAL DE TElE'ISIÓ;':
10.1. Variantes de sistema PAL
El sistema de televisión en color PAl se desarrolló de forma que fuera compa­
tible con la televisión monocroma de 625 Hneas y 50 campos utilizada en Europa
ytransmitida por canales de RF de 7 u 8 MHz, con un ancho de banda para la señal
de vídeo de 5 ó 5,5 MHz.
Dcpendiendo del método de transmisión utilizado, los sistemas PAL se identi·
fican como B-PAl, D-PAl, G-PAl, H-PAl e I-PAL. las principales diferencias
entre las distintas versiones de PAl son los anchos de banda de la señal de lumi­
nancia y de la banda superior de la crominancia transmitida. En general, sólo hay
una versión de PAL en Jo que al trabajo en el estudio se refiere. Además de estas
versiones de PAl, que son compatibles entre ellas, existen dos versiones especia­
les e incompatibles de PAl, denominadas M-PAl (525 líncas y 60 campos con
codificación de! color PAl, utilizada en Brasil) y N-PAl (una versión de banda
estrecha de 625 líneas y 50 campos, utilizada en Argentina y Uruguay). En los dos
casos (M-PAl y N·PAl) la señal se limita en su ancho de banda para ser transmiti­
da por canales de RF de 6 MHz. En la producción de programas en el estudio se
trabaja con "NTSe normal" en Brasil y "PAL-Europeo" en Argentina y Uruguay y
se transcodifica a "PAL·local" antes de su emisión.
Resumen
•	 El primer paso para convertir las componentes en señal compuesta consiste
en atenuar B - Y al 49% y R - Y al 88%. las señales diferencia de color, así
atenuadas, pasan a llamarse U y V en e! sistema PAl e I y Q en e! sistema
NTSC. Esto se hace para que, cuando finalmente se sumen a la luminancia, la
señal compuesta no supere el 33% el pico de blanco ni quede por debajo de!
33% del nivel de negro.
• En e! sistema NTSC, I y Q modulan, por separado, dos subportadoras de color.
Ambas subportadoras son idénticas en amplitud y frecuencia (3,58 MHz en e!
sistema NTSC), pero difieren en fase: están desfasadas 90 grados. Las dos sub·
portadoras moduladas por R -y YB-y ponderadas son sumadas a continuación.
• Midiendo, o	 muestreando, la subportadora de color en los momentos ade·
cuados, e! receptor puede recomponer los valores individuales de R - Y Y
B .- Y a partir de la señal de crominancia. A este proceso se le denomina
"demodulación sincrónica". El receptor conoce cuales son estos momentos
adecuados gracias al burst.
• Puesto que B-y YR -y han modulado dos portadoras en cuadratura de fases,
la suma de ambas genera un vector, cuya amplitud puede calcularse como:
K =YU1
+¡tl.'Igualmente es posible calcular e! angulo o fase de dicho vector:
a = areta JL
V
• En NTSC los ejes B - Y YR - Y son rotados 33 grados en sentido antihorario,
para optimizar el ancho de banda de la crominancia y adaptarlo mejor al sis­
tema de percepción visual humano.
Los sistemas Je tcle I~ión
•	 El último paso consiste en sumar la subportadora de color a la señal de lumi·
nancia, para obtener así la señal compuesta. Esta señal, denominada eVBS
(Color- Video, Blankina and S)'nes), se obtiene sumando la luminancia y la cro­
minancia. A su vez la crominancia se logra sumando las componentes I y Q o
U)' V, según el caso, previamente moduladas.
• Existe	 un formato intermedio entre las componentes y los sistemas como
puestos: e! y / e, S-Vídeo o S,VHS. Este tipo de señal de vídeo podría consi­
derarse como un estado intermedio entre las componentes de color y la señal
compuesta, tanto en lo que se refiere al número de etapas de procesado que
sufre la señal de vídeo como en cuanto a la calidad que ofrece la imagen.
•	 El sistema PAL, que nació doce años después que el NTSC, resuelve automa·
ticamente los errores de matiz que pudieran producirse por giros de la fase
de la subportadora de color con respecto al bum, durante la transmisión.
• Para corregir los errores de fase de la subportadora de color, que se traduci­
rían en errores de matiz en la pantalla de! televisor, el sistema PAL invierte la
polaridad del vector V línea a línea, es decir, durante una línea se envla R -y
normalmente; en la siguiente, con e! signo cambiado; en la siguiente, normal,
etc.
El proceso anterior no es perfecto, ya que produce, por un lado, pérdida de
resolución cromatica vertical, lo cual es perfectamente asumible, y, por otro,
ligeras desaturaciones del color, las cuales son mucho menos molestas que los
errores de matiz. El bUTSt se encarga de decirle al receptor qué líneas están
afectadas por la inversión de! eje R - Y.
•	 Al igual que el PAl, e! sistema SEeAM fue creado después que e! NTSe y
supone una mejora, con respecto a éste, en lo referente a los errores de fase.
También, igual que el PAL, el SEeAM se basa en la presunción de que la cro­
minancia de dos líneas consecutivas no cambia mucho y, si lo hace, el ojo
humano no es capaz de apreciarlo.
• En SECAM las dos señales diferencia de color se envían alternadas, es decir,
en una línea R - Y, en la siguiente B - Y, luego R - Y, etc. En este sistema se
utiliza la modulación en frecuencia en lugar de la modulación en amplitud que
utilizan los sistemas PAl y NTSC.
•	 la elección de la frecuencia de la subportadora de color es un factor crítico
en los sistemas compuestos: debe ser lo más alta posible, a efectos de produ­
cir un patrón de puntos sobre e! receptor de blanco y negro lo más fino posi­
ble. Además la subportadora y sus bandas laterales deben ubicarse en el espec­
tro de la señal de vídeo (4,2 MHz en e! caso americano y 5 ó 5,5 MHz en el
europeo). En concreto, se ha elegido una frecuencia de 3,58 MHz para NTSe
y de 4,43 MHz para e! PAL.
•	 la relación matemática entre la frecuencia de la subportadora y la frecuencia
de líneas genera la conocida "secuencia de color", o "colouTjraminB", que es de
cuatro campos en NTSe y de 8 campos en PAL. Esta secuencia de color
puede imponer ciertas limitaciones en el trabajo del montador de vídeo.
•	 El hecho de que la imagen de vídeo se descomponga en campos y líneas supo­
ne que la información espacio-temporal está muestreada (descompuesta). Por
92 93
Tf:t~NOl ocL" ACTUAL DE TELEVISiÓN
esta razón su espectro es discontinuo, de manera que la energía tiende a agru­
parse a múltiplos de la frecuencia básica de muestreo, que es la frecuencia de
líneas.
• Gracias a lo anterior se crean huecos, que son aprovechados por los sistemas
de color, para ubicar la información de crominancia. El espectro de la señal
PAL es más complejo que el de la señal NTSC, como consecuencia de la
mayor complejidad de la relación entre la frecuencia de la subportadora de
color y la frecuencia de líneas. Esto, a su vez, es consecuencia de la inversión
de polaridad de R - Y línea a línea.
1

¡

I

I
!
CAPÍTULO 4
La digitalización
1. Ventajas de los sistemas digitales
El cambio de la televisión analógica a la televisión digital no se produce porque
esta última sea más novedosa o más sofisticada. Se produce porque la televisión
digital aporta ventajas notables con respecto a la televisión analógica:
TEcNICAS
• Multigeneración sin degradación (1).
• Fácil multiplexado de varias fuentes.
• Predecible, reproducible y de calidad constante.
• Tratamiento digital de errores.
• Fácil almacenamiento, retardo y manipulación.
• Integración en el entorno de ordenador.
• Mejor utilización del canal (2).
• Compresión de datos (3).
• Posibilidad de autodiagnosis.
ECONÓMICAS
• El precio de los componentes digitales se reduce cada año.
(1) Mientras que las degradaciones de la señal de vldeo anal6gica (ruido, distorsión, intermoduladÓn, errores de tiempo, etc.)
son acumulativas y dificiles de distinguir de la propia señal, la posibilidad de regenerar el tren de pulsos digitales hace que la. señal digi­
ta.l sea virtualmente inmune a taJes defectos. Una. señal binaria sólo puede presentar dos valores posibles, de forma que cualquier otro
valor de ilmplitud puede ser considerado como una degradación producida por el canal de transmisión o grabación. Esto hace
que, a diferencia de 10 que sucede con ta. señal Ulalógica, las alteraciones de la amplitud de la señal sean separables de la infor­
mación origInal. Por la misma razón es posible separar el ruido de la información útiL Puesto que el cambio de estado de la señal
binaria sólo puede ocurrir en determinados momentos, también IOIi errores de tiempo (}Juer) son separables de la propia señal.
En definitiva, ¡un bit es un bit con independenCia de su forma!
(2) Es posible "modelar" el espectro del canal de grabadon o de transmisión mediante el procesado de los datos (aleatori2.a­
dón). Esto supone una utilización óptima del canal digital.
(3) La compresión de datos se basa. en la eliminadán de la redwl<ianda, la cual es mucho más fici.l de detectar en el dominio digital.
94 95
TECNOlOGlt AC1U¡L Dl rlLEV)SIÓ¡;:",--'	 _
• No necesita ajustcs.
• Sinergia informática (4).
1.1. Ubicuidad de los sistemas digitales
Poco a poco los sistemas digitales se han ido haciendo más presentes en la trans­
misión de información. En la actualidad es posible transmitir cualquier tipo de
información mediante bits. Esta polivalencia de lo digital es, quiza, su mayor ven­
taja.
En el pasado, cuando se empleaban medios analógicos de grabación 'j transmi­
sión, cada tipo de información precisaba de su propio 'j difcrente canal. El canal
tenía que estar adaptado a las características de la información. Así los canales de
voz eran distintos de los de radio y éstos, a su vez, de los de televisión. Una vez que
una información ha sido digitalizada, sólo tcnemos bits. No importa de donde pro­
cedan o lo que signifiquen; sólo son bits y se pueden transmitir por un mismo
canal. Un canal digital permite transmitir (o en su caso grabar) imágenes, sonidos,
voz, texto, gráficos y cualqUier otro tipo de información, de la misma forma que
un disco de ordenador puede contener sonidos, imágenes, textos, etc.
En la tabla que sigue se muestra la evolución en la transmisión de la infor­
mación, mediante canales electromagnéticos, durante los últimos ochenta
años.
Tabla 4.1 Evolución "de analógico a digital" durante el siglo Xx.
Tipo de IMAGEN IMAGEN
Información VOZ MÚSICA TEXTO DATOS FIJA MÓVIL
Frecuencias
Código Frecuenc~s Frecuenc~s Código Código Frecuencias yisuales
natural acústicas acústicas alfabético numérico visuales espacio-
temporales
1920 Analógico Analógico
1940 Analógico Analógico -­ -- Analógico Analógico
1950 Analógico Analógico Digital Digital Analógico Analógico
1970 Digital Digital Digital Digital Digital Analógico
1990 Digital Digital Digital Digital Digital Digital
2. Situación de la televisión digital
La situación actual de desarrollo de la televisión digital varia dependiendo de la
fase de aplicación: muy desarrollada en produccion/posproduccion, bastante des­
arrollada en transmisión e iniciándose en emisión:
(4) Los equipos basados en "pe" resultan mucho más económic05 que Jos "dedicados", Muy pronto veremos un pe 3.!>ocia.
do a prácticamente cualquie:T proceso de producción o posproducción de televisión
La digitª-lj/.J.ch'm
PRODUCCIÓN
• Muy aJ'Gnzado: Existe todo tipo de equipos y normas digitales: En la actuali­
dad existe todo tipo de equipos de producción de televisión en formato digi­
tal, desde cámaras hasta mezcladores, telecines, OVE, tituladoras, paletas
gráficas, magnetoscopios, conmutadores, matrices, codificadores, etc. Igual­
mente existen normas de producción de televisión digital, tanto para vídeo
compuesto como para componentes. Las normas digitales compuestas han
sido prácticamente abandonadas a favor de las normas por componentes.
TRANSMISIÓN
• Medianamente	 OI'anzado : El CCIT recomienda los niveles "L3" (34 Mb / s) )'
"L4" (140 Mb/s) en Europa, 44 Mb/s en América y 32 Mb/s en Japón. Para
la transmisión pW1tO a punto se puede comprimir el tren binario desde los
216 Ó 270 Mb / s a 34, 69 ó 140 Mb/s, sin pérdida subjetiva de calidad, lo que
supondría ocupar un U, dos U o un L4 de la jerarquía del ISDN. En gene­
ral, estos sistemas utilizan factores de compresión muy bajos (4: 1 ó 5: 1 como
máximo), con lo que la imagen descomprimida se puede editar y procesar,
aunque no es recomendable la multigeneraci6n, sobrc todo si se emplean dis­
tintos algoritmos de compresión.
EMISIÓN
•	 Poco avanzado: S610 algunas propuestas y sistemas en fase de inicio: ATSC en
EE. UU. y OVB en Europa. La emisi6n digital supone un cambio de normas
de emisión y una renovación del parque de receptores (o la compra de adap­
tadores externos), por lo que su desarrollo resulta más lento. En la actualidad
existen varias normas de emisión digital, orientadas todas ellas a la alta de!l­
nici6n, así como a los servicios multimedia. De todas, la más avanzada es la
conocida como "Grand Al!iance" (y actualmente como ATSC) de los EE.UU.
También se está muy avanzando en un conjunto de normas de emisi6n digital
de televisión en Europa, conocido como OVB, el cual contempla variantes
para satélite, cable 'j difusión terrena. Los algoritmos de compresión permi­
ten que el canal de emisión digital sea incluso más económico (desde el punto
de vista del ancho de banda) que el canal analógico.
3. Señales de vídeo y anchos de banda
En televisión se pueden encontrar diferentes tipos de señales, cada uno de los
cuales tiene sus propias características, limitaciones y aplicaciones. La figura
siguiente muestra como partiendo de una señal RGB se obtienen señales en com­
ponentes y en vídeo compuesto.
Para una norma de 625 lineas, rclacion de aspecto 4:3 y 50 campos por segun­
do, con un factor de entrelazado de 2: 1, el ancho de banda de la señal RGB se eleva
por encima de los 1.5 MHz, ya que cada uno de los primarios debe tratarse con
total ancho de banda. En la práctica, cuando se trabaja en RGB el ancho de banda
suele ser aún mayor, ya que se utilizan los primarios tal como los proporciona la
97
96
"J ECNOl-oclA ACfUAl DE TELEVISI/)N
"R"[ ["8"
~ I I
la1 , 1,
~ INVERSOR
~ Filtro paso bajo	
:}~TODAS CON ANCHO
DE BANDA TOTAL
(MAS DE 15 MHz)
SEÑALES DIFERENCIA
DE COLOR CON ANCHO
DE BANDA REDUCIDO
(MAS D~}1~:'HZ)
"B·Y"
"R-Y"
MODULADOR EN
CUADRATURA
(PALO NTSC) SEÑAL COMPUESTA
NTSC O PAL
SUBPORTADORA T (ENTRE 4,2 Y 5.5 MHz)
+ SINCRDS
Figura 4-.1.

Anchos de banda en funci6n del tipo de señal de vídeo.

cámara, es decir, sin filtrar. Esto supone unos 8 MHz por primario. Para una señal
por componentes "Y", R - Y, B -Y, el ancho de banda estaría en torno a los 10 MHz
como mínimo (5 MHz para la luminancia y la mitad para cada una de las señales
diferencia de color). Una señal compuesta PAL ocupa s610 5 6 5,5 MHz.
En la actualidad la tendencia es tomar imágenes en RGB, procesarlas y grabar­
las en componentes y emitirlas en compuesto. De esta manera se obtiene la máxi­
ma calidad en los procesos de producción y posproducción y el mayor ahorro de
ancho de banda en la emisión. Los futuros métodos de compresión permitirán la
emisión digital por componentes.
La conversión a componentes es una forma de reducción de la información,
basada en la limitada resolución cromática del sistema de percepción visual huma­
no. Dicho de otra manera, las componentes digitales son una forma de compresión
analógica.
Reduciendo aún más la información de crominancia e intercalando los espectros
de luminancia y crominancia, se obtienen los sistemas compuestos. Estos sistemas
se basan en la compatibilidad con la señal de blanco y negro y, aunque fueron una
buena solución en su momento, en la actualidad tienden a desaparecer. De todas
formas, aún pueden subsistir durante un período que puede llegar a los 10 años.
Vamos a ver, como ejemplo, las barras de color en formato RGB, componentes
y compuesto:
Las ocho barras de color pueden entenderse como combinaciones binarias de
los tres primarios RGB: En la tabla siguiente, un "1" en una columna determinada
La dipitah'laci6n
PRIMARIOS RGB COMPONENTES COMPUESTO
•	
1,33­
JUL ~'.~..	 ~-
l''

1.. t
 ROJO
OOZW<O-'O
(j..J-4:ot-...,:::>o:: 1	 .Z=!ljOCZo!:;!C!J	 +T.7·-­
~~ ~~Ci ~
"':> '"
'" :>
JL ,,0
VERDE -0.7-- o
+O#89~_-
B-Y
•O -O89AZUL .
Figura 4-,2.

Las barras de color normalizadas en formato RGB, componentes y compuesto.

significa que ese primario está presente en el color de la columna correspondien­
te. Un "O" significa que el primario de esa columna no contribuye a la formación
del color.
Como puede verse, la tabla de la
Tabla 4.2. Formación de las barras de color a izquierda genera los tres colores pri­
partir de Jos primarios RGB marias, los tres colores complemen­
tarios, el blanco y el negro.
Las ecuaciones que permiten pasar
de los primarios RGB a las señales com­
ponentes son:
R G B
BLANCO 1 1 1
AMARILLO 1 1 O
ClAN O 1 1
VERDE O 1 O
MAGENTA 1 O 1
ROJO 1 O O
AZUL O O 1
NEGRO O O O
y = 0,30R+0,59G+0, 11B
R -y = O,70R-0,59G-0, 11B
B - Y = -0,30R-O,59G+O,89B
R, G Y B contribuyen con distinto
peso al valor de la luminancia, en
función de la diferente sensibilidad
del ojo a estos colores (figura 4.3)
La señal compuesta se obtiene suman­
do a la luminancia la ilúormacion de
color. Así se logra la máxima compacta­
ción de la señal y el máximo ahorro del ancho de banda, lo cual es muy importante a
la hora de emitir la señal.
98
99
TI.:C¡-:OLOG!A ACTUAL D[ 1 [L[·ISIÓ~
o G--,
O
--l

W

O

O

<t:
-.J
c::o ,
(1)
Z
W
(1) ,
O
o
Figura 4.3.
LONGITUD DE ONDA Sensibilidad relativa a los primarios RGB.
4. Definición de analógico y digital
4.1. Analógico
Analógico y digital son términos utilizados muy frecuentemente, aunque no
siempre se entiende bien su significado. Se definen como analógicos aquellos
procesos y sistemas que resultan ser una analogía del hecho físico que repre­
sentan.
En la grabación de audio la corriente eléctrica generada por el micrófono es
una analogía de las variaciones de presión que inciden sobre su membrana.
zAUDIO
~~[1 TIEMPO
~1m- a
l 11//1
VíDEO l !
. . . . ::-:----..~J 1/' V  ,
.,
.
~!1()' ::"'" ..
-
rI rr/~r~~h.....,,/.~ 'c.
-~.
0''­
ri''V ~~ ... ,~x-0 /

_TlEM~º__...

Figura 4.4.

Ejemplo de proceso analógico.

100
La dlfltJJiza.C'Íón
Igualmente los patrones de intensidad y dirección magnctica grabados en la
cinta son análogos a la corriente elcctrica aplicada a la cabeza de grabación.
Durante la reproducción el flujo magnético captado por la cabeza es converti­
do de nuevo en una corriente eléctrica, la cual vuelve a ser una analogía de la
información original. A la salida del magnetófono obtenemos otra vez variacio­
nes de presión en función del tiempo (figura 4.4). La analogía se mantiene
durante todo el proceso.
En vídeo la analogía es menos evidente, pero existe tambicn. Puesto que la
información de vídeo varía en tres dimensiones (horizontal, vertical y temporal),
es necesario descomponer dos de ellas para poder representarla mediante una
señal eléctrica, que sólo varía en una dirección (el tiempo). La dirección vertical
se descompone en líneas, mientras que la temporal se descompone en campos.
Esto hace que la analogía sólo se mantenga en la dirección horizontal, por lo que,
en cierto sentido, se puede decir que la señal de vídeo analógica se descompone o
discretiza en las direcciones vertical y temporal.
Los sistemas muestreados o discretizados son siempre más robustos que los ana­
lógicos puros (continuos). Por ejemplo, la degradación que se produce al grabar
una señal de vídeo en una cinta VHS afecta mucho más a la resolución horizontal
que a la vertical o a la temporal. Esto se debe a que estas dos últimas dimensiones
están discretizadas, muestreadas y en cierto sentido digitalizadas.
La fotografía es una información analógica, ya que resulta ser una analogía
directa del hecho físico que representa. Al menos en un caso ideal, la fotografía está
formada por un número infinito de puntos y a cada punto le puede corresponder
uno entre infinitos valores de gris (Figura 4.5).
La primera emisión de televi­
sión a partir de material graba­
do en un magnetoscopio tuvo
lugar en los estudios de la ces
de Nueva York el 30 de
noviembre de 1956. Tres horas
más tarde el mismo programa
(Douglas Edward and the
News) fue emitido desde los
estudios de la ces en
Hollywood, para los especta­
dores de la costa oeste (foto de
la izquierda). En los meses
siguientes otras emisoras im­
portantes de EE. Uu. siguieron
el ejemplo de la ces.
101
Figura 4.5.

Ejemplo de información analógica (a la izquierda) y digital (a la derecha).
Tl:CN( lLOGIA hCflVL l)E"JEt E'1~16N
4.2. Digital
El texto, en cambio, es una información digital, ya que está representada
mediante un código. En el texto sólo hay información allí donde existe una letra
(si consideramos la dirección horizontal) o allí donde existe una línea (si conside­
ramos la dirección vertical). Además cada letra sólo puede tomar uno entre 25
valores permitidos, ue manera que la información digital es discreta o discontinua,
tanto en el tiempo (que en este caso corresponde al espacio) como en las amplitu­
des (que corresponden al alfabeto en el ejemplo del texto).
El texto es una información codificada. Responde a un código bien definido y
perfectamente conocido por el emisor y el receptor, exactamente igual que el
vídeo o el audio digital. A menudo es interesante pensar en las características, ven­
tajas y problemas de la comunicación oral o escrita para entender mejor las seña­
les digitales.
Si fotocopiamos repetidamente la fotografia y el texto nos encontraremos con que
al cabo de pocas generaciones la fotografia se habrá convertido en una mancha borro­
sa, mientras que el texto (que también habn degenerado) sigue teniendo el mismo
significado. Fotografiar la fotocopia de la fotografia no sirve de nada, mientras que el
texto se puede volver a rescrihir en cada nueva generación. Siempre que se hace una
copia "de digital a digital" la información se regenera totalmente. Esto es lo que hacen
los magnetoscopios digitales cuando se realiza una copia o una edición e!ectrórúca: en
lugar de copiar directamente los bits que le entrega el reproductor, la máquina graba­
dora genera bits nuevos, a partir de los antiguos, antes de grabarlos en cinta.
S. Conversión A/D
La mayoría de las imágenes son en su origen analógicas, por lo que se necesita
convertirlas a digital, en un proceso denominado "conversión AjD", "digi~aliza­
ción" y, en ocasiones, "codificación":
El proceso de conversión AjO se logra en dos pasos:
• El muestreo.
• La cuantificación.
El muestreo discretiza (convierte en muestras instantáneas) la dimensión tem­
poral de la señal anal6gica de entrada, mientras que la cuantificación discretiza e!
rango de voltajes. El proceso completo puede entenderse como si alguien midiera
la amplitud de la señal de entrada a intervalos regulares de tiempo y expresara el
resultado con un número limitado de dígitos.
Por tanto, hay que tomar dos decisiones:
• ¿Cuántas muestras por segundo?
• ¿Cuántos bits por muestra?
El número de muestras por segundo, es decir, la frecuencia de muestreo, está
relacionado con el "ancho de banda", mientras que el número de bits por muestra
depende de! rango dinámico de la señal a codificar.
En la figura 4.6 puede verse una forma de onda que es muestreada o medida a
intervalos regulares. A continuación cada muestra se convierte en un código binario.
La digitalización
15
14 __
• 13
12.

. 11

. 10

9

8

r~
6
5

W 4-­
:;(1 3
~. 2
0 1
>! 0--1,¡ 11 11 11 1I 11 11 11 11 11 11 11 11 II II II l' " .
T1 T2 T3 T4 T5 T6 T7 re T9 TlO T11 T12 T13 T14 T15 T16 T17 n8
3-...t1. .L J .. .l rfi. ,§~ ~ .L .1-...i.-l ~- ,LQ .11 -.1Q. JL .L0101011001110111011'0110010'0100001101110100 01111001 10111011 1011 1010 1000
TIEMPO --------.,
Figura 4.6.

El proceso de conversión se inicia tomando muestras a intervalos regulares.

5.1. El muestreo
El proceso de muestreo puede entenderse como la multiplicación de la señal de
entrada por una señal impulsiva (la señal muestreante), que vale cero en todo
momento, excepto en los instantes de muestreo, en que vale uno (figura 4.7).
O,
:> SEÑALl­
:J DE ENTRADA
lL
::¡
«
TIEMPO
x
SEÑAL
MUESTREANTE
IJJ_UJ._LL1JllJJ-~TIEMPO
- RESULTADO DEL
MUESTREO
TIEMPO
Figura 4-.7.
Arriba se muestra la señal de entrada, mientras que en el centro puede verse la señal mues­
treante, consistente en un tren de impulsos. Si ambas señales se multiplican, el resultado es un
tren de impulsos modulados (Pulse Amplirude Modulation).
103
102
TCCNOLOGIA ACTLJ:'L DE Tn"I~:J;'JSl!'IC~)N~' _
~!J:~til.il(JQU
Como consecuencia, la señal muestreada valdrá cero en todo momento, excep­
to en los instantes de muestreo, en los cuales su valor corresponderá al de la sei'íal
analógica de entrada. Puesto que se trata de multiplicar la señal de entrada por
unos pulsos instantáneos, se obtiene un tren de pulsos modulados en altura, es
decir, en amplitud.
Lo anterior eqUivale a la modulación en amplitud de los impulsos de la señal
muestreante por la señal de entrada. Por esta razón a la señal muestreada se la
conoce también como "señal PAM" (Pulse Amplirude Modulation o modulación de
impulsos en amplitud).
De la misma forma que en la AM de radio se producen bandas laterales por encima
y por debajo de la portadora, también en el proceso PAM se producen bandas laterales,
sólo que en este caso la fi'ecuencia portadora es la frecuencia de muestreo. Para enten­
der el efecto de las bandas laterales es necesario conocer los espectros de la señal de
muestreo y de la señal de entrada. El.espectro de la señal de entrada es el de la propia
sei'íal de vídeo y su comprensión no suele plantear problemas. El espectro de la sei'íal de
muestreo es algo más complicado, como consecuencia de que dicha sei'íal es disconti­
nua, lo que supone que su espectro será igualmente discontinuo
Una función periódica temporal f(t), como la señal muestreante, se puede des­
componer en una serie de Fourier:
FACTOR REAL
f(t) = aol2 + a, coswt + a, cos 2wt + alcos 3úJt.....a,cos nWt +-­b, senWt + b, sen 2úJt + bl sen 3wt.. ...b, sen nWt
...... .­~
FACTOR IMAGINARIO
Un impulso rectangular puede considerarse como una funci6n par (simétrica),
en la que f(t) = f( -t), de forma que los coeficientes bn son cero, quedando sólo los
términos en coseno (factor real).
; t(t) r,I1 fl
~I I;l Figura 4.8.
-IL_Ji_JI
La señal impulsiva muestreante puede entenderse como una, T
funci6n par.
/JJJ LJ JJ:-+lllJllJ llL_.
~2.-.J 2T 3T 4T 5T 6T 7T O 2Fo 3Fo 4Fo 5Fo 6Fo 7Fo 8Fo 9Fo
Figura 4.9.

Representaci6n temporal y frecuencial de la señal impulsiva.

Cuando la duración del impulso tiende a cero, todas las componentes adquieren
el mismo valor, de manera que el espectro se compondrá de una serie infinita de
líneas espectrales situadas en los armónicos de la frecuencia de muestreo fa =1/1',
todas ellas de la misma amplitud.
Puesto que los impulsos rectangulares no poseen valores negativos, aparecerá
una componente continua en el espectro, de frecuencia cero.
La teoría de los párrafos anteriores puede entenderse mejor con ayuda de la
figura 4.10. A la izquierda puede verse, a modo de ejemplo, -la formación de una
onda cuadrada, a partir de cosenoides de frecuencia creciente. Eneste caso la onda
cuadrada se obtiene sumando una cosenoide de la misma frecuencia y aml;m:ud que
la onda cuadrada, más el tercer armónico con un poco menos de amplitud, más el
quinto armónico con amplitud aún menor...
Cualquier señal periódica
se puede descomponer en
señales senoidales o
cosenoidales puras
ONDA CUADRADA
~
JVI.INVVV'+
.Jf.I.NI.NVV
~
I_L l_l LL L.LL
F, 3F, 5F, 7F, 9F, 11F,13F,15F,
FRECUENCIA
Figura 4.10.
ONDA IMPULSIVA
+
+ !
+ / .!  i " :'  ,  : ' "  i  : . / ¡ "o / . :  . /  ....
+
+
+
+ (J(:Irl!VI/'JI)If11(VMff'iIIf I!IfIifVl/I/
+ f!/N((I/I{fff!IIWífV{ViVW.J/IIiVI/VVlf1I!1
+ !lVWVIMlM!IVIMflINI!f!lr,~NWJWIfI!WiJlfVii
+ :Wi'vW,Mnl¡JI!rJfIJIJIWi!VIV'I'n!l!vWVVM~,f,IIMi1
+ MrVIMNVfI!WJfIf,Ij¡r1,íWII'WvWIMIWiílf',WJWV'IIM/VI
=llll
11.J_JJ.JJ ..IIJ._
F, 2F, 3F, 4F, 5F, 6F, 7F, 8F, 9F,

FRECUENCIA

Descomposici6n de ondas complejas en series senoidales.
A la derecha de la figura 4.10 se muestra como obtener una señal impulsiva (que es
la que nos interesa) a partir de sei'íales eosenoidales. Aquí, además de la cosenoide fim­
damental, intervienen todos los arm6nicos y todas ellas eon igual amplitud.
Si una sei'íal impulsiva se obtiene sumando todas las cosenoides, puede deducirse que
tal onda impulsiva puede descomponerse en eosenoides. En nuestro caso, la onda impul­
siva es la señal muestreante que multiplica a la sei'íal anal6gica de entrada.
En la figura 4.11 (a) puede verse el espectro de la señal de muestreo, el cual está
formado por rayas espectrales de igual amplitud, que se suceden a múltiplos de la fre­
cuencia de muestreo. En 4.11 (b) se muestra el espectro de la señal de vídeo, la cual,
una vez muestreada, presenta el espectro de 4.11 (e), donde aparecen "copias" de la
lOS
104
T[eNOl Ol;IA An tlAL DL: TE! EV1SIÓN
La dipitalización
(a) r .. L __.L L L_~~PE~;~~~:T~~EÑALo Fo 2Fo 3Fo "Fa"
J.	 FRECUENCIA
(b) .. ESPECTRO DE LA SEÑALO '
'.REcUENCIA ~DE ViDEO

O 5.S MHz

FILTRO DE PASO BAJO ALIAS
(C) htntfjbl~-----cn------..ESPE~~~~~R~~¡EÑAL
O ti Fo t ' 2Fo ... •'. JFo .Fo
5.5	 MHz I Fo+5,5 MHl. '. 2Fo+S,5 MHz ",

Fo-5,5 MHz 2Fo-5,5 Mttl: 3Fo-5.5 Mkz ..

SI LA FRECUENCIA DE
(d) MUESTREO ES INFERIOR
AL DOBLE DEL ANCHO
DE BANDA DE LA SEÑAL
A MUESTREAR, SE
PRODUCE SOLAPAMIENTO
ENTRE LAS COMPONENTES
(e) DE ALIAS, EL CUAL
SE DENOMINA AllASSING
Figura 4.11.
Razones por las que puede producirse a]¡asin8 durante el muestreo.
señal de vídeo de banda base por encima y por debajo de las rayas espectrales de la
señal de muestreo. Estas "copias" se denominan "alias". Si la frecuencia de muestreo es
superior al doble de! ancho de banda de la señal muestreada, las copias o alias no se
solaparán entre ellas, ni tampoco con la señal de banda base, que vuelve a aparecer en
el espectro de la señal muestreada.
Durante la conversión digital-analógico se hace pasar la señal digital por un fil­
tro paso-bajo como el mostrado en 4.11 (c). Este filtro permite individuali'lar la
señal de banda base, eliminando las alias. Puesto que no es posible o, al menos, no
es fácil construir filtros de corte abrupto, conviene dejar algo de espacio entre la
señal de banda base y la banda lateral inferior de FO. Si se mantiene e! ancho de
banda de la señal de vídeo, pero se reduce la frecuencia de muestreo, la señal de
banda base y la banda lateral inferior de FO, al igual gue las bandas laterales supe­
riores e inferiores de los distintos múltiplos de la frecuencia de muestreo se sola­
paran entre ellos. Este solapamiento se conoce como aliassina (figura 4. l1-d) Yda
lugar a la aparición de "bajas frecuencias fantasma", que se Suman a la imagen. Un
diseño inadecuado del filtro paso-bajo de reconstrucción puede igualmente gene­
rar aliassing (figura 4 .11-e).
5.2. Aliassing
El aliassina se produce siempre por una frecuencia de muestreo insuficiente. La
figura 4.12(a) muestra un ejemplo de aliassing espacial. En (a1) podemos ver una ima­
gen que contiene altas frecuencias en todas las orientaciones radiales, mientras que
ALlASSING ESPACIAL ALlASSING TEMPORAL
GIRO
APARENTE
(a1 ) 15' 30'-~J "1_
-"1 45°
~-...--
"(b1L~I~I~]-~1
(a2)
GIRO
...@ .30'r­
('3)
•
(b2)1§f.¿1~1!]~1
Figura 4.12,

Ejemplos de a]iassin8 espacial y temporal.

(a2) nos muestra una estructura de muestreo similar a la producida en televisian,
como consecuencia de la exploración por líneas. Cuando (al) y (a2) se unen, como
sucede en (a3), el resultado son productos de a]iassina, que se muestran como moarés
de bajas frecuencias. Una vez que a una señal útil se ha sumado aliassina, como en (a3),
resulta imposible separar la señal indeseable de a]iassina de la señal útil sin mermar la
cantidad de información (resolucian) de la señal útil.
Es frecuente ver en las "películas del Oeste" cama las ruedas de los carrua­
jes parecen girar muy despacio, detenerse e incluso girar al revés. Este efec­
to es consecuencia de que la imagen ha sido muestreada en el tiempo a 24 ips.
Si se muestran al espectador los cuatro fotogramas de la figura (b 1) en rápida
sucesión, tiende a percibirse la rueda como girando en sentido horario a 15
grados por fotograma, Para estar seguros del sentido de giro, pintamos uno de
los radios de negro. Ahora podemos ver que estos cuatro fotogramas son en
realidad consecuencia, de que la rueda ha girado 30 grados en sentido antiho­
rario (b2). En este caso se ha producido "aliassina temporal".
De la misma forma que un malhechor utiliza varios nombres (alias) para escon­
der su identidad y engañar a la justicia, una señal muestreada produce falsas seña­
les (alias), las cuales pueden, si no se toman las precauciones adecuadas, enmasca­
rar la informacian útil, generando aliassina.
El aliassina es siempre un problema de incertidumbre. Imaginemos que el con­
versor digital-analógico recibe un tren de pulsos como el mostrado en la figura 4.13
(a), a partir del cual debe generar una forma de onda que pase por los PWltoS de
muestreo. La solución más lógica e inmediata puede ser la mostrada en la figura 4.13
(b), donde la frecuencia de la señal reconstruida (f,N) resulta ser 1/4 de la frecuencia
07
106
-: I:C;'ULO(;i" :CTUAL ¡)E TElE'I"¡ÓN
_____liLili,gll~JllilciQ.B
(a)
" ~ I: UNIDAD ARBITRARIA DE TIEMPO • , ~
2. ~ 6 8 tl'QWti":JIZ;>"'ifi2llXll1~36lUO~2.u"43
l. r, FRECUENCIA
/ 1 / /
) ) / 1) (b)

¡ i I
1 ,1"
¡ r T
UNIDAD ARBITRARIA DE TIEMPO .
T •
2. ~ r; '!"'l?'I4'1'i'fl1l121tifi2ll)O:R;UlLJ1140414HIHIJ
FRECUENCIA
'. 1,
I (C)
. L. ..LJ__L__~ lJly.~ .UNIDAD ARBITRARIA DE TIEMPO
2. 4 6 e ()t'1oII1l'e1021}421i2B.103234)f;JII'IHH4(64~
FRECUENCIA
~A!~tA~1A~~A

)1!f/ MI/¡r/¡IJYIM._1.Iij~'~/ ~(d)
 J..... ,1.UNIDAD ARBITRARIA DE TIEMPO
2..6 e 1)t2'W1U3]oD}42{;:M:~m,}4lEiJIHO~¡.u~6Cl
FRECUENCIA
Figura 4.13.
Diferentes frecucncias de origen pueden gcnerar los mismos trenes de impulsos de salida si
no se toman las precauciones adecuadas.
de muestreo (Fs). Sin embargo, también la frecuencia (c) pasa por los puntos de
muestreo y sería, en principio, una solución válida.
Una forma de deshacer esta incertidumbre consiste en asegurar que antes
del proceso de muestreo ninguna señal contenga frecuencias superiores a la
mitad de la frecuencia de muestreo. Dicho de otra forma: asegurar que'cada
ciclo de la señal de entrada esté representado por, al menos, dos muestras. Si
esto es así, durante el proceso de reconstrucción de la señal (conversión digi­
tal-analógico) sólo existirá una forma de onda senoidal capaz de pasar por los
puntos de muestreo representados por los valores digitales. Si queremos
representar adecuadamente la forma de onda (c), deberemos aumentar la fre­
cuencia de muestreo, tal como se hace en la figura 4. 13 (d).
Resulta interesante analizar la relación entre la frecuencia de la señal de entrada y
las frecuencias de alias que pueden producirse. Además de la propia señal de entrada,
cada tren de impulsos es capaz de generar dos señales "fantasma" o de "alias": una de
frecuencia igual a la frecuencia de muestreo menos la frecuencia de la señal de entra.
da y otra de frecuencia igual a la frecuencia de muestreo más la frecuencia de la señal
de entrada. En realidad encontraríamos infinitas señales de alias como las anteriores.
Concretamente, si llamamos "S" a la frecuencia de muestreo, "F" a la frecuencia de
entrada, "N" a cualquier número entero y "Fa" a la nueva frecuencia de alias, entonces
encontraremos Fa = NS ± F.
En el ejemplo de la figura 4.14 se ha utilizado una frecuencia de muestreo
FRECUENCIA DE MUESTREO = 1 KHz

(perlodo"r = 1 msl

(a)llllliUilili 10,5 1 1,5
FRECUENCIA (KHz)
0,75 KHz F... Fs
(T=1,33 ms) A
(b)
i I0,5 1 1,5
FRECUENCIA (KHz)
, , ¡ , 1.. 0,25 KHz
F" F. Fs
/1:' f',:, 'V' ,¡Y,'" " ' " , ,", '1 (T=4ms)
¡ "'1 "', ", ¡, I " " '
(C)",~,¡ !''I""' "",;,'1 ~LJJ .I " '1 j Ji ,',' j" 'j', ,y 0,75 KHz 0,5 1 1,5
1;..'/ ' : ',¡ ,', ,: (T=1,33ms) FRECUENCIA (KHz)
I ¡ " I I : I 1 II i ' ' 1 ,
I 1,",": ,! 1, I ,', !, 1,'·, ' ~75 KHz F" F. Fs F"
:" ~':'~"'~''~:~'I'~'I,,(TO,57ms) i il i(d)!:, "';,', ";",,,j,. i:',,,. ,i .,. 1 KHz
~ " , !' I ' I 0 . 7 5 , _ --" ,.. ...
"1 " '! 1 I , ,; ' " , ," ! (T=1 33 ms) 0,5 1 1,5 2
I , 1 i":' 1 ' '  ' 1 I I • FRECUENCIA (KHz)
1
Figura 4,14,
Relación entre la frecuencia de la señal de entrada y las frecuencias de alias.
de 1 KHz. Una señal de entrada de 0,75 KHz (la cual está por encima dellími­
te de Nyquist) generará los puntos de muestreo, indicados mediante pequeños
círculos en (b). El problema es que una señal de 0,25 KHz (c) generaría tam­
bién los mismos valores en los instantes de muestreo, de manera que sería
imposible saber si tales valores corresponden a la señal (b) o a la (c)
La frecuencia de la señal (c) es igual a la frecuencia de muestreo menos la fre­
cuencia de la señal de entrada (1 KHz - 0,75 KHz =0,25 KHz). Si la señal de
entrada es menor que la mitad de la frecuencia de muestreo, la resta siempre será
mayor que la señal de entrada, de manera que un filtro paso-bajo podrá separar la
señal de entrada de la señal de alias. Además se produce otra señal de alias en Fs +
F'N = 1KHz + 0,75 KHz = 1,75 KHz, pero ésta es menos importante, ya que su
frecuencia está por encima de la de la señal de entrada, con lo que se puede sepa­
rar fácilmente.
5,3, La cuantificación
Una vez muestreada la señal, es necesario expresar el valor de cada muestra
mediante un código (normalmente una palabra binaria) de longitud limitada. De
la misma forma que el muestreo representa la dimensión temporal, la cuantifica­
ción sirve para preservar las amplitudes. Puesto que se utilizan palabras de longi­
tud limitada, la precisión será también limitada, por lo que la cuantificación no
puede ser nunca exacta; en el mejor de los casos, será una buena aproximación al
valor analógico.
109
108
- - -- -
TI::CNOI-OGIA ACTUAl DE TI:! EVISIÓN
Una señal analógica presenta un número infinito de posibles valores, entre un
mínimo y un máximo, mientras que la señal digital sólo puede representar un
número limitado de valores, de manera que será necesario redondear el valor de la
señal analógica al valor digital más cercano.
En la figura 4.15 se han utilizado cuatro bits para representar cada mues­
tra, de forma que pueden codificarse hasta 16 valores distintos (del O al 15).
Cualquier muestra que esté por encima del umbral de decisión se redondea al
valor inmediatamente superior, cometiéndase un error por exceso. En caso
contrario, se redondea al valor inferior y el error será por defecto.
Si llamamos "q" al valor de un intervalo de cuantificación, el error máximo
cometido será de ±1/ 2q, ya que siempre usaremos el valor digital más cercano.
"Ji-­ 15_

,- 14

I • 13
z
!
U)12
8f1j------ - - - -- -­
I ~10 - -- 'ºU)
! ~ 9 w--~-----I a-: 8 O
I ~ T ---------
7
w~-= ~ ~~-- o
U)
W
W! ~ l-~I~ - I ---- ----/--.-1---1--- ;?
O
...J
¡-..: ...J - - 0 ­
...J) ~:1 - - - ­
;tI O 3 - - - - --- - ---­
(l)
::E~I :> ¿ -- - ~ --= =- - ---= -= ::-= == =I-I~-.- ;:)
.. . -----. ..
 ...ERROR DE CUANTIFICACiÓN
TI T2 T3 T4 T5 T6 T7 TB T9 T1D Tl1 T12 T13 T14 T15 T16 T17 T1B
L~LLL~5~~~4~~a~~LL01010110 0111 0111 0111 ol1oói01 01000011 01116100 01111001 10101010101010011000
t1¡;MP-.O --_.-_.- -~- ----~
Figura 4.) 5.
La cuantificación es el redondeo de los valores de las muestras al valor admitido más cercano.
5.3.1. El ruido de cuantificación
En la figura 4. J6(a) se han utilizado dos bits para representar el valor de la señal
analógica, con lo que el peldaño de ouantificación "q" es igual a 1/4 del valor de la
señal "S". El error de cuantificación será ±J/8S. En 4.16 (b) se emplean tres bits,
lo que da ocho valores posibles, siendo el error de cuantificación de ±1/ 16S. Con
cuatro bits (4. J6-c), el error de cuantificación se reduce a ±1/32S. Por tanto, cada
vez que se añade un bit se reduce a la mitad el error de cuantificación.
Podemos entender el error de cuantificación como una señal indeseada que se
suma a la señal útil y que estará presente incluso después de la conversión digital­
analógico. Se habla, por tanto, de "ruido de cuantificación".~oderdeterminar
I JO
La dipitalización
(a) (b) (e)
2 BITS 3 BITS 4 BITS
:+F: ·1'q
l±j-:--'-:-"-,
o.I±-+~::l::
il~lt-c1­
Ill~
6ftETIEMPO TIEMPO TIEMPO
~ ~~<~~q~~~~~~q~~~jI'>.JI'>.0"<J'JI'>.,¡,'f'0"
ERROR DE CUANTIFICACiÓN
ERROR DE CUANTIFICACiÓN
ERROR DE CUANTIFICACiÓN
Figura 4.16.

El error de cuantificación decrece a medida que se aumenta el número de bits con que se

representa cada muestra.

~l núElero ~~_bit~Il_~.e~~ri9:" h~y_que saber_c:l,l;ÍI~§...~L val<~L4~I!1j49_Rer@i tidg_,en
una señal de vídeo de calidad profesional. En televisión se acepta como "buena" una
seílaícUyare1aci6n S/N esté por encima de los 55 dB. La fórmula que permite
conocer la S/N en televisión es:
Vs
S/N=20Iog­
Vr
La fórmula anterior significa que-taSIN deúna señal de vídeo es igual a 20
veces el logaritmo de la relación, entre el valor de la señal pico-a-pico (Vs) y el
valor del efectivo del ruido (Vr). Puesto que con cada bit de cuantificación el error
se reduce a la mitad, la S/N mejorará 6 dB por bit utilizado (20 X l?g 2 "" 6). El hecho
de contemplar el valor eficaz del ruido, y no su valor pico-a pico, supone tener que
sumar a la S/N una constante de 10,8 dB. Por tanto, siendo "n" eLnúmero de bits
~pteados, el valor definiti;:fu;~d;~.-~-- _
1 S/N =6n + 10,8 dB '
Si deseamos una S/N por·· encima de SS dB, necesitamos utilizar ocho
bits/muestra (6 x 8 + 10,8 dB = 58,8 dB). En algunas aplicaciones, como, por
ejemplo, en los telecines, mezcladores digitales, etc., se necesita una S/N más alta,
por lo que la tendencia actual es utilizar diez bits/muestra en lugar de ocho.
5.4. El dither~---,--------
El dicher es una señal de bajo nivel, tipicamente ruido blanco con una amplitud
de un nivel de cuantificación pico-a-pico, que en algunas ocasiones se suma a la
señal analógica antes de ser muestreada. El diCher asegura que incluso la señal más
pequeña cruzará, al menos, un nivel de cuantificación, de manera que los períodos
adyacentes corresponderán a niveles de cuantificación diferentes (figura 4.17)
111
.1,._~_shp~117_~C~Úl!
-~-,--.,- .~..!..!~~ -~-
SIN DITHER
.~--
---------­
-"­
En el proceso de conversión digital-analógico se comienza por generar una
señal PAM a partir de los valores binarios de las muestras. En cste punto la señal
reconstruida presenta una apariencia escalonada, con transiciones bruscas entre los
w-Q
.~ '"
_ _ . _.. _.. .. >~8_. ::<0
-l-=/
::>w0vf
"'z
o
JL
LrCUANDO LA SEÑAL NO PRESENTA

SUFICIENTE AMPLITUD COMO PARA

PROOUCIRSE UNA MODULACiÓN "PAM",

EL DlTHER PERMITE UNA MODULACiÓN

DE ANCHURA DE IMPULSOS (PW'"

Figura 4. 17.

Aunque parezca extraño, un poco de ruido bicn calculado puede mejorar el proceso de digi­

talización.

Cuando la señal de vídeo presenta altos niveles, el error de cuantilicacion es peque­
¡io y puede entenderse realmente como ruido. A medida que la señal se hace mas peque­
ña, el error de cuantificación se hace más importante y comienza a correlacionarse con
la señal, es decir, el error deja de ser aleatorio y pasa a ser una funcion de la señal, lo que
significa que el ruido de cuantificacion se convierte en distorsión. Cuando la señal de
1deo presenta muy baja amplitud se produce un efecto de contorneado o pasterizaci6n
de las imagenes, como consecuencia de que se utilizan pocos niveles de cuantifis:acion,
en areas relativamente grandes.
Si de alguna forma el crror de cuantificación puede descolTelacionarse de la
señal de entrada, la señal cuantificada sera una función lineal de la señal de entra­
da. Esta funcian de descorrelación la realiza el dither, sumando un pequeño pedes­
tal de ruido a la señal de entrada antes de ser digitalizada. La pequeña cantidad de
ruido sumada a la señal hace que la respuesta del cuantificador sea imprevisible, lo
cuallinealiza la funcion de transferencia. Por el contrario, se produce una peque­
ña pérdida en la rclacion señal a ruido, la cual resulta mucho mas tolerable que los
efectos de contorneado que se produciría sin dither.
6. El filtro de reconstrucción
Una duda que suele presentarse en lo referente al proceso de muestreo es: ¿qué
pasa con la información de la señal original, en los puntos comprendidos entre los
instantes de muestreo? ¿Como es posible saber, durante la conversión digital-ana­
logico, cual era el valor original de estos puntos no muestreados?
diferentes valores de amplitud. Estas transiciones rápidas suponen la existencia de
coeficientes de alta frecuencia, que no estaban presentes en la señal original. Por
tanto, debemos hacer algo para "suavizar" la apariencia quebrada de la señal recons­
truida. De esto se encarga el filtro paso-bajo de salida, el cual eliminara todas las
componentes de frecuencia que excedan la frecuencia de Nyquist. En ocasiones
este filtro se denomina "filtro suavizador".
El proceso de suavizado podda entenderse como si intentáramos conectar los
puntos de amplitud representados por la señal PAM mediante una curva lo más
suave posible (en términos matemáticos, la ecuación de menor grado posible), de
forma que empleáramos el menor número de puntos de inflexión y que todos ellos
fueran suaves Ysimétricos (figura 4.18-c). Si en el proceso de muestreo se respe­
tó el criterio dc Nyquist, esta operación de suavizado recompondrá la forma de
onda origina1. Cualquier desviación de la forma de onda suavizada (por ejemplo,
variaciones rápidas de nivel entre dos valores PAM) provendría de frecuencias por
encima del criterio de Nyquist
La labor de suavizado de la señal escalonada se realiza mediante un filtro paso-bajo,
cuya respuesta ideal es de tipo rectangular, con un corte abrupto a la mitad de la fre­
cuencia de muestreo. La repuesta impulsiva de este tipo de filtros es una función
sen x/x, lo que significa que si a la entrada de este tipo de filtros inyectamos un pulso
~C-..'. ... <C'S-L--F.ORMA.. DEONDA__ I~_' -- ., ORIGINAL
-L . '
' l . [ , FORMA DE ONDA
J--'­(a) M"'""'''''''
TENSORES .-cc=---- PUNTOS DE
ASIMéTRICOS ·c-·.
( ('.tJ INFLEXiÓN
e,' ~<1':~~.' )) t ~ -/
1ENSGl-'ES
 ' . <
,·1»' "Y: MAL..... ' ..····:NODOS
INNECESARIOS
  ,.­
j"> },.(b)
 · 'r'
,.,' .­«".~"'-"IIr-.... ~
i
->'
r-. --.--T"
BIEN
~ f(e)
~~ 1 1 I I , I I
Figura 4.18.

Efecto de "suavizado" del filtro de reconstruccion.

113
112
TreNOlOGfA ....CTUAL DE THf.=VISJ()N
(/igw'a 4.19-a), a la salida obtendremos una señal de tipo senoidal cuya amplitud irá
decayendo paulatinamente (figura 4.19-b). Una característica especialmente intere­
sante de esta señal sen x/x es que vale cero en todos los puntos de muestreo, excep­
to en el correspondiente al del pulso que la ha provocado, en el cual su valor es justa­
mente el de dicho pulso. De esta forma la suma de todas las funciones sen x/x recom­
pondrá la forma de onda original, ya que en cada instante de muestreo la única fun­
ción sen x/x que aportará su valor es la del impulso correspondiente, mientras que
en los tiempos intermedios serán las otras funciones sen x/x las que proporcionarán
el suavizado necesario. Dicho de otra forma, cuando se eliminan de la señal escalona­
da las altas frecuencias, lo que se obtiene es la señal suavizada original (figura 4. 19-c).
En la práctica este filtro paso-bajo de reconstrucción no presenta un corte
abrupto a la mitad de la frecuencia de muestreo. Por el contrario, se caracteriza
por una pendiente de atenuación relativamente suave, lo que obliga a que las fre­
cuencias más altas permitidas en la señal de entrada sean algo inferiores a la mitad
de la frecuencia de muestreo.
7. El diagrama del ojo
El diagrama de ojo es una forma sencilla y clara de medir la calidad de una señal
digital. Como en la mayoría de las mediciones electrónicas, el eje horizontal repre­
senta el tiempo, mientras que el vertical representa las amplitudes o voltajes.
(a) ~
__~ILI _

I ~~--~~-----.j ·t

L-.! LPF ¡-./ SEÑAL "sen x / x"
(b)
-/--~--~-;- - - ; - - - -....-- ----'¡ ¡'-"¡ ¡ r-/¡ ¡ --·t
CRUCES POR CERO ESPACIADOS A 1 I Fs
SUMA DE TODAS LAS SEÑALES ·sen xlx·
(e)
Figura 4.19.
Un impulso rectangular pasado por el filtro paso-bajo se convierte en una función del tipo
sen x/x.
La di¡:Jitali~acjón
-1 " '" -; " .. _" " ~
001000100 +
001001000
110111011
+
+
110110111 - - ­
+
000100100~~
COMBINACION DE

TODAS LAS POSIBLES

TRANSICIONES

•'--- FORMA DE OJO
LOS ERRORES DE

AMPLITUD CIERRAN

EL OJO EN LA

DIRECCION VERTICAL

LOS ERRORES DE ~
TIEMPO CIERRAN
EL OJO EN LA
DJRECCION HORIZONTAL
EFECTO COMBINA,
D~~;J:L~~~~S:>Mi ** * »« * k K:y DE TIEMPO
Figura 4.20.

La suma de señales rectangulares filtradas genera una especie de "forma de ojo" que permite

analizar la calidad de la señal recibida.

El diagrama de ojo no es más que la superposición continua de las transiciones de
los datos del nivel bajo al alto y viceversa. Si inyectamos el tren de datos recibido en
un osciloscopio, el cual es disparado por una señal de reloj estable, las variaciones de
amplitud y el ruido cerrarán el ojo en la dirección vertical, mientras que las inestabi­
lidades y errores de tiempo lo cerrarán en la dirección horizontal.
Mientras que el "ojo" presente una apertura suficiente, el receptor podrá inter­
pretar correctamente los estados binarios de la señal digital. Puesto que lo que
importa es la apertura del ojo, es posible tolerar más inestabilidades temporales si
los errores de amplitud y el ruido son pequeños y viceversa. De todas formas, en
las aplicaciones reales suele especificarse un tiempo mlnimo y una amplitud míni­
ma. Estos dos parametros forman una especie de rectángulo que se inscribe den­
tro del diagrama de ojo.
8. Tipos de señales digitales de vídeo
RGB: Sólo se utiliza en el interior de algunos equipos digitales,
como paletas gráficas, CAD, etc.
COMPUESTO: Buena solución a corto plazo:
- SMPTE-244M.
114
115
T::CNOLOGI" ACTUAL DI. TELL"I:,r"Ó~N,-'	 _
COMPONENTES: La mejor solución a medio y largo plazo:'
ITU-R BT. 601 (CCIR 601).
Encoding parameters of digital television for stuclios.
EBU Techn. 3267E.
- Interfaces for 625·line digital video signals,
SMPTE 125M.
- Bit·parallel digital interface video signal 4:2:2.
La codificación de la señal compuesta propone el muestreo y la cuantificación de
una única señal de vídeo (PAL, SECAM o NTSC). Tiene la ve;taja de que se pucde
intercalar directamente en un entorno analógico compuesto. Además los equipos
compuestos son más sencillos y económicos que los equipos por componentes, Una
~ig!!:Ap.?r:a C0.!J1¡>l!.estoªm~más 'lllcotra digital pªrªcomponentes...Em~.fQ!!­
tra, no resuelv~~.!.2roble!!!iLe;kUl!t.eI~;I,mbio-.de._tllllgr.am.ª.~,}~siqu!er¡¡~~se
empleara una fre<::t.J.~_ncia .de. rnu~.treQ y un;¡ cQdificaciónidenticªs~_Además en el
montaje de programas digitalizados se producen los mismos problemas que en el
caso de la señal analógica compuesta: efectos de intermodulación luminancia-cromi­
nancia y secuencia de 8 y 4 campos para PAL y NTSC, respectivamente. Aunque este
tipo de señal digital tuvo su momento de gloria a finales de los 80 y principios de los
90, actualmente está cayendo en desuso, ya que en el trabajo en estudio se prefieren
las componentes digitales. De todas formas, aún quedan equipos en producción, por
lo que es útil conocer dicha señal digital compuesta.
En la codificación de la señal por componentes se muestrean y cuantifican tres
señales, es decir, Y, R - Y YB - Y. ~º-mo t:.9~,QSJJ)ssistemªs deteleyisión parten de
estas tres señales, se logra un método mutuamente compatible. Además la calidad
deJa señal digital por componentes es superior a la de la señal digital compuesta,
tanto en lo referente al ancho de banda de las señales diferencia de color como en
C:l:l.anto3rruíd6dé cuantificación. gn la seilal digital por componentes desayarecen
los efectos de intermodulación luminancia-crominancia', asrcomo fa-secuerÍdá'4 u
.8 cá;;p;;~: Algunos equipos digitalcs, como los g~neradores -de efectos, correcto­
res de COloL)'_Sg!!:,.e;,~?Te~.genor,-mas,deben trabajar necesariamente por compp­
ne~tes, ya que procesan por separado la luminancia y la crominancia.
Los principales organismos con competencias en la regulación de normas de TV
digital son: European Broadcastin Union (EBU o UER), Society ?!Motion Picture and
Televisión EnBineers (SMPTE) y Telecommunication Standarization sector ?! the
InternationaI Telecommunications Unían (ITU·R). Este último hace las labores que
hasta 1993 venía realizando el CCIR (Comité Consultivo Internacional para la
Radiodifusión) .
Resumen
• Los sistemas digitales	 presentan ventajas, tanto económicas como técnicas,
con respecto a los sistemas analógicos.
• Actualmente todos los tipos	 de información pueden convertirse a formato
digital, compartiendo así los mismos canales de grabación y transmisión.
• La televisión digital está muy desarrollada en las fases de producción y trans­
________________________________________~L2~lí.gi1!111L¡¡..vi2!.!
misión punto a punto, mientras que se encuentra en fase de inicio en cuanto
a la emisión al espectador.
•	 Al igual que en analógico, podemos encontrar señales digitales de tC'levisión
en formatos RGB, componentes)' compuesto, De ellos el más empleado es el
de componentes digitales. El digital compuesto se utiliza cada vez menos y el
formato RGB digital sólo se usa en grafismo.
Se entiende por analógica aquella forma de representar la información que es
una analogía del hecho físico que representa, es decir, se mantiene una simi­
litud física entre el hecho y su representación.
• Digital es toda forma de representar la información mediante códigos numé­
ricos preestablecidos. Estos códigos deben ser conocidos tanto por el emisor
como por el receptor. Ademas deben estar bien adaptados al canal de trans­
misión.
•	 Una de las principales ventajas de la televisión digital es su capacidad de mul­
tigeneración sin pérdidas. Cada vez que S,.e. hace lJDª- cQPÉ-'::q~C!igi~ªu digi§.l"
.k..s-cijg.l.déctricase regenera totalmente, eLdccjr. ~iC::l11.pre vQjven}Os il"g~ne­
l:,ªciQn~cero" .
•	 La mayoría de las imágenes son en origen analógicas, por lo que se tienen que
digitalizar. Las dos fases de la digitalización son: el muestreo y la cuantificación.
• El	 muestreo consiste en tomar muestras de la señal analógica a intervalos
regulares. El número de muestras por segundo o frecuencia de muestreo tiene
que ser, al menos, el doble del ancho de banda de la señal a muestrear.
•	 Si no se respeta el criterio de Nyquist, se producirá aliassinB, que no es otra
cosa que la aparición de frecuencias fantasma, que se producen por interac­
ción entre una señal de muestreo de frecuencia insuficiente y la señal analó­
gica muestreada.
La cuantificaci<in~(,msis.te-el1e.()difkar-lasIllUCStras ..collun número limitado
d.~_.bits__Lt;;g.~ncra errores de redondeo, que se conocen como "ruido .de
.cuantificación".
• fualQrdelruido _de cuantificación disminuye 6 dB can cada bit extra utiliza·
d.9 par_a cuantificar las muestras. En aplicaciones profesionales es deseable una
t.dªº-~lruid.o...decuantificacióu..de.al mcnos.55 dE.- EstOllOS conduce
<tlJtjli?ar como mínimo 8 bits por muestra.
• Para mejorar ciertos procesos, especialmente los que utilizan operaciones no
lineales, es más adecuado utilizar 10 bits por muestra.
• ~l dither es unaseñald~Jui,<lo de bajo nivel que se suma a la señal analógi<.:a
a~eTa(fígitálizaéi6n_y.s!..e-.~~g¡¿r~ 9..l.l<:_~I1.cI~~º-Ja~~i}<lL 1l}MpC::.<.IIJe..ña_cru­
zará ª-L!ll.enos':!..J:t.Ili.y.~Lde c.ull!1t !fl5,;ación.
El filtro de reconstrucción "s~a_vJ~:_~~0_~PA_M rectangular. É.ste filtr~e­
~t:!!<Lt!n.a¡:~sp.tteg<lJ!~~lsiv~sL~..~jp-Q Y-= sg!!E/~
•	 El diagrama de ojo se utili~aramedir la ca~idad_de_~~ii;~l__~!g!!a!~_~~nto
.!!lás "abieI~.e~!.~eL()io_'.m.ás fác:iJ~~r~§epªt:ar los n:ros.dc los UllOS.
• Existen normas que especifican los parámetros de las señales digitales com­
puestas y por componentes. Los organismos reguladores más importantes
son: EBU, SMPTE e ITU-R
116 117
r
I
I

CAPÍTULO 5
La norma 4:2:2
1. Introducción
Al igual que sucede en el mundo analógico, también en digital hay dos formas
básicas de codificar la señal de televisión: "en compuesto" y "por componentes".
Históricamente, la primera en normalizarse fue la señal de vídeo digital por com­
ponentes y será la primera que veremos aquí.
En un sistema analogico por componentes la informacion de la imagen viene
representada mediante infinitas variaciones de las amplitudes de los primarios
RGB o, más comúnmente, de las componentes Y, R -Y, B - Y, dentro de los lími­
tes fijados para cada señal. Es una característica propia de los sistemas analogicos
que la degradacion de la señal a la salida es igual a la suma de todas las degrada­
ciones introducidas por cada una de las etapas que tiene que atravesar. Esto supo­
ne un límite en el número de etapas que cada componente puede atravesar, antes
de que la calidad se deteriore tanto, que resulte inservible.
Tres son los tipos de distorsion que pueden empeorar la calidad de la señal ana­
logica: distorsiones lineales, distorsiones no lineales y ruido. A éstas habría que
añadir las inestabilidades de tiempo. En ambos casos una buena práctica técnica
puede disminuir los efectos negativos sobre la señal de vídeo, pero nunca elimi­
narlos completamente.
Por otro lado, la utilización de las componentes en el estudio, durante la pro­
duccion y posproducción, puede eliminar o disminuir algunos de los efectos inde­
seables de la distorsiones, asociados a la señal compuesta. El precio que hay que
pagar es una mayor complejidad y coste en los equipos, en comparacion con los
basados en la señal compuesta.
Trabajando en digital, los defectos introducidos en la cadena de produccion
pueden limitarse a los generados por los procesos de conversión AID y DIA,
suponiendo que la señal es procesada, grabada y distribuida en formato digital y
119
TreNOl..oGi.". AcrU.'l DE -¡ lL[V!S¡O:-:
que la codificación a señal compuesta analógica se realiza una sola vez, justo ~ntes
de atacar al emisor de UHE En un sistema digital bien diseñado las conversJOnes
A/D y D/A (que son las que pueden introducir distorsiones) pueden limitarse ~n
solo paso, es decir, convertir a digital, hacer todo el trabajo en digital y convertir,
finalmente, a analógico.
La alternativa a la digitalización de las componentes es la "señal digital com­
puesta", que se verá más adelante en el próximo capitulo. Esta alternativa pudo
resultar atractiva en otro tiempo, como sistema económico para evolucionar hacia
las componentes digitales. Actualmente el eqUipamiento en componentes digitales
es cada vez más completo y asequible. Además hay una tendencia hacia la distribu­
ción e incluso la emisión en componentes digitales, ya sea con o sin compresión.
2. La norma 4:2:2
A principios de los SO la UER (Unión Europea de Radiodifusión) y la SMPTE
(su equivalente americano) se unieron para redactar una norma de televisión digi.
tal común para todo el mundo, en un esfuerzo de unificación sin precedentes. El
resultado fue una norma digital por componentes, conocida como 4:2:2, a partir
de la cual se derivan otras normas de la misma familia, tal como se verá más ade­
lante en este mismo capítulo.
La norma 4:2:2 fue sometida a la aprobación del CCIR (Comité Consultivo
Internacional para la Radiodifusión) y publicada por este organismo en 1982 con
el título: Recomendación 601: Parámetros de codificación de televisión diBital para estudios.
Por esta razón la norma 4:2:2 se conoce también como "Rec 601" o "CCIR-601".
En 1993 se disolvió el CCIR y sus funciones fueron asumidas por otro organismo
ya existente: la "ITU- R", de manera que también es posible encontrar esta norma
bajo el epígrafe "ITU-R 601" (sobre todo en las publicaciones más recientes).
También suele emplearse la abreviatura DI, aunque esto es un tanto incorr~cto,ya
que DI corresponde a un formato de magnetoscopio digital.
En el documento inicial se recomendaba una resolución de 8 bits por mues:
tra, aunque en la actualidad la tendencia es a utilizar 10 bits/muestra de forma
casi universal. Puesto que todavía hay (y se sigue fabricando) mucho equipa­
miento que utiliza S bits/muestra, en este libro se mostrarán ambos casos.
2. 1. Elección de la frecuencia de muestreo
El primer parámetro que tuvo que decidir el comité conjunto SMPTE/EBU (y
tal vez el que más trabajo le dio) es la frecuencia de muestreo de las componentes
Y,R-Y,B-Y.
2.1.1. Frecuencia de muestreo de la luminancia
Para la selección de la frecuencia de muestreo de la luminancia en la señal por
componentes hay que respetar tres principios o criterios:
La n~)rm;:¡_.:Ll~.(
*"1' RESPETAR EL CRITERIO DE NYQUIST
pIXEL
*"2' MUESTREO ORTOGONAL
l' e~: __J .' ._! .
1- -- .~:~ ~ ~ ¡~- .
/ ...•
-J
<{
u '?-v¡:::: 0«-' .o::
UJ J:I =-~ ,- I ¡
"'<v~<:(> f--­
-' :.1 :..1.1 ~j U ,.
:·JLJ_~i-:,U [I.C:
i~ L. L :: l'.'1-'-
r
i I	 11 :. ,r 1, I f l' : - , ....1
_1 ~ l_ .__-" l. J '-------' ,-----' 1_ L_ _ ~
'el :".1 [1 :': [1 U II e; L' ...
HORIZONTAL
-*3' FRECUENCIA DE MUESTREO UNIVERSAL
Figura 5.1.

La frecuencia de muestreo elegida debe proporcionar una parrilla de muestras que se alineen

ortogonalmente, tanto en el espacio eomo en el tiempo, y esto para las dos normas basicas de

televisión: 525/60 y 625/50.

l.	 La frecuencia de muestreo dcbe ser, por lo menos, igual al doble del ancho
de banda de la señal a muestrear (critcrio dc Nyquist). Puesto que hay nor­
mas de televisión en que la luminancia alcanza los 6 MHz (L/SECAM y
](/SECAM), se necesita que la frecuencia de muestreo sea al mcnos de12
MHz.
2.	 Para facilitar el procesado en generadores de efectos, conversores de nor­
mas, etc., es conveniente que las muestras se alineen formando parrillas de
filas y columnas (muestreo ortogonal). Esto significa que la frecuencia de
muestreo debe ser un múltiplo entero de la frecuencia de línea. Dicho de
otra forma, la frecuencia de muestreo debe ser tal que una línea contenga un
número exacto de períodos de muestreo.
3.Par¡¡..Qbtener .una frecuencia de 1ll.~~§jTt;Q®.ivf:!:§¡¡J.._~§l.il.d!:.bg.s.e.r.m.ú.ltiplv
detodas-las-frecucncias de línea exi¡;tente.LeILelUlJ.ln<:IQ. _En la actualidad
existen dos normas básicas: una con 525 líneas y 29,97 cuadros/s y otra con
625 líneas y 25 cuadros/s, lo que corresponde a frecuencias de línea de
15.734,26573 y 15.625 Hz, respectivamente.
NOTA: En el sistema americano de blanco y negro la frecuencia de línea era exactamente de 15.750 Hz (30 x 525).
Cuando se introdujo el sistema NTSC se hizo de forma que la frecuencia de la 5ubportadora de color fuera un múltiplo
impar de la mitad de la frecuencia de línea (455 X fL/2) y, además, que la portadora de sonido se situara en un múltiplo
de l. mit.d de l. frecuencia de lineas por encima de l. ,ubport.dor. de color f,onido '" fcolor + 117 fl/2 '" 4,5 MHz.
Debido a la segunda condicion, la frecuencia de lincas no pudo mantenerse y se retoco a 15.734,26573 Hz, garantizán
dose aSl la compatibilidad. La cifra anterior está expresada con un error inferior a 10-7
%.
Para poder generar una parrilla de píxel ortogonal, tanto en la norma america­
na como en la europea, hay que encontrar un múltiplo común de las dos frecuen­
cias de línea. E~ común múl!!.¡?J~ui~J.h711.L(ji?LLll,62.u-t3.s~
120 121
TECNOLOGJA AC1UAI. CH' THf"'SIÓN
1a norma 4:2:2
MHz, que está m~~!:._<!(óbai~_~el.l:!i~~rio de l'1Y~1.!is!:J:lmínimo común múlti­
¡;loque, ªdem.á~,.se_s.itúal?Qr.SD_cin:E!_d~J..LMHz-es 6.X2,2S.Mfu. :::::13,5 MHz.
.Esta es l<ÚI:ecu.mt;:iªdt:..~1!estreo adoptada para la sl'iiitldelmninanci.a,JiWto_con la
norma de 525 líneas como en la de 625 líneas.
-~ta frecuencia de r!1U~stre()._~<:-p-[Q.ducen858 muestraspodíne.ª-<;:QI!lple­
i .!~~~~a norma de 525 líneas y 864 mll~stra~P9r .línea c0:r:!pJ~t<i.en la norma de 625
líneas.Veasefigura5. 2.
[m.c.m. de 15.734,26573 y 15.625 Hz =2,25 MHz)
*6 x 2,25 MHz = 13,5 MHz
"*13,5 MHz = 6 x 143 fLINTSC) = 858 fL(NTSC)
"*13,5 MHz = 6 x 144 fl(PALJ = 864 fL(PAL)
'"""''''''''''" 11 L--429 MUESTRAS (~~-~··_--~------r864 MUESTRAS (625)
432 MUESTRAS (625)
[f3~5:6-:?5~5j....[§:iMPLIF-lcANooJ.... ••..,.
Figura S.2.
El mínimo común múltiplo de la frecuencia de líneas europea y de la americana es 2,25 MHz
y el m.c.m. que está, además, por encima del criterio de Nyquist es 13,5 MHz.
2.1.2. Frecuencia de muestreo de C )' C]{B
Igual que sucede con las señales analógicas, se acepta que las señales diferencia
de color tengan un ancho de banda limitado, por lo que se muestrean a la mitad
que la señal de luminancia, es decir, a 6,75 MHz. Con esta frecuencia de muestreo
se producen 429 muestras por línea total en la norma de 525 líneas y 432 mues­
tras por línea total en la norma de 625 líneas. Esta estructura de muestreo se repi­
te a cada campo y cuadro. Puesto que se produce el doble de muestras de lumi­
nancia que de cada una de las señales diferencia de color, las últimas se toman coin­
cidiendo con las muestras impares de la luminancia, o sea a la vez que la primera,
tercera, quinta, etc.
NOTA: Las frecuencias de mUestreo atadas están pensadas para pantaJJas 4:3. Con la introducción del formato 16:9
se ha propuesto que la frecuencia de muestreo se lleve en la misma proporción en que se incrementa la relación de aspec­
to. Esto conduce a I 3,5 MHz )( 1,3 J =lB MHz (Iuminancia) y 6.75 xl, 33 =9 MHz (crominanci.). 1,33 es la relación
que hay entre 16:9 y 4:4, es decir, 16:914:3 = 1,33.
122
@X@)X@)X@X@)X

@X@)X@X@X@X

@)X@)X@)X@)X@X

@)X@X@)X@X@X

x LUMINANCIA
@)X@)X@X@)X@)X O S-Y
@X@X@X@X@X O R-Y
Figura 5.3.
Disposición de las muestras de luminancia y diferencia de color, en la norma 4:2 2.
Aunque la abreviatura 4: 2: 2 hace referencia a las frecuencias de muestreo de Y,
CB y CR, también podría entenderse como "por cada 4 muestras de Y, 2 de CB y
2 de CR" (véase figura 5.3). Por tanto, esta norma se caracteriza por presentar el
doble de resolución horizontal de luminancia que de crominancia, mientras que la
resolución vertical es la misma en ambos casos (CB y CR están en todas las filas,
pero sólo en una de cada dos columnas).
2.2 . Señales codificadas
Como hemos visto, se trata de codificar las señales componentes, es decir,
la luminancia E'y y las dos señales diferencia de color (E'R-E'y) y (E'B-E'y). El
primer problema que hay que resolver es normalizar la amplitud de las com­
ponentes de vídeo analógicas antes de su digitalización. Puesto que las compo­
nentes analógicas de vídeo son un formato de producción y no de emisión,
están muy poco normalizadas, de forma que distintos equipos utilizan diferen­
tes normas. En Europa el formato más utilizado es el llamado EBU-l O, en ,el
~EJ:llminanc:~_~~_e.J{tie_nd~ <1e.0~OYp,:ra el negr<:¡h'!SJª Q,7V para el niv.el
de blanco. l,.'!§.!il':t:iªl~s.dift:!~n.:ciªele c:QIQr tienen ¡Pl1plitudes máximas ds: ±350
mV. Estos son los .Ei~!!.~s_~Iizad~~.0?0r.ejen:!l?JQ.Ll2-Q.r.JQL!P~n~~~-ºpi-ºs_
Betaca~~~f~!!J¡¡l1orm<l de 62 5 lín~as)'.s_º.C:':lllpos(~~~~.dig..![ª-H).
~~Il"l~~rg(),_'pa~a normalizar las amplitudes en televisión cligital se asume
que se -p.art~~lus.--primarjQ~RG.BJjj.adQs..IY. Así la señal E'Y v'lriará entre O
~§.'~=-~'Y_!~I1.slrá como valores extremos +0,70 L'LY-0,70 LV. para los
colores[Qjo y cián saturados al 100%, respec:tivamente. E'B-E'Y se elevará
para.el azul y el amarillo saturados al 100% a 1t-0,886V y -0,886V, respecti­
vamente. Para reducir estos valores extremos a 1V, es decir, a ±O,S V, se uti­
lizan unos coeficientes de ponderación sobre la señal analógica antes de la
codifica~LQn:
KR = 0,5/0,701 = 0,713; KB = 0,5/0,886 = 0,564
123
TECNOLOGIA ACTUAL DE TEL['JSJO~'N~'_~	 _
lOO_m'
S-y R-Y
3~0__r:nV
OV
-350 mV
Figura 5.4.
Niveles de amplitud de las señales analógicas por componentes, correspondientes a las barras
de color normalizadas del 100% de amplitud, según la norma EBU-! O, utilizada, por ejem­
plo, por el Betacam-SP (625/50).
De esta forma las señales diferencia de color se transforman en:
CR = 0,564 (B -Y); C. = 0,713 (R _Y)
Una vez atenuadas, ~Ypas.í).3Jlª[D~Y_~_~-,mielltr.a~S¡tl~_8_--=l-..2~derJOmina_
-eR. En alglOQs_!f:.~till.....de.origen.americ<Ul.Q_se_1Itilizala nomenclatura PB yPR,
~ ambas son_lotalrllente--equivalcntes,yaqueJos -coeficientes de ¡¡tenuaciQn
S~<l~tamente los mismos para ambas normas.
Como muestra la figura 5.5, sc obtienen 120 niveles de cuantificación para la
luminancia, dando al nivel de negros el valor 16 y al pico de blanco e! valor 235.
Se deja un pequeño margen de aproximadamente un 10% para eventuales sobre­
modulaciones. En las señales diferencia de color se utilizan 225 niveles, de mane­
ra que el valor analógico cero corresponde al valor digital 128. La máxima y mÍni-
DECIMAL HEXADECIMAL BINARIO
255 FF 11111111
23S -E8 8LANCO- 11101011 ~~~«
~~
~	
«~LUMINANCIA .y" ::>'"u::>
w~
0:,
g~
16 - 10 NEGRO - 0001 0000 ~n.
a a 00000000 Z
_255 FF 11111111 ",:$
MAxIMO - 11110000 '2 ~
C.~ 240-FO	 uw
~~ú
10,5643 x (B-Y) ~~<f
CERO - 1000 0000 ~ a~9,
r~'~~""'¡.;""~ 1[-,"-00
I f!J:3 o
-- 16-10 MINIMO - 0000 1000j ~~O O - - - - - 0000 0000 n.
Figura 5.5.
Niveles de cuantificación de las señales de luminancia y diferencia de color, en el caso de las
barras normalizadas, expresadas con 8 bits por muestra. Se muestran los valores en notación
decimal, hexadecimal (base 16) y en binario.
La n(Jnlla ..~L2_....2
ma modulación corresponden a los valores 240 y 16, respectivamente. También
aquí se deja un margen de tolerancia.
2.2.1. Convenciones sobre notación
Es frecuente encontrar distintos tipos de notación en la representación de los
valores de amplitud de las muestras: binaria, decimal y hexadecimal. Además los
valores pueden estar representados en forma entera o mediante decimales. En
las figuras 5.6, 5.7 Y5.8 pucde verse, que representando los valores de las pala­
bras de 10 bits mediante decimales, sc mantiene la compatibilidad con las pala­
bras de 8 bits, ya que en ambos casos el valor entero es el mismo para igual valor
de amplitud. En el caso de la representación hcxadccimal se empIcan dos sím­
bolos (de! O a la E) cuando se trata de mucstras dc 8 bits, ya que cada símbolo
hexadecimal puede representar cuatro bits. Cuando se trata de representar
hexadecimalmente muestras de 10 bits, se necesitan tres símbolos hexadecima­
les; el de más a la izquicrda sirve para representar dos bits más significativos
mientras los otros dos reprcsentan cuatro bits cada uno.
NOTA: En la especificación técnica las palabras digitalc~ se expresan rn hase 10Y en forma decimal (conelos decimales),
lo quc facilita su interpretación, con independencia de que las muestras est¿'n representadas con 8 o con 10 hits. En cualquier
caso, los 8 hits mas significativos se consideran la parte cntera, mientras que los dos bits adicionales (si están presentes) repre­
sentan la parte fraccional. Por ejemplo, la secuencia binari41 1111000 se expresa como 240, mientras que la scrucncvia
1111000001 se expresa corno 240,25. Cuando no se muestra parte fraccional, se asume que su valor binario es OO.
NIVELES DIGITALES
NIVEL
_y I __TQ~ERANCIA I O--­ DE NEGRO
-47.9-NIVEL MINIMO
'--i--+-R¡_NG.o1:l~51'RVMQ_B'Rt.§.INCRQ!'ijZAGlÓ!,iT -48,7 PERMITIDO
- - ­ oo­ --·51.1
)
lJ BITS
)
( Expresado de
(, forma entera
Figura 5.6.

Detalle de la relación entre la señal analÓgica de luminancia (Y), correspondiente a las barras de

color normalizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexade­

cimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits y 000, 001,002,003, 3FC, 3FD,

3FE Y3FFj en el caso de 10 bits, no están permitidos para la representación de las muestras_

124
125
Ti:-CN(}l OCiA AenlAl IH: TL:I.EVI"I{)N
NIVELES DIGITALES
NIVELES
ANALÓGICOS
(ENmV)
i~~'! ,- - Ri>.j¡llQB~@ji,,º,,-PARÁSI!:'CRDNliACíQN ~ :~:~.~ .
I . ' . • NIVEL MAXIMO
~~~,V --==---i6i:ffiANC¡;¡;- r C;~g:~ PERMITIDO
I NiVEL MÁXIMO
DE CROMA
S-y
128 80 128.00 512 200
0.0 ._.... NIVEL CERO
DE CROMA
,--'-'. NIVEL MINIMO
 DE CROMA
... _.lQLEAA'".N".C'"IA".-.--.-_.--_-._.-r-¡ :~~~t.NlVEL MINIMO
---~-_._--~._--~ ----~--- -3977 PERMITIDO
, vu 0001_ DI oQ011 ~(iQ.Rl'-.~~-llliIZA~ -400:0fu_".! ,
figura 5.7.
Detalle de la relación entre la señal analógica de CB' correspondiente a las barras de color nor­
malizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexadecimal.
Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 001,002,003, 3FC, 3FD, 3FE
Y 3FF; en el caso de 10 bits, no están permitidos para la representación de las muestras.
NIVELES DIGITALES
R-Y
128 80 128.00 512 200
0.0 _ NIVEL CERO
DE CROMA
, . NIVEL MINIMO
[-16Tl0' i600 '64l040 -. -----..u= DE CROMA'.350.0
l' 01 1;00 4 0041 -L-.--... -.-..--.--.-.IQC..ij¿W;!~-.----L396.9.N~~~M~6~o
¡o (001~.7~ ~ :3: [-!W!~()B~i'BVf,JlQJ>;W;StNcilQÑ~ _~ ~~~:~¡Oaci Hexa Decimal Hexa
l_.8_BIT~J_1QI3IJ~=
Figura 5.8.
Detalle de la relación entre la señal analógica de CR
, correspondiente a las barras de color nor­

malizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexadecimal.

Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 00,002,003, 3FC, 3FD, 3FE

Y3FF; en el caso de 10 bits, no están permitidos para la representación de las muestras.

2.3. La línea digital
La línea digital se inicia 12 períodos de reloj (16 en la norma americana)
antes que la linea ana16gica, es decir, antes que el instante OH. A continuacion
aparecen 132 (122 en la norma americana) períodos de muestreo, durante los
126
La norma 4:2:2
cuales no se toman muestras, ya que esta parte de la señal se puede reconstruir
electrónicamente. La línea activa digital se inicia un poco antes que la línea acti­
va analógica y dura exactamente 720 periodos de reloj de 13,5 MHz. Para faci­
litar el intercambio y la conversión, el número de muestras por línea activa en
la norma americana es también de 720. Puesto que el período de muestreo
tiene una duración de 0,074074 flS (1/13,5 MHz), la linea activa durara
0,074074 flS x 720 = 53,3 IJS. Este valor es un poco superior al de la señal ana­
lógica (52 flS en la norma 625/50), pero esto no supone ningún problema, ya
que en la reconstrucción DI A se borraran las muestras necesarias para devol­
ver a la línea analógica su valor nominal. Veanse figuras 5.9 y 5.10.
Tomando como referencia el punto OH, el muestreo de la linea activa digital se
inicia después de 0,074074 flS x 132 == 9,778 flS (0,074074 x 122 = 9,037 flS en
525/60). En la norma americana de 525 lineas y 60 campos hay también 720
muestras por línea activa, pero el numero de muestras no activas 858 -720 = 138
se divide en 122 antes de la linca activa y 16 detras de las muestras activas, de
manera que la diferencia en el número de muestras por línea total entre ambas nor­
mas queda confinada al periodo de borrado, lo que permite mantener la compati­
bilidad.
o
Hr--~~~~~-------1
~~",-- F -l
I
12,0 S
r-r'l
~J.20,9 fl
...-
PERíODOS

DE

MUESTREO

....-----"
7~Q+r!-:I32--1~---.~-720_.
0,9 fls 9,8 fls I 53,3 fls
-.-. ~_._--_.-.-- ..--. ­_._---_... _--- .._.---­
64
TIEMPO
LOS PERiODOS DE MUESTREO ESTÁN EN IJs
EXPRESADOS CON REFERENCIA
A UN RELOJ DE 13,5MHz
Figura 5.9.

Representación de la Enea digital para las normas de 625 Hneas y 50 campos. Los periodos de

muestreo están representados en función de un reloj de I 3,5 MHz, es decir, en base a la señal

de luminancia.

127
~J LC¡.,rOlOGIA .,",CTUAL DE rI:LE'J.J()N
OH 63,55 ¡.¡~~ _. __ _._~....-- - - ----~- ~- - ­
~.s ...~"""C~-~
I,
11: Ji
720,-----­
PER~~DOS ILJ I
MUESTREO I ! 1
--o :16 122--~~-----------
1,18~ti.-I~O~2--"~__~ 53,3 ¡As O,g:¡s_
.......... r 63,55 ¡AS
/ fe----··--­
TIEMPO
EN ~S LOS PERioDOS DE MUESTREO ESTÁN
EXPRESADOS CON REFERENCIA
A UN RELOJ DE 13,5 MHz
Figura 5. IO.
Representación de la linea digital para las normas de 525 líneas y 60 campos, Los períodos de
muestreo están representados en función de un reloj de 13,5 MHz, es decir, en base a la señal
de luminancia.
2.4. Los filtros
La señal de luminancia (Y) muestreada a 13,5 MHz es filtrada, tal como se
muestra en la figura 5.11. Como puede verse, hay muy poca separación 'entre la
frecuencia máxima de la luminancia en banda base (5,75 MHz) y la frecuencia de
Nyquist (6,75 MHz). Por esto se han especificado unos filtros antialisin8 y de
reconstrucción muy precisos.
Las señales diferencia de color se obtienen dividiendo la frecuencia de muestreo
de la luminancia por dos. En figura 5,11 se muestran los filtros correspondientes.
Por e! momento, la VER continua la investigación sobre el empeoramiento de
la calidad de la imagen, en función de la sobreoscilación y e! aliassin8, para dife­
rentes tipos de imagen y antes y después de! tratamiento.
Con carácter general se recomienda lo siguiente:
Ancho de banda para la luminancia
• Plano por lo menos hasta 5,5 MHz,
• A 6,75 MHz (Fsl2): -12 dB mínimo.
• A 8 MHz: --40 dB mínimo.
El filtro analógico, anterior a la conversión analógico a digital de la señal de
luminancia, exige una atenuación de más de 40 dB a la frecuencia de 8 MHz,
f
La nornJ.1 ,t:2:2
Tabla 5.1	 Parámetros más destacados de la Rec-601-Norma 4:2:2. Es importante resaltar
que el número de muestras por /(nea activa, tanto de luminancia como de ca y
CR, es el mismo para las dos normas de televisión, lo que facilita la conversión de
normas, ya que una "línea americana" 4:2:2 es igual que otra "europea" de la
misma norma
3. Estructura de muestreo
4. Frecuencia de muestreo
- Luminancia
- Cada señal diferencia de color
5. Codificación
6.	 Número de muestras activas
por línea digital
- Luminancia
- Cada señal diferencia de color
7. Correspondencia entre los niveles
de vídeo y de cuantificación
- Luminancia
-	 Cada señal diferencia de color
PARÁMETROS SISTEMA
525 LfNEAS/60 CAMPOS 625 LfNEAS/50 CAMPOS
1. Señales codificadas Y, (R-Y), (B-Y)
2. Número de muestras por
línea completa 858 864
- Luminancia
- Cada señal diferencia de color. 429 132
Ortogonal, idéntica para todos los campos y
cuadros. Las señales (R - Y) y (B - Y) se muestrean
a la vez que las muestras impares de la luminancia.
(primera, tercera, quinta, etc.)
13,5 MHz
6,75 MHz
Cuantificación lineal de 8 bits (opcional 10 bits), para
la luminancia y para cada señal diferencia de color
720
360
220 niveles de cuantificación. El nivel de
negro corresponde al número digital
16 y el nivel de blanco al número digital 235
225 niveles de cuantificación.
El nivel cero corresponde al número digital 128
DURACiÓN DE UNA LINEA DIGITAL
SISTEMA
525 LfNEAS/6D I 625 LINEAS/50
CAMPOS/MUESTRAS//ls CAMPOS/MUESTRAS//ls
Duración del intervalo entre el
origen de tiempo OH y el
principio de la línea activa
Duración de la línea activa
digital
Duración del rellano activo
Total
122/9,037
720/53,33
16/1,185
858/63,555
132/9,778
720/53,33
12/0,889
864/64
Ancho de banda de las señales diferencia de color
• Plano por lo menos hasta 2,75 MHz.
• A 3,375 MHz (Fsl2) -12 dB mínimo.
• A 4 MHz: --40 dB mínimo.
128
129
I
T¡':CNOlOGIA ACTUAL DE lH EVISIÓN
La norma 4:2:2
·12 dB·· - I •
! ~ , MH, ¡--'.. !'""~-. -40 da'.-- - _-=-:iJ=~ -:
:- - --- '67SMHz
S.S MHz '(fSl21 J I
V IU-~RETARDO~
I""~~ .IR-vl 1O.7~ÚJ ."']- ¡'"", t "-40 d l' . _ e __ 1 I
- - .1'- S MHz
2.75 MHz 3'~~sI2l
B-vl-u1O.5~43¡
"O
·::~-Jr
2,7~~~Z-)':3.~~~HZ
I
MUESTREO A 6,75 MHz. - ~rlMUESTREO A 13,5 MHz. - -- - ­
Figura 5. I J•
Diagrama de bloques del codificador 4:2:2, resaltando la respuesta de los filtros previos a la
digitalización.
El filtro analógico, anterior a la conversión analógico a digital de las señales dife­
rencia de color, exige una atenuación de más de 40 dB a la frecuencia de 4 Hz.
El ancho de banda de la luminancia y de las señales diferencia de color, tal como
vienen determinados por la frecuencia de muestreo y de los filtros paso-bajo, es
adecuado para la digitalización de un solo paso. Por el contrario, la digitalización
múltiple, como sucede cundo se conectan en cascada muchos conversores A/D­
DIA, genera importantes distorsiones lineales que alteran la amplitud en función
de la frecuencia.
2.5. Familia de normas
Haciendo un poco de historia, en 1979 la UER decidió investigar la codificación
de señales por componentes, eligiendo una frecuencia de muestreo para la lumi­
nancia de 12 MHz, mientras que las señales diferencia de color se muestreaban a 4
MHz, naciendo la notación 12:4:4. Posteriormente se aumentó la frecuencia de
muestreo de las señales diferencia de color a 6 MHz, para permitir mejores croma­
keys digitales. Esto conduce a una notación del tipo 12:6:6. Mientras tanto la
SMPTE propuso un sistema de codificación de las componentes del tipo 14:7:7.
Finalmente se llegó, como hemos visto, a una solución de compromiso con las fre­
cuencias de muestreo 13,5:6,75:6,75 MHz. Esta solución fue apoyada por la UER,
la SMPTE y la OIRT y se presentó al CCIR para su normalización. Puesto que
13,5 :6,75 :6,75 resulta muy largo, se escogió la expresión 4: 2:2 para simplificar.
2.5.1. La norma 4:4:4
La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul­
tiplicando o dividiendo las frecuencias de muestreo básicas. Así, por ejemplo, cuan­
do se desea hacer un croma-key digital, la resolución de la crominancia de la norma
4: 2: 2 resulta insuficiente, por lo que sería más conveniente utilizar una señal del
tipo 4:4:4. El efecto de eroma-key se basa en combinar una imagen de primer plano
tomada por cámara con otra imagen sintética o natural de fondo. El personaje de
primer plano se coloca sobre un fondo de color uniforme, denominado "de croma­
key". El incrustador sustituye, en la imagen de primer plano, las zonas del color de
croma-key (por ejemplo, azul saturado) por la parte correspondiente de la imagen
de fondo. Para esto el incrustador genera una "máscara" o perfil de recorte.
La clave para una buena incrustación está en la calidad de la máscara. Ésta
la genera el mezclador de vídeo (o un equipo como el Ultimatte) separando
todo lo que es azul saturado del resto. Cuanto más rica sea la información de
color, más precisa será la máscara. La norma 4:4:4 (figura 5.12) proporciona
el máximo de información de crominancia, ya que en esta norma todos los
píxe!es disponen de toda la información, es decir, cada píxel está representa­
do por tres valores digitales, uno para la luminancia "Y" otro para la señal dife­
rencia de color "R - Y" Yotro para la señal "B - Y", por lo que genera croma­
keys de calidad excelente. A partir de un código 4:4:4 se puede obtener una
señal de! tipo 4: 2: 2 mediante la eliminación de una de cada dos muestras de
4:4:4 (405 Mb/s) 4x4 (540 Mb/s)
@)([:jI)(@J@@@@@@l©)
®®®®®®®®®®
®®®®®®®®®®
@@@@@@@@@@
®®®®®®®®®® @@@@@@@@@@
®®®®®®®®®® @@@@@@@@@@
®®®®®®®®®® @@@@@@@@@@
®®®®®®®®®® II@@@@@@@@@@
4:2:2 (270 Mb/s)
®x®x®x®x®x
®x®x®x®x®x
®x®x®x®x®x
®x®x®x®x®x x LUMINANCIA
®x®x®x®x®x o S-yNOTA: LA FRECUENCIA
o R-YBINARIA SE HA CAlCULADO
EN BASE A '0 BITS ®x®x®x®x®x o TRANSPARENCIAPOR MUESTRA
Figura 5. 12.

Normas ''hacia arriba" derivadas de la 4:2:2.

130 131
TECNOL{)GIA ICTlI:L Ul r.E~L=E~·~IS~IO~·	 _~~'
las señales diferencia de color, aunque es necesario filtrar previamente dichas
seilales para evitar la aparición de a!iassing.
2.5.2. La norma 4 X 4
En los generadores de efectos y paletas gráficas puede ser necesario que cada
píxel esté representado mediante una palabra para Y, otra para R _ Y, otra B _ Y Y
una cuarta como valor de llave o de transparencia (valor K), de manera que se pue­
dan mezclar distintas imágenes, pero de forma que la imagen de fondo "se vea" a
través de la imagen de primer plano. Es frecuente ver este efecto en los marcado­
res de los programas deportivos.
Puesto que en este caso cada píxcl está definido por cuatro valores (Y, CB, CR y K),
esta norma se conoce como 4:4:4:4 o, abreviadamente, 4 x 4. El último valor es una
variable, que puede ir desde O(totalmente opaco) hasta 255 (totalmente transparente).
En ocasiones el valor de transparencia se conoce como "canal alfa".
2.5.3. Lasnormas2:1:0,4:1:1 y 4:2:0
Cuando se desea reducir el tren binario (como, por ejemplo, en aplicaciones
ENG o para la transmisión digital de señales) se puede recurrir a distintas estrate­
gias de submuestreo, tales como 2:1:1,4:1:1 ó 4:2:0/4:0:2 (figura 5.13). Esta
última consiste en submuestrear las señales diferencia de color, pero en la direc­
ción vertical, de forma que en una línea no se toman muestras de B - Y, mientras
4:1:1 (202,5 Mb/s) 2:1:1 (135 Mb/s)
@xxx@XXX@X II @ x @ x @
@XXX@xxx@x @ x @ x @
@xXX@XXX@X @ x @ x @
@xxx@xxx@x @ x @ x @ I
@xxx@XXX@X!I@ x @ x @
@xxx@xxx®xj® x x® @
I
4:2:0/4:0:2 (202,5 Mb/s)
~x~x~x~x~x
@x@x@x@x@x
~x~x~x~x~x
@x@x@x@x@x
x lUMINANCIA
~X~X~x~X~X
OB-Y
o R-Y@x@x@x@x@x o TRANSPARENCIA
Figura 5.13.
Familia de normas "hacia abajo" derivadas de la 4:2: 2.
_ J,-ª---.!LuXl! 1-.L1,;f_2
que en la línea siguiente se omiten las muestras correspondientes a R -- Y Todas
estas variantes de calidad inferior pueden obtenerse submuestreando una señal
4: 2: 2. El problema es que, cuando haya frecuencias de vídeo, por encima de la
mitad de la nueva frecuencia de muestreo, se producirá aliassing. La solución con­
siste en filtrar digitalmente la señal de vídeo antes del submuestreo. Igualmente es
posible la conversión hacia arriba. Por ejemplo, pasar de una señal 2: 1: 1 a otra
4: 2: 2, inventando nuevas muestTas por simple duplicación o por promediado, aun­
que en este caso la calidad dc la imagen sigue siendo la de la norma original.
2.6. Cálculo de las frecuencias binarias
Las figuras 5.11 Y5. I 2 muestran la disposición ele las muestras en las distintas
normas derivadas de la 4:2:2. Además en la parte alta de cada parrilla se muestra
la frecuencia binaria correspondiente a cada norma. Esta frecuencia binaria se
obtiene sumando la frecuencia de muestreo de la luminancia y de las dos señales
diferencia de color y multiplicando el resultado por el número de bits quc se uti­
liza en la codificación de cada muestra. ASÍ, por ejemplo, en el caso de la norma
4:2:2 tendríamos: 13,5 MHz + 6,75 MHz + 6,75 MHz =27 MHz x 10 bits =
270 Mbits/s. Éstas son las frecuencias binarias a las que necesitan comunicarse los
interfaces de tipo serie.
Otra cosa distinta es la cantidad de datos que es realmente necesario grabar °
procesar. En efecto, no es necesario grabar o procesar los períodos de borrado
horizontal y vertical, de manera que es posible ahorrar un buen número de bits.
En este caso el cálculo se haría como sigue:
Para la norma 4:2:2
•	 Una línea ocupa: 720 muestras de Y + 360 de CH + 360 de CR = 1.440
muestras.
Una imagen ocupa 1.440 muestras x 576 líneas =829.440 muestras
• Un segundo ocupa 829.440 muestras X 25 imágenes = 20.736.000 muestras.
• En la norma básica una muestra se codifica con un byte (8 bits), por tanto:
•	 Un segundo ocupa 20.736.000 x 8 bits = 165.888.000 bits, o aproximada­
mente 166 Mbits/s.
• En la actualidad la tendencia es a utilizar 10 bits por muestra, lo que mejora
las capacidades de posproducción. En este caso tendríamos:
• Un segundo ocupa 20.736.000 x 10 bits = 207.360.000 bits, o aprox. 208
Mbits/s.
Para las normas 4:1:1y 4:2:0
• En 4: 1:1 una línea ocupa 720 muestras de Y + 180 de CB + 180 de CR =
1.080 muestras.
• Una imagen ocupa 1.080 muestras X 576 líneas =622.080 muestras.
•	 Un segundo ocupa 622.080 muestras x 25 imágenes = 15.552 .000 muestras.
• Representando cada muestra con 8 bits:
•	 Un segundo ocupa 15.552.000 x 8 bits = 124.416.000 bits, o aproximada­
mente 125 Mbits/s.
133
132
Tl.CNOLOGIA In"UAI DF Ti;U::VISIÓN
• 4: 1: 1 ahorra un 30% de bits con respecto a 4:2:2.
• En 4: 2:0 la cantidad total de datos es la misma que en 4: 1: 1 (125 Mbits/s),
pero las muestras se distribuyen de otra forma.
Puesto cjue estas normas tratan de "ahorrar" bits, no es normal utilizar 10 bits
en la codificación de las muestras.
Para la norma 4:4:4
• Una línea =720 (Y) + 720 (CB) + 720 (CR) =2.160 muestras/línea.
• X 576 líneas = 1.244.160 muestras/imagen.
• X 25 imag/s = 31.104.000 muestras.
• X 8 bits/muestra =250 Mbits/s.
• O bien, X 10 bits/muestra = 311 Mbits/s.
Para la norma 4 x 4
• Una línea =720 (Y) + 720 (CB) + 720 (CR) + 720 (K) =2.880 mues­
tras/línea.
• X 576 =1.658.880 muestraslimagen.
• X 25 imágenes/s =41.472.000 muestras/seg.
• X 8 bits/muestra = 331.776.000 bits/s o aprox. 332 Mbits/s (el doble que
la 4:2:2).
• O bien, X 10 bits/muestra =415 Mbits/s.
2.7. Aplicaciones de las distintas normas
4: 2: 2 es la norma básica de producción profesional y es la que emplean la mayo­
ría de los equipos que trabajan con componentes digitales, tales como magnetos­
copios, mezcladores o generadores de efectos. Se puede decir que el mundo pro­
fesional no acepta ninguna norma por debajo deI4:2:2, excepto en el caso de algu­
nos magnetoscopios utilizados principalmente en informativos.
Los formatos de vídeo que utilizan la norma 4:2:2 son:
SIN COMPRESIÓN
D-1 D-5
CON COMPRESiÓN
Betacam-Digital
DVCPRO-50
Betacam-SX
DIGITAL-S
MPEG-IMX
Cuando se desea obtener un factor de compresión elevado es mejor submuestrear
previamente alguna de las señales componentes. Por ejemplo, se obtienen mejores
resultados haciendo una compresión 5: 1 a partir de una señal de tipo 4: 2:0 que com­
primiendo 7: 1 a partir de una señal 4:2:2, y ello a pesar de que el resultado fmal es el
mismo (25 Mbits/s en este caso). A continuación se muestran los formatos de vídeo
que utilizan estructuras de muestreo 4: 1: 1 y 4:2:0:
FORMATO/NORMA
625-50 525/60
OV
4:2:0 4:1 :1DVCAM
4:2:0 4:1 :1OVCPRO-25
4:1 :1 4:1 :1
La norma 4-:2:2
Como puede verse en la tabla anterior, el DVCPRO-25 (un formato muy pen­
sado para informativos) utiliza una estructura de muestreo 4: 1: 1. En el caso de DV
y DVCAM la estructura de muestreo es 4: 1: 1 en América (525/60) y 4:2:0 en
Europa (625/50).
Hay que reconocer que la estructura 4:2:0 es, cuando menos, más elegante que
la 4: 1: 1 (están mejor igualadas las resoluciones horizontal y vertical de croma). Por
esto la 4: 2:0 es preferida cuando no se ha de convertir de digital a señal compues­
ta (PAL o NTSC) para su emisión.
Algunos sistemas que utilizan 4:2:0 como esquema básico de muestreo son:
DVD (Digital Versatil Disk), el sistema de compresión MPEG-2 y DVB (Digital Video
Bradeasting) .
Sería difícil, incluso para un experto, notar la diferencia entre una imagen
4:2 :2, otra 4: 1: 1 y otra 4:2:0; la calidad visual aparente es prácticamente la misma.
La diferencia está en la capacidad para ser posproducida: La norma 4:2:2 dispone
de croma en todas las líneas yde suficiente calidad de color como para hacer croma­
keys correctos, aunque no ideales. En 4: 1: 1 la resolución horizontal de croma no
permite hacer eroma-keJs aceptables.
La 4:2:0 no tiene crominancia en todas las líneas, lo que dificulta el procesado
en mezcladores, generadores de efectos, etc.
3. Interfaces para 4: 2:2
Una de las ventajas más importantes de la televisión digital es la perfección de la
multigeneración en la posproducción. Trabajando en digital se puede hacer cualquier
número de generaciones sin que se produzca degradación. Para que esto sea posible
es necesario normalizar la conexión digital-a-digital entre los equipos. De esto se
Tabla 5.2	 Documentos donde se recogen las principales normas sobre interfaces para
señales de vídeo digital.
VER
COMPONENTES 1983/1985
1) EBU paralfel interface for 625-line digital video signals - Techn 3246-E.
2) EBU serial interface for 625-line digital video signals - Techn 3247-E.
COMPONENTES 1991
1)	 EBU interfaces for 625-line digital video signals al the 4:2:2Ievel of CCIR Recomendation
601. Tech 3267-E.
2)	 EBU interfaces for 625-line digital video signals al the 4:4:4 level of CCIR Rec. 601. Tech
3268-E.
SMPTE
COMPONENTES
Component Video SignaI4:2:2. Bit para/lel Digital Interface SMPTE-125M.
Component Video Signal 4:2:2. Bit serial Digital Interface SMPTE-259M.
COMPUESTO
1)	 NTSC Composite Video Signals. Bit para/lel Digital Interface SMPTE-244M.
134
135
TECNOlO<.;IA ACTUAL D( TELEVI.sIÚ~
encargan los interfaces de comunicación digital. Teniendo en cuenta que se puede tra­
bajar con sei'íales compuestas o por componentes y que la conexión puede ser del tipo
serie o paralelo, aparecen, en principio, cuatro tipos de posibles interfaces. A conti­
nuación se muestran las principales normas relacionadas con los interfaces para seña­
les digitales de televisión.
Ventajas), desventajas de la conexión digital serie
La mayoría de las maquinas trabajan internamente en formato paralelo, lo cual
parece un buen argumento a favor ele! interfaz paralelo. Sin embargo, cuando las dis­
tancias son largas este tipo de interfaz presenta dos desventajas importantes:
• l.	 El cable multicore es caro y los conectores demasiado grandes.
• 2.	 Es clifícil lograr un buen apantallamiento de un cable multicore sin que se
torne demasiado rígido y, ademas, existen problemas electrónicos aso­
ciados con cste tipo de cables. Por ejemplo, la velocidad de propagación
dc los pulsos en el interior de cada cable debe ser exactamente la misma.
Tambien se pucde producir intermodulación entre los conductores.
La solución a estos problemas es la conexión serie, en la cual todos los bits que
reprcsentan las muestras de vídeo son colocados uno detras de otro formando una
señal eIectrica que debe ser, ademas, autosincronizable. Aunque la frecuencia de bits
del interfaz serie es muy alta (mas de 200 Mb/s), es posible transmitir la información
digital serie por un cable coaxial como los que se emplean para la señal analógica.
Aunque el ahorro en e! cable es obvio, la complejidad de la electrónica asociada es
muy superior, ya que se nccesitan registros de desplazamiento y multiplexores de alta
velocidad, tanto en el equipo emisor como en el receptor. Sin embargo, en la actuali­
dad existen conjuntos de chips especializados en la serialización-deserialización de
señales digitales de video, por lo que en la mayoría de las situaciones tiende a utilizar­
se el interfaz serie.
Una desventaja potencial de! interfaz serie es que los tiempos adjudicados a cada bit
de vídeo, identificación, etc. deben ser claramente definidos y, una vez normalizados,
resulta muy dificil incrementar el número de bits por muestra o cualquier otra caracte­
rística. En el caso de! interfaz paralelo, esto puede lograrse manteniendo el protocolo de
comunicación y aumentando e! número de hilos del cable multicore.
3.1. El interfaz paralelo para señal 4:2:2
El interfaz paralelo utiliza los mismos conectores, patillaje y niveles e1ectricos
para la norma americana y para la norma europea y tanto para señales compuestas
como para señales por componentes (la señal digital compuesta se vera en el pró­
ximo capítulo).
El interfaz paralelo de la UER para señales por componentes digitales se corres­
ponde con otra norma del SMPTE (ANSI/SMPTE 125M-1992). La UER especifi­
ca además dos hilos para la transmisión de los datos auxiliares. Este interfaz esta
previsto para conectar sólo dos equipos, puesto que no presenta estructura de bus.
Los datos transmitidos por el interfaz corresponden a:
• Las señales de vídeo (Y, R - Y, B - Y).
• Las señales de referencia temporal.
• Los datos auxiliares.
• Las señales dc identificación.
Estas señales se multiplexan en el tiempo y se transmiten como señales NRZ.
Los valores 00 y FF (en hexadecimal) estan prohibidos para la representación de las
muestras, ya que se reservan como prdmbulos de sincronización.
Este interfaz emplea un conector de 25 pins, cuya asignación se muestra en la
figura 5.14. Si sólo se utilizan 8 bits, los dos menos significativos se ponen a cero.
Los 2 bits opcionales se denominan DATO-l y DATO-2 Yse refieren a la potencia
de dos que representan, es decir, 2 I Y 2-'. De esta forma se mantiene la compati­
bilidad entre la notaciónes de 8 y 10 bits.
FUNCiÓN PIN N° FUNCiÓNPIN N°
1
2
3
4
5
6
7
8
9
10
11
12
13
RELOJ +
TIERRA
DATO 7 (MSB)+
DATO 6+
DATO 5+
DATO 4+
DATO 3+
DATO 2+
DATO 1+
DATO 0+
DATO -1+
} SÚLOEN
DATO -2+ SISTEMAS
MALLA DE 10 BITS
14
15
16
17
18
19
20
21
22
23
24
25
RELOJ -
TIERRA
DATO 7 (MSB)­
DATO 6­
DATO 5­
DATO 4­
DATO 3­
DATO 2­
DATO 1­
DATO 0­
JSÚLOEN
DATO -1­ SISTEMAS
DATO -2 DE '0 BITS
Figura 5.14-.

Disposición de las patillas en el conector del interfaz paralelo.

3.1.1. Nive14:2:2
El interfaz 4: 2: 2 consiste en una conexión unidireccional entre dos equipos,
formado por 11 pares de hilos (10 de datos mas 1 de reloj).
Formato de los datos de vídeo
Los datos de vídeo son codificados de acuerdo con e! nivel 4: 2: 2 de la REC 60
del CCrR. Se trata, por tanto, de las señales de luminancia y diferencia de color,
previamente sometidas a corrección de gamma.
136
1
TFCNOLOGIA ACTUAL DE THE'ISJÓN
Durante los intervalos de borrado de línea y de campo se transmite el nivel de
negros y el nivel de modulación cero, es decir, alternativamente 80 HEX,
10 HEX, 80 HEX, 10 HEX, etc., o, en notación decimal, 128, 16, 128, 16.
El multiplexado
Los datos de video se multiplexan con una frecuencia de reloj de 27 MHz (13,5
+ 6,75 MHz + 6,75 MHz) en el orden siguiente:
CIlO
, Yo, CRO' Y" C." Y" CR" Y" C"" Y., CR.,Y, ...
Las tres primeras palabras (C..,Yo, CRO) corresponden a muestras cosituadas, es
decir, pertenecen al mismo pixel en la imagen. Luego viene una palabra del píxel
siguiente (Y,), del cual sólo se codifica la luminancia, luego otra tripleta cosituada
y asi hasta terminar la línea.
Es necesario adarar que en la definición de la norma se dice: "Puesto que se produ­
ce el doble de muestras de luminancia que de cada una de las señales diferencia de color,
las últimas se toman coincidiendo con las muestras impares de la luminancia, o sea a la
vez que la primera, tercera, quinta, etc." Por otro lado, en el caso del interfaz, tal como
ha sido normalizado por los organismos reguladores, el primer píxel recibe el número
"cero", de forma que son los píxeles numerados pares y no los impares, los que forman
tripletas. En cualquier caso, lo importante es entender que en el primer píxel de la línea
activa de la norma 4:2:2 se codifican la luminancia y las dos señales diferencia de color,
en el siguiente sólo la luminancia, luego los tres, etc.
3.1.2. Nivel 4:4:4y 4 X 4
En la norma 4:4:4 todos los pixeles tienen un valor para la luminancia, otro
para C. y otro para CR. En la norma 4:4:4:4 (ó 4 x 4), los pixeles tienen, además,
un valor de incrustación o transparencia "K".
--'-_. - - ~ - - ~ . ~
--==:...----=-==:.:.=---==---=:=====----=- I
--=~--=2-lll1--L
I r oXOxoxOxoxOxoxO
• ¡ 1 I¡ C'VC'VC'VC'VC'VC'VC'VC'lJ
¡:::@X®X@x@x@x J
@lx@lx(@Jx(@Jx(@Jx DO
01
® X® x ® x ® x @l x F:02---03
(@Jx(@Jx(@Jx(@x@lx D4
@l x (@J x ® x ® x (@J x
® x ® x iIQh X ili5lI X ili5lI X
lIeV lIeV I!'?!!
~g¿
07
0·1
T- 1/27 MHz
_ 37 ns
4:2:2 ~;LOJ~
Figura 5. 15.
Multiplexado de los datos de vídeo en el interfaz paralelo de la norma 4:2:2.
La norma 4:2:2
La conexión unidireccional en estos niveles comprende dos cables como los uti­
lizados en la norma 4: 2: 2, de manera que la mitad de los datos circulará por una
conexión paralelo estándar, mientras que la otra mitad lo hará por una conexión
paralelo extra. Opcionalmente se pueden transportar las señales primarias R, G, B,
en lugar de Y, CR , C•.
Los datos de vídeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
• Conexión A: C.o,Yo, CRO,Y" C""Y" C."Y" CR"Y., C""Y,...
• Conexión B: C,," Ko, C. K" C,," K" CRH K" C,," K., CR" K,...
"Como puede verse en la figura 5.16, la conexión B transporta la señal de trans­
parencia o llave "K", asi como las muestras correspondientes a las seí'iales diferen­
cia de color que faltan en la conexión A. Si se utiliza este interfaz para encaminar
seí'iales primarias RGB, la disposición de las muestras se obtiene cambiando G por
Y, R por CRy B por CR. Si el valor "K" no se emplea (como en el caso de una señal
4:4:4), este se pondrá a cero.
3.1.3. Disposición de las muestras en la línea digital 4:2:2
La figura 5.17 muestra la relación temporal entre las señales analógica y digital
en la norma de 625 líneas. La línea completa comprende 864 periodos (de 13,5
MHz), de los cuales 720 corresponden a la línea activa.
Puede verse que la línea digital empieza 24 periodos de reloj (con frecuencia de
27 MHz) antes que la referencia temporal analógica OH' A continuación aparecen
cuatro palabras que transportan la señal de referencia temporal (TRS) y después
un grupo de 280 palabras con datos de identificación y auxiliares, seguidas otra vez
por cuatro palabras de referencia temporal. Finalmente vienen los datos de video,
los cuales terminan, naturalmente, 24 periodos de reloj antes de O".
El hecho de que la línea digital se inicie 24 periodos de reloj antes que la línea
analógica implica que el campo digital comenzará tambien 24 palabras antes que el
campo analógico
NIVELES 4:4:4 Y 4 X 4
COMPONENTES Y. C,. C. PRIMARIOS R, G. B
N" DE NaDE
MUESTRA O 2 3 4 5 MUESTRA O 2 3 4 5
CONEXiÓN 8 CONEXiÓN 8
Figura 5.16.

Con dos interfaces paralelo 4: 2: 2 se obtiene un interfaz paralelo 4 x 4.

138
139
TrCN(JLOGIA AC rU.'1 [H TlLE'J.S1Ó¡,,¡
RELACiÓN ENTRE LA liNEA ANALÓGICA y LA DIGITAL
TIEMPO DE REFERENCIA

PARA EL ANAlISIS

DE UNA LINEA

.rOH
24 i
_L1r-¡E~NIIL()G_'.C_A
--- -~' 24
BYTES ... ~
PRIMER OCTETO JBYTES
SEÑAL DE ACTIVO -~
REFERENCIA SEÑAL DEjTEMPORAL REFERENCIA
264 BYTES t - lA4(j -BY!ErlJS~_---TEMPORAL
, .
;~i,
~ ¡..4BYTES .: 4 BYTES l""

INICIO DE i ! I {FIN DE LA

~1¿'ll~Et ~~?~~~?_DE _Lt~EA D.I~~A~ k __~~EA DI~~_ ~CTlVA __ D~~~:l
! -___ _L!NEA DIGITAL TOTAL.. .. _,"C ._. _ _ •
Figura 5.17.
Relación temporal entre la línea analógica y la digital en la norma 4:2:2.
3.1 A. El borrado de campo digital
Para evitar tener gue utilizar medias líneas, la supresión de campo digital empeza­
rá y terminará, respectivamente, al principio y al final de una supresión de línea digi­
tal. De esta forma el borrado del campo digi,tal 1 durará 24 líneas, mientras que el
borrado del campo digital 2 durará 25 líneas. Esta es la razón por la que el número de
líneas activas por imagen en la norma digital es de 576, en lugar de las 575 a gue'esta­
mas acostumbrados en el caso de la señal analógica.
El segundo campo analógico empieza a la mitad de la línea 313. A fin de evitar
también aquí el tratamíento de medias líneas, se hace comenzar el segundo campo
con el principio de la línea 313. Por esto el segundo campo comprende 313 líne­
as, mientras que el primero incluye 312. Esto no supone ningún problema, ya gue,
después de la conversión digital-analógico, la señal se transforma en una señal de
vídeo normalizada.
3.1.5. La riferencia temporal
La señal de referencia temporal en el interfaz digital hace el mismo trabajo que
los sincronismos en el caso de la señal analógica. Puesto que en el caso de las seña­
les digitales no se puede establecer la diferencia entre los datos de vídeo y los sin­
cronismos en función del nivel (sólo hay dos niveles y se corresponden con los
ceros y unos), tal diferenciación se hace prohibiendo ciertas secuencias binarias
La 119il1hl..1.,1_1
PRIMER CAMPO
• eo~AAOO DE.CAMPO_ANAL~~~O E:i~~E,A.S ~  B~O~~OO O~_ ~~~E!1__
f10RR.&.DQ
O[lINUo
OIGlT"l
.--- [, , 11 l
' i__ • .J __;,J. '_..J --'---I _ J .L1II J fljl'---v------' '---v------'
OAfOSOE
V!g:6~~~"l L.."RI~EACAMI'OOlGITAl vlOEOOtGlTAl
-_._------ _.­------~------
F 11 11 11 00 00 00 00 00 00 DO 00 00 00 00 00 00 OQ 00 00
V 00 11 11 11 11 11 H 11 11 11 11 11 11 11 11 " 11 00 00
ti _~o__----..!.o_ ~o _10 ~~__~o 10 '0 10 10. 10 10 l~ _10_ '_~ .. !~ __~?_ '_0_ .10
SEGUNDO CAMPO
~o~_~~ f?~ ~~po ~AL~~~~5 ~~EA? ~ ,B_~~? ~_l~N~_~
, 00 00 00 11 11
"v 00 11 11 " " " " " " 11" 11 " 11" " "H 10 10__'_o_!'!."___!!I"____lO"__J.~"___"~º_.__lO" "10 10". ,'0 10 '0" 10
.~1º
" ll?_"
Figura 5.18.

Relación temporal entre al borrado de campo analógico y el borrado de campo digital en la

norma 4:2:2, para la norma de 625 lineas y50 campos. Nótese la forma en cambiar la secuen­

cia de ceros y unos que representan los valores de F, V YH.

para la representación de las muestras activas, de forma que cuando tales secuen­
cias binarias aparezcan, el equipo sabrá gue se está iniciando una secuencia de sin­
cronización. En los interfaces digitales estas secuencias se conocen como Time
Riference SiBnals o TRS.
Existen dos señales de referencia temporal por cada línea digital. La pri­
mera se localiza al inicio de la línea digital y se denomina EAV (End eifActive
Video). La segunda se localiza al inicio de la parte activa de la línea digital y se
denomina SAV (Start eifActive Video). Ambas se encuentran, por tanto, en el
borrado de la línea digital y ambas están formadas por cuatro palabras, gue
podrán ser de ocho o diez bíts. El espacio comprendido entre EAV y SAV
puede usarse para datos auxiliares, tales como audio digital, datos de identifi­
cación de equipos o sistemas de comprobación de errores. Si se emplean 10
140
141
TECNOLoc;IA ACTuAL DE -, H[VISIÓN
1	 La norma 4:2:2
bits, los dos menos significativos no se tienen en cuenta. Las cuatro palabras
de referencia temporal tienen los valores hexadecimales siguientes: FF 00 00
XY, donde las tres primeras palabras forman un preámbulo fijo, mientras que
la última es una variable, en la que el primer bit es un" 1" fijo. A continuación
aparecen los bits "F", "V" Y"H", los cuales tienen el siguiente significado:
• F =O durante el primer campo.
• V = 1 durante el borrado de campo.
• H = 1 al inicio del borrado de línea.
Por tanto, trabajando con 8 bits la secuencia completa sería:
1111 11110000000000000000 IFVH P, P, P, Po
Los bits P, a Po son bits de protección de F, V YH, que, mediante un código de
Hamming, permiten la corrección de errores sencillos y la detección de errores
dobles. De todas formas, puesto que la información de F, V YH se repite cada cua­
dm, se puede proceder tambi<~na una detección/corrección de errores por mayoría.
o 1~-+--.
F DURANTE EL DURANTE EL
PRIMER CAMPO SEGUNDO CAMPO- - -
-------._-- ------------~-~-
IV DURANTE PERIODO DURANTE BORRADO
ACTIVO DE CAMPO DE CAMPO._. -_._--_._-._--
-_._----------
H AL FINAL DEL AL INICIO DEL
BORRADO DE LINEA BORRADO DE LINEA
TRs (EAV)VTRS (SAV)
4 PALABRAS" 4 PALABRAS
--~"" / - - ­
rr 280 Bms -o
~ f'------. ... ------------'
~ ~
FFOO OOn
/ ~ "
't 1 F V H P3 P2 P1
Po
'--v--J
BITS DE PARIDAD PARA
COMPROBACiÓN DE ERRORES
Figura 5.19.
Señales de referencia temporal en la norma 4:2:2.
3.1.6. Características eléctricas del inteifaz paralelo
EL EMISOR:
Impedancía.-La impedancia de salida es de 110 ohms.

El voltaje de continua en los bornes (DC offset) es de -1,29V ±15% medido

con respecto a tierra.
La amplitud de la señal debe estar entre 0,8 y 2V.p.p. medidos sobre una resis­

tencia de 110 ohms conectada a los terminales de salida, sin línea de transmisión.

El tiempo de subida y bajada, entre los puntos del 20% Yel 80% de amplitud,

no será mayor que 5 ns y no variará más de 2 ns.
EL RECEPTOR
Impedancia.-La impedancia de entrada es de 110 ohms.
Entrada máxima.-El receptor deberá interpretar los datos binarios correcta­
142
¡
I
mente cuando se conecte de forma directa a una salida cuyos voltajes extremos
correspondan a los del emisor.
Entrada mínima.-El receptor deberá interpretar correctamente datos que apa­
I rezcan aleatoriamente y que produzcan las condiciones representadas en el diagra­
ma de ojo de la figura 5.20.
M:E~~C'r~ ~~R'~~-~_:~:::~}NIVELALTO
ÁT~AAA	 t ,o: • -: ~ ",~'~~:"-', '." :...::~:~:~:
____~ }NIVEL BAJO
- -1.79V.
.RELOJ DE 0.8
MEDIDO
I
A2V
ENTRE POLOS
'­
ti.+­
': ..-u,1>n.
DATOS '	 DE08
MEDIDO	 A2 V
ENTRE POLOS IllOIDlI-j~-- L_T,J:t 11 os
DURACiÓN DEL FASE DE lOS
DIAGRAMA DE OJO

... _Tmin ~

1<
13
¡ S"
-2
I
.
¡.._oo¡
Tmln = 22 ns
Vmin = 100 mV
Td =Tmin/2 =11 ns
T= 11(1728 FI) = 37 ns IMPULSO DE RELOJ DATOS DE SALIDA

= 18,5 ns td = 18,5 ns ±3 ns

Figura 5.20.

Características eléctricas del interfaz paralelo para señales 4:2:2.

RELOJ
Retardo diferencial reloj-datos.-El receptor deberá interpretar correctamente los
datos cuando el retardo diferencial reloj-datos sea de ± 11 ns.
Anchura y ptter del reloj.-La anchura del pulso de reloj será de 18,5 ±3 ns. Las
variaciones de tiempo, de los flancos de elevación individuales, de los impulsos de
reloj, no superarán los ± 3 ns, promediando la medida sobre los flancos de eleva­
ción, de al menos un campo completo.
3.2. El interfaz serie para señales 4:2:2
Todos los parámetros del interfaz serie (las señales de vídeo, las señales de refe­
rencia temporal, los datos auxiliares y las señales de sincronización) coinciden con
los del interfaz paralelo. La única diferencia es la forma en que se transmiten los
datos y las características eléctricas. Este interfaz consiste en una conexión unidi­
reccional entre dos equipos, en la que las palabras de 10 bits (si se parte de palabras
de 8 bits los dos bits menos significativos se ponen acero), se transmiten formando
un único tren binario, por un cable coaxial de un sólo conductor. La velocidad bina­
ria del interfaz serie será: 27 Mpalabras/s x 10 bits = 270 Mbits/s. El bit de menor
peso de cada palabra es el que se transmite primero. Esto puede verse en la figura
5.21, donde MSB significa "Most Significant Bit" y LSB "Least Significant Bit".
143
j :~..-JIUl(~~IA AL" I U('-!:.J2LL.lli~
~ • T T
é0:0 ;O?ü ; ó--;?Q ; 0;;0
• • ,. • • .,. el! y el! y C'l y el! y e", y ~8 ~ C y CIl
@x@Jx@Jx@Jx@x' R
@x@x@Jx@x@Jx
@x@x@lx@x@x
@x@x@x@x@x
@x@x@x@x@x
@lX@lx@x@¡x@x
DATOS SERIF (NRZ
G' {x) :::: l + x' + 1 G2 (x) =x' + 1
6~
B~
33
~~
0'"
Figura 5.21.
Multiplexado y código de canal en el interfaz serie para señales 4:2:2.
3.2.1. El códi80 de canal
Para evitar largas secuencias de ccros o de unos, que presentadan problemas de
propagación por el cable coaxial, se aplica a la señal digital serie ID] barajado seudoa­
1eatOl'io, mediante e! registro de desplazamiento mostrado en la figura 5.22. Esta fun­
ción pucde entenderse como la SUma de una secuencia de bits aleatoria a los datos de
entrada. Si uno de los sumandos presenta Una pauta aleatoria (en realidad seudoalea­
toria, para que pueda ser reversible), también la suma presentará pautas aleatorias. La
función seudoaleatoria la produce el polinomio generador G1(x). A continuación el
polinomio G2(x) genera un código de canal NRZI (Non Retur to Zero lnverted), a efec­
tos de lograr que la interpretación de los datos no dependa del nivel de la señal, sino
de la presencia o ausencia de transiciones.
Los datos entran en formato paralelo en el registro de desplazamiento a una veloci­
dad de 27 Mpalabrasls y salen en serie a una cadencia de 270 Mbls. El circuito
aleatorizador suma los datos de entrada, con una secuencia aleatoria, pero predecible de
ceros y unos. La salida de! aleatorizador se hace pasar por un circuito, mediante el cual
los unos se convierten en transiciones)' los ceros en no transiciones. A la salida dcl cir­
cuito aleatorizador la señal serie presenta las siguientes caraeteristicas:
a)	 La componente continua es cero o muy cercana a cero, ya que la señal se
encuentra en estado alto aproximadamente el mismo número de veces que
en bajo.
NOTA: En l. primera definición del interfaz serie. cuando se trabajaba exciu.,;"amente con 8 bits, se especific6 un
c6digo de can.1 de conversión directa "8-9 bits". Con la ap.rición de los interf.ces para 10 bits en 1991 se .bandonó el
código de canal de conversión directa en favor del código de canal aleatorizador.
___________~ngLill.<L1:2: 4
b) No contiene bajas frecuencias, puesto que no hay largas cadenas de ceros ()
unos.
c) Es autosincronizable, ya que se asegura la presencia de flancos o transiciones
cada pocos períodos de bit.
d)	 Puesto que e! estado lógico de los bits se basa en la detección de flancos )'
no de nive!es, este interfaz es insensible a los cambios de polaridad, es decir,
la información leída es la misma, con independencia de que se cambie la
polaridad de los cables.
3.2.2. Características eléctricas del inte1az serie para señales 4:2:2
La salida del emisor es asimétrica)' con una impedancia de la fuente de 75
ohms. Ell'alor de cresta a cresta debe estar entre 400 y 700 m V El vahaje conti­
nuo a media amplitud de la señal digital dehe situarse entre +V Y--Y Los tiem
pos de sul)ida 'j ba)acla (entre ellO 'j el ~O% de amplitud) se situaran entre O,7S 'j
1,5 ns. La inestabilidad de los flancos será inferior a ±O,l ns.
Los conectores utilizados deberán ser de tipo ENe y serán capaces de tratar fre­
cuencias de hasta 500 MHz.
NO CONTIENE BAJAS
FRECUENCIAS Y ES
1 o AUTOSINCRONIZABlE
l
o o
o oo , 10000010110001111101 110001001000110100 l1000OOlOClQll10100o 1
o ,
11
o , U1fLJlf LJUUUl lflSlILJ1 o, , -.	 ~
NRZIREGISTRO DE NRZ
N~2(X)=X+1DESPLAZAMIENTO G1(X) =x+x+1
~ • DATOS DECONVfRS()l1 ALfAr()l1IZNJ011 CQNVfRSOII
NMLFUWCOPARALELO-SERIE SALIDA
SERIE A
270 Mbls
RELOJ A 270 MHz
¡/UJUUI ¡J
RELOJ A 27 MHz
Figura 5.22.

Ejemplo de conversion de palabras de vídeo en paralelo en datos de canal serie en la norma 4:2:2.

4. Datos auxiliares
Se definen como datos auxiliares todos aquellos que pueden ser ubicados en un
interfaz de vídeo y que no representan información de la imagen activa o de sin­
cronización-identificación de vídeo. El número de aplicaciones que se puede dar a
los datos auxiliares es ilimitado. Por el momento, se han definido y normalizado
cuatro aplicaciones: audio insertado en vídeo, SDTI (una ampliación de! SDl para
144
145
----
TErNOI (l<;JA ACTUAl DE Tel.EVISION
La norma 4:2:2
señales comprimidas), EDH (detección y tratamiento de errores) y código de Mbits/s, lo que supone un 21 % o, si se prefiere, una quinta parte del total de datos
tiempo. Otras aplicaciones se encuentran en estudio, como información de identi­ del SOl. Esto permitiría hasta i36 canales de audio digital insertado! o 18 pares
ficación de la fuente e información del tipo de plano. Todas estas aplicaciones se AES/EBU, aunque nadie utiliza tal capacidad.
basan en el aprovechamiento de parte del espacio dejado sin utilizar en los borra­
dos horizontal y vertical.
4.2. Formato de los datos auxiliares
BORRADO DATOS _~
DATOS
AUXILIARES
o ~ HORlznNTAl
.~ AUXILIARES ----)
~g{.-=
.1/
iiiiiii' ')
c'
"''''~ g~
C/)
l' VANC e
«
(b)
ViDEO
ACTIVO
VANC
ViDEO
ACTIVO
C/) (a)
ww C/) VfDEO oc f­:J
a.. Q?~ O ZACTIVO
a.. w<t: <t: ¡~ a. :J j. ...J ZoO « Ozox~Ü 'Z a..O:J ,
w ~:I:...J <t:<t:
« C/)C/) C/)
O

w 01­

'z :JO
Ü

C/) Z«
 ViDEO
o ACTIVO ,E ,
SAVPÓRTICO >..

ANTERIQ~/ ¡l-'..-óATOS- PÓRTICO
 EAV =FINAl VIDEO ACTIVO
TRS-ID,) ,AUXILIARES POSTERIOR SAV= INICIO ViDEO ACTIVO
VANC:¡: OATOS AUX. EN BORRADO VERT.
HANC =DATOS AUX. EN BORRADO HoRIZ.
Figura 5.23.
Capacidad para transportar datos auxiliares en las señales digitales compuesta y por compo­
nentes.
4. 1. Capacidad de almacenamiento
,
SEÑAL COMPUESTA.-En el caso de la señal compuesta (PAlo NTSC) los datos
auxiliares se ubican en los pulsos de sincronización horizontal y vertical. Nótese en
la figura (a) que no se utiliza todo el espacio dejado por los borrados, sino sólo los
sincronismos en sí mismos. En cada sincronismo de línea se pueden ubicar hasta 64
palabras (de 8 ó 10 bits). En cada impulso de sincronización vertical cabe un máxi­
mo de 932 palabras y en los impulsos de preigualación y postigualación hasta 46
palabras. Si se hace un cálculo de la capacidad total obtendremos unos 10 mega­
bits/s, en los cuales se debe incluir la información de identificación, numeración
de bloques y paridad para comprobación de errores. Estos 10 megabits/s permi­
ten incluir en el interfaz de vídeo hasta 4 canales de audio digital (2 pares
AES/EBU).
SEÑAL POR COMPONENTES.-En este caso los datos auxiliares (HANC) se ubi­
can entre las señales de referencia temporal EAV y SAV, ocupando la práctica tota­
los datos auxiliares se organizan en paquetes antes de ser insertados en el inter­
faz de vídeo. Cada bloque de datos puede contener hasta 255 palabras de usuario
(datos útiles para las aplicaciones), a las que acompañan cinco palabras (compues­
to) o siete palabras (componentes) de referencia.
En el interfaz compuesto sólo del sincronismo vertical tiene capacidad para 255
palabras. El sincronismo horizontal queda limitado a 55 palabras en total (NTSC)
o 64 (PAl) , aunque esto no es un problema, ya que el sistema es flexible y los
paquetes pueden tener cualquier longitud.
Cada paquete de datos se inicia con una bandera de datos auxiliares (AOF), cuyo
valor está prohibido para la representación de las muestras de vídeo. A continuación
aparece un identificador (DIO), que indica el tipo de datos que contiene el paquete
(audio digital, EOH, etc.). El número de bloque (OBN) es una palabra opcional, que
puede usarse para proporcionar un conteo secuencial a los paquetes, lo que permiti­
ría al receptor determinar si se ha perdido algún paquete. Por ejemplo, durante la
conmutación de dos fuentes de vídeo puede perderse algún paquete de los que van
incluidos en el intervalo vertical. En este caso el receptor procesaría los datos de audio
para evitar el "clic" audible que se produciría en este tipo de transición. la siguiente
palabra es el contador de datos, el cual indica el número de palabras que forman los
datos útiles. A continuación vienen los datos de usuario, que es la información útil para
BANDERA DE DATOS SUMA DE
IDENTIFICADOR (1 PALABRA) COMPROBACiÓN
N0 DE BLOQUE (1 PALABRA) (1 PALABRA)
j j 1 fUENTA DE DATOS (1 PALABRA) 1
ADF DID DBN DCN
DATOS DE USUARIO
(255 PALABRAS MÁXIMO)
CHS
lL{AUDIO DIGITAL: FFH

EDH: F4H

CÓDIGO DE TIEMPO: 60H

COMPUESTO (1 PALABRA) -3FC­
COMPONENTES (3 PALABRAS) -000 3FF 3FF­
lidad del borrado horizontal, como muestra la figura 5.23. También la mayor parte
Figura 5.24.
del borrado vertical es ocupado por los datos auxiliares, que en este caso se deno­
Los datos auxiliares se estructuran en paquetes, formados por una cabecera, una zona de carga
minan VANC. Así la capacidad total, sumando HANC yVANC, se eleva a unos 56
y una palabra de comprobación.
146
147
T[CNOLOGI: ACTUAL Dl nU:'ISJÓN
aplicaciones que puede colocarse en e! paquete y que permite un máximo de 255
palabras de 10 bits. La última palabra de! paquete es una palabra especial (Check Sum),
que se obtiene mediante una sun1a ponderada, definida por un polinomio, de los datos
del paquete y que permite la comprobadón de eventuales errores ele transmisión.
Resumen
o	 Trabajando en digital, los defectos introducidos en la cadena ele producción
pueden limitarse a los generados por los procesos de conversión A/D y D / A,
suponiendo que la señal es procesada, grabada y distribuida en formato digi­
tal y que la codificación a sei'íal compuesta analógica se realiza una sola vez,
justo antes de atacar al emisor de UHE
o	 La norma básica de producción digital en televisión se conoce como 4:2:2. La
frecuencia de muestreo de la luminancia en esta norma es de 13,5 MHz. Esta
frecuencia respeta e! criterio de Nyquist genera un numero entero de mues­
tras por línea (muestreo ortogonal) y es comun a las dos norma básicas de
televisión.
o	 Las señales diferencia de color se muestrean a la mitad que la señal de lumi­
nancia, es decir, a 6,75 Mhz cada una. También en este caso se produce un
muestreo ortogonal y común a las dos normas.
o	 Para reducir los valores extremos de las señales diferencia de color a ±0,5V
se aplican unos coeficientes de ponderación: KR =0,5/0,701 = 0,713;
KB =0,510,886 =0,564. Una vez atenuadas, B-Y pasa a llamarse CB, mien­
tras que R - Y se denomina CR.
o	 Los valores de amplitud de la señal de luminancia se codifican con 220 nive­
les comprendidos entre el 16 (para el negro) y e! 235 para el blanco. Para las
señales de crominancia se utilizan 225 niveles, entre el 16 Yel 240. Los valo­
res 00 y FF expresados en hexadecimal están prohibidos para la representa­
ción de las muestras.	 '
•	 Al igual que en analógico, la línea digital se divide en período activo y período
de borrado. El período activo está formado por 720 muestras, tanto en la
norma europea como en la americana. El numero de muestras del borrado de
línea cambia de una norma a otra.
o	 Los filtros antialiasing y de reconstrucción definidos en la norma garantizan
un ancho de banda plano de la señal de luminancia hasta 5,5 MHz. En el caso
de las señales diferencia de color esta cifra se reduce a la mitad.
o La frecuencia de muestreo y los filtros "paso-bajo" resultan adecuados para la
digitalización de un solo paso. Por el contrario, la digitalización múltiple,
como sucede cuando se conectan en cascada muchos conversores A/D-D/A,
genera importantes distorsiones lineales, que alteran la amplitud en función
de la frecuencia.
o La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul­
tiplicando o dividiendo las frecuencias de muestreo básicas: 4:4:4,
4 x 4, 2: 1: 1,4: 1: 1 y 4:2:0.
o La norma 4:4:4 se utiliza sobre todo en croma-keys digitales. La norma
LJ norl1la~LZ
4- X 4- tienr su aplicación en equipos que trabajan con valor de incrustación
(canal alfa). Las normas 4:1:1)' 4:2:0 se utilizan cuando se necesita ahorrar
bits, como, por ejemplo, en ciertos formatos de magnetoscopio digital utili­
zados en informativos.
o Trabajando en digital se puede hacer cualquier número de generaciones sin
que se produzca degradación. Para que esto sea posible es necesario normali­
zar la conexión digital-a-digital entre los equipos. De esto se encargan los
interfaces de comunicación digital.
o	 Teniendo en cuenta que se puede trabajar con señales compuestas o por com­
ponentes), que la conexión puede ser del tipo serie o pa¡'alelo, aparecen en
principio cuatro tipos de posibles interfaces.
o El interfaz paralelo utiliza los mismos conectores, patillaje y niveles eléctricos
para la norma americana)' para la norma europea y tanto para señales com­
puestas como para señales por componentes. Este interfaz emplea un conector
de 25 pins )' está preparado para trabajar con señales de 10 bits por muestra. Si
sólo se utilizan 8 bits, los dos menos significativos se ponen a cero.
o Las señales transmitidas por e! interfaz son:

Las señales de vídeo (Y, R - Y, H- Y).

Las señales de referencia temporal.

Los datos auxiliares.

Las señales de identificación.

o	 A la salida de! interfaz las señales se multiplexan siguiendo e! orden:
Cno,Yo, Cno,Y" C""Y" CR"Y" CM,Y.. CR..Y .
o En la norma 4:4:4 todos los píxe!es tienen un valor para la luminancia, otro
para CB y otro para CR. En la norma 4:4:4:4 (o 4 x 4), los píxcles tienen,
además, un valor de incrustación o transparencia "K". La conexión se logra
mediante dos cables como los utilizados en 4: 2: 2, que trabajan en paralelo.
Los datos de vídeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
Conexión A: Cuo,Yo, CRO,Y" Cn"Y" CR"Y" Cn.,Y., CR.,Y, .
Conexión B: Cn" Ko, CR" K" CRl, K" CR" K" C." K., CR" K, .
o El borrado del campo digital" 1" dura 24 líneas, mientras que el borrado del
campo digital "2" dura 25 líneas. Por esto el número de líneas activas de la
imagen digital es de 576 y no 575 como en el caso analógico
La sincronización de línea y campo se logra mediante la llamada TRS (Time
Riférence SiBnal). Esta, a su vez, se divide en EAV (End <fActive Video) y SAV
(Start rfActive Video). Estas palabras de sincronización van colocadas al inicio y
al final de! borrado de línea.
o	 EAV y SAV están formadas por cuatro palabras de 8 ó 10 bits cada una de
ellas. Las primeras tres palabras son un preámbulo fijo, mientras que la últi­
ma informa sobre si estarnos en el primer o segundo campos, si estamos en
una linea activa o en una de! borrado vertical y si nos encontramos al inicio o
al final del borrado de línea.
o	 Todos los parámetros de! interfaz serie (las señales de vídeo, las señales de
referencia temporal, los datos auxiliares y las señales de sincronización) cain­
148
149
TEcrWLOGIA ACTUAL DE TE' EI"S'ÓN
ciden con los del interfaz paralelo. La única diferencia es la forma en que se
transmiten los datos y las características eléctricas.
• Este interfaz consiste en una conexión unidireccional entre dos equipos, en la
que las palabras de 10 bits (si se parte de palabras de 8 bits los dos bits menos
significativos se ponen acero), se transmiten formando un único tren binario,
por un cable coaxial de un solo conductor.
• Para evitar largas secuencias de ceros o de unos, que presentarían problemas
de propagación por el cable coaxial del interfaz serie, se aplica a la señal digi­
tal un barajado seudoaleatorio. A continuación los "unos" se convierten en
transiciones y los "ceros" en no-transiciones.
1

I

CAPíTULO 6
La señal digital compuesta
1. Introducción
Con la aparición de los equipos de grabación digital de vídeo surgió en la
comunidad técnica una discusión acerca de los métodos de grabación por compo­
nentes y compuesto. Algunos pensaron que los dos métodos competirían entre sí,
con el resultado final de un virtual ganador. En cambio, otros creyeron que ambos
formatos podrían lograr un lugar en el mercado durante, al menos, una década, ya
que apuntaban hacia diferentes aplicaciones.
Antes de que el magnetoscopio digital fuera una realidad, la grabación digital
de vídeo había sido demostrada públicamente durante unos diez años. El enfoque
técnico durante ese tiempo se dirigió a conseguir una tecnología practica que
lograra los requerimientos operacionales necesarios. Se trabajó en paralelo en las
dos tecnologías, compuesta y por componentes, cada una de las cuales probó sus
ventajas para un segmento del mercado.
El primer magnetoscopio digital fue demostrado a mitad de los 70 por JoOO Baldwin,
de la Independent Broadcast Authority. A finales de los 70 y principios de los 80 se suce­
dieron demostraciones por parte de Ampex, Bosch, Itachi, la NHK y Sony. Una buena
parte del trabajo inicial se realizó grabando digitalmente señales de televisión compues­
ta. En la primavera de 1982 el Comité Consultivo Internacional para la Radiodifusión
aprobó la recomendación 601 como norma básica de transmisión digital por compo­
nentes. Grupos de trabajo del CCIR, el SMPTE Yla UER establecieron la norma para
el grabador digital por componentes (D1), basado en la recomendación 601 .
Reconocida la necesidad de grabadores digitales para ambos estandares, com­
puesto y por componentes, ya que van dirigidos a diferentes aplicaciones dentro de
la industria de la televisión, se presentó en la NAB de 1986 un reproductor de
spots comerciales digital por parte de la casa Ampex, el cual estaba basado en el
formato digital compuesto.
150
151
TlCNOlOGiA rCTU-l DE TELE,ISIÓN
Aunque las incursiones iniciales en televisión digital se realizaron en formato com­
puesto, los organismos reguladores normalizaron primero la señal digital por compo­
nentes, considerada como la auténtica solución de futuro. Sin embargo, muy pronto
se vio que los equipos basados en componentes digitales, en especial los magnetosco­
pios, resultaban muy caros, tanto en el coste de los equipos como en el consumo de
las cintas. Además en aquella epoca (mediados de los ochenta) la mayoría de los radio­
difusores y empresas de producción "trabajaban en entornos compuestos", de manera
que un magnetoscopio digital compuesto podía reemplazar directamente a otro ana­
logico sin dejar obsoleto el resto del sistema de edición, rnientTas aportaba la gran
ventaja de la grabacion digital: la mllltigeneración sin pérdidas.
Para satisfacer la demanda del mercado, en 1988 SONY y AMPEX lanzan el mag­
netoscopio digital compuesto D-2. En este caso son los fabricantes y no los organis­
mos reguladores los que inventan una norma deJacto que sera. posteriormente recogi­
da y publicada por dichos organismos. Nace así la norma digital compuesta.
2. Eleccion de la frecuencia de muestreo
Desgraciadamente no es posible definir una norma de tclevision digital com­
puesta que sea común a las dos normas básicas de televisión: NTSC y PAL.
Sencillamente las diferencias entre ellas son demasiado grandes como para inten­
tarlo. En el caso del SECAM, debido a la modulación en frecuencia de las señales
diferencia de color, las tareas de posproducción son prácticamente imposibles en
formato compuesto, por lo que los radiodifusores y empresas que utilizan este sis­
tema potenciaron desde sus inicios el trabajo en componentes, de manera que no
existe una norma digital para señales SECAM.
Así pues, tenemos dos normas de señal de vídeo digital compuesta:
• La norma 4f.. NTSC.
• La norma 4t PAL.
El término 4C significa que la señal compuesta analógica, ya sea PAL o 'NTSC,
se muestrea a cuatro veces la frecuencia de la subportadora de color. Veamos la
razón: para facilitar el posterior tratamiento de la señal digital compuesta (separa­
ción luminancialcrominancia, ajuste de niveles y retardos, etc.) resulta conve­
niente que la frecuencia de muestreo esté sincronizada con la frecuencia de la sub­
portadora de color. En particular estos procesos resultan más sencillos si la fre­
cuencia de muestreo es igual a cuatro veces la frecuencia de la subportadora de
color: fS =4C. Esto conduce a una frecuencia de muestreo de:
4 x 4,43MHz = 17,73 MHz en PAL y
4 x 3,58 MHz = 14,32 MHz en NTSC.
Como puede verse, no es posible lograr una frecuencia de muestreo universal
en este caso.
En la señal de video compuesta la relación SclH cambia línea a línea e incluso
campo a campo. Por esta razón es conveniente digitalizar esta relación, lo que sig­
nifica muestrear y cuantificar los borrados de línea. Sólo es posible obviar el mues­
treo durante el tiempo correspondiente al fondo del sincronismo horizontal. De
igual forma es necesario muestrear la mayor parte del borrado vertical.
La sciial JifitaG;~UD_-P~t.:st.í!
Como se ha dicho, la seilal compuesta se muestrea a una frecuencia equivalen­
te a cuatro veces la frecuencia de la subportadora ele color. Esto hace que en oca­
siones a las normas de television digital compuesta se las conozca como 4 fsc­
NTSC y 4 fsc-PAL. La figura 6. 1 muestra las ventajas de relacionar la frecuencia de
muestreo de la señal compuesta con la frecuencia de la subportadora de color.
íl~SENOIOE DE CROMA

ORIGINAL

-PAL

LS.6~
69-~SMU~~~~EOA4 fe
SUMA PONDERADA
DE A YB ¡(A'BY')
l56 n5 _---- 1";;",J.A:69 ns ""- 56 ns .69 ns
¡
I
¡ i i i iINSTANTES DE MUESTREO
RESTA PONDERADA
 SENOIDE DE CROMA DE A YB ¡(A-BY21
( DESFASE DESFASADA 160"(2T)

DE2T ... ­
i i ii ~1INSTANTES DE MUESTREO
Figura 6.1.

El muestreo a 4 veces la frecuencia de la subportadora de color facilita la separaci6n de la

lurninancia y la crominancia.

La separación digital de las señales de luminancia (Y) y crominancia (C) es muy
fkil cuando la frecuencia de muestreo es igual a cuatro veces la frecuencia de la
subportadora de color. En este caso basta con sumar o restar el tren de muestras
retardado dos períodos de muestreo. La suma de los dos trenes de muestras (que
se encuentran en contrafase) anularia la informaci6n de crominancia, dejando s610
la informaci6n de luminancia. La resta de las dos señales desfasadas eliminaría la
componente continua, es decir, la luminancia, quedando solo la informaci6n de
crominancia. Muestreando a cuatro veces la subportadora de color se produce un
cierto Ol'ersampling o sobremuestreo, lo que facilita la utilizaci6n de filtros de
reconstruccion de corte suave.
2.1. Muestras por línea
En NTSC, muestreando a cuatro veces la subportadora de color, se produce un
número exacto de muestras por línea, ya que esta norma presenta un desplaza­
miento de medio ciclo de subportadora por línea (fe = 227,5 O». Esto proporcio­
153
152
--
TECNOI OGfA ACTUAL DE TELEVISiÓN
na un total de 4 x 227,5 =910 muestras/línea completa. En esta norma la línea
digital activa acomoda 768 muestras, mientras que las 142 restantes se localizan en
el borrado horizontal.
En la norma PAL no es posible obtener un número entero de muestras por
línea, como consecuencia de la suma del desplazamiento vertical a la frecuencia de
subportadora. En efecto, en esta norma la frecuencia de subportadora es igual a
283,75 veces la frecuencia de línea, más N 12 (N es la frecuencia de campo =50
Hz). El último término "N12" (desplazamiento vertical) equivale a sumar 25 Hz,
es decir, un ciclo completo por imagen o, lo que es lo mismo, 180 grados por
campo. De esta forma se producen 4 x 283,75 =1.135 muestras/línea más 4 x
1ciclo/625 líneas =1.135,0064 muestras/línea. Sin embargo, resulta convenien­
te tratar la imagen como si cada línea comprendiera un número entero de mues­
tras (muestreo ortogonal), de manera que se hace como si cada línea estuviera for­
mada por 1.135 muestras/línea exactamente. Puesto que en realidad tenemos cua­
tro muestras más por imagen, lo que se hace es despreciar dos muestras en cada
borrado de campo.
Las muestras de vídeo deben señalar la fase de la subportadora de color. Por
esto se hace coincidir la fase de muestreo con la fase del burst (± 135 grados). Las
otras dos muestras se toman a ±45 grados. De esta forma se obtienen muestras a
45, 135, 215 Y305 grados. Si la fase de muestreo del burst es la correcta, se obtie­
nen los valores mostrados en la figura 6.2, abajo. Cualquier diferencia entre los
valores intermedios del burst y el nivel de borrado (64) se entenderá como un error
de la fase de muestreo. Dicho error generará una tensión capaz de reposicionar la
fase del convertidor analógico-digital.
+U
-v
FASES DE MUESTREO (PAL)
Figura 6.2.

Número de muestra por línea en la señal digital compuesta NTSC y PAL.

VALORES CUANDO EL
BURST SE MUESTREA
CORRECTAMENTE (8 BITS)
La señal digital compuesta
2.2. Fase de muestreo
En la norma americana (SMPTE 244M) el muestreo de la señal compuesta fue
definido con referencia a los vectores l y Q, en lugar de R-Y YB-Y, como suele ser
normal. La figura 6.3 muestra que cualquier vector de crominancia puede repre­
sentarse mediante los vectores 1y Q o R - Y YB - Y; basta con desplazar ligera­
mente la fase de muestreo. La intención original de la norma NTSC era asignar
diferentes anchos de banda a la señal "1" (1 ,3 MHz) ya la señal "Q" (0,5 MHz), lo
que permite una mejor resolucion en el eje rojo-cián, donde la agudeza visual cro­
mática es máxima.
EJE R·Y

.90" VECTOR DE

CROMINANCIA

EJE J
+1230 33­ EJE a" ~.--=----+' ...330
Figura 6.3.
~.. ,.
Diagrama polar mostrando la relación
entre los vectores de color 1 y Q por
FASE DEL EJE B·YO" un lado y R - Y YB - Y por otro./~ (REFERENCIA)BURST .180­
En la figura 6.4 pueden verse los instantes de muestreo de la señal compuesta
PAL. Estos instantes están sincronizados con la subportadora de color y se toman
coincidiendo con las fases 135, 225, 315 Y45°.
INSTANTES DE MUESTREO
-u+v -u-v u-v u+vI I I
-SUBPS::~REFERENCIA GENERADA
A PARTIR DEL BURST
0°
+1350 +225° +315° +45°
Figura 6.4.

Instantes de muestreo de la señal compuesta PAL.

l5S
154
TECNOLOGíA ACTUAL DE TELEVISiÓN
La figura 6.5 muestra que se puede pasar de un sistema basado en R - Y/B _ Ya
otro de tipo IIQ, cambiando simplemente los instantes de muestreo. En la norma
NTSC-4 f" es necesario que los instantes de muestreo coincidan con los picos de
amplitud positiva y negativa de las señales 1 y Q. La parte superior de la figura
muestra los instantes que resultarían adecuados si se trabajara con las señales dife­
rencia de color R - Y YB - Y, mientras que la parte inferior ilustra en qué momen­
tos es necesario muestrear la señal compuesta para sincronizarla con los ejes 1y Q.
R-Y ,', B-Y
BURST
../:'.. '. ,
/o' +900
+18Do
Q
.: ,
BURST	 ¡ '.
, .• •'.i ,'.
O' +900	
¡ +180°:

I
 I
i
~ j- Ii
I Q ,) -Q	 II Q -, -Q
+123° +213° +303° +330
+123° +213° +303° +330
+123°
INSTANTES DE MUESTREO
Figura 6.5.
Instantes de muestreo de la señal compuesta NTSC, en función de los ejes de crominancia I

y Q (ahajo).

Aunque se trate de una norma digital, sigue siendo una señal PAL, por lo que

es necesario conservar y codificar la secuencia PAL de 8 campos (4 campos en

NTSC). Para esto se define la fase de los impulsos de muestreo en función del

punto O" de la señal analógica (relación Sc/H). Este punto corresponde al punto

de mcdia amplitud de! flanco anterior del impulso de sincronización de línea.

En estc punto OH la fase de la subportadora de la señal PAL debe ser de cero grados
cuando se esté codific.ando el inicio de la linea uno del campo uno. En estas circunstan­
cias la fase de muestreo será tal que el punto O" quedará ubicado exactamente entre dos
instantes de muestreo, es decir, el punto O" quedará a igual distancia de los dos instantes
de muestreo de ambos lados (véase figura 6.6 izquierda). En el caso de la señal NTSC,
la relación SclH se define también en función del punto de media amplitud del impul­
so de sincroniz.ación horizontal, pero referido a la linea 10 del primer campo. Nótese,
en la figura 6.6 derecha, que el desplazamiento de 33° de los ejes 1y Qcon respecto a
la subportadora reconstruida a partir del burst provoca que los instantes de muestreo no
estén exactamente centrados con respecto al instante O".
La señal dig.!J.-ª.LcompUc;;lJ
OH	 OH
PAL	 NTSC
100% 100%
50% 50%
0% 0%
rn ~
01 O'l +-Numero de muestra .. '"~ ~ _Numero de mue!llra
.Q ·1 oQ -1 .Q -<-1 .Q .1
ril11iJl J_L_LLLllL33 Gr;~dos ....--~--
45 GradoS-rJ : 28.2 ns :.. .. 46,6 n!;.
23,3__os ~: ~~_ ,,_
,.: ~ 34.9 ns
28,2_D~.~ 1.."5"6A os
---'" I ..
IMPULSOS DE	 IMPULSOS DE
MUESTREO A	 MUESTREO A
4fsc. T= 56.4 os	 4fsc. T= 69,8 os
Figura 6.6.

La fase de muestreo dc la scñal compuesta se define cn función dcl punto de media amplitud

del flanco anterior del impulso de sincronización de línea. Aqui se muestran los instantes de

muestreo y los ticmpos correspondientes a la señal PAL (izquierda) y NTSC (derecha).

3. Rango de amplitudes
En la figura 6.7 puede verse la relación entre los niveles de la señal analógica
NTSC y los niveles digitales correspondientes en notación decimal y hexadecimal,
expresados con 10 bits por muestra. En este caso se trata de las barras de color del
100% de amplitud de croma. Más concretamente, esta señal de prueba se deno
mina "100/7,5/100/7,5", donde e! primer número describe el nivel de los colo­
res primarios durante la transmisión de la barra blanca. El segundo número se
refiere al nivel de los primarios durante la transmisión de la barra negra. El terce
ro identifica el nivel de los primarios durante la transmisión de la máxima modu­
lación de croma, mientras que el cuarto se refiere al nivel de los primarios duran­
te la transmisión de! nivel mínimo de crominancia. Por tanto, e! "7,5" indica la pre­
sencia del llamado "pedestal" o también set-up, típico de la señal NTSC.
En esta norma se ha definido la utilización de 10 bits por muestra, lo que propor­
ciona 1,024 niveles, numerados del Oal 1.023 en decimal, o del 000 al 3FF en hexa­
decimaL Al igual que sucede en la señal por componentes, los valores 000, 001,002,
003, 3FC, 3FD, 3FE Y3FF están prohibidos para la representación de las muestras, ya
que se reservan para propósitos de sincronización y referencia temporal. Esto pro­
porciona 1.016 niveles para la codificación de las muestras, que, expresados en deci­
mal, van desde el 4 hasta el 1.O19, Yen hexadecimal, desde el 004 hasta el 3FB. Al
fondo de sincronismos se le asigna el valor decimal 16, correspondiente al O10 hexa­
decimaL El nivel más alto de la señal, que corresponde al amarillo y al cián, se codifi­
ca con e! valor decimal 972 (3CC,,). Esta norma proporciona un pequeño margen de
tolerancia en los niveles bajos, desde el nivel decimal 4 hasta el 16 (004" a 010,,), Yen
los niveles altos, desde el 972 al 1.019 en decimal (3CC" A 3FB,,). La tolerancia total
156
157
-- -
Niveles Niveles
analógicos digitales TOLERANCIA
mV IRE Oscí Hexa
998,1 139,1 1023 3FF _o. -.-_
994,2 139,2 1020 3FC RE::¡¡;RVADO
992,9 139,0 1019 3F8. _
---- Max. nivel cuantificado
934,3 130,8 912 3CC IQb~~_i'J~IA _ ~ --1 001;1/1;1 de croma
714.3 100,0 800 320.
g
ro
ro
11«
"1"~ 'E
U ~
!53,b
o
1.5
o
282
240
llA
oFO
~
• Nivel de borrado
~ I·g. 13
a: 1l ~
"z
-285,7 -40,0 ,. 010 -__L-J. Fondo de sincronismo
-300,7 -'42,1 4 004 mL~RANGlA .__ . _
003 _
-306,1 --42,8 000 RES~RYADO::-'::======--- ----­
-302,3 -112,3
- - - - - ~
Figura 6.7.

Rango de amplitudes de la señal digital compuesta NTSC.

equivale a 1 dB Ypermite acomodar los errores de nivel que pudieran presentarse en
la señal de entrada. La relación sei'ial a ruido de cuantificación se reduce, como con­
secuencia, en la misma cantidad, es decir, en 1 dB.
Debe entenderse que lo anterior se refiere a la relación entre el nivel de pico
de la señal de entrada y el nivel RMS del ruido y que aquÍ como señal de entrada
se entiende toda la señal, desde el fondo de sincronismo hasta e! máximo nivel de
modulación de croma. De! conjunto de niveles permitidos, la señal de luminancia
(que es la más crítica) emplea poco más de la mitad, de forma que en el caso de la
señal compuesta es especialmente necesario la utilización de 10 bits por muestra.
En la figura 6.8 se muestra la relación entre los niveles de la señal analógica PAL
y los niveles digitales correspondientes en notación decimal yhexadecimal, expre­
sados con 10 bits por muestra. En este caso se trata de las barras de color del 100%
de amplitud de croma. Más concretamente, esta señal de prueba se denomina
"100/0/100/0". Puede verse que la señal PAL no dispone de pedestal y que, por
tanto, el nivel de negro coincide con el nivel de supresión o borrado.
En esta norma se ha definido la utilización de 10 bits por muestra, lo que pro­
porciona 1.024 niveles, numerados del Oal 1.023 en decimal o del 000 al 3FF en
hexadecimal. Al igual que sucede en la señal por componentes, los valores 000,
001, 002, 003, 3FC, 3FD, 3FE Y3FF están prohibidos para la representación de las
muestras, ya que se reservan para propósitos de sincronización y referencia tem­
poral. Esto proporciona 1.O16 niveles para la codificación de las muestras, que,
expresados en decimal, van desde el4 hasta e! 1.019, Y en hexadecimal, desde e!
La señal dieital compuesta
NIveles NNeles
analógicos digitales
mV Oaci Hexa
913,0 1023 3FF
909,2 1020 3FC RESERVADO .--.--------------­
:~~::---~~;_9-~TOLERAN9IANEGATlv~~·-~~~Oxl;l~~n~:e~~~:~líficado
1144 >4C700.0
~iii
1

"I~
11 ~13
240 OFO
Nivel da bárrado
"'12.
~ ~ 1:;
1l g,~
z
Figura 6.8.
Rango de amplitudes de la
señal digital compuesta PAL.
-300,0
-301 ;l
-3.04,8
Fondo de sincronismo
003 -­ _.-_...- - -----­
000 RESERII.'JJQ- - .
004
004 hasta el 3FB. Al fondo de sincronismos se le asigna el valor decimal 4, corres­
pondiente al 004 hexadecimal. A diferencia de lo que sucede en el caso de la señal
compuesta NTSC, en PAL no se deja tolerancia entre el fondo de sincronismos y
el mínimo nivel de cuantificacion permitido: son e! mismo valor.
El nivel más alto permitido a la señal analógica de entrada es de 903,3 mV,
correspondiente al valor digital 1.019 o 3FB". Esto está claramente por debajo de
la excursion máxima de los hemiciclos positivos de las señales amarillo y azul de
las barras lOO/O/lOO/O, que llegan hasta 933,5 mY. Sin embargo, lo anterior no
genera problemas, gracias a que los instantes de muestreo se han elegido de forma
que no coincidan con los momentos de máxima amplitud de las señales amarillas
INSTANTES DE MUESTREO
-U+V -U-V u-v U+V
+135or----,-~T-l+45°
¡ ¡ ¡
+2250 +315°
SUBPORTADORA DE

REFERENCIA GENERADA

A PARTIR DEL BURST

0°
---16I"-__ J,_ --O'934V Figura 6.9.._-~ '"
Los instantes de muestreo de la
. Barra
Nivel de barra amarilla del 100% de ampli­
1.0,886V' amarilla da1100% ­
luminancia
,; O.6-2V- tud, nunca alcanzan el máximo de
excursión de la señal analógica.
159
158
TlCNOlOGIA ACTU:L PE TEUV/SI6N
o cián. Por ejemplo, el valor más alto realmente muestreado de la señal amarilla es
de 0,886 mV, lo cual está claramente por debajo de los 903,3 mV permitidos. Lo
anterior puede verse en la figura 6.9. En PAL los valores de cuantificación están
mejor aprovechados para la señal útil que en NTSC.
4. Numeración de las muestras
Con una frecuencia de muestreo fl = 14,3181 MHz (nominalmente 14,32
MHz) y una frecuencia de exploración horizontal ~, = 15.734,25 Hz, e! número
de muestras por línea total en la norma digital compuesta NTSC es de:
f,NTSc/f, = 14,3181 MHz / 15.734,25 Hz =910 muestras/línea
La línea digital activa acomoda exactamente 768 muestras. Las 142 muestras
restantes forman el intervalo de borrado horizontal. En la figura 6.10 puede verse
la numeración de las muestras de la señal digital NTSC. El punto de media ampli­
tud, de! flanco anterior del sincronismo de línea analógica, debe caer entre los ins­
44.2 ns
_69.8 os
FLANCO ANTERIOR
DEL IMPULSO DE (b)
SINCRONIZAC¡ÚN
DE LINEA
NUMERO DE MUESTRA
(a)
LINEA 524 LINEA 525 I ( LINEA 1
( Hu'UiL1NEAACTIVA DIGITAL  l' ); BORRADO DIGITAL
DE LINEA
.... (O:.!6!L_17,6.a:9!l!Ji (142 MUESTRAS)
(0.909)' !
.LINEACOMPLETA'(63,55 ~;).,
(768 MUES7RAS) '" '.¡
Figura 6.10.
Numeración de las muestras de la línea digital compuesta NTSC.
tantes de muestreo 784 y 785. La primera de las 910 muestras corresponde a la
primera muestra de la línea activa, es decir, la numeración de las muestras comien­
za despues del borrado de línea. Esta muestra se numera "O". La última muestra,
numerada 909, se localiza al final del borrado de línea de la línea analógica siguien­
te. Esto es distinto a lo que sucede en el caso de la señal digital por componentes.
Las muestras °a 767, ambas inclusive, contienen la línea digital activa.
La figura 6.11 (a) muestra la numeración normalizada de las muestras a nivel de la
línea digital PAL. La figura 6.11 (b) muestra en detalle el flanco anterior del impulso de
La sUlal digital COI.!W-Q..Wi!
100%
FLANCO ANTERIOR 1 ~DEL IMPULSO DE 50% (b)
SINCRONIZACiÓN 1 I
DE LINEA IO%L- 4'
NUMERO DE MUESTRA 955 956 957 958 959 90Q
/
/
LINEA 624 I (a)  ( k I N E A l~NEA625

LINEA ACTIVA DIGITAL Sil .

(948 MUESTRAS) i i1

 I BORRADO DIGITAL
. .. • . DE LINEA
JQ.:J!47L ~(948.'134J. (187 MUESTRAS)
(O, 1.134) ,
LiN'EÁCOMPLETA(6¡~~)-'
Figura 6.11.

Numeración de las muestras de la línea digital compuesta PAL.

sincronización de línea, El número exacto de muestras se calcula dividiendo la frecuen­
cia de muestreo por el número de líneas que se producen en un segundo:
["'AJf, =17,734465 MHz / 15.625 Hz = 1.135,0064 muestras/línea
La fracción 0,0064 significa que en una línea se habrán producido 0,0064 mues­
tras extra y despues de un campo completo: 312,5 x 0,0064 = 2 muestras extra.
Dicho de otra forma, si se entiende que cada línea tiene exactamente 1.135 mues­
tras, entonces la última debería tener 1.137 (dos más) para compensar el pequeño
acarreo de 0,0064 muestras de cada línea.
Puesto que la numeración no puede pasar de 1.134 (el cero tambien cuenta), la
penúltima muestra de la última línea debería ser la número uno y la última la núme­
ro dos. Esto haría que la primera muestra de la línea siguiente fuera la número tres y
no la uno, como debe ser. El truco para mantener constante la numeración de las
muestras, a nivel de la referencia temporal de la línea digital, consiste en no numerar
las dos últimas muestras de la última línea de cada campo. Estas dos muestras no se
borran: permanecen en su sitio, pero no reciben numeración. La primera de las 1.135
muestras corresponde a la primera muestra de la línea activa, es decir, la numeración
de las muestras comienza despues del borrado de línea. Esta muestra se numera "O".
La última muestra, numerada 1.034, se localiza al final del borrado de linea de la línea
analógica siguiente. Esto es distinto a lo que sucede en el caso de la señal digital por
componentes. Las muestras °a 947, ambas inclusive, contienen la línea digital activa.
Si se multiplica el período de muestreo (1/17,734475 MHz =56,38 ns) por el
número de muestras de la linea activa digital se verá que la duración de la línea acti­
va digital es superior a la de la línea activa analógica (53,45 ¡.ts vs 52 ¡.ts), pero, al
igual que sucede con la señal compuesta, esto no supone ningún problema, ya que
durante la conversión digital-analógico se borran las muestras necesarias para
reconstruir la duración correcta de la línea analógica.
160 161
TfCNOl OCJA ACTUAl DE TEII-VISIÓN
5. Referencia temporal de identificación
La seilal digital compuesta incorpora información de sincronización (referencia
temporal) e identificación. Esta información aparece sólo después de cada flanco
anterior de cada impulso de sincronización de línea (a diferencia de la señal por
componentes, en que aparece dos veces por cada borrado de línea). La señal de
referencia temporal (TRS) está formada por cuatro palabras de 10 bits, con valo­
res hexadecimales: 3FF, 000, 000, 000. En la señal NTSC estas palabras se locali­
zan en las muestras 790, 791, 792 Y793 (véase figura 6.12). Después de las pala­
bras TRS se encuentra una palabra de 10 bits (muestra 794).
Tabla 6.1 Señalización de campo en el sistema NTSC mediante tres bits de la palabra
TRS. Las combinaciones decimales 4, 5, 6 Y 7 no se aplican en este caso, ya
que en la señal NTSC la secuencia de campos es de 4.
SEÑALIZACIÓN DE CAMPO EN NTSC
BIT 2 BIT 1 BIT O NÚMERO DE CAMPO
o O
O OO 1 1 1
O 1 O 2
O 1 3
1 0O O 4
1
1 11
1 O1 1
FIN DE LA LlNEAACTlVAANALÓGICA
IFIN DE LA LINEA ACTIVA DIGITAL
11
.......

¡

767-782
(OFOH )
-

(14EH) - - -..
0- 784 (OA4H
)
~~~----·--50%
~.'1
C--785 (044H
)
¡ '1 ',1 1 ¡I 1854
787 I I
(010,) ~I I 1850
TRS·ID I I ~ DATOS
;¡¡.rr79S-849 UXILlARES
~.'',_""''''',_ .,t'f:~;.";;,,,~ (55 palabras)
790 791 f92 793 794
909~
111 INICIO DE LA LINEA
~ DIGITAL ACTIVA
FIN DEL BORRADO
HORIZONTAL DIGITAL
El número entre paréntesis
corresponde al valor de la
muestra en notación hexade­
cimal y con 10 bits/muestra
r-"----.. .---"--.. ..---"----,. ~ ~ A~ ",
3FF 000 000 000 P P b7 b6 b5 b4 b3 b2 b1 bO
PATRÓN FIJO DE IDENTIFICACIÓN
REFERENCIA TEMPORAL (PALABRA VARIABLE)
Figura 6. J2.
Ubicación de la señal de referencia temporal en el sincronismo de línea, en la señal digital
compuesta NTSC e identificación de las muestras, en torno al borrado de línea.
La senal dil'ital comDucsta
Tabla 6.2 Señalización de linea en el sistema NTSC, mediante cinco bits de la palabra
TRS.
SEÑALIZACiÓN DE LINEA NTSC
BIT 7 BIT6 B"5 B"4 ffiT3 N.O DE LINEA
O O O O O No utilizado
O O O O 1 1 (264)
O O O 1 O 2 (265)
O O 0 1 1 3 (266)
O 1 29 (292)
1 O 30 (293)
1 1 2:31 (2:294)
En la señal PAL las palabras TRS se localizan en las muestras 967, 968, 969 Y
970 (véase figura 6.13). Después de las palabras TRS se encuentra una palabra de
ID bits (muestra 971 en PAL y 794 en NTSC) con datos de identificación, según
las tablas siguientes:
Tabla 6.3 Señalización de campo en el sistema PAL mediante tres bits de la palabra
TRS.
SEÑALIZACiÓN DE CAMPO EN PAL
BIT2 BIT 1 BIT O NÚMERO DE CAMPO
O O O 1
O O 1 2
O 1 O 3
O 1 1 4
1 O O 5
1 O 1 6
1 1 O 7
1 1 1 8
Tabla 6.4 Señalización de línea en el sistema PAL mediante cinco bits de la palabra
TRS.
SEÑALIZACiÓN DE LíNEA PAL
BIT 7 BIT6 BIT 5 BIT 4 BIT 3 N.O DE LINEA
O
O
O
O
O
O
O
O
O
O
O
0
O
O
1
1
O
1
O
1
No utilizado
1 (314)
2 (315)
3 (316)
O
1
1
1
O
1
29 (342)
30 (343)
2:31 (2:344)
162
163
1¿1 sóiill-!ii.gjt~lJ!J2-q9.!ª
Tl5-'NOI.OGiA "CTU!l DE TEU'I....10:-­
IN DE LA LINEA ACTIVAANALOGICA
FIN DE LA LINEA ACTIVA DIGITAL
1.1340 /
~ (HE")
. . ~:¿CIO DE LA LINEA
• ' . 957 (09B") '1:VDIGITALACTIVA
---- 50%
958 (069,,) eFIN DEL BORRADO
948-954
HORIZONTAL DIGITAL
(100") , :1.038
962 1.037 El numero entre paréntesis
(004") 967~ '1.036 corresponde al valor de la
muestra en notación hexade­TRS.:!,O l· DATOS
cimal y con 10 bilsimueslra
~",'w~lP",,::-. ~ palabras)
.Jt~f972-1.03S-AUXlllARES
,(.64-=~~~~~~,,"~1r. _U¡;;'~"".""",,_~
967 968 969 970 971
3FF 000000 000 j5 Pb7 b6 b5b~4-b3-b2-b1-b~O
PATRÓN FIJO DE IDENTIFICACiÓN

REFERENCIA TEMPORAL (PALABRA VARIABLE)

Figura 6.13.

Ubicaci6n de la señal de referencia temporal en el sincronismo de línea, en la señal digital

compuesta PAL e identificación de las muestras, en torno al borrado de línea.

El bit 8 forma paridad con los bits Oa 7. El bit 9 es el negado del 8. Los bits Oa 2 indi­
can la secuenda PAL de 8 campos, mientra~ que los bit~ 3 al 7 indican la cuenta de linea
en las proximidades del sincronismo vertical, es decir, de la línea 1 a la 30 (o entre la 314
y la 343, si se trata del segundo campo). Las lineas de numeradón superior a 30 (o 343)
tienen todas el mismo indicador en la señalizadón de linea. Puede verse que elTRS de la
señal compuesta contiene una palabra 000 extra con respecto a la palabraTRS para com­
ponentes. Esto puede usarse como "identificador de tipo" en un sistema de interfaces,
donde se combinen señales de diferentes normas.
6. El campo digital
El campo digital activo NTSC excede al campo analógico activo, ya que empie­
za antes y termina después. En los campos impares el intervalo de borrado verti­
cal digital se extiende desde la muestra 768 de la línea 525 hasta la muestra 767 de
la línea 9, ambas inclusive. En los campos pares el borrado abarca desde la mues­
tra 313 de la línea 263 hasta la muestra 767 de la linea 272. La figura 6.14 mues­
tra la relación entre los períodos activos de los campos analógico y digital de la
señal compuesta NTSC.
Al igual que sucede con los campos, también la duración de la linea digital acti­
va excede a la duración de la línea activa analógica, sobrepasándola, tanto en su ini­
cio como en su final. Por tanto, la línea activa digital incluye los bordes del borra­
do analógico de linea. Esto ayuda a enmascarar los posibles efectos de rizado y
Isobreimpulsos, generados por el limitado ancho de banda del filtro de reconstruc­
ión del convertidor DIA, como consecuencia de los rápidos cambios de nivel que
)
11•.,.l.~
!1'i.
~'
"'=~
, 18;~ado d.gilal
BonadoI 11 de campo
v ..::?~~a;~~~i1g~
21~Bt'¿~"
Campos de video
;*

aclfVOS (1 y 111)

-lmp;,tes­
~{ A,:,a.l~g¡co
Del mIC'O de la
Hnel!l 21 8 la mrlad
dI! la linea 263
019~tal
Del InicIO de la
Ifnea 10 ;lo la milad
de la linea 263
-"fi3()rrado digital
-.i--º.e campo
~ .. '" ." "'-. '"l-·!!
Campos de video
Ac1ivos (11 y IV)
-P.ue~~
Anal~gleo
De la mitad de la
linea 263 el final
de la lIf1ea 525
~cuadm
1(1"'f;,t,¡ dig~tal
,~,!" Del~:~~273
''11 actIvo
:~
.,'1-",
1.0~'1':
a la linea 525
(ambas inclusive)
~. DCU.d'~analógICO
525 __ . activo
Figura 6.14-.
Comparaci6n entre el cuadro anal6gico y el digital en la norma NTSC.
se producen en los límites entre el borrado y la zona activa. El borrado de línea
digital se extiende desde la muestra 768 hasta la muestra 909, ambas inclusive, de
todas las líneas fuera del intervalo de borrado vertical.
La norma NTSC especifica que la relación entre la fase de la subportadora y la
posición de! impulso de sincronización horizontal (SC/H) en el dominio digital
debe ser igual a cero. En analógico, la SC/H se define como una señal en la que e!
punto de referencia horizontal (O,,) es coincidente con el paso por cero de una
senoide, sincronizada con el bUTSt (una senoide continua que tenga la misma fase
que el burst). La relación entre la frecuencia de la subportadora NTSC y la fre­
cuencia de exploración horizontal provoca que la dirección del paso por cero alter­
ne entre hacia arriba y hacia abajo en campos sucesivos. El campo 1se define como
aquel en el que el primer paso por cero de la línea 10 tiene dirección hacia arriba.
Esta especificación tan detallada y precisa debe mantenerse, por ejemplo, en todas
las fuentes de señal asociadas a un sistema de edición, si se quiere que los insertos
de vídeo resulten correctos.
El campo digital activo PAL excede al campo analógico activo, ya que empieza
antes y termina después. En los campos impares el intervalo de borrado vertical
digital se extiende desde la muestra 382 de la línea 623 hasta la muestra 947 de la
línea 5, ambas inclusive. En los campos pares el borrado abarca desde la muestra
165
64
TITN()Uh;IA ACTUAl DI- n:II:'I'ilÚN
La scilal dIgital compuesta
948 de la línea 310 hasta la muestra 947 de la línea 317. La figura 6.15 muestra la
relación entre los períodos activos de los campos analógico y digital de la señal
compuesta PAL.
Al igual que sucede con los campos, también la duración de la línea digital activa
excede a la duración de la línea activa analógica, sobrepasándola, tanto en su inicio
como en su fina!. Por tanto, la línea activa digital incluye los bordes del borrado ana­
lógico de línea. Esto ayuda a enmascarar los posibles efectos de rizado y sobreimpul­
sos generados por el limitado ancho de banda del filtro de reconstrucción del conver­
tidor DIA, como consecuencia de los rápidos cambios de nivel que se producen en
los límites entre el borrado y la zona activa. El borrado de línea digital se extiende
desde la muestra 948 hasta la muestra 1.134, ambas inclusive, de todas las lineas fuera
del intervalo de borrado vertical.
Puede resultar extraña la forma trapezoidal del campo digital activo PAL (figu­
ra 6. 15). Esto es sólo una representación gráfica y es consecuencia de que la fase
de muestreo está sincronizada con la fase de la subportadora de color y que, por
otro lado, la frecuencia de muestreo no es un múltiplo exacto de la frecuencia de
líneas. Lo anterior supone que una línea digital contiene un cierto número de
muestras y un poco más. En concreto, una línea digital (total) PAL contiene
1.135,0064 muestras, de manera que el primer intervalo de muestro de la línea
23-_
Borrado 1 . . .	 FadOdigital
an8/ógico 5 - .	 de campo
[
decampo 2~aMI~'itj,t~.AAQana24----··
Campos de l/deo

actIVos (1 y Ul)

-Irnpares-

Analógico

De la mitad de la

linea 23, al final

de la linea 310

De?~~:~la6
a la linea 310
(ambas inciu$Jve)
310
T
311~
312_
-/f B~rr.8do
Borra~o 317 ~__""''';<~~	  I dlgllal
analógIco 31B-r.t:''¿:~$w;,¡ de campo
de campo1335~_~?._
336~
337
Ca~pos de video

actIvos (11 y IV)

-Pares-

Analógico

Del Inicio de 336

a la milad de la 623

Cuadro
De 1~:Pr::1 318 ..	 .. digital
él la linea 623 • iil.1iVO
(ambas ll'lcJuslve)
D
cuadro
analógico
activo
sn ~	 A
Figura 6.15.
Comparación entre el cuadro analógico y el digital en la norma PAL.
siguiente no es completo, produciéndose un pequeño desplazamiento. Al terminar
la imagen se habrá acumulado un desplazamiento total de 0,0064 x 625 =4 mues­
tras, lo que equivale a dos muestras por campo. Este desplazamiento es tan peque­
ño (1 12 nslcampo) que no tiene efectos reales sobre la imagen; sólo hace que el
muestreo de la señal compuesta PAL tenga que catalogarse como "no-ortoBonal". En
la figma 6.15 puede verse que, en cualquier caso, la falta de ortogonalidad queda
confinada a la tolerancia entre el campo digital y el analógico.
7. Características de los interfaces
En la señal digital compuesta, ya sea NTse o PAL, se utilizan los mismos inter­
faces de comunicación que en la señal digital por componentes. Existen, por tanto,
dos tipos de interfaces o sistemas de conexión para señal digital compuesta: para­
lelo y serie.
El interfaz paralelo consiste, igual que en componentes, en once pares de hilos
que conectan un dispositivo con otro. Diez pares transportan los datos correspon­
dientes a la señal de televisión o los datos asociados, mientras que el par once trans­
porta la señal de reloj sincrónica. Se dispone además de un par extra para la cone­
xión de la señal de tierra. Los datos se numeran desde DATO-O a DATO-9. DATO­
OYDATO-l son opcionales y pueden utilizarse para aumentar la resolución de las
muestras de vídeo, desde un mínimo de 8 bits hasta un máximo de 10 bits. La fre­
cuencia de transmisión de datos y, por tanto, la frecuencia de la señal de re!oj es de
4 x fse = 17,734475 MHz en PALy de 14,31818 MHz en NTSC. El interfaz para­
lelo resulta adecuado para conectar equipos separados unos 40 m entre sÍ.
También el interfaz serie para señales digitales compuestas es igual que en e! caso
de componentes. Si se utilizan cables coaxiales de calidad, el interfaz serie permite
distancias de conexión hasta 200 m. Los 10 bits generan una señal serie con una tasa
binaria de 177,34475 Mbits/sen el caso de la señal PAL yde 143,1818 Mbits/s en
el caso de la señal NTSC. El código de canal utilizado para la aleatorización, control
de bajas frecuencias y De es el mismo que el empleado en el interfaz para señales
por componentes digitales, es decir, el RNRZI, y utiliza los mismos polinomios
generadores: GI(x) = x' + x' + 1 y G,(x) = x + l.
Resumen
•	 La norma digital compuesta surge para satisfacer las necesidades de! merca­
do, que a mediados de los ochenta demandaba equipos más económicos y
directamente insertables en el entorno compuesto. Se trata de normas dise­
ñadas inicialmente por fabricantes y recogidas después por los organismos
reguladores.
• Para facilitar el	 posterior tratamiento de la señal digital compuesta (separa­
ción luminancia/crominancia, ajuste de niveles y retardos, etc.), resulta con­
veniente que la frecuencia de muestreo esté sincronizada con la frecuencia de
la subportadora de color.
166
167
TLC:~OLOGlt ACíU,L DE TEU::V!";¡Ú:--:
o En particular estos procesos resultan mas sencillos si la frecuencia de mues­
treo es igual a cuatro veces la frecuencia de la subportadora de color: f, = 4e.
Esto conduce a una frecuencia de muestreo de: 4 x 4,43MHz =17,73 MHz
en PAL y 4 x 3,58 MHz = 14,32 MHz en NTSC.
o En la señal de vídeo compuesta la relación SCA/H cambia línea a línea e inclu­
so campo a campo. Por esta razón es conveniente digitalizar esta relación, lo
que significa muestrear y cuantificar parte de los borrados de línea.
o	 En NTSC, muestreando a cuatro veces la subportadora de color, se produce
un número exacto de muestras por linea, ya que esta norma presenta un des­
plazamiento de medio ciclo de subportadora por línea (fc =227,5 fL). Esto
proporciona un total de 4 x 227,5 =910 muestl"as/linea completa. De éstas,
768 corresponden a la linea activa y 142 al borrado de linea.
o En PAL se producen 1.135,0064 muestras por linea, aunque se hace como si
hubieran exactamente 1.135 muestras/linea. De éstas, 948 corresponden a la
linea digital activa y 187 al borrado de linea. Puesto que en realidad tenemos
cuatro muestras mas por imagen, lo que se hace es despreciar dos muestras en
cada borrado de campo.
o	 Las muestras de vídeo deben señalar la fase de la subportadora de color. Por
esto se hace coincidir la fase de muestreo con la fase de! burst (± 135 grados).
Las otras dos muestras se toman a ±45 grados. De esta forma en PAL se
obtienen muestras a 45, 135, 215 Y 305 grados.
o En la norma americana el muestreo de la señal compuesta fue definido con
referencia a los vectores "1" y "Q", en lugar de R - Y YB - Y, como suele ser
normal. La intención original de la norma NTSC era asignar diferentes
anchos de banda a la señal "1" (1,3 MHz) ya la señal "Q" (0,5 MHz), lo que
permite una mejor resolución en el eje rojo-cian, donde la agudeza visual cro­
mática es máxima. Así las fases de muestreo en esta norma son: + 123, + 213,
+303 Y +33 grados.
o En la norma digital compuesta se define de forma precisa la relación SC/H.
En el caso de la señal PAL, en el punto 011 la fase de la subportadora debe ser
de cero grados, cuando se esté codificando e! inicio de la línea uno del campo
uno. En estas circunstancias la fase de muestreo sera tal que e! punto OH que­
dará ubicado exactamente entre dos instantes de muestreo, es decir, el punto
O" quedara a igual distancia de los dos instantes de muestreo de ambos lados.
• En el caso de la señal NTSC, la re!ación SC/H se define también en función
del punto de media amplitud de! impulso de sincronización horizontal, pero
referido a la linea 10 del primer campo. El desplazamiento de 33° de los ejes
I y Q con respecto a la subportadora reconstruida a partir del burst provoca
que los instantes de muestreo no estén exactamente centrados con respecto
al instante OH'
o	 En la norma NTSC se ha definido la utilización de 10 bits por muestra, lo que
proporciona 1.024 niveles, numerados del Oal 1.023 en decimal o de! 000 al
3FF en hexadecimal. Al igual que sucede en la señal por componentes, los
valores 000, 001, 002, 003, 3FC, 3FD, 3FE Y 3FF están prohibidos para la
representación de las muestras. Esto proporciona 1.016 niveles para la codi-
Ll sCJ'laLili..giWsJ.~IJU1lIf:'i~
ficación de las muestras. Al fondo de sincronismos se le asigna el "alor deci­
mal 16, correspondiente al O1Ohexadecimal.
o	 En PAL se aprovecha un poco mejor e! rango dinamico disponible. Por un lado, no
se deja tolerancia por abajo (el fondo de sincronismo se codifica con el valor deci­
mal 4, en Jugar del 16) y, por atTO lado, se utiliza el pl-incipio de "tolerancia nega­
tiva" en la cocJif¡cación de los valores mas altos de <'Tominancia.
o	 La señal digital compuesta incorpora información de sincronización (referen­
cia temporal) e identificación. Esta información aparece sólo después de cada
flanco anterior de cada impulso de sincronización de linea (a diferencia de la
señal por componentes, en que aparece dos veces por cada borrado de línea).
La señal de referencia temporal (TRS) esta formada por cuatro palabras de 10
bits, con valores hexadecimales: 3FF, 000, 000, 000. En la señal NTSC estas
palabras se localizan en las muestras 790, 791, 792 Y793 (en PAL, de la 967
a la 970). Después de la las palabras TRS se encuentra una palabra de 10 bits
(muestra 794 en NTSC y 971 en PAL) que es la que aporta la información de
identificación.
o	 Los bits de la palabra de identificación informan sobre la secuencia de color
(4 campos en NTSC y 8 campos en PAL) y el número de línea en torno al
borrado vertical (desde la línea 1 a la 31 y sus equivalentes en el segundo
campo).
El campo digital activo, tanto en NTSC como en PAL, excede al campo ana­
lógico activo, ya que el primero incluye mas líneas que el segundo y, ademas,
las líneas digitales son mas largas que las analógicas. Esto permite acomodar
los errores de codificación o artificios que pudieran producirse en las transi­
ciones entre los borrados y las zonas activas.
o	 En la señal digital compuesta, ya sea NTSC o PAL, se utilizan los mismos
interfaces de comunicación que en la señal digital pOI' componentes. Existen,
por tanto, dos tipos de interfaces o sistemas de conexión para señal digital
compuesta: paralelo y serie.
168
169
I
I
I

!
¡
CAPÍTULO 7
Compresión en vídeo
1. Introducción
La digitalización de las imágenes ofrece muchas y muy importantes ventajas,
algunas de ellas ya enumeradas en e! capítulo 4. El mayor éxito de! vídeo digital se
produjo en posproducción, donde e! alto coste de los equipos quedaba compensa­
do por la mayor calidad y la multigeneración ilimitada sin perdidas.
Por otro lado, una producción normal de TV genera unos 200 Mbits/s. Tal fre­
cuencia binaria requiere grandes capacidades de almacenamiento y enormes
anchos de banda para su transmisión. La utilización masiva del vídeo digital sólo
será un~ realidad si se reducen las necesidades de almacenamiento y de ancho de
banda. Este es justamente e! propósito de la compresión.
Casi todas las aplicaciones actuales emplean compresión. Formatos de magne­
toscopios como el Betacam Digital, DVCPRO, DVCAM, DIGITAL-S, Betacam SX
o MPEG-IMX, soportes multimedia como el DVD, sistemas de televisión digital,
como ATSC o DVB, etc., todos ellos utilizan la compresión de datos para propor­
cionar más y mejores servicios. Es, por tanto, necesario conocer los principios
básicos, las técnicas y los trucos que permiten, por ejemplo, reducir desde 200
Mbits/s a sólo 6 Mbits/s un tren binario sin que apenas sufra la calidad de la ima­
gen en movimiento.
Estudiar los procesos que permiten comprimir las imagenes y sonidos no sólo
es necesario, sino que, además, puede resultar, para cualquier persona inquieta, un
ejercicio interesante y hasta fascinante.
La compresión permite al usuario elegir la combinacion de parámetros de
muestreo y factores de compresión que mejor se adapten a sus necesidades. Esta
nueva filosofía de "norma a la carta" esta desplazando a los viejos y rígidos concep­
tos de "frecuencia de líneas", "frecuencia de campos" y "codificación del color PAL,
171
TlCNOLOGI..I ACTUAL D[ TU,,,J!c'-I'.c:""'I<¿j')N-'-' _
NTSC y SECAM", Distintos factores de compresión significan distintas frecuencias
binarias (el equivalente en digital al concepto de ancho de banda), lo que supone,
a su vez, distintos niveles de coste)' prestaciones en la grabaCión, en e! procesado
y en la transmisión.
Tal flexibilidad permite, por ejemplo, transmitir "ídeo digital por los cables de
cobre utilizados por las compaii.ías telefonicas, por cables coaxiales o de fibra opti­
ca, por los transmisores VHF /UHF o por satélites de comunicación directa al usua­
rio (D8S), cada uno de ellos con su propia tasa binaria y su propio nivel de calidad.
Otro factor de gran influencia es la aparición de los ordenadores tipo PC, capa­
ces de generar)' manipular imágenes a muy bajo coste. En el entorno de los estu­
dios de televisión esta pequeña maravilla, compacta, eficiente y versátil, está revo­
lucionando las técnicas de produccion. En la mayoría de los casos el vídeo sobre PC
necesita la ayuda de la compresión.
2. ¿Para qué comprimir?
La compresión está de moda, pero eso no es razon suficiente para utilizarla. La
compresion puede servir, por ejemplo:
• Para ubicar audio	 y vídeo en soportes donde no sería posible: CD-ROM,
canales de transmisión estrechos, etc.
• Para lograr mayor calidad, fiabilidad, robustez, etc. en un soporte determina­
do, como, por ejemplo, DVTR o DAT (al grabar menos datos, las pistas pue­
den ser más anchas y las longitudes de onda grabadas en cinta más largas).
• Para aumentar el tiempo de grabación y reducir el tiempo de acceso en los
magnetoscopios.
• Para poder enviar más programas sobre un mismo soporte: DVD, vídeo bajo
demanda, etc.
En la tabla 7.1 podemos ver algunas posibles aplicaciones de la compresión en
vídeo y audio.
Consideremos la transmision de una página gráfica mediante FAX. El tamaño de
la página suele ser el llamado DIN-A4 (297 x 210 mm). La resolucion más frecuente
es de 200 puntos/pulgada. Puesto que cada punto solo puede ser blanco o negro, éste
puede codificarse con un solo bit, lo que genera 3,74 Mbits/página. Si se transmitie­
ra esta informacion a través de un modem de 14,4 Kbits/s, serían necesarios 5,62
minutos para transmitir la página completa. Gracias a la compresión, la transmisión
puede realizarse en sólo 17 segundos, lo que supone reducir el coste a 1/20.
Consideremos ahora la reproducción de vídeo a partir de un CD-ROM
(720 x 576 píxeles, 25 imágenes por segundo). Esta aplicacion genera una fre­
cuencia binaria de algo más de 20 Mbytes/segundo (166 Mbits/s exactamente). A
esta frecuencia binaria sólo se podrían almacenar 30 segundos de vídeo en los 650
Mbytes de capacidad de! CD-ROM. Aplicando compresión podemos almacenar
hasta 74 minutos de vídeo en movimiento (150 veces más), aunque con una cierta
pérdida de calidad.
Comj2fs.,<;jÚllS!LÜl~!
Tabla 7.1 Algunas aplicaciones de la compresión.
APLlCACION
Frecuencia binaria
Sin compresión Con compresión
Notas
Voz: 8 Kmuestras/s;
8 bits/muestra
64 Kb/s 2-4 Kb/s
Vídeo a baja frecuencia
temporal, 177 x 120
píxeles; 8bits/muestra
5,07 Mb/s 8-16 Kb/s 10 cuadros
segundo
Audioconferencia
8 Kmuestras/s; 8 bits/muestra 64 Kb/s 4-16 Kb/s
Videoconferencia
352 x 240 píxeles; 10,13 Mb/s 64-768 Kb/s Solo "V"
8 bits/muestra
Audio digital (estéreo)
44,1 Kmuestras; 16 bits/muestra 1,5 Mb/s 64-128 Kb/s
Vídeo en CD-ROM
352 x 288 pixels 30,41 Mb/s 1,5 Mb/s 2:1 :0
Vídeo calidad radiodifusión
720 x 576 píxeles;
8 bits/muestra
165,88 Mb/s 4-6 Mb/s 4:2:0
HDTV
1.920 x 1.152 píxeles; 884,73 Mb/s 16-25 Mb/s 8:4:4
8 bits/muest.
3. Teoría de la información
La informacion de las imágenes de vídeo puede dividirse en tres partes:
• El elemento rcdundante: Información repetitiva o predecible. Una señal de vídeo
contiene mucha información redundante. Un píxel tiende a parecerse a sus
vecinos (redundancia espacial). Una imagen tiende a parecerse a la que le pre­
cede y a la que le sigue (redundancia temporal).
• El elemento irrclevante: Información que el ojo humano no es capaz de apreciar.
• El clcmento básico: Información que no es redundante ni irrelevante y que debe
retenerse.
La compresion pretende reducir (idealmente eliminar) tanto la redundancia
como la información irrelevante. Desgraciadamente, las fronteras entre estos
tres elementos son borrosas, en especial entre irrelevante y perceptualmente
básica. La habilidad a la hora de separarlas depende de la "inteligencia" del codi­
ficador, de la cantidad de memoria utilizada para el análisis y del retardo per­
mitido.
172
173
Compresión en ,"ideo
JlCN()1 O{;iA ACTUAl nE Tf:Ll:.·I~IO~
3. l. Tipos de compresión
Conceptualmente podemos dividir los sistemas de compresi6n en tres tipos: sin
pérdidas, subjetivamente sin pérdidas y subjetivamente con pérdidas.
Tabla 7.2	 Los tres tipos básicos de compresión: sin pérdidas reales, subjetivamente sin
pérdidas y subjetivamente con pérdidas.
TIPO PRECISiÓN FACTOR DE
COMPRESiÓN
APLICACiÓN
Sin pérdidas
reales
Precisión
bit a bit
Bajo nivel de
compresión
Informática
Subjetivamente
sin pérdidas
Errores no
perceptibles
Nivel medio de
compresión
Broadcast
Errores
Subjetivamente
con péridas
perceptibles
pero tolerables
Alto nviel de
compresión
Comunicación
Los compresores utilizados en informatica necesitan una precisión "bit-a-bit".
Esto hace que el factor de compresión (relación entre la cantidad de datos antes y
después de la compresión) sea variable, ya que depende de la cantidad de redun­
dancia que contenga el archivo original. Al tener que respetar la integridad de los
datos, el factor de compresión medio suele ser pequeño (entre 1: 1 y 1O: 1).
Además varia con la complejidad del archivo.
En audio y vídeo se pueden tolerar ciertas pérdidas de información, cuando se
sabe que no van a ser percibidas por el espectador (codificación perceptiva). De
esta manera se logra un factor de compresión mayor (2: 1 a 40: 17). Ademas se
puede hacer que el factor de compresión sea constante, tolerando mas pérdidas
subjetivas cuando la redundancia es menor. ,
La máxima compresión se logra cuando se permiten errores que el espectador
o el oyente pueden ap¡'eciar, pero que son tolerables en una aplicación dada. Por
ejemplo, en aplicaciones de "videoconferencia", puede ser suficiente con imágenes
en blanco y negro, de poca resolución espacial y con una frecuencia de refresco de
imagen (resolución temporal) muy baja. Otra aplicación de este tipo poddan ser
las copias de vídeo y audio para aplicaciones iifJ-line. En estos casos se pueden
lograr factores de compresión de mas de 100: 17.
3.2. Entropía vs redundancia
Toda imagen contiene una cierta cantidad de redundancia, la cual se define
como aquellos datos que son repetitivos o predecibles. La diferencia entre la can­
tidad total de datos de un mensaje y su redundancia se conoce como "entropía".
Por tanto, el contenido de información real o entropía de una muestra es una fun­
ción de cuán diferente es ésta con respecto a su valor predecible. Una onda senoi­
dal, por ejemplo, es muy predecible, puesto que todos los ciclos son iguales y no
ocupa ancho de banda. En el otro extremo, el ruido
aleatorio es totalmente impredecible y, por tanto,
imposible de comprimir.
El lenguaje humano es un buen ejemplo de redun­
dancia. Si un camarero nos pregunta que deseamos
tomar, podríamos contestar: "¿Seria tan amable de
traerme una taza de café solo, por favor?". Sin embar­
go, "Cafe solo, por favor" resulta igual de comprensi­
ble, ya que la acción de traer esta implícita en el
hecho de servir un cafe y, ademas, ya se sabe que hace
falta una taza que lo contenga. Dejando de un lado la
cortesía, "Un café solo" hubiera sido suficiente e
incluso "Un café" bastaría.
Los sistemas de compresión intentan eliminar
toda la redundancia posible. Sin embargo, la redun­
dancia no es siempre mala, ya que, por otra parte, da
seguridad al mensaje. De hecho, a la hora de proteger un mensaje contra posibles
errores del canal de transmisión, grabación, etc., todos los sistemas añaden una
cierta cantidad de redundancia (debidamente calculada) a los datos originales. Si el
camarero no hubiera oido bien la palabra "café", seguramente las palabras "taza" y
"solo" (que son redundancia) le habrian dado una pista.
Puede notarse en representación espectral de la figura 7.1 que, dada una infor­
mación concreta, no todas las frecuencias existen simultaneamente Y con total
energia. Igualmente, en el histograma puede verse que el numero de ocurrencias
SEPARACiÓN

ENTROpIA-REDUNDANCIA

CODIFICACiÓN
SIN P(RDIDAS
IMAGEN

ORIGINAL

l~lREDUNDANCIA
ANCHO DE BANDA	
FRECUENCIA
*'" CODIFICACiÓN

CON P(RDIDAS

"	 ~1Li~:~lo VALOR DE
LAS MUESTRAS
Figura 7.1.
Toda imagen está formada por eiertas cantidades de redundancia y ciertas otras de entropía.
La codificacion sin perdidas respeta toda la entropía mientras elimina la redundancia. La cDdi­
llcacion con pérdidas permite eliminar parte de la entropía.
174­
175
TlCNOL<.l§M...:-C1 U)L D'~L~I",T",L"-Lll.!·I"SI,,6,,,;-¡,-- _
de los valores digitales de los píxeles está polarizado hacia ciertos valores. Son estas
ca¡-acterísticas de la señal las gue permiten la compresión
Por definición, la comp¡-esión elimina la redundancia gue toda información con­
tiene. Sin embargo, la redundancia es esencial para Iogra¡- gue los datos sean resisten­
tes a los errores del canal de grabación o transmisión. Los datos comprimidos son más
propensos a presentar errores gue los no comprimidos. Por tanto, los sistemas guc
emplean compresión deben utilizar esguemas de protección contra errores más
potentes. Por ejemplo, el Betacam-Digital Comp¡-ime ligeramente (2: 1) los datos
antes de grabarlos en cinta, por lo gue requiere un 20% más de redundancia para pro­
tección contra errores que el D-S, que no comprime. Como norma, la compresión
de datos no se empleará gratuitamente; sólo cuando sea necesaria.
La entropía, sobre la que ya se ha hablado en el apartado anterior, es una medi­
da del desorden o de la impredictibilidad. Esto resulta un tanto raro para los téc­
nicos de televisión, acostumbrados a asimilar el desorden con el ruido y la parte de
la señal gue no es ruido con la información. El concepto importante es el de la pre­
dictibilidadj un mensaje perfectamente predecible no contiene ninguna informa­
ción. Si sabemos Jo que va a decir un mensaje, nuestro almacén de información no
cambia después de recibirlo. Si el mensaje es en alguna medida impredecible, ten­
dremos más información después de recibirlo. Por tanto, entropía significa info¡'­
mación nueva e impredecible.
4. Redundancia y entropía en las imágenes de televisión
Separar la redundancia de la entropía es como separar el grano de la paja. La
mies trillada abulta mucho, pero tiene poca sustancia. De igual forma, las imáge­
nes digitalizadas consumen muchos bits, aunque posean poca información real.
4. 1. Redundancia estadística
Prácticamente todas las imágenes contienen grandes cantidades de información

repetitiva o predecible. Si no se utilizaran sistemas de reducción de datos, estos

valores idénticos se repetirían, llenando innecesariamente el canal de transmisión

o de grabación. Puesto que la información de televisión fluye en tres dimensiones

(horizontal, vertical y temporal), podemos encontrar redundancia en cualguiera

de ellas. Así un punto de la imagen tiende a parecerse a sus vecinos de la izquierda

y la derecha; una línea tiende a ser similar a la de más arriba y a la de más abajo;

una imagen suele parecerse a la que le precede y a la que le sigue. En los dos pri­

meros casos se habla de redundancia espacial, mientras que en el último se habla

de redundancia temporal.
4.2. Redundancia perceptuaI
Además de la redundancia estadística, las imágenes de televisión contienen
información real, no repetitiva ni predecible, pero que el sistema de percepción
_ -'c"'·Q"-'JTllf!! csiúlJ QDJ~.kQ
I
visual humano no es capaz de apreciar o, dicho de otra forma, que si se elimina, la
calidad subjetiva de la imagen no empeora o apenas lo hace. Si el sistema de per­
cepción visual humano no es capaz de ver ciertos "errores de codificación", tales
errores no afectan a la calidad percibida. Por tanto, ciertos valores pueden ser alte­
rados y en algunos casos incluso eliminados del tren binario, sin que esto suponga
una degradación apreciable de la imagen.
4.3. Entropía de las imágenes
Como se ha visto, la entropfa es una medida del contenido real de información
de una imagcn que ha sido digitalizada. Según la teoría de la información, la ocu­
rrencia de un suceso poco probable contiene más información que la de otro más
probable. A partir de esta observación puede decirse que la entropía define la difi­
cultad de codificación de una imagen. Lo anterior significa gue si, analizando una
cierta cantidad de información ya recibida, el nuevo dato es altamente probable,
tal dato contiene muy poca información real o, lo gue es lo mismo, muy poca
entropía.
La entropía también se define como "la mínima cantidad de información pro­
mediada por muestra binaria que es necesario preservar para poder reconstruir la
información original sin incertidumbre". Una imagen digitalizada en blanco y
negro, con 256 niveles de gris (8 bits/muestra), podría, por ejemplo, indicar, des­
pués de una codificación diferencial "entropía =4,14". Esto significa que, como
promedio, son necesarios 4,14 bits/muestra para codificar toda la información de
la imagcn, de forma gue la reconstrucción posterior no suponga ninguna pérdida
de información.
Otro esguema de codificación estadística más avanzado que la diferencial podría
dejar la imagen con una "entropía = 3,88", aungue existe un límite tearico deno­
minado entropía mínima. Si un sistema de compresión dc vídeo reduce la tasa bina­
ria por debajo del valor de entropía mínima, una parte de la información de la ima­
gen se perderá inevitablemente.
4.4. Redundancia en tres dimensiones
Cuando sc desea obtener un factor de compresión e1cvado, es necesario elimi­
nar tanto la redundancia espacial como la temporal. Hay varios procedimientos
para eliminar o reducir la redundancia espacial, la mayoría de ellos basados en el
análisis de las frecuencias gue componen la imagen. Para reducir la redundancia
temporal, lo que se hace es no enviar las imágenes de vídeo en sí mismas, sino la
diferencia entre ellas. Por ejemplo, una de cada diez imágenes se podría enviar
completa, mientras gue de las otras nueve sólo se enviaría la medida en que cada
una difiere de la anterior. Con este sistema pueden lograrse factores de compre­
sian elevados, pero hay gue tomar algunas precauciones. Por ejemplo, podría ser
necesario enviar una imagen completa extra cada vez que hubiera un cambio de
plano.
176
177
TECNOLOGIA ACTUAl. DE TEI.I:VI,lf)N
ComDrcsión en video
!

mm

mm

mm

iIDf

mm

mm

r

e{
U-'Zc{
c{u
0­
Z""
:::lffio>w
el::
p@
¿ U'?­
'¡::v REDUNDANCIA
::0~~O~ HORIZONTAL

«:-tv~tv~

Figura 7.2.
La redundancia espacial puede apreciarse por la similitud entre elementos vecinos en una
misma imagen. Basta con observar un grupo de fotogramas de película de cine, para ver que
las imágenes en movimiento contienen, además, redundancia temporal.
Los sistemas que comprimen temporalmente (también denominados de com­
presión intercampo o de compresión intercuadro) no son adecuados para la graba­
ción digital profesional, ya que en este tipo de aplicaciones interesa que una ima­
gen sea una entidad en sí misma y no la diferencia codificada de la imagen o imá­
genes precedentes. A la hora de editar, el montador desea poder cortar en cual­
quier punto, sin que esto rompa ninguna secuencia de codificación.
Para entender cómo se puede comprimir una imagen es necesario cOIlocer las
características espectrales de las imágenes de vídeo. Una señal de vídeo conven­
cional ocupa un espectro que puede extenderse desde Oa 6 MHz. Sin embargo, la
mayoría de las imágenes de vídeo que representan objetos naturales están com­
puestas básicamente por bajas frecuencias. Las altas frecuencias aparecen sólo en
las zonas de finas texturas o en los
~~~,:.
-".l
bordes de los objetos (como en las

rayas de la chaqueta o en los bordes

que delimitan al presentador de la

figura 7.3). Por tanto, se puede pen­

sar que una imagen como la de dicha

Figura 7.3.

Ejemplo de frecuencias espaciales en imá­

genes de televisión

figura contiene una gran cantidad de información relacionada con áreas de bajas
frecuencias y muy poca información en áreas de altas frecuencias.
Se puede concluir que cuando se procesa vídeo digital podríamos asignar el
I
numero de bits en función de la frecuencia: más bits en las zonas de baja frecuen­
cia (que contienen la mayor parte de la información) y menos bits en las zonas de
altas frecuencias (que contienen muy poca información). Asignando adecuadamen­
i te el numero de bits en función de la frecuencia, se puede reducir considerable­
I
I
mente la cantidad de datos que representan la imagen sin que ésta se degrade. Sin
embargo, lo anterior se basa en supuestos estadísticos, de forma que nada asegura
que el contenido de información en las altas frecuencias sea siempre bajo.
I 5. Técnicas de reducción de datos
Los sistemas reales de compresión de datos, actuales y potentes, son combina­
ciones de muchas y variadas técnicas o herramientas. Éstas pueden dividirse en dos
grupos: herramientas de "compresión sin pérdidas", también llamada "compresión
matemática" o "compresión entrópica", y herramientas de "compresión con pérdi­
das" o "compresión perceptual". Aunque durante las últimas décadas se han des­
arrollado muchas herramientas de compresión "con pérdidas" y "sin pérdidas", sólo
algunas son adecuadas para la compresión de imágenes. A estas herramientas habría
que añadir algunos "trucos" que ayudan igualmente a reducir la tasa binaria. La
figura 7.4 resume las herramientas y trucos empleados en la compresión JPEG
Uoint Photo8raphic Experc Group) para imágenes estáticas y MPEG (Motion Pieture
Expert Group) para imágenes en movimiento, así como en
magnetoscopios digitales.
INFORMACiÓN

ORIGINAL PCM

Figura 7'+.
algunos formatos de
JPEG

M-JPEG

MPEG-1

MPEG-2

>1 DVCPRO
p-DIGITAL
DIGITAL-S
Técnicas de reducción de datos, con y sin pérdidas utilizadas en los sistemas de compresión
JPEG, MPEG YDVTRs.
178
179
TECNOLOGIA ACTUAL DLrW~"'~IS~·I(~)~~· . _
Además de las técnicas mostradas en la figura 7.4, existen otTaS que o bien están en
desarrollo o resultan difíciles de aplicar a las imágenes de televisión, por lo que no serán
tratadas en este libro. Entre ellas cabe destacar la KLT (Transformada de Karhunen­
Loeve), la WHT (transformada de Walsh-Hadamard), los lI'al'e/ets y los fractales.
Ninguna de las técnicas que aparecen en la figura 7.4 es capaz, por s! sola, de
proporcionar una reducción significativa de los datos en el tratamiento de las imá­
genes de televisión. Es la combinación inteligente de muchas técnicas y trucos lo
que permite reducir la tasa binaria, manteniendo el máximo de calidad. As!, por
ejemplo, los sistemas MPEG combinan en un mismo codificador todas las técnicas
mostradas en la figura 7.4.
Resulta conveniente, a la hora de estudiar la tecnolog!a de la compresión de
imágenes, dividir las distintas técnicas o herramientas en dos grupos: con pérdidas
y sin pérdidas, tal como se muestra en la figura 7.4. En los sistemas reales se
comienza por aplicar las herramientas de compresión con pérdidas o compresión
perceptual, eliminando la información no apreciada por el ojo. La información
resultante es sometida a continuación a los procesos de compresión sin pérdidas, o
compresión entrópica. Sin embargo, desde el punto de vista didáctico resulta más
aconsejable estudiar primero los procesos de compresión sin pérdidas y dejar para
el Hnalla compresión perceptual.
A continuación se irán desgranando una a una las distintas técnicas o herra­
mientas de compresión; primero, las entrópicas (sin pérdidas) y luego las percep­
tivas (con pérdidas). En esta primera aproximación, cada técnica es un módulo de
estudio, independiente y aparentemente inconexo. Sin embargo, pronto se verá
que es la unión o combinación de varias herramientas y trucos, lo que permite dis­
poner de sistemas eficaces de compresión.
6. Técnicas de compresión sin pérdidas
Puede verse en la figura 7.4 que las principales herramientas de compr~siónsin
pérdidas incluyen: supresión de borrados, RLC (Run Lenaht Codina, o codificación
de secuencias) VLC (Variable Lenaht Codina o codificación de longitud variable) y
DCT (Discret Cosine Tranifórm o transformada en coseno discreto).
6. 1. Supresión de borrados
Casi un 20% de la duración de una linea de televisión corresponde al periodo de
borrado de linea. Seria un lujo innecesario digitalizar, procesar, grabar y transmitir una
información que ya se sabe cómo ha de ser. Hay que recordar, a partir de la definición
de entropía, que si sabemos de antemano cuál será el contenido de un mensaje éste no
contiene información real. De igual forma, un 8% de las lineas de televisión pertenecen
al borrado vertical y pueden omitirse en la codificación. Después de la descompresión,
el equipo oportuno ya generará, si resulta necesario, los sincronismos horizontal y ver­
tical, sea en forma digital o analógica. En la norma 4:2:2 básica (8 bits/muestra) la
supresión de los borrados permite reducir de 216 Mbits!s a 166 Mbits!s.
_ . ~illJJli-~~(ll__L~!lJ_:iJ~
6.2. Codificación de secuencias
Podemos imaginar una aplicación como el fax, en la que se transmiten, en blan­
co y negro, páginas impresas. La transmisión se hace digitalmente a través de line­
as telefónicas, por lo que interesa reducir el tren binarío. Puesto que los puntos
elementales que componen la imagen sólo pueden ser blancos o negros, se puedc
codificar cada muestra con un sólo bit, el cual podría ser" 1" para el blanco y "O"
para el negro. La página podría analizarse por lineas, de forma similar a como se
hace en televisión.
Por otro lado, en una página normal suele haber zonas muy grandes en blanco
(lo que produce largas secuencias de unos), as! como zonas en negro (largas secuen­
cias de ceros). En lugar de estar repitiendo constantemente: blanco, blanco, blan­
co... , sería más corto decir "n veces blanco", es decir, no transmitir el valor de cada
muestra, sino el número de veces que un valor se repite hasta que se cambia de
valor. En el ejemplo de la figura 7.5 esto ha permitido pasar de 89 bits a sólo 20.
Puede verse que la eficacia del código no depende sólo del tipo de codificación
utilizado, sino también de la probabilidad de ocurrencia de cada símbolo (entro­
pía). Si se ha logrado una reducción importante de los datos en el ejemplo anterior
es porque la probabilidad de repetición de un mismo valor es alta. Cuanto mayo­
res sean las cadenas de ceros y unos, mayor será la eficacia de este tipo de codifi­
cación.
COLOR CODIGO
;~-
NEGRO o
DATOS illiTilTrl-~Tilr'nnlGGQ T['JilTiIq-pnTI [1ORIGINALES l!L1Jll ....] 1J]¡ltQ':t'I, , .11llL _, _ ..}!J J .. ,.69 BITS
'-------~~'--~'---v----'
JO ·UNOS· 26 'CEROS' 24 'UNOS' 9 'CEROS'
L ..... .-J II'--'--'~-l ! [ r-.----
CODIFICACiÓN r ' T 3' r-­f:U~~~EUNE~TC~~ ~~OJ~~_~i~¡_'__] I
~~~~~6~EN ~ ~íMB6Cf~aéJr¡.20BITS
Figura 7.5.

El principio básico de la RLC consiste en indicar el número de veces que un valor se repite

hasta que aparece otro distinto.

NOTA: Es necesario anadir informadón de sincronizacion para indicar cuándo se inicia la descrlpción de una cadena
de ceros o unos, especialmente cuando el número de bits que define cada cadena puede ser variable.
180
181
- -----
TI:cNO/ O(;iA ACTUAL IX 1 ¡:/ ['ISlClN
El ejemplo anterior muestra sólo una posible implementación del RLC. En
MPEG, por ejemplo, lo gue se hace es codificar sólo los valores distintos de cero,
poniendo a continuación el número (run) de ceros gue siguen hasta gue aparece
otro valor distinto de cero. Así, por ejemplo, la secuencia 45,0, O, 0, 12, 7, 0, 0,
0,0,0,0,23 se codifica como 45,3,12,0,7,6,23 Yse lee: 45, tres ceros, 12,
ningún cero, siete, seis ceros, veintitrés. Puede verse gue se forman "parejas" de
"valor real-número de ceros". Si esta forma de aplicar la RLC en MPEG es eficaz
es porgue se sabe de antemano gue se producirán largas cadenas de ceros.
6.3. Codificación de longitud variable
Una forma de reducir el tren binario consiste en analizar las posibilidades de
ocurrencia de cada valor digital. Esto se puede entender pensando en cómo fun­
ciona el código Morse, desarrollado para comunicación y gue utiliza un alfabeto
basado en combinaciones de puntos y rayas.
A efectos de lograr la máxima eficacia, el código Morse adjudica combinacio­
nes de rayas y puntos más cortas a las letras del alfabeto gue aparecen con mayor
frecuencia, así como combinaciones más largas, a las que aparecen con menor fre­
cuencia. Este código fue desarrollado para su utilización en el idioma inglés, en el
cual letras como la "e" y la "t" se usan muy frecuentemente, mientras gue la "g" y la
"z" se emplean raramente. Como puede verse en la figura 7.6, la "e" y la "t" utili­
zan códigos cortos, mientras gue la "g" y la "z" emplean los códigos más largos. Por
tanto, si el idioma inglés puede codificarse eficazmente mediante un código como
el Morse es porque la probabilidad de ocurrencia de cada letra del alfabeto es dife-
PROBABILIDAD DE OCURRENCIA Y CODIFICACiÓN

DE LONGITUD VARIABLE

REGLA DE
CODIFICACiÓN
12 ee
t -~ 9O (EN EL IDIOMA INGLfS)
~--­

~~ 6

ro
O
g:: 3
o q - - e _
Ze t. q z - - e e
ALFABETO
Figura 7.6.
El código Marse es un buen ejemplo de codificación de longitud variable.
Com!Jresíón en 'ídeo
rente. Cuanto mayor sea la polarización de la probabilidad estadística de cada
carácter, más eficiente podrá ser la codificación con longitud variable.
Si el código Morse se utilizara con otro idioma, como, por ejemplo, el polaco,
la eficacia sería muy inferior, ya gue la estadística del idioma polaco es diferente de
la del idioma inglés. Por ejemplo, en polaco la letra "z" es bastante frecuente. De
aquÍ se deduce que un estudio adecuado de las probabilidades de ocurrencia de
cada símbolo resulta clave para una codificación eficaz.
6.3.1. El códiBo H!!lJman
El "Huffman" es uno de los más populares códigos de longitud variable. Para
comenzar se colocan todos los símbolos en orden descendente de probabilidad
de ocurrencia, de manera gue el más probable aparezca arriba y el menos pro­
bable abajo. A continuación se conectan los dos menos probables (en la figura
7.7 el 4 y el 5) y se suman sus probabilidades. El resultado de la suma se entien­
de como un valor "unión A", que en este ejemplo es de 0,08. A continuación se
buscan los siguientes dos valores menos probables (aquí el 2 y el 3), los cuales
proporcionan la unión "B", La siguiente operación será conectar las uniones "A"
y "B", ya que la probabilidad de ambas es menor que la probabilidad del siguien­
te valor hacia arriba (aquí el 1). El procedimiento continúa hasta que todos los
símbolos tengan su conexión. Todo lo que gueda por hacer es asignar un cero o
SIMBDLO PROBABILIDAD SIMBOLO PROBABILIDAD
O 0,50 O 0.50
1 0.22 1 0,22
(a) 2 0,14 (b) 2 0,14~
3 0.06 3 0,06
4 0,05 4 0.05~
5 0,03 5 0,03
SIMBOLO PROBABILlDAO. _ - ­
O 0,50

1
--~­
0,22
0,14 - I
2
3 0,06 --ª
4 0,05

5 O.03~8
__ (e)
(e)
SIMBOLO CÓDIGO
O O
1 10
2 1100
3 1101
4 1110
5 1111
Figura 7.7.

Huffman genera códigos de longitud variable en función de la probabilidad de ocurrencia de

cada símbolo.

(d)
182
183
TLCNOLOGIA ICTU:L DE TLllqSclcÓ~N~ ~ _
un uno a cada rama de una unión, con la condición de que las dos ramas deben
tener códigos opuestos.
En estas condiciones el código correspondiente a cada símbolo Sé' obtendrá
leyendo el valor (cero o uno) correspondiente a cada rama que se atraviesa, al ir
desde el punto de probabilidad unidad (a la derecha) hasta el símbolo que se quie­
re codificar (en la izquiel-da). Puesto que se siguen caminos distintos, nunca un
cadigo corto podrá ser prefijo de otro más largo. La relación entre los símbolos y
los códigos que les corresponden puede establecerse de manera fija o actualizarse
periódicamente mediante tablas de consulta e¡ue se envían al receptor.
La implementación más sencilla)' práctica del c6digo de Huffman consiste en
almacenar en unas memorias, tanto en el codificador como en el decodificador, la
correspondencia entre los valores de entrada y salida, realizando la conversión por
el método de "look-up tahles" (consultar tablas).
6.3.2. La codificación aritmética
En la codiflcación VLC-Huffman cada símbolo de entrada genera una palabra
codificada de salida. Esto significa que la máxima compresión que puede propor­
cionar este sistema sería la correspondiente a un bit por símholo de entrada. Es
posible ohtener mayores factores de compresión combinando varios símbolos de
entrada en una misma unidad, que podríamos denominar "mensaje". Aune¡ue esto
se puede hacer dentro elel contexto de codificación Huffman, la complejidad de
cómputo se dispara, Además, si las probabilidades de ocurrencia de cada símbolo
cambian, resulta necesario rediseñar las tablas de correspondencia Huffman.
HUFFMAN
síMBOLO PROBABILIDAD
a 0,05
b 0,2
e I 0,1
d 0,05
e 0,3
f
0,2
x
0,1
CODIFICACiÓN ARITMÉTICA
CÓDIGO I SIMBOlO PROBABILIDAD SUBINTFRVAlO
I
10101 a 0,05 0,00-0,05
01 b 0,2 0,05-0,25
100 e 0,1 0,25-0,35
10100 d 0,05 0,35-0,40
Ie11i 0,3 0,40-0,70
f00  0,2 0,70-0.90x1011 0,1 0,90-1,00
I
MENSAJE: bbccfe
SIN COMPRESiÓN: 7 SíMBOLOS x3 BITS/síMBOLO = 21 BITS
VLC-HUFFMAN: 0101 10010000111011 (TOTAl= 18 BITS)
VLC-CODIFICACIÓN ARITMt:TICA: 0001001 001 000011 (TOTAL= 16 BITS)
Figura 7.8,
La codificación aritmetica es otra forma de codificación de longitud variable, algo más eficaz
que la de Huffman.
CQ!lll-llI~tQILºl_Jid.hº
La codificación aritmética es un sistema de compresión sin pérdidas que se
beneficia del tratamiento de multiples símbolos en una única unidad o mensaje. Al
igual e¡ue en Huffman, la codificación aritmética comienza por analizar la pl"Obabi­
lidad de ocurrencia de cada símbolo, pero, en lugar de darle un valor de probabi­
lidad, le asigna un "subintervalo" de probabilidad, de manera c¡ue la suma de los
subintervalos genera un intervalo unidad (entre °)' J). Durante la codificación se
parte del intervalo unidad. A continuación se establecen los límites, superior e
inferior, del primer simbolo (en este ejemplo la "b"j los limites son 0,05 y 0,25).
En el siguiente paso este subintervalo (que vale 0,2) vuelve a entenderse como el
intervalo unidad y dentro de el se buscan los límites del siguiente slmbolo (otra "b"
en nuestro ejemplo). Estos nuevos límites son ahora 0,06 y 0, l. Repitiendo el
mismo proceso para la "c" se obtiene 0,07 )' 0,74. Si se continúa el proceso, los dos
límites tienden a converger y en nuestro ejemplo, después de codificar el símbolo
"x" (c¡ue se coloca como final del mensaje) los límites super-ior e inferior resultan
ser: 0,0713360 y 0,0713336_ Estos numeras codifican perfectamente el mensaje
del ejemplo (bbccfex). En la práctica no es necesario codificar ambos límites, sino
cualc¡uier numero comprendido entre ellos, como 0,0713348389, que, como
puede comprobarse, corresponde a 2-4 + 2-7 +2-10 + 2-15 + 2-16 y que, por
tanto, puede representarse con 16 bits.
En la codificación aritmética lo que se codifica es un "camino" o una "vía" desde
el intervalo 0-1 hasta un subintervalo menor. Cuantos más símbolos se vayan aña­
diendo al mensaje, más precisa deberá ser la Vla que conduce al subintervalo final
y, por tanto, más bits harán falta para codificarla.
Al igual que en el código de Huffman, a los conjuntos tle datos más probables
le corresponden subintervalos mayores, los cuales necesitan menos bits de preci­
sión para ser descritos. Si el subintervalo es muy grande, puede redondearse a cual­
quier cifra de pocos decimales dentro de tal subintervalo; si es muy estrecho, defi­
nirá un tramo muy preciso.
Es importante recordar que tanto la RLC como la VLC son técnicas de com­
presión sin pérdidas, es decir, ya se aplic¡uen juntas o por separado, estas tccnicas
permiten la recuperación exacta de los datos después de la descompresión.
6.4. Introduccíon a la DCT
La DCT (Discrete Cosine Traniform o transformada en coseno discreto) es la base
de sistemas de compresión tales como JPEG, MPEG, DVCPRO, Betacam Digital,
etc. La práctica totalidad de los sistemas de compresión para imágenes de televi­
sión, ya sea en captación, distribución, contribución, edición o emisión, se basa en
la ubicua DCT. Se trata de un sistema de compresión por transformación, es decir,
la DCT no opera sobre el valor de las muestras de vídeo, sino sobre su represen­
tación frecuencia!.
La DCT, aplicada a imágenes de televisión, procesa bloques amplitud de los de
píxeles y los convierte en bloques de valores de frecuencia. En sí misma la DCT no
introduce pérdidas, siendo, por tanto, un proceso totalmente reversible. Sin
embargo, para que ello sea cierto, en imágenes en que las muestras han sido cuan­
J84
185
--
Tf:CNOI ocIA AC-TlIAI DE TElL:,ISlÓN
tificadas con 8 bits, los coeficientes frecuenciales deben codificarse con una preci­
sión de 12 a 13 bits/coeficiente. Al contrario de lo que se cree: "la DCT no com­
prime, sino todo lo contrario" y "la OCT, en sí misma, no introduce pérdidas". Lo
que sucede es que la OCT se utiliza como herramienta para ayudar a comprimir.
Siendo la DCT el núcleo o alma en torno a la cual giran las demás herramien­
tas de compresión, nada más será dicho por ahora. Abriremos un poco más ade­
lante un apartado completo sobre ella.
7. Técnicas de compresión con pérdidas
Afortunadamente las imágenes de televisión, después de descomprimidas, no
necesitan ser idénticas a como eran antes de la compresión: ¡basta con que lo
parezcan! En comunicación audiovisual, el decodificador final es siempre el
mismo: el espectador. Si para él la calidad de las imágenes y sonidos es apropiada,
entonces no importa en absoluto cuántos errores y redondeos se hayan cometido
en la codificación.
Lo anterior significa que además de la compresión matemática, sin pérdidas,
podemos echar mano de las llamadas herramientas de compresión perceptual. Son
estas últimas las que proporcionan, como se verá más adelante, la máxima poten­
cia de compresión. También añaden un poco de "sal" a la tecnología, ya que intro­
ducen una cierta subjetividad, haciendo que la compresión sea en parte una cien­
cia yen parte un arte. Gracias, o por culpa, de la compresión perceptual, dos codi­
ficadores pueden proporcionar distinto nivel de calidad de imagen, a pesar de uti­
lizar el mismo material de entrada y producir la misma tasa binaria de salida.
7.1. Codificación diferencial (DPCM)
La OPCM puede encuadrarse dentro de las técnicas con pérdidas o déntro de
las técnicas sin pérdidas. Si se utiliza sola, será una técnica con pérdidas o no se
garantizará ninguna compresión. Usada en conjunción con otras técnicas, la DPCM
puede ayudar a comprimir incluso sin pérdidas.
Si la redundancia es la culpable de que el tren binario se dispare innecesaria­
mente, una solución puede consistir en no codificar el valor absoluto de las mues­
tras, sino la medida en que cada muestra difiere de la anterior. Esto es lo que hacen
los sistemas OPCM (Diferencial Pulse Cade Modulatian). Puede verse en la figura 7.9
que de esta forma se reduce considerablemente la amplitud de los valores a codi­
ficar, lo que significa tener que emplear menos bits por muestra. En el ejemplo de
la figura 7.9, para codificar la señal PCM hacen falta cinco bits por muestra, mien­
tras que la señal DPCM necesita sólo tres bits para codificar cada valor diferencia.
De todas formas, es evidente que será necesario enviar el valor absoluto de alguna
muestra, precediendo a los valores diferencia, de manera que el decodificador
tenga un punto de partida para poder reconstruir los valores originales.
Un problema asociado a la codificación diferencial es que es propensa a la pro­
pagación de errores. En efecto, si durante la transmisión, grabación, etc. se alte-
Comnresión ("1), ddeo
26
25
/1
'-/1"­24
'-.,"­23
22
21 20 ­ /1 - .........
 --1......... _ .........

19 ,8 -1 , '­-

15 14 -~

17 16
13 ,2 ­
11

PCM5 BITS POR
MUESTRA "l"-_._.-_....~-.-....._,._._.-.-,.-.-._,._-- ..
20212222232625262423212120202019191817 16 15 1411 12
MO MI MI -O-PCM-[)N=(M--)-:.:-M­ M23
.. : _ _N+1 N
3 BITS POR -- - - - .­
MUESTRA 'F /1 .­ OPCM
.~ o' ./,-,'-.,/, 1/'.1 ' I/"""--,,,v-"-'_I_'-' I!
·2- ./'- ,V
+1 +1 0+1 +3 -1 +1-2 -1 -2 o ·1 o o -1 o -1 -1 ·1 ·1 -1 ~3 +1
oo~m ~
Figura 7.9.

En la DPCM no se codifica el valor absoluto de las muestras, sino la diferencia entre el valor

de una muestra dada y otra u otras muestras de referencia.

ra uno de los valores diferencia, el valor de la muestra actual será incorrecto,
pero, además, serán incorrectos también los valores de todas las muestras que
aparezcan a continuación. Para evitar esto se pueden intercalar muestras con su
valor absoluto entre los valores diferencia. Por ejemplo, se puede hacer que una
de cada diez muestras no esté codificada como valor diferencia, sino que se envíe
con su valor absoluto, es decir, enviar un valor absoluto, nueve valores diferencia,
un valor absoluto, etc. Otro problema asociado a la codificación DPCM es que la
reducción de bits sólo es posible si los valores diferencia se mantienen claramen­
te más pequeños que los valores absolutos y, desgraciadamente, no hay nada que
garantice esto último.
7.1.1. DPCM con predicción adaptativa
En la figura 7. 1O(a) puede verse una estructura ortogonal, en la que todas las
muestras se han codificado con su valor absoluto. En (b), una de cada cuatro mues­
tras se codifica con su valor absoluto, mientras que tres de cada cuatro se codifican
con un valor diferencial. Para optimizar el cálculo del valor diferencial se adopta
una estructura en diagonal o "al tresbolillo".
Para que el valor diferencial sea lo más bajo posible, se comienza por obtener
una predicción o aproximación al valor de la muestra diferencial. En el ejemplo de
la figura 7.10 Cc) esta predicción se calcula promediando el valor de tres muestras
vecinas (de las cuales se envía su valor absoluto), según la fórmula mostrada en la
figura. De esta forma se obtiene un valor que resulta estadísticamente aproximado
al valor real y que se conoce como "valor de predicción". A continuación se com­
186
187
IlCNOLOGIA AClUAl lJL TlU,'ISIClN
UN" N·, ~ I!J I!J I!J I!J I!J I!J I!J I!J I!J
(a)
LINEA N @ @ @ @ @ @ @ @ @ @ CODIFICACION
ABSOLUTA
LINEA N+1 @ @ @ @ @ @ @ @ @ @
LINEA N-1 I(!] @ (!] (!] (!] @ (!] (!] (!] @
(b) CODIFICACIONLÍNEA N ,f!] (!] (!] @ (!] (!] (!] @ (!] f!]
DIFERENCIAL
liNEA N+1 I(!] @ f!] (!] (!] @ (!] (!] (!] @
PRED (N.b) =x.A(N,a) +y.A (N-l.e) +yA(N+l,e)

(x =1/2; Y=1/4)

(e) a e eb d (d) a b e d e
N-1 I m (!]j~) m (!] m (!]e@) m (!]N-1
N I@iPR~DI m (!] [A] N @üi'I~~EDlrn-@
N+1 I m m-e@) m (!] N+1 (!] me@) m l!1
Figura 7.10.
El rendimiento de la DPCM se puede mejorar adoptando esquemas de predicción variables
adaptados a la información real.
para e! valor de predicción con el valor real de la muestra, de forma que la dife­
rencia entre ambos se denomina "error de predicción". Es este error de predicción
el que finalmente se codifica con un número limitado de bits. La magnitud del
error de predicción depende de cuán acertada sea la predicción, lo cual, a su vez,
depende del contenido de la escena. Por ejemplo, en zonas estáticas de la imagen
una predicción por promediado entre cuadros daría un error de prediccjón muy
pequeño (e incluso nulo), mientras que en zonas en movimiento sería más apro­
piado un promediado dentro de! mismo campo. La predicción adaptativa varía el
esquema de predicción en función de! contenido del programa. Suele distinguirse
entre tres esquemas de predicción básicos: intracampo, intercampo e intercuadro.
La conmutación entre un modo y otro se hace por bloques de píxeles y se comu­
nica al receptor mediante unos cuantos bits extra.
7.1.2. Combinar DPCMy VLC
En ocasiones no es posible lograr que e! valor diferencial sea mucho más
pequeño que el rango de valores absolutos. Sin embargo, la codificación dife­
rencial sigue siendo aún útil. En la figura 7.11(a) puede verse una codificación
PCM en la que el rango de valores va de O a 4, es decir, hay cinco valores posi­
bles. Si se pasa a una codificación diferencial, el rango de valores irá de -2 a +2,
lo que sigue dando cinco valores posibles. Sin embargo, puede verse que en la
codificación PCM la probabilidad de ocurrencia de cada uno de los valores es la
Cun!¡l[~siól1 ell 'id~..2
PROBABILIDAD
VALOR
DE OCURRENCIA
4 5125
3 5/25
-Vf"R_~1-t:(N13~(~~i!~~,~_ 5/252
1 5/25
Al A3 - - - - - - - - - - - - - - - - - - - A25 o 5/25
A2 A4 t A24
r--0PCM
VALOR Ll:Jr1"An-(An-1)
f- ----.
2 i (b) OIFEREN~CIAENTRE ADYACENTES
1: _
.0 r--L1·flr- ---J7-&~-''17V'1, . _ .
-2 i D1 D3 - - - - D23

t D2 D4 t D22

VALOR
o
-1
1
2
-2
PROBABILIDAD
DE OCURRENCIA
11/24
6124
4124
2/24
1/24
Figura 7. 11.
La DPCM "polariza" la probabilidad de ocurrencia de los símbolos, baciendo más eficaz la aph
cación del paso que realmente comprime: la codificación de longitud variable.
misma, mientras que en la codificación DPCM algunos valores son más proba
bIes que otros.
Cuando la probabilidad de ocurrencia está polarizada en alguna dirección, es
decir, cuando unos valores son más probables que otros, puede utilizarse la codifi­
cación de longitud variable (Variable Length Coding o VLC), en la cual se asignan
palabras más cortas a los valores con mayor probabilidad de ocurrencia y palabras
más largas a los valores menos probables. Esto es lo mismo que se hace en el códi­
go Morse, tal como se ha visto en el apartado 6.3
En este ejemplo los valores más probables son "O" y "-1" por lo que se les
otorgan los códigos OY 10. A los valores menos probables se les otorgan los códi­
gos más largos (11 10 Y 11 11). Para que el decodificador sea capaz de saber dónde
comienza y dónde termina cada palabra hace falta que ninguna palabra pueda ser
prefijo o inicio de otra más larga. La reducción de bits lograda puede calcularse
como sigue: en PCM: 25 palabras x 3 bits =75 bits; en DPCM: (11 palabras x
1 bit) + (6 palabras x 2 bits) + (4 palabras x 3 bits) + (2 palabras x 4 bits) + (1
palabra x 4 bits) =44 bits. A éstos habría que añadir 3 bits de una palabra inicial
de valor absoluto, con lo que habría 47
bits.VALOR
PROBABILIDAD
DE OCURRENCIA
CÓDIGO
O 11/24 O
-1 6/24 10
1 4/24 110
2 2124 1110
·2 1/24 1111
Al inicio del apartado 7.1 se ha dicho
que la DPCM se puede aplicar con o sin
pérdidas. En el ejemplo anterior, la DPCM,
por sí misma, no logra comprimir en abso­
luto los datos, aunque, por otro lado, tam­
poco introduce errores. Al combinarla con
188
189
TECf'JOI.ociA ACTUAL nE TELE'IIÓN
la VLC se obtiene una reducción importante de los datos y, en este caso, sin pérdi­
das o errores de codificación.
Puede decirse que la DPCM produce una reducción de la entropía de la señal
original. Muchos valores diferencia se concentran en o alrededor de cero, como
consecuencia de la alta probabilidad de encontrar zonas de color uniforme en las
imágenes. Por otro lado, en imágenes altamente detalladas serían posibles valores
diferencia incluso mayores que los valores absolutos. En tal caso podría utilizarse
una cuantificación no lineal, donde las infrecuentes diferencias de gran valor (posi­
tivas o negativas) se cuantificaran con poca precisión (peldaños de cuantificación
grandes), mientras que los más frecuentes valores pequeños se representarían con
mayor precisión. Se cometerían errores, pero éstos serían infrecuentes y, además,
el sistema de percepción visual humano es poco sensible a tales errores, cometidos
en la codificación de altas frecuencias, ya que pertenecen a elementos de imagen
contrastados, capaces de enmascararlos.
De los párrafos anteriores se sacan dos conclusiones:
•	 La codificación diferencial descorrelaciona los valores de amplitud de los
píxeles, preparándolos para aplicar otras herramientas, tales como la VLC.
•	 Si se utiliza la DPCM de cuantificación no lineal, los errores cometidos son
enmascarados por la propia imagen.
En la práctica la DPCM, tal y como se ha explicado aquí, no se utiliza en nin­
gún sistema de compresión de imágenes de los que podríamos llamar avanzados.
Sin embargo, los conceptos de la codificación diferencial, de la polarización de la
probabilidad de ocurrencia unida a la codificación de longitud variable y del
enmascarado por parte de sistema de percepción visual de los errores de codifica­
ción no lineal sí que se aplican y son los que realmente hacen que los sistemas de
compresión funcionen. Como se verá en este mismo capítulo, el concepto de codi­
ficación diferencial se transforma en "codificación intercuadro" o en "transforma­
da" DCT, pero eso vendrá un poco más adelante.
7.2. El submuestreo
Una forma sencilla y directa de reducir la cantidad de datos que representan una
imagen consiste en "submuestrear", es decir, eliminar selectivamente algunas de las
muestras que la componen. Es un método eficaz de reducción de datos, aunque
produce pérdida de resolución y puede generar componentes de aliasina, que pue­
den degradar la calidad de la imagen original. Por esto el submuestreo no suele
aplicarse a la señal de luminancia. Sólo las señales de crominancia son submuestre­
adas, como sucede en las normas 4: 2:0 y 4: 1: 1. Estas dos variantes de la norma
4:2:2 se utilizan en ciertos formatos de magnetoscopios digitales con compresión,
mientras que los sistemas MPEG utilizan exclusivamente la variante 4:2:0 (si no se
tiene en cuenta un perfil especial 4:2:2 para aplicaciones profesionales).
Submuestreando de 4:2:2 a 4:2:0 o a 4: 1: 1 se obtiene un ahorro de aproxima­
damente un 30% en la tasa binaria. Existe en la comunidad técnica un debate no
cerrado sobre qué es mejor: submuestrear antes de comprimir y limitar el factor de
Comnresión en -í<ieo
compresión o bien partir de la máxima información posible y aplicar más compre­
sión. Los formatos de la gama DV (DV, DVCAM YDVCPRO-25) se basan en el pri­
mer principio, mientras que el Betacam-SX prefiere partir de 4:2:2 y aplicar más
compresión. ¿Quién tiene razón? Probablemente los dos. Submuestrear, por ejem­
plo, a 4: 1:1 y limitar el factor de compresión a 5: 1 (como en la familia DV) parece
que preserva algo más de calidad visual que partir de 4: 2: 2 y aplicar una compre­
sión 7: 1. Por otro lado, una estructura de muestreo tan "débil" como la 4: 1:1 puede
quedar afectada después de unas pocas generaciones de posproducción.
Si se desean factores de compresión más altos, es necesario submuestrear también
la luminancia, con la consiguiente pérdida de resolución visual. Esto es lo que se
hace, por ejemplo, en e! sistema MPEG-I . En este caso se trata de lograr, a partir de
una entrada 4: 2: 2 de 166 Mbits!s, una señal de salida comprimida a sólo 1,5
Mbits!s. MPEG-l submuestrea en las tres dimensiones. Para comenzar, descarta uno
de cada dos campos, reduciendo tanto la resolución temporal como la vertical. A
continuación la señal 4:2 :2 se convierte en otra de tipo 2: 1:0. Así se genera una com­
presión 5: 1. Los procesos posteriores logran una compresión 21: 1, que, multiplica­
da por la lograda por el submuestreo, proporcionan una compresión global 105: l .
8. Codificación por transformación
A menudo es difícil descubrir la redundancia cuando se representa la señal en fun­
ción de! tiempo. La señal de vídeo, por ejemplo, puede tomar cualquier valor entre O
y 255 (8 bits) o entre Oy 1023 (10 bits). Por tanto, la entropía de cada píxel es muy
alta, ya que puede tomar cualquier valor con igual probabilidad. Si la entTOpía de la
imagen es igual a la suma de la entropía de los píxeles que la componen, ésta será tam­
bién alta. Esto es lo que sucede cuando la excursión de la señal de vídeo es grande,
como en la figura 7.12 (a). Cuando la señal de vídeo está cerca del nivel de negros (b)
o del pico de blanco (c), la entropía es menor, pero esto sucede aleatoriamente.
~. (a) A11TI ¡~) 1~
~ lT11l1nnm,... 4I1JlJJ, . . . .
~.~~I~i~IK 'L
FRECUENCIA 5,5 MHz o >.W< o MÁJC. o MÁJC o MAx.
DOMINIO DEL TIEMPO DOMINIO DE LA FRECUENCIA
~A~h~IIL~~h'IL'.J!~hhl.L,~f¡hJllll¡!M ... I=J--1~~fJ=~3VVVVMrY¡¡',,"''''V¡VVI~T'Y~¡'1Il~~iV J.&--n'¡¡~J.J- ~C;¡~~'!~_
Figura 7.12.

La representación frecuencial facilita la detección de la redundancia,

a la vez que permite procesar por separado bajas y altas frecuencias.

190
191
Comprcsivll ell yíuc(~
TECNOLOGíA AC/ UAl /)[ '/ E/I",E"I'1;">1"/("'''''---/	 _
Una forma de detectar la redundancia y aislar la entropía consiste en transfor­
mar la señal desde el dominio del tiempo hasta el dominio de la frecuencia. Si nos
fijamos en el espectro de la seilal de vídeo veremos que a menudo su amplitud esta­
dística decrece con la frecuencia. En otras palabras, la probabilidad de ocurrencia
de todos los valores es similar en el caso de las bajas frecuencias, mientras que esta
probabilidad está dccantada o polarizada hacia valores bajos, en el caso dc las altas
frecuencias (figura 7.12, centro). Esto significa que la parte baja del espectro posee
una alta entropía, mientras que la parte alta prcscnta baja entropía. De aquí se saca
la conclusión de que si podemos manejar las componentes de frccuencia baja y alta
por separado, podremos comprimir las componentes de alta frecucncia, puesto
que presentan baja entropía.
Para esto es necesario transformar la representación temporal en otra dc tipo
frecuencial. Un ejemplo dc esta dualidad lo tenemos en la música, donde la forma
de onda sería la representación temporal, mientras que la partitura equivaldría a la
representación frecuencial. Nótese que es posible codificar el valor de muchos
cientos de muestras con sólo unos pocos símbolos frecuenciales en la partitura
(figura 7. 12 , abajo).
8.1. Transformada de Fourier
A finales del siglo XVIII el barón Jean Baptiste Fourier descubrió un método
que permite descomponer cualquier fenómeno fluctuante periódico, desde las
ondas luminosas hasta las mareas oceánicas y los ciclos solares, en un conjunto de
componentes senoidales o cosenoidales.
Las figuras 7.13 (a) y (b) mucstran que, si se conoce la amplitud y fase de cada
componente de frecuencia, se pucde, mediante la suma lineal de las componentes
senoidaleslcosenoidales, obtener cualquier forma de onda. En los sistemas digita­
les la forma de onda está expresada mediante un número discreto de muestras.
Como resultado, la transformada de Fourier proporciona un número discreto de
frecuencias. Esto se conoce como "Transformada dc Fourier Discreta" o DFT
Como puede verse en la figura 7.13 (b), resulta vital conocer la fase de cada una
de las componentes frecuenciales, ya que una alteración de la fase de cualqUiera de
las componentes alteraría la forma de la onda reconstruida.
Hay muchas formas de expresar la fase y una de ellas consiste en dar un valor
de seno y otro de coseno, ya que la combinación de ambos valores (positivos o
negativos) proporciona cualquier valor de fase desde O a 360 grados (c). La DFT
analiza el espectro de un grupo de muestras para ver si contienen una serie de fre­
cuencias predeterminadas.
Para saber si una serie de muestras contiene una frecuencia determinada, la
DFT multiplica la forma de onda de entrada por una forma de onda senoidal de esa
frecuencia, conocida como "función base". A continuación suma o integra los pro­
ductos de la multiplicación. Si la señal de entrada posee esa frecuencia, la suma
integrada de los productos será distinta de cero. Si la frecuencia que se busca no
esta presente en la señal de entrada, la suma integrada será igual a cero. La magni­
tud de la integral es proporcional a la amplitud de la frecuencia buscada.
ONDA DIENTE

CUADRADA DE SIERRA

AMPLITUD
A	
!DEL COSENO
' A ~~~-=--.....! +
r--~',. AMPLITUD
+ J).J'1:
~·t_'f__~EL SENO
' + ' (e) - :
! ~
+ IW 'I +
MAM+~+ : ~
"]fctFUNCiÓN FUNCiÓN .~¿;~k~~:~:~:to
SIMÉTRICA ASIMÉTRICA vERDE
(a)	 (b) ClAN
AZUL
VIOLETA
(d)
Figura 7.13.

Menos utilizada que la representación temporal, la frecuencial tiene, sin embargo, muchas

aplicaciones. La dispersión de la luz blanca al pasar por un prisma puede ser un ejemplo de

descomposición de una onda compleja en componentes basicos.

Por tanto, si la señal de entrada posee un número elevado de frecucncias, todas
ellas serán excluidas excepto una. El proceso continúa, cambiando cada vez la fre­
cuencia de la función base. Es posible quc la frecuencia buscada pase dcsapercibida
si se gira la fase 90 grados, puesto que el producto de dos señales en cuadratura da
siempre cero como valor integral. Por tanto, la DFT debe hacer una búsqueda adi­
cional, utilizando la función coscno, que no es otra cosa que la función seno gira­
da 90 grados.
La amplitud relativa de las contribuciones en seno y coseno revela la fase de la
componente buscada de la señal de entrada. Por tanto, cada frecuencia discreta del
espectro de la señal dcbe ser el resultado de un par de búsquedas en cuadratura.
8.2. Teoría de la OCT
La DCT es una variante de la transformada discreta de Fourier, en la cual los
coeficientes de las componentes en seno se han eliminado, quedando, por tanto, un
solo número por componente espectral. Como muestra la figura 7.13 (a), las fun­
ciones simétricas proporcionan s610 coeficientcs en coseno. En el caso de la señal
de vídeo, lo que se hace es tomar un cierto número de muestras y copiarlas de
manera especular sobre el eje temporal, como en la figura 7.14 (a). Esto propor­
ciona una función par o simétrica, la cual pucde ser representada con sólo los coe­
192
193
TECNOLoc;iA ....CTUAI. DE Tri EVISION
Conmn:slón en "ídeo
MUESTRAS
REPETIDAS MUESTRAS DE
Y GIRADAS ENTRADA
(a)_~r--j ,ú_
IDili¡;tU¡j~
EJE DE

SIMETRIA

-

LAS COMPONENTES LAS COMPONENTES:JJb
EN SENO ~ EN COSENO
SE RESTAN  ~E SUMAN
(b)
Figura 7.14.
La OCT se obtiene copiando especularmente los bloques de entrada antes de aplicar la OFT.
La copia especular cancela las componentes en seno, dejando sólo las componentes en coseno.
ficientes en coseno. La figura 7.14 (b) muestra que la fase de todas las componen­
tes de un bloque se oponen en dirección a las del otro. Esto significa que, cuando
se suman para proporcionar la tranformada del bloque doble, todas las componen­
tes en seno se cancelan, dejando sólo las componentes en coseno, que dan nombre
a la transformada. A pesar de que de esta forma se han de manipular el doble de
muestras, los cálculos se simplifican mucho al poder trabajar sólo con los compo­
nentes en coseno. Por supuesto, cuando se realiza la transformada inversa, la parte
doblada e invertida de la forma de onda es descartada.
En el caso del procesado de imagen se necesita una transformación bidimensio­
nal, capaz de encontrar todas las frecuencias horizontales, para todas las frecuen­
cias verticales, de manera que el número de búsquedas será igual al número de fre­
cuencias horizontales a buscar, multiplicado por el número de frecuencias vertica­
les a buscar. La DCT permite realizar la transformación bidireccional, haciendo el
cómputo en cada dirección separadamente.
Para comenzar, la imagen se divide en pequeños bloques de m por n muestras.
En principio puede utilizarse cualquier valor para m y para n, como, por ejemplo
4 x 4, 8 x 4, 8 x 8, 16 x 16, etc. Si se utilizan bloques de 8 x 8 píxeles, las fre­
cuencias horizontales que podrán contener irán desde cero (nivel de DC) hasta 4
ciclos por anchura de bloque. Lo mismo sucede con las frecuencias verticales, que
irán también desde DC hasta 4 ciclos por altura de bloque. La combinación de fre­
cuencias horizontales y verticales proporciona los 64 posibles coeficientes que
pueden verse en la figura 7.15, donde las frecuencias horizontales crecen de
I I 11 I_IJ 1111111111
il~~~ll1mUN
---:O«OOw.rJJJifIJ.

:::;:;::::;~~~~

....-=-8~ « 00 iXJj C«i@:
~~ - _.«~~~((((
i ~;
§~~~f¿E9loo-!
; i
:;§§§§§moom~
~--­ ~~m~B ••
" ­
Figura 7.15.
Con la OCT la imagen se divide en pequeños bloques de 8 x 8 píxeles. A continuación los 64
valores de amplitud se convierten en 64 valores, que representan las frecuencias presentes en
el bloque. La figura muestra los 64 coeficientes frecuenciales, con frecuencias horizontales
crecientes (de izquierda a derecha) y frecuencias verticales crecientes (de arriba abajo).
izquierda a derecha; las verticales, de arriba abajo, y las diagonales, de la esquina
superior izquierda a la esquina inferior derecha. De esta forma los 64 píxeles del
bloque han proporcionado 64 valores o coeficientes de frecuencia.
El tamaño de los bloques es una solución de compromiso entre la eficiencia en
la cuantificación de los valores frecuenciales (los bloques grandes serían mejores en
este sentido) y la eficacia en la estimación de movimiento (un tema que se verá un
poco más adelante), favorecida por bloques pequeños. Los experimentos han
demostrado que se gana muy poco con bloques DCT grandes, los cuales aumentan
el "efecto mosaico" de la imagen cuando se aplican fuertes factores de compresión.
8.2.1. Interpretación de la DeT
A menudo resulta difícil entender la relación entre la representaci6n temporal
o espacial de una señal y su traducci6n a coeficientes de frecuencia. La figura 7.16
(a) es una representación espacial de un bloque de píxeles de 8 x 8, es decir, cada
cuadradito representa un píxel. Se trata de la luminancia de una señal en diente de
sierra, que crece de negro a blanco, cuando se analiza de izquierda a derecha. En
194
195
TECNOLOGI, AC'TUAL UE T[l['SIÓ:-"
1I1I••mJ~@]~ ;¡ @jEJ0@)0EiJ00 G
IIII••IJ~@]~ ;; 00000000 ~
1I1I••~f§~§ ;j 000rol0000 ~
(a) IIII••~~@]~ ~ (b) 00000000 ~
1I1I••lJf§~~ o 00000000 ~
1I1I••~@0]@]~ ~ 00000000 ~
1I1fI••IJ~~§ ~ 00fOl0fOl01olioJ §
1I1IJ••lIJ~@]§] z 00000000 ü
"1 I-~' ~ ~ ~ ~ ~ ~ ~ ~
1 + 43.50;,  V VVVAA WNlIi
FRECUENCIAS HORIZONTALES + 40% 41% 1.1%
QUE INTERVIENEN EN LA SEÑAL ~~ ~o IN,RTIDO INVERTIDO
EN "DIENTE DE SIERRA" ~ _ ~ /
~~- -­
~~1Figura 7.16.
Relación cntre los componentes frecuenciales de un grupo de muestras y su representación
temporal.
este caso concreto la señal no presenta variaciones en la dirección vertical, de
manera que puede analizarse como si se tratara de una señal unidimensional.
Esta señal en diente de sierra puede obtenerse sumando una serie de contribu­
ciones de señales más simples. La primera contribución es el nivel de continua (o
nivel OC), que no es otra cosa que el nivel medio de la señal en diente de sierra.
Si no se sumara el coeficiente de OC, el resultado sería una señal bipolar, donde el
gris medio se situaría en "cero voltios", el negro en "-V" y el blanco en "+V".
Intuitivamente puede verse, que el primer coeficiente senoidal (invertido) de fre­
cuencia horizontal debe tener mucho peso en la obtención del diente de sierra, ya
que ¡se parecen enormemente! El siguiente coeficiente no interviene en la suma (su
punto medio tendería a desplazar el punto medio de la señal en diente de sierra
hacia abajo -si se suma en positivo- o hacia arriba -si se suma en negativo-). El
siguiente coeficiente (invertido y con mucho menos peso) nos aproxima más a la
función en diente de sierra y así hasta terminar con el coeficiente de peso -1 ,1 .
Es cierto que al sumar un número limitado de coeficientes nunca obtendremos
una señal en diente de sierra perfecta, pero tampoco hace falta, ya que, al tratarse
de una señal muestreada, sus componentes de frecuencia son limitados.
Resulta relativamente fácil entender la descomposición de una señal unidimen­
sional compleja en una serie de funciones simples. Algo más complicado puede
resultar extender este concepto a funciones bidimensionales (en nuestro caso, las
imágenes formadas por una dimensión horizontal y una vertical).
Matemáticamente una función bidimensional puede entenderse como la com­
binación de todas las frecuencias de una dimensión con todas las frecuencias de la
______l·_ill~.i2.Ds..n.TIdsQ
otra dimensión; en el caso de imágenes, la combinación dc todas las frccucncias
horizontales para cada una de las frecuencias verticales. Visto de esta forma, el con­
cepto sigue siendo todavía muy abstracto.
La figura 7.17 muestra otra forma de entender los coeficientes OCT. La aplica­
ción de la OCT sobre un bloque de 8 x 8 pÍxeles genera una tabla de 8 x 8 coefi­
cientes de frecuencia. Cada coeficiente puede entenderse como una "trama" básica
predefinida. Las tramas van desde completamente lisa hasta máxima frecuencia
horizontal y vertical (esta última sería similar a un tablero de ajedrez de 8 X 8 casi
Has). Una vez realizada la OCT, cada una de las tramas tiene su propio "valor" o
"peso" en la formación del bloque de la imagen original.
La idea es la siguiente: si dispusiéramos de una transparencia de cada una de las
tramas y pudiéramos ajustar el valor de contribución de cada trama, obtendríamos,
sumando todas las transparencias, la imagen original, es decir, podríamos pasar del
dominio de las frecuencias al dominio de las amplitudes. La suma podría lograrse
proyectando un haz de luz a través de las transparencias.
IMAGEN DE 720 X 576
DIVIDIDA EN BLOQUES
DE 8 , 8 plXELES
. - ,._-.,
~rt;P1:+t1=l:ttK~~9~·
..ltJI#t¡¡bj:3M I 'YolA) ~
UN BLOQUE"1 DE 8,8 plXELES
'J'l.
Figura 7.17.

Otra forma de interpretar la DCT.

8.2.2. La DeT no comprime: ¡ayuda a comprimir!
En el ejemplo de la figura 7.18, Ypara simplificar, la imagen se ha dividido en
bloques de 4 x 4 muestras. Como consecuencia, la OCT bidimensional ha propor­
cionado un bloque de 4 x 4 coeficientes de frecuencia, de manera que se han pro­
ducido tantos coeficientes como muestras había en el bloque original. Por tanto, la
OCT en sí misma no comprime. Es más, una representación precisa de la OCT
exige entre 12 y 13 bits por coeficiente. Sin embargo, puede verse que en el blo­
que de muestras la posibilidad de ocurrencia de los distintos valores es aproxima­
damente igual, mientras que en el caso de las componentes frecuenciales los valo­
196
197
TlCNOLoc;iA ACTUAl Df THE"I.'ilÓN
..
ca)
BLOQUE ORIGINAL DE 4 x 4 MUESTRAS
•Del BIDIMENSIONAL
VALOR
MÁXIMO
; 32
'28
';24
'20
"2
',.
8 D/~~
4ftO~ CC1Ó/y
I<:O/Yr"l(
Figura 7.18.
Nótese la polarización en la probabilidad de ocurrencia de valores altos en las bajas frecuen­
cias de la representación frecuencial.
res están muy polarizados. El coeficiente de la esquina superior corresponde a la
frecuencia cero, es decir, al nivel de DC, y es el que tiene la máxima amplitud. A
medida que nos movemos hacia la esquina inferior, ya sea a través de las filas o de
las columnas, la amplitud decrece rápidamente, de manera que en las proximida­
des de la esquina inferior, que corresponde a las altas frecuencias, la mayor parte
de los coeficientes son cero o están muy cerca de cero. Esta polarización del valor
de los componentes de frecuencia facilita la codificación de longitud variable, de
manera que podemos emplear palabras cortas para la codificación de los valores
más frecuentes y palabras largas para la codificación de los valores menos frecuen­
tes. Esto es similar a la polarización de la probabilidad de ocurrencia de los valores
de amplitud proporcionada por la DPCM.
Aun siendo procesos distintos, podría relacionarse, aunque sólo sea a efectos
pedagógicos, la DPCM con la DCT. La primera trabaja en el dominio de las ampli­
tudes temporales, mientras que la segunda lo hace en el de la energía de las com­
ponentes frecuenciales. Sin embargo, ambas hacen esencialmente lo mismo: pola­
rizan la probabilidad de ocurrencia de los distintos valores. Así podríamos enten­
der la DCT como una DPCM especial que proporciona, por un lado, el valor
medio de un grupo de muestras (valor DC) y, por otro, los valores diferenciales, a
COnlJ)resión en ddeo
modo de tasas de varianza de distinta frecuencia. Estos valores difirenciales se
denominan "coeficientes AC"
(t."
823L. ., ecturo en Z18ZQ8
En la figura 7.19 (a) la señal de entrada presenta sólo suaves variaciones en la
dirección horizontal. El valor de la esquina superior izquierda de la DCT (c) repre­
senta el valor de frecuencia cero, es decir, la componente continua de! bloque o, si
se prefiere, el valor promediado de todos los píxeles del bloque. Lógicamente este
coeficiente es e! de mayor energía, de manera que proporciona el valor más alto.
A estos valores más altos, pero infrecuentes, se les otorgan los códigos VLC más
largos. Por otro lado, a los valores más frecuentes, como 0, 1 Y-1, se les otorgan
los códigos más cortos, El cero, por ejemplo, podría codificarse con un solo bit.
Nótese que si sólo se codificaran los coeficientes de DC de cada bloque de la ima­
gen aparecería una especie de "efecto mosaico", es decir, la imagen seguiría man­
teniendo su nivel medio.
•••••000 0 G0EOJ0~ITJ@]ITJITJ
•••••LJUU;;J ~ITJITJITJ0lCJJlCJJ0lCJJ
•••••CJOU~ ~ITJITJITJITJITJ00ITJ
•••••GDD~ ~ITJITJ0000ITJ0
••••IIDDO~ ~ lCJJ0 0lCJJlCJJlCJJl~lCJJ
••••mOUU2 ºlCJJITJlCJJlCJJ~~00
••••~UOD~ ~lCJJ0lCJJlCJJ00lCJJ0
••••IiiUUU~
u
~~0lCJJlCJJlCJJlCJJlCJJlCJJ
0§:5]@]~[50][6D]@J[6D]~ en
_	 UJ
~UJ
0~~~~~@J[6D]~	 U
¡¡::
UJ
0§:5]@]~~~@][6D]m	 O
en0§:5]@]~~~~~~	
U

UJ

lCJJlssJ@]~~~~~~	
g
o
~lCJJlssJ[25J~~~~~~ ¡:=
u
UJlCJJlssJ~~~§@J~~ -'

0lssJ~~~~~~~ :§:

43,5
~ o ~' o h' o~
l/o Va VOl l/o
FIN
170 170 170 170
o;Vo)l/o-¿'
Va l/o-.. 0)/0 V~
al/¡, l/¡, Va l/o o¿,l/o Va
~
0;1/0~Va Vo~Va 0,,170 ~.
o l/o Va"Va Va o l/o"V o
01/0 Va l/o)l/ou¿, 0)/0 V~
o~Va,~170•~1/0•¡-­
Va
Figura 7. 19.

La forma más eficaz de leer los coeficientes frecuenciales proporcionados por la DCT es

siguiendo una pauta en zigzag. Estadísticamente es la forma de asegurar que pronto se encon­

trarán largas cadenas de ceros.

199
198
TI;C:'-!OLOGII ACTUI1. UI: TLl[,¡IÓ;'
Cuando el bloque DCT representa la señal de luminancia de, por ejemplo, una
sei'ial 4:2:2, resulta ventajoso realizar la lectura o serialización del bloque siguien­
do una pauta en "zigzag", comenzando por el coeficiente de menor frecuencia
espacial (en la esquina superior izquierda) y terminando por el de mayor frecuen­
cia espacial (en la esquina opuesta). De esta forma, en la mayoda de las imágenes,
la secuencia de coeficientes tiende a decrecer rápidamente e incluso en la mayoría
de los bloques DCT se llega muy pronto a una situación en que todos los coefi­
cientes restantes son cero. Una vez que se alcanza esta situación, resulta más con­
veniente transmitir un código especial de FIN, en lugar de seguir enviando ceros
repetidamente. Esto es similar a la marca de final de archivo (EOF o End f!.f File)
que se coloca después del último byte de información real de un archivo de orde­
nador. Un clúster determinado del disco duro contendrá muchos bytes después de
la marca de EOF. Tales bytes fueron en su momento escritos por el sistema 'opera­
tivo durante el formateo del disco, pero no contienen información real y no serán
leídos por el programa de aplicación.
En la práctica pueden utilizarse dos pautas o esquemas para la lectura de los
coeficientes frecuenciales de la DCT. La pauta de la figura 7.20 (a) proporciona una
lectura simétrica de los coeficientes horizontales y verticales y es preferida en el
caso de imagenes no entrelazadas, es decir, cuado los bloques DCT pertenecen a
una imagen formada por un solo campo secuencial. La pauta (b) muestra una ten­
dencia a Icer primero los coeficientes verticales y es preferida cuando hay mucha
información vertical, como sucede en el caso de imagenes entrelazadas, en que los
bloques codificados pertenecen a un campo concreto de los dos que forman la ima­
gen. En tal caso las filas consecutivas de los valores de amplitud del bloque DCT
corresponden a líneas de televisión separadas en dos unidades en la imagen, por lo
que la probabilidad de aparición de altas frecuencias verticales es mayor.
A V1 11 V1 A V1
IV) VV) IIV) /
/ ( ( Al ( Al
) ) ) 'V [) 'V
/
/ / / / /
1 I I 1
/ 11 1/ 1/ 1/
-r-­
(a) (b)
Figura 7.20.

Los dos posibles esquemas de lectura de los coeficientes frecuenciales proporcionados por la DCT.

___~C~O~l1"lp.r(':-;i('1Jl en ,íci..-'O
9. Recuantificación de los coeficientes
Es bien sabido que la sensibilidad al ruido en las imágenes de television no
depende del 'alar absoluto del ruido, sino de la relación entre el nivel de la señal
y el nivel del ruido, de forma que en las zonas oscuras de la imagen el ruido es
mucho más visible que en las zonas claras, ya que en estas últimas la propia imagen
tapa al ruido. Esto es lo mismo que sucede con el soplido de las cintas de audio, el
cual sólo se percibe durante los silencios o en los "pianísimos". El NICAM, que es
un sistema de compresión de datos de audio, saca provecho de este fenómeno de
enmascaramiento.
Tal vez sea menos conocido el hecho de que la perceptibidad del ruido en las
imágenes depende también de las frecuencias espaciales a las que se añade. Tal
como se puede ver en la figura 7.21, el sistema de pereepcion visual humano mues­
tra máxima sensibilidad al ruido en las zonas lisas o de baja frecuencia, mientras
que decae rápidamente a medida que aumenta la frecuencia. En otras palabras, las
altas frecuencias espaciales enmascaran el ruido. Estas altas frecuencias correspon­
den a las finas texturas o a los bordes de los objetos. En estas zonas el ruido gene­
rado por los errores de codificación es "ocultado" por las propias tramas y detalles
finos de la imagen. Este fenómeno de enmascaramiento es la base de la compre­
sión perceptual aplicada a las imágenes de televisión.
Disponer de una representación frecuencial permite explotar este tipo de
enmascaramiento. Lo que se hace es dividir los coeficientes frecuenciales por un
factor de ponderación, siendo este último función de la frecuencia. El efecto de
este proceso de ponderación es el de reducir desproporcionadamente la precisión
en la codificación de los coeficientes que representan las altas frecuencias. El pro­
ceso es como sigue: los distintos valores frecuenciales proporcionados por la DCT
0+10 dB­

O

« OdB-­
o:::
W -10 dB
O
Z -20 dB
O
Q.. -30 dB-­
O
O -40 dB
::J -SO dB­
o:::
•
Figura 7.21.

La perceptibilidad del ruido depende de la frecuencia a la que se suma, máxima en las bajas

frecuencias y minima en las altas.
FRECUENCIA ESPACIAL

200 201
TH'NOLOGIA ACTUAl 1)[ 1El 1:'ISIOj.'
son divididos por cantidades que dependen de la posición de cada valor en el blo­
que de coeficientes. Los valores situados mas arriba y a la izquierda prácticamente
no son alterados, mientras que el factor de división aumenta de izquierda a dere­
cha y de arriba abajo. Los coeficientes atenuados son a continuación redondeados,
por truncamiento de decimales, a los valores normalizados más próximos. Por otro
lado, el decodificador dispone de la tabla de coeficientes de división que se han
aplicado a los valores frecuenciales y lo que primero hará es multiplicarlos por una
matriz inversa a la que utilizó el codificador. De esta forma lo que se pierde es pre­
cisión en la representación de los valores frecuenciales, especialmente en los
correspondientes a las altas frecuencias, aunque se respeta el valor de magnitud a
groso modo. En otras palabras, los coeficientes son recuantificados individualmente,
con peldaños cuyo tamaño aumenta con la frecuencia. De esta forma se logra aho­
rrar bits extra en la representación de las altas frecuencias. Por tanto, el proceso
completo sería: división-truncada-reconstrucción. Estos conceptos pueden enten­
derse mejor con un pequeño ejemplo:
Tabla 7.3	 Ejemplo de recuantificación por división. redondeo y escalado, basado en
cuatro zonas de frecuencia.
ZONA EN LA
TABLA OCT ORIGINAL PONDERACiÓN RESULTADO PRECISiÓN
Valor de DC 111 x1 =111
(Sin
desplazamiento) Total
= 111
Frecuencias
bajas
Free. medias-
bajas
111
111
x1/2=011
x1/4=001
(Desplazando 1
bit) = 110
(Desplazando 2
bits) = 100
Ligero
Redondeo
Alto redondeo
Free. medias-
altas
Frecuencias
altas
111
111
x1/8=000
x1/16=000
(Desplazando
3 bits) = 000
(Desplazando 4
bits) = 000
Se convjerte
en cero
Se convierte
en cero
En la tabla 7.3 se ha utilizado un esquema de ponderación fijo basado en divi­
dir el hloque de coeficientes DCT en cinco zonas: una para el coeficiente de DC y
cuatro para los coeficientes de AC. En este ejemplo, y para que resulte más didác­
tico, se supone que todos los coeficientes tienen el valor binario "111". Puede verse
en la columna de la derecha que el resultado final es la codificación del valor de
De con total precisión. Por otra parte, hay un ligero redondeo en las bajas fre­
cuencias, un redondeo más alto en las frecuencias medias-bajas y, en este caso, una
puesta a cero en las frecuencias medias-altas y altas. Los redondeos hacen que cier­
tos valores aparezcan con mucha mas frecuencia que otros. Por ejemplo, el valor
"lOO" será muy frecuente, ya que los valores originales "IJl", "110", "101" y, por
supuesto, "lOO" podrán degenerar en "lOO" si se les aplica el redondeo "x 1/ 4". Lo
anterior ayuda a la codificación de longitud variable, basada en la polarización de
la probabilidad de ocurrencia.
___________________________________-'c"'"lIl,,ll'pre:-,i()11 ('11 ,-ídcll
Por otro lado, cuando los valores de entrada son bajos y el redondeo fuerte
(como en el caso de las frecuencias medias-altas)' altas), el proceso anterior gene­
rará largas cadenas de ceros, a las que se aplicará la codificación de secuencias o el
código especial de "final de bloque" (EOB). En la practica muchos sistemas de com­
presión aplican un factor de división distinto para cada uno de los coeficientes espa­
ciales del bloque DCT, como en el caso del ejemplo sigUiente:
16
12
14
14
18
24
49
72
11
12
13
17
22
35
64
92
10
14
16
22
37
55
78
95
16
19
24
29
56
64
87
98
24
26
40
51
68
81
103
112
40
58
57
87
109
104
121
100
51
60
69
80
103
113
120
103
61
55
56
62
77
92
101
99
La tabla anterior muestra los factores por los cuales son divididos los coeficien­
tes de frecuencia proporcionados por la DCT para los bloques de luminancia en el
sistema de compl'esión de imagenes estaticas JPEG. Esta tabla representa unos
niveles de recuantificación de los coeficientes muy agresivos (en JPEG se puede
escoger entre un conjunto muy variado de tablas en función del grado de compre­
sión deseado). Utilizando esta tabla, las imagenes reconstruidas mostrarían con
mucha probabilidad ciertas degradaciones. Para comenzar, la máxima precisión, o,
si se prefiere, la minima recuantificación, se obtiene en (H =O, V =2) Yen (H =
1, V = O), frecuencias espaciales a las cuales el sistema de percepción visual huma­
no presenta la máxima sensibilidad, Por la forma en que trahaja la DCT, dividir por
16 el valor de DC equivale a no perder precisión.
Lo anterior significa introducir errores en la representación de la magnitud de
las altas frecuencias espaciales, es decir, sc introduce ruido en estas frecuencias,
pero, como se ha visto, en estos casos el ruido puede ser tolerado. También puede
entenderse como una cierta pérdida de resolución en las altas frecuencias de la
imagen, con lo que se parece a los VTR analógicos, donde las señales de alta fre­
cuencia son reproducidas con menor precisión que las de baja frecuencia como
resultado de la grabación en FM.
1O. Todas las herramientas juntas
Cuando se desea obtener un factor de compresión alto, manteniendo el maxi­
mo grado de calidad posible, es necesario combinar varios procesos distintos. En
este ejemplo se trata de comprimir la información de una imagen en sí misma, es
decir, sin procesar la redundancia temporal. Éste podda ser el caso de un magne­
toscopio digital, como el DVCPRO, Betacam-Digital, etc. El primer paso consiste
en dividir la imagen en bloques de 8 x 8 píxeJes. Estos bloques, que representan la
información de luminancia de la imagen, son sometidos a la transformada DCT
bidireccional. A continuación el bloque es leído en zigzag y el valor de cada coefi­
202
203
TI.:C'OI.()(¡). ,KllUL DI. I [LJ:'I~IO:,-'	 _
ciente recuantificado en función de la frecuencia gue representa, es decir, de su
posición en el blogue transformado. A la salida del recuantificador se procede a la
codificación de secuencias y a continuación a la codificación de longitud variable.
El último paso consiste en formar paguetes de bits de longitud fija para su trans­
misión, grabación, etc.
La DCT no se realiza sobre el valor de amplitud de los píxeles. Por el contrario,
previamente se resta a cada muestra un valor fijo de 128 (con lo que los valores resul­
tantes podran ser positivos o negativos). Esto se hace para gue el rango de amplitu­
des de las tres señales (Y, R· Y YB·Y) se extienda entre los mismos margenes (hay gue
recordar gue las señales diferencia de color pueden ser positivas o negativas y estan
centradas en cero). Así, en el nuevo bloque de amplitudes, al gris medio le corres­
ponde un valor "cero"; el valor positivo mas alto es 127 y el mas bajo ~127 (por sim­
plificación, en la figura se han mantenido los valores absolutos). A continuación se
realiza la DCT de cada bloque. Los valores proporcionados son expresados con una
resolución mínima de la bits, lo que eguivale a multiplicar por cuatro (añadir dos
ceros a la derecha es multiplicar por 22, es decir, por cuatro). En la figura 7.22 puede
seguirse el dlculo del coeficiente de DC, desde el bloque de amplitudes hasta el blo­
que de coeficientes frecuenciales. El valor de DC se calcula como el valor promedio
de todos los valores de amplitud del bloque de codificación.
Un problema gue se genera con este tipo de codificación es que el factor de
compresión es variable, ya que está en función de la entropía de la imagen de
entrada. Esto supone que la tasa de bits a la salida del compresor será también
I 10 bits ..l.8bítS
~	 XI 231) 30 2)(] -JO 2Xl JO 230 I I I 208

30 230 30 no 30 130 JO 130 I
 , :~g
2l:) 230 no 130 2X1 230 'lO 130

!230 :no 230 2JO no 2JO 230]]0 1
I

·13
oI ~~~ ~~~ ~;~ ~;~II -391230 2301JO 1JO no 1JO 230 130 I o
/ 2l) 2JO 230 230 2JO 2JO 2JO 2JO I I O
-138
o

((16.30':(481230)) '~'73 ·lJ I}·U 0.10 o .A8 ¡ -25

~2Oe~36--0~J9-t----:-!l4-~JI
of&4"~80"lJO.128"511 O o o o o o o 01
uIr-
-145h4-208____ .1J8 .25 o -17 o ·37 o .91
o
000000001 -54

o

I
Sb 1~ ~ I~ ~ 2~ ~ ~ I o
IMAGEN II 2 o 2 o J o--.iJ 01
o
87
o
16
o
·27
i .¡"L~_-----.J
Figura 7.22.
Esquema de un compresor intracuadro, desde la formación de los bloques OCT a la entrada
hasta la salida de los paquetes comprimidos.
204
variable, lo cual no resulta conveniente en la gl'ah<lción o transmisión de imágenes
en televisión, ya gue los canales tienen un ancho de banda fijo. Para resoh'Cr este
problema se permite gue los coeficientes de ponderación, gue regulan el proceso
de recuantificación, puedan ser más o menos severos en función de la ocupación
de la memoria ele salida. Cuando la memoria está poco llena, los coeficientes de
frecuencia apenas son alteraelos. En caso contrario, éstos se atenúan en m<l)'or
medida. Éste será el tema del próximo apartado.
11. El btiffer de salida
La cantidad de información redundante e irrelevante en la señal de vídeo
depende de la complejidad de la' escena. Aguí "complejidad" se refiere a la cantidad
ele detalle que contienen las imágenes y el grado de correlación o "pautas" que pre­
senta dicho detalle (información espacial), así como a la cantidad de movimiento y
su predictibilidad (información temporal).
Así pues, tanto el porcentaje de redundancia como el de irrelevancia son fun­
ción del tiempo. Además el tamaño de ambos componentes no depende el uno del
otro. Si se guiere mantener una calidad constante, la cantidad de información
remanente (la relevante) será variable.
La línea 1 de la figura 7.23 muestra cómo se elimina la mayor parte de la redun­
dancia sin tocar para nada el resto de la información, por lo que se puede trans­
portar la señal comprimida sin que se produzca ninguna degradación (compresión
sin pérdidas). Esto genera una señal de calidad estable, pero una tasa de datos de
salida variable. En la línea 2 se elimina parte de la información relevante o "básica"
(compresión con pérdidas). Así se logra una tasa de salida de datos estable a cam­
bio de una calidad variable. Una frecuencia de datos estable es necesaria en el caso
de la transmisión digital y en la grabación en cinta de vídeo. En la línea 3 no se eli­
mina ningún tipo de información (no hay compresión). Es la única forma de garan­
tizar a la vez "calidad estable" y "tasa de salida de datos estable". El precio que hay
U
- -3
~O~ ~m~
!~~~~~! INFORMACiÓN REDUNDANTE
I JINFORMACIÓN IRRELEVANTE
I ¡INFORMACiÓN RELEVANTE
Figura 7.23.

La cantidad de informacian relevante que puede contener una sei'íal de video varía en funcían

del tiempo.

20S
TrCNOloC!A :Cl tHI DI Tri H'¡,¡():,
""~"-"
I
Detector
de nivel
i:'~,~
t~-Jtt"1
~:;"
Paquetes de información
,: 'r~ i(
....~"_.--,-.-
~
~;
Control del grifo ,--.. ..-".~
Buffer f
~,
Caudal de Información esta~
Figura 7.24.
Se trata de evitar que el bidón ni se desborde ni se vacíe. Un mecanismo regula la cantidad de
información cerrando o abriendo el grifo de la recuantificación.
que pagar, en este caso, es un ancho de banda mucho más elevado que en el caso
de los sistemas que emplean compresión.
Algunas apucaciones permiten tasas de bits variables, pero en el caso de los mag­
netoscopios digitales y en la mayoría de las aplicaciones de televisión es necesario que
la cantidad de bits grabados, procesados o transmitidos por unidad de tiempo sea esta­
ble. ¿Cómo convertir una información de complejidad variable en una tasa de salida
estable? La solución consiste en disponer de un bt!fJer o almacén de salida que regule
en cada momento la "dureza" de la compresión. Se trata de evitar que el bt1Jer se vacíe
o se desborde. Si el bt1Jú está a punto de desbordarse, el factor de compresión se redu­
ce; si está casi vacío, se aumenta. De esta forma es posible lograr una tasa de daros de
salida estable con una calidad de imagen "casi estable". Esto puede compararse a man­
tener un bidón de agua con un llenado óptimo (sin que se vacíe ni se desborde), a
pesar de que los aportes de agua son variables en el tiempo.
En resumen, la "compresión intracuadro" consiste en la elaboración de los valo­
res DCT, seguida de la recuantificación de los coeficientes y de la codificación de
longitud variable. El control de llenado asegura una tasa de datos de salida estable,
forzando la recuantificación si fuera necesario.
12. Compresión temporal
En los apartados anteriores se ha utilizado el concepto de "correlación espacial".
Por tal se entiende la medida en que el valor de un píxel depende o está relacio­
nado con el valor de los píxeles vecinos. Alta correlación significa que el valor de
un pixel es muy dependiente del valOl' de los otros píxeles de la imagen; baja corre­
laCión, todo lo contrario. Por tanto, correlación y redundancia son términos liga­
dos el uno al otro.
Compresión en vídco
12.1. Redundancia temporal
La redundancia no sólo existe dentro de las imágenes, sino también entre ellas.
Una secuencia de imágenes, representando una escena en movimiento, es un con­
junto de muestras temporales. En una escena típica los cuadros que representan las
muestras temporales tienden a mostrar un cierto grado de similitud. En otras pala­
bras, se obtendría un cierto éxito si se predijera una imagen a partir de otras imá­
genes ya disponibles. Esto significa que la nueva imagen contiene muy poca infor­
mación real o, en términos más técnicos, muy poca entropía.
Out
Compresión perceptual
OCT =Transformada en coseno discreto X =Recuantificador
VLC =Codificación de longitud variable
Figura 7.25.

Diagrama de bloques basico de la compresión intracuadro.

La redundancia de información entre cuadros sucesivos puede ser aprovechada
codificando y transmitiendo sólo aquello que cambia de un cuadro a otro. El con­
cepto básico de la compresión temporal se ilustra en la figura 7.26. Para simplifi­
car, en esta imagen se ha congelado el fondo y sólo se ha permitido al tiburón avan­
zar unos pocos píxeles hacia la derecha y hacia arriba, de un cuadro a otro. Si res­
tamos ambas imágenes obtendremos algo similar a la figura 7.27, donde todo el
fondo vale cero y sólo contiene información real aquello que se ha movido.
Figura 7.26.

Entre dos imagenes consecutivas existe un alto grado de similitud o correlación.

206
207
T;T1'(n~)GíA ,'CTlP'¡ ¡,")Ie-.,-,1I~I",E~",¡"-Ic'J,,,~,-' _
__ COmp¡c>J,'¡¡¡ Cl.Ul!l~
Figura 7.27.
Residuos obtenidos al restar dos imá­
genes consecutivas.
Si se hiciera la DCT de la imagen de la figura 7.27, está claro que todos coefi­
cientes de todos los bloques correspondientes a las zonas del fondo valdrían cero
(al menos en un caso ideal). Sólo los bloques que incluyen el tiburón de primer
plano presentarían valores reales. Tan largas cadenas de ceros serían fácilmente tra­
tadas por Jos pl"Ocesos de codificación de longitud variable y codificación de
secuencias.
12.2. Compensacíón de movimiento
Es posible ir un paso más adelante en la reducción de datos gracias a las técni­
cas de predicción y compensación de movimiento. Basta con pensar que, aunque el
tiburón se haya movido de un frame a otro, sigue siendo e! mismo tiburón y man­
tiene la mayoría de sus atributos de forma, color, textura, iluminación, etc. La idea
básica es comunicar al decodificador las fronteras que delimitan la forma del tibu­
rón y la medida y dirección en que se ha movido de un cuadro al siguiente. El deco­
dificador sólo tendrá que recuperar el tiburón de! cuadro "A" y copiarlo desplaza­
do en e! cuadro "8".
Hoy por hoy los codificadores no son capaces de reconocer la forma de los obje­
tos yprocesarlos como entidades. En lugar de csto, ]0 que se hace es dividir la ima­
gcn en bloques de compensación de movimiento, llamados "macrobloques" (por­
que suelen incluir varios bloques DCT), por ejemplo, de 16 x 16 píxeles, como en
la figura 7.28. A continuación se busca en qué medida los macrobloques de píxe­
les de la imagen "A" se han desplazado cn la imagen "B". Para ser más exactos, son
los macrobloques de la imagen "B" los que se desplazan dentro de un área de bús­
queda predeterminada (por ejemplo, moviéndolos ±16 píxeles en la dirección
horizontal y ±8 en la vertical) y se comparan con los macrobloques correspon­
dientes de la imagen "A". Aquella igualación que dé mínima diferencia se toma
como "vector de desplazamiento". A continuaci6n e] codificador "resta" el macro­
bloque de la imagen "8" (la actual) del macrobloque desplazado de la imagen "A"
(la anterior). Este resto o residuo será posteriormente procesado como si se trata­
ra de un macrobloque de imagen normal, es decir, DCT + ZIGZAG + VLC. .. La
Figura 7.28.

En este? ejemplo (un tanto ideal) la

mayoría cte los bloques proporcionan

residuos cero )' bloques de desplaza­

miento nulos. Sólo unos pocos blo­

ques se han movido de la imagen "A"

a la "E".
diferencia es que como el bloque contiene muy pocos valol'es rcales y, en cualquier
caso, estos son muy pequeños, contendrá igualmente muy pocos coeficientes de
frecuencia reales, los cuales serán, además, de escasa energía. Ciertamente con esta
técnica es necesario codificar, además de los coeficientes DCT, los vectores de des­
plazamiento, para lo cual se necesitan bits extras. Aun así, es eficaz. Sólo se nece­
sitan dos valores (uno para H y otro para V) para comunicar el movimiento de un
conjunto de 256 píxeles (16 x 16). Además los vectores de desplazamiento pre­
sentan una gran correlación entre ellos, ya que son consecuencia del movimiento
de objetos sólidos, por lo que se utiliza para ellos codificación diferencial DPCM.
Así pues, para cada bloque (en este ejemplo de 16 x 16 píxeles) se obtiene un
"vector de desplazamiento", formado por dos parámetros: desplazamiento hori­
zontal y desplazamiento vertical del bloque. En las zonas estáticas el vector valdrá
cero, en las zonas en movimiento el valor del vector de desplazamiento servid. para
reconstruir la imagen "B" a partir de la "A".
Puede compararse la codificación intercampo con las técnicas DPCM estudia­
das en apartados anteriores. En ambos casos no se procesan valores absolutos, sino
valores diferencia. Esto descorrelaciona la información, disminuyendo la entropía.
La situación pintada en los párrafos anteriores es un tanto idílica. Para comen­
zar, los objetos al moverse no sólo cambian de posición, sino también de tamaño
cuando se acercan o se alejan de la cámara. Igualmente pueden girar, mostrando
partes nuevas, o desvelar, al moverse, zonas de la escena que no estahan presentes
anteriormente. Además siempre está presente un cierto nivel de ruido, el cual, al
ser aleatorio, cambia de una imagen a otra.
El tiburón de la figura 7.26 probahlemente se aleje o se acerque a la cámara al
tiempo que se desplaza hacia la derecha, cambiando su tamaño. Además seguro que
los pececillos del fondo no se quedarán quietos. Al contrario, huirán rápidamente
y no todos en la misma direcci6n. En una situación como ésta hasta el pulso de!
operador de cámara introducirá movimiento y, por tanto, descorrelaci6n entre
imágenes. Así los vectores de movimiento de los distintos bloques de imagen sc
parecen menos entre ellos, a la vez que los bloques restados entre imágcnes no sue­
len proporcionar residuos nulos, lo que significa que habrá un cierto número de
coeficientes reales en los valores DCT.
208
209
Th'NOL(}(;h ACTUAL DI: TEI f'ISJ()~
Aunque no sea perfecta, la codificación intercuadro reduce notablemente el
número de coeficientes de frecuencia que hay que codificar. Dado tu1 cierto nivel
de calidad, las "imágenes diferenciales", también llamadas "imágenes predecidas",
ocupan como promedio entre la mitad y la tercera parte que las imágenes que se
comprimen en sí mismas, denominadas estas últimas "de compresión intracuadro".
13. Combinar espacial y temporal
Los sistemas que necesitan un alto factor de compresión, manteniendo un buen
nivel de calidad de imagen, necesitan combinar las técnicas de compresión espacial
y temporal. Comparese la figura 7.29 con la 7.25. Los procesos de compresión son
esencialmente los mismos, sólo que los pasos de transformación, compresión per­
ceptual y compresión entrópica no se realizan sobre bloques DCT de la imagen de
entrada, sino sobre bloques obtenidos como diferencia entre la imagen actual y la
precedente.
In
Out
Decodificación locsl
OCT = Transformada en coseno discreto
VLC = Codificación de longitud variable
X = Recuantificador
(VlC"+DCT")= De longitud variable a fija + DCT inversa
Figura 7.29.

Diagrama de bloques simplificado de la compresión intercuadro.

Para simplificar, el diagrama de bloques de la figura 7.29 no contempla la com­
pensación de movimiento. Debe notarse la presencia de un conmutador de entra­
da, necesario para cambiar del modo "intracuadro" al modo "intercuadro". Para
lograr un factor de compresión alto interesa que la mayoría de las imágenes se
codifiquen en el modo intercuadro. Sin embargo, una de cada "n" debería codifi­
carse en el modo "intra". En aplicaciones como la difusión de television digital, la
distancia entre dos imágenes "intra" determina el tiempo de reaccion del televisor
al cambiar de canal, ya que éste necesita esperar a disponer de una imagen codifi­
cada "intracuadro" (espacialmente) para poder iniciar el trabajo de decodificación.
ComDrL'~i6n en "ídl·O
Además, al igual que sucedía con la codificación DPCM, la compresión intercua­
dro tiende a propagar errores, los cuales no se cancelan hasta que aparece una ima­
gen intracuadro. Intercalando una imagen intra cada once imágenes diferenciales se
tendría un tiempo de espera de mas/menos medio segundo como promedio en el
momento de encender el televisor o cambiar de canal. Sería necesario, además,
insertar una imagen intra extra cada vez que se produjera un cambio de plano.
14. Precompresión
Puede resultar muy útil "preparar" o, al menos, "cuidar" las imágenes antes de
la compresión. De esta forma podr:in obtenerse factores de compresión elevados
con alta calidad de imagen. Aunque se trata de procesos previos a la compresion,
se han dejado deliberadamente para el final del capítulo, ya que ahol'a puede enten­
derse claramente su necesidad.
En general, las mejores imágenes para ser comprimidas son aquellas que pre­
sentan el nivel más alto de calidad con el mínimo de ruido o distorsiones. Entre los
artificios que afectan y perjudican a la compresión puede destacarse: ruido aleato­
rio, restos de intermodulación luminancia-crominancia (imágenes que proceden
de PAL) y corrección de apertura excesiva (DTL).
La figura 7.30 sería un ejemplo de imagen apropiada para la compresión.
Muestra zonas fáciles, con poco detalle, y zonas más difíciles, pero es una imagen
limpia, sin ruido ni artificios.
Figura 7.30.

Una imagen "normal" con zonas de bajas frecuencias (cielo, agua, nieve) y de

altas frecuencias (vegetación y texturas en las montañas), pero, en cualquier

caso, una imagen limpia.

210
211
TI~C:()l ()(;IA ACTLJ.1. /H. 1I;LE IS¡Ó:'
14. 1. El ruido
De todos los artificios posibles, el peor es el ¡'uido aleatorio, ya que, por defi­
nicion, no contiene redundancia. Los sistemas de compresion interpretan el ruido
como infonnacion básica e intentan codificarlo con la mayor precision. As! limitan
el número de bits disponibles para codificar la parte realmente importante: la
información perceptualmente básica. Las imágenes ruidosas son tan malas candi­
datas a la codificacion con compresion, que están apal'eciendo en el mercado equi­
pos (no precisamente baratos) dedicados a la supresion o minimizacion de ruido,
especialmente para la compresion. También los arañazos y suciedad de las películas
de cine puede entenderse como ruido aleatorio, ya que no se sigue ninguna pauta
predefinida, produciéndose al azar.
Figura 7.31.

Imagen "muy ruidosa" poco apropiada para la compresion.

14.2. Exceso de corrección de apertura
La corrección de apertura horizontal y vertical (conocida como DTL) también
reduce la eficacia de los sistemas de compresión. Se trata de un proceso introducido
por la cámara de vídeo con la intención de proporcionar imágenes más nltidas y bri­
llantes. Por otro lado, un exceso de corrección genera bordes muy marcados (e
incluso dobles bordes) que aumentan e! contenido de altas frecuencias, estresando el
sistema de compresión con detalles irrelevantes. Por suerte, el DTL puede ajustarse,
de manera que es aconsejable reducir el nivel de correccion de apertura cuando se
sabe que las imágenes van a ser comprimidas. La experiencia determinará e! grado
de corrección adecuado en función de! sistema y e! factor de compresión utilizado.
COlllPresión en '·Ideu
Figura 7.32.

En la imagen de la izquierda, un exceso de correccion de detalle aumenta la entropía de la

imagen y dificulta la compresion. A la derecha, imagen deliheradamente suavizada para facili­

tar llna fuerte compresión posterior.

14.3. Suavizado de imagen
Cuando se desea obtener factores de compresion muy elevados, puede ser úti!
"suavizar" previamente la imagen. Esto supone una cierta pérdida de resolucion de
la imagen comprimida, pero es mucho más tolerable que la aparicion de artificios
como consecuencia de un exceso de compresion.
14.4. Otros defectos de entrada
No se trata de hacer una relacion exhaustiva de todos los posibles defectos de la
señal de entrada al codificador, pero sí es necesario citar al menos algunos propios
de las películas de cine, que son después convertidas a vídeo y digitalizadas. Entre
éstos destacan las ralladuras y la suciedad, especialmente al inicio y al final de la
cinta. Otro defecto importante que puede dificultar enormemente la compresion
es la inestabilidad o temblor de los fotogramas cuando se encuentran en la venta­
nilla de proyección expuestos a la luz. Tal temblor se traduce en movimiento,
"estresando" los procesos de compensacion de movimiento y compresión inter­
cuadro.
15. Artificios de la cOlnpresión
Si no se utiliza adecuadamente o si se abusa de ella, la compresión puede intro­
ducir defectos y artificios en la imagen que pueden llegar a ser muy molestos. En
general, las degradaciones introducidas por los sistemas analógicos, tales como la
reducción de la resolución por falta de ancho de banda o el ruido por mala S/N,
resultan bastante "naturales" para el sistema de percepción visual humano. No así
las degradaciones introducidas por la compresión, las cuales resultan mucho más
artificiosas e intolerables. Entre estas últimas cabe citar:
212
213
TLCNU! Ola.' ACTUAl DI" TJ~'-rU';J(')'
BLOCK/NG (efecto mosaico).-A la imagen codificada se suma una estructura de
bloques, que denuncia las fronteras de los bloques de DCT y/ o de los macroblo­
ques de compensación de movimiento.
BLUR/NG (emborronado).-En una imagen determinada la reducción de infor­
mación real, genera efectos de emborronamiento y una especie de corrimiento de
tintas (smearing)
EDGE BUSYNESS (actividad de los borcles).-Un efecto de distorsión en torno a
los bordes de los objetos, caracterizada por una variación temporal de su nitidez o
agudeza o por una variación espacial elel ruido. Puesto que se elimina más infor­
mación en las zonas de alta resolución, se genera un "ruido" en los bordes de las
imágenes.
ERROR BLOCKS (bloques erróneos).-Una forma de distorsión en la que uno o
más bloques de la imagen recibida no se corresponde con la escena original y a
menudo contrasta mucho con los bloques adyacentes. Por ejemplo, pueden apare­
cer bloques congelados o en negro.
MOSQY/TO N01SE (ruido nervioso).-Causado pOI' errores de cuantificación
entre píxeles adyacentes. A medida que el contenido de la escena varía, los tama­
ños de los escalones de cuantificación varían también, de forma que los errores de
cuantificación producidos se manifiestan como "puntos negros centelleantes", que
se asemejan a mosquitos y que se muestran aleatoriamente en torno a los objetos
de la escena.
QYANTlZATlON NO/SE (ruido de cuantificación).-Representación inadecuada
de la señal original que se produce durante el proceso de conversión de digital a
analógico. Los procesos de compresión posterior pueden enfatizar este tipo de
ruido.
Resumen
•	 La compresión permite al usuario elegir la combinación de parámetros de
muestreo y factores de compresión que mejor se adapten a sus necesidades.
Muchas aplicaciones actuales no serían posibles sin la compresión.
• La información de las imágenes de vídeo puede dividirse en tres partes:
-- El elemento redundante: Información repetitiva o predecible. Una señal de
vídeo contiene mucha información redundante. Un píxel tiende a parecer­
se a sus vecinos (redundancia espacial). Una imagen tiende a parecerse a la
que le precede ya la que le sigue (redundancia temporal).
-	 El elemento irrelevante: Información que el ojo humano no es capaz de apre­
cIar.
-- El elemento bdsico: Infor¡llJción que no es redundante ni irrelevante y que
debe retenerse.
• Toda imagen	 contiene una cierta cantidaJ de redundancia, la cual se define
como aquellos datos que son repetitivos o predecibles. La diferencia entre la
cantidad total de datos de un mensaje y su redundancia se conoce como
" , "	 ,
entropra .
•	 Es posible encontrar redundancia tanto en el espacio como en el tiempo. Hay
COlllnrCSJÓn en ·ídeo'
varios procedimientos para eliminar o reducir la redundancia espacial, lal
mayoría de ellos basados en el análisis de las frecuencias que componen la
imagen. Para reducir la redundancia temporal lo que se hace es no enviar las
imágenes de vídeo en sí mismas, sino la diferencia entre ellas.
• Los	 sistemas que comprimen temporalmente (también denominados de
compresión intercampo o de compresión intercuadro) no son adecuados para
la grabación digital profesional, ya que en este tipo de aplicaciones interesa
que una imagen sea una entidad en sí misma y no la diferencia codificada de
la imagen o imágenes precedentes.

Los sistemas reales de compresión de datos, actuales y potentes, son combi­

naciones de muchas y variadas técnicas o herramientas. Estas pueden dividir­

se en dos grupos: herramientas de "compresión sin perdidas" y herramientas

de "compresión con pérdidas". A la primera categoría corresponden: RLC,

VLC, DCT y supresión de borrados. Son técnicas de compresión con pérdi­

das el submuestreo, la DPCM y la recuantificación de los coeficientes.

Además se utilizan algunos trucos, tales como lectura en zigzag, marcado de

EüF y compensación de movimiento.

La codificación de secuencias codifica la longitud de las cadenas, es decir, el

numero de veces que un valor se repite hasta que aparece otro distinto.
•	 La codificación de longitud variable otorga códigos cortos a los símbolos más
frecuentes y códigos largos a los menos frecuentes. Para que sea eficaz es
necesario que la probabilidad de ocurrencia esté polarizada hacia ciertos valo­
res. El Huffman es uno de los códigos de longitud variable más populares.
También se utiliza la llamada "codificación aritmética".
•	 La OCT, aplicada a imágenes de televisión, procesa bloques que representan
la amplitud de los de píxeles y los convierte en bloques de valores de fre­
cuencia. En sí misma, la DCT no introduce pérdidas, siendo, por tanto, un
proceso totalmente reversible.
•	 La OPCM no codifica el valor absoluto de las muestras, sino la medida en que
cada muestra difiere de la anterior. De esta forma se reduce considerable­
mente la amplitud de los valores a codificar, lo que significa tener que emple­
ar menos bits por muestra.
Una forma de detectar la redundancia y aislar la entropía consiste en trans­
formar la señal desde el dominio de! tiempo hasta e! dominio de la frecuen­
cia.
• En el caso del procesado de imagen se necesita una transformación bidimen­
sional capaz de encontrar todas las frecuencias horizontales para todas las fre­
cuencias verticales, de manera que el número de busquedas será igual al
número de frecuencias horizontales a buscar, multiplicado por el numero de
frecuencias verticales a buscar.
•	 La OCT polariza la probabilidad de ocurrencia de los distintos valores. Esta
polarización del valor de los componentes de frecuencia facilita la codifica­
ción de longitud variable, de manera que podemos emplear palabras cortas
para la codificación de los valores más frecuentes y palabras largas para la
codificación de los valores menos frecuentes.
214
215
T¡~C1( ¡tI )(,] .. :CTlL1 1_1'-'--'-T"'U"-J-'.'°.L1"'IC-'-'}:'.'-	 _
•	 La lectura en zigzag y el marcado de "final de bloque" (EOB) acortan la codi­
ficación y facilitan la compresión.
•	 El sistema de percepción visual humano muestra máxima sensibilidad al ruido
en las zonas lisas o de baja frecuencia, mientras que decae rápidamente a
medida que aumenta la frecuencia. En otras palabras, las altas frecuencias
espaciales enmascaran el ruido. Este fenómeno de enmascaramiento es la base
de la compresión perceptual, aplicada a las imágenes de televisión.
•	 Cuando se desea ohtener un factor de compresión alto, manteniendo el máxi­
mo grado de calidad posible, es necesario combinar varios procesos distintos.
•	 La cantidad de información l-edundante e irrelevante en la señal de vídeo
depende de la complejidad de la escena. Se necesita un bt1fer de salida que
controle el nivel de recuantificación de los coeficientes frecuenciales. Así se
logra una tasa de salida de datos estable, con un nivel de calidad casi estable
•	 La redundancia no sólo existe dentro de las imágenes, sino también entre
ellas. En una escena típica los cuadros que representan las muestras tempora­
les tienden a mostrar un cierto grado de similitud. Los sistemas que quiel-en
conseguir un alto nivel de compresión intentan eliminar también la redun­
dancia temporal.
•	 Es posible ir un paso más adelante en la reducción de clatos gracias a las téc­
nicas de predicción y compensación de movimiento.
• Puede resultar muy útil "preparar" o al menos "cuidar" las imágenes antes de
la compresión. De esta forma podrán obtenerse factores de compresión ele­
vados con alta calidad de imagen.
• En general, las mejores imagenes para ser comprimidas son aquellas que pre­
sentan el nivel más alto de calidad con el mínimo de ruido o distorsiones.
Entre los artificios que afectan y perjudican a la compresión pueden desta­
carse: ruido aleatorio, restos de intcrmodulación luminancia-crominancia
(imágenes que proceden de PAL) y corrección de apertura excesiva (DTL).
CAPÍTULO 8
Los sistemas de compresión
1. Introducción
Afortunadamente no son muchos los sistemas de compresión de imágenes uti­
lizados en televisión y, lo que es más importante, parece haber una tendencia clara
a la simplificación. Los sistemas de compresión de imágenes actuales se limitan a:
• JPEG: para retoque fotográfico de imágenes estáticas.
• M-JPEG: para compresión intracuadro de imágenes en movimiento.
•	 MPEG-l Y MPEG-2: que forman una familia completa de normas de com­
presión para todo tipo de aplicaciones.
•	 Grupo DV: para compresión intracuadro aplicada a los magnetoscopios digi­
tales DV, DVCAM, DVCPRO-2S, DIGITAL-S YDVCPRO-SO.
A esto habría que añadir algún sistema de compresión para señales de contri­
bución (distribución entre centros de producción, transportadores de seña1cs,
etc.), tal como la Rec 723 del CCIR (ahora ITU-R I3T. 723). Por otro lado, el
grupo conjunto de expertos EBU-SMPTE recomienda la utilización de sólo dos
familias de sistemas de compresión: MPEG y DV, siempre que sea posible.
2. El sistema JPEG
JPEG significa Joint Picture Experts Group (grupo unificado de expertos en imá­
genes). Es un formato de compresión de imágenes estáticas, basado en la codifica­
ción del dominio trasformado. La aplicación inicial de este sistema era el retoque
fotográfico, aunque, al ser durante años el único sistema más o menos normaliza­
do de compresión de imágenes, fue adoptado por los primeros equipos de pos­
prodUCción de vídeo, tales como editores no lineales y los llamados Slow-Motion
(discos duros para repetición de jugadas deportivas).
Oficialmente el JPEG corresponde a la norma internacional ISO /IEC 10918- 1
216
TrC:'IOLOGI. ACrU-1 ()f- TFlf'IIÚ!'
(Diairal CompTeHion ond Codina l'Continous Tone Stilllmoaes). También puede encon­
trarse en la recomendación ITU-TT.81. El texto de Jos documentos del ISO )' del
ITU-T es idéntico.
Inicialmente se decidió que el núcleo básico del sistema JPEG serían las imáge­
nes monocromas y que, en el caso de imágenes en color, la compresión se aplica­
ría por separado a cada uno de los componentes de color. Si se parte de una ima­
gen monocroma, con una resolución de ent¡-ada de 8 bits/muestra, la meta origi­
nal era lograr imágenes "reconocibles" con 0,25 bits/píxel; de calidad "excelente"
con 1,0 bits/píxel e "indistinguible" del original con 4 bits/píxel. A medida que se
fue avanzando, el comité JPEG se impuso metas más exigentes, de manera que en
las pruebas finales se lograron los sigUientes resultados: 0,083 bits/píxel (recono­
cible), 0,75 bits/píxel (excelente) y 2,25 bits/píxel (indistinguible). Se definió,
además, un nuevo nivel de calidad de 0,25 bits/píxel, denominado "útil". Aunque
en JPEG se puede escoger el factor de compresión desde, digamos, 2: 1, hasta más
de 100: 1, se obtienen resultados muy interesantes y calidades "casi transparentes"
con factores de compresión hasta 15: 1.
Cuando JPEG se aplica a señales vídeo, antes de la compresión las imágenes se
pasan al espacio de las componentes de color. Si, POI- ejemplo, la imagen se ha ori­
ginado en RGB, se realiza una transformación (mediante una matriz de multipli­
cación 3 X 3) a Y, Cb, Cr. A continuación las componentes de color se submues­
trean en un factor de 2, tanto en la dirección horizontal como vertical. Con esto
se reduce a la mitad la cantidad global de datos.
Después la imagen se divide en macrobloques (MB), donde cada MB está for­
mado por cuatro bloques de luminancia de 8 x 8 píxeles cada uno, un bloque de
Cb de 8 X 8 píxeles y un bloque de Cr, también de 8 X 8 píxeles. Cada bloque de
8 X 8 será posteriormente tratado de forma independiente.
El siguiente paso consiste en transformar cada bloque, desde el dominio de las
amplitudes al de las frecuencias espaciales, utilizando una DCT discreta de 8 x 8.
Con esta operación la mayor parte de la energía del bloque se concentra en'el valor
de DC y en unos pocos coeficientes AC.
JPEG aplica un codificador diferencial (DPCM) sencillo a los coeficientes de
DC de los bloques DCT, a partir de los bloques adyacentes de luminancia, es decir,
los coeficientes de DC no se codifican con sus valores absolutos, sino con valores
diferencia con respecto a los valores DC de bloques DCT vecinos (figura 8.1).
Ahora ya puede obtenerse la mayor compresión en JPEG: una vez que se ha eli­
minado la energía de DC de la imagen, los restantes coeficientes frecuenciales
pueden cuantificarse aTo55o-modo. Esta cuantificación burda introduce errores, pero
tales errores no se introducen directamente en el valor de los píxeles (en el domi­
nio espacio-amplitud), sino en los coeficientes frecuenciales (en el dominio trans­
formado). Afortunadamente los errores en el dominio transformado no son muy
perceptibles. JPEG utiliza una tabla de cuantificación de valores discretos para los
coeficientes frecuenciales, que depende del coeficiente particular en cada momen­
to. La tabla se ha diseñado en función de la agudeza espacio-frecuencial del sistema
de percepción visual humano: los errores relativamente grandes son tolerables en
las frecuencias espaciales altas.
Los sislcma:'l dc compresión
2.1. Aplicación de la codificación Huffman
Una vez realizada la cuantificación de las componentes frecuenciales, estos coefi­
cientes cuantificados presentan propiedades estadísticas redundantes. Leyendo la tabla
de coeficientes en zigzag se aprecia una cierta tendencia a obtener largas cadenas de
ceros y otras secuencias (ciertos valores son más probables que otros). Esto permite a
JPEG aplicar la codificación de longitud variable Huffman. Este último paso no intro­
duce pérdidas y, en cambio, mejora mucho la capacidad de compresión de las imágenes.
Finalmente, JPEG empaqueta los coeficientes de AC y el coeficiente de DC
mediante la codificación de secuencias (codificación de cadenas mediante descripto­
res, que dicen el número de veces que se repite el mismo valor, hasta que aparece otro
distinto). JPEG utiliza un método bastante sofisticado para la codificación de secuen­
cias, basado en la codificación de "categorías y bits adicionales", los cuales forman, al
juntarse, los llamados "descriptores". Veamos cómo se codifica una determinada
secuencia. Supongamos que después de realizar la DCT sobre un bloque de 8 x 8
píxeles se obtiene, leyendo en zigzag la siguiente secuencia de datos: 2, -21, -8, O, O,
O, O, O, -3, todo ceros. Se trata de los primeros nueve coeficientes de AC, ya que el
coeficiente de DC se codifica por separado y no entra en la codificación de secuencias.
Tabla 8.1	 Utilización de la codificación de secuencias en el sistema JPEG.
Cadena 2 -21 -8 00000, -3 Todo Ceros
Ceros/categoría 0/2 0/5 0/4 5/2 EOB
Palabra 01 11010 1011 111111110111 1010
Bits adicionales 10 01011 0111 00
En el ejemplo anterior, para codificar los nueve coeficientes de frecuencia OCT,
más el símbolo especial EOB (final de bloque), se han necesitado 40 bits (fila "pala­
bra" + fila "categoría"). Esta codificación se basa en dividir los posibles valores pro­
porcionados por la DCT en categorías. A continuación se codifica el número de la
categoría a que pertenece el valor y unos pocos bits adicionales que especifican su
posición dentro de la categoría.
Tabla 8.2	 Categorías y bits adicionales para la codificación de los coeficientes de AC.
Nótese que el número de bits adicionales iguala a valor de la categoría.
Categoría Valores incluidos en la categoría Bits adicionales
1 -1. 1 O, 1
2 -3,-2,2,3 OO. 01. 10, 11
3 -7.-6,-5,-4,4.5,6.7 000, ,011,100 111
4 -15, -8. 8, 15 0000 ,0111,1000, ,1111
5 -31 -16.16, , 31 00000 , 01111. 10000 , 11111
6 -63 -32, 32, 63 etc.
7 -127 -i34. 64, ,127 etc.
8 -255 -128. 128 255 etc.
9 511 -256, 256 ,511 etc.
218
219
1[Ci'OlOCÍ-- ,.C'1 U;L pr TEU'l'iru.'
La combinación 0/2 (ningún cero, 'alOl- 2) pertenece a la categoría 2. Esta cate­
goría se codifica con al (tabla 8.3»)' los bits adicionales 10 mostrados en la tabla 8.2.
Tabla 8.3	 Parte de la tabla de códigos de Huffman para los coeficientes de AC de la lumi­
nancia.
Cadena/
tamaño
Longitud
del código Palabra codificada
EOB
0/1
0/2
0/3
0/4
0/5
4
2
2
3
4
5
1010
00
01
100
1011
11011
._.
1/1
1/2
....
4
5
...
1100
11011
...
2/1
2/2
2/3
. ...
5
8
10
....
11100
11111001
1111110111
...
3/1
3/2
3/3
....
6
9
12
...
111010
111110111
111111110101
...
4/1
4/2
4/3
....
6
10
16
....
111011
1111111000
1111111110010110
...
5/1
....
7
....
1111010
Igualmente el "~21 ", que pertenece a la categoría 5, debe codificarse como
"0/5", que significa "ningún cero, valor incluido en la categoría S". Esta combina­
ci6n recibe el código "11010" (según la tabla de Huffman mostrada en 8.3), pero a
este código hay que añadirle los bits adicionales "O 1O11" (por el -21), según la tabla
8.2.
Como puede verse, el proceso completo es bastante complicado y no vale la
pena dedicarle más tiempo. Lo importante es entender que a partir de los valores
DCT se forman "descriptores". Cada deSCriptor incluye un valor de longitud de la
cadena de ceros, seguido de un valor de categoría. A cada combinación de longi­
tud y categoría se le adjudica una palabra codificada de Huffman. Ahora, puesto
que cada categoría incluye varios valores posibles, la palabra codificada Huffman es
seguida por un cierto número de bits que indican cuál de los posibles valores den­
tro de la categoría es el adecuado.
Puede verse, a partir de la figura 8.1, que la codificaci6n JPEG utiliza las
herramientas y trucos clásicos propios de los sistemas basados en transformación
DCT.
_______________________________----.!Lus sistema.': de cOllllJl"I:si6n
Figura 8.1 .

Diagrama de bloques del codificador-dccodificadO!- JPEG. Se muestra sólo un canal, por ejem­

plo, el de luminaneia.

JPEG incluyc dos modos básicos de compresión:
1.	 Compresión sin pérdidas basada en codificación predictiva, seguida de codi­
ficación aritmética o codificación Huffman, donde la señal decodificada es
idéntica a la original, pero el factor de compresión es muy pequeño (garan­
tizado 1,6: 17; típico 2: 17) y, además, la frecuencia binaria de salida es varia­
ble.
2.	 Compresión con pérdidas (perceptual) basada en DCT progresiva o secuen­
cial. En este caso el factor de compraesi6n es más alto y puede ser elegido
por el usuario en función de la calidad deseada. Los factores de compresión
típicos, en el modo "con-pérdidas", están entre 8: 1 y 100: 1. Además, gracias
a los vectores de cuantificación variables, se puede obtener una frecuencia
de salida binaria estable.
2.2. Características del JPEG
Aunque la normalización de este sistema se inició a mediados de los 80, en los
últimos años han aparecido nuevos métodos de compresión basados en la "codifi­
caci6n por transformación", los "vectores de cuantificación", el "filtrado en sub­
bandas", los "wavelets" y los "fractales". La meta o propósito del JPEG ha sido
lograr una serie de requisitos mostrados a continuación.
• Dos modos de codificación: entr6pica (sin pérdidas) y perceptual (con perdi­
das).
• Utilizar las últimas técnicas de compresión.
Permitir a las aplicaciones (o al usuario) escoger entre calidad de imagen y
grado de compresión.
220 221
Tt,C:'JOI od..... ACTlJ.1 nl- TI:I n"I'iIO;'.'
• Trabajar con independencia del tipo de imagen (sin limitación por dimensión
de la imagen, espacio de color, tamai'io y forma del pixel, etc.).
• Relativamente baja complejidad	 de cómputo, que permite soluciones "sólo
software", incluso en ordenadores de gama media.
•	 Permitir la codificación secuencial (una sola pasada) y la codificación progre­
siva (múltiples pasadas).
•	 Ofrecer la opción de "codificación jerárquica", mediante la cual se puede
obtener una "copia de baja resolución" sin necesidad de descomprimir la ima­
gen con resolución total.

Las prinCipales características del sistema JPEG son:

• Elección del espacio de color, RGB o Y, Cb, Cr.
• Elección de la estructura de muestreo: 4:4:4, 4:2:2 o 4:2:0.
• Tamaño de imagen variable hasta 65.536 píxeles por 65.536 líneas.
• Precisión de la señal de entrada de 8 bits en el sistema básico y de 8 a 12 bits
en el sistema extendido.
• Precisión del proceso de cuantificación DCT de 9 bits.
• Utilización de un cuantificador DPCM lineal para el coeficiente de DC.
•	 Proceso de cuantificación adaptativa a nivel de los macrobloques de
16 x 16 píxeles.
• Máxima precisión de los coeficientes de DC =11 bits.
• Tablas de recuantificación diferentes para Y, Cb y Cr.
• Esquema de RLC-VLC Huffman modificado.
• Tablas de Huffman "descargables" incluidas en el archivo de imagen.
• Factor de escala variable en base a bloques.
• Sólo compresión espacial.
• Elección entre exploración entrelazada o progresiva.
• Tratamiento de errores del canal, mediante la definición de varios códigos de
sincronización que limitan los efectos en la propagación de errores.
Puesto que la compresión JPEG se realiza exclusivamente dentro del cuadro
(compresión intracuadro), resulta espeCialmente adecuada para aplicaciones inter­
activas donde es necesario acceder a cualqUier imagen en cualqUier secuencia posi­
ble.
3. El M-JPEG
Como se ha visto en el apartado anterior, JPEG es un sistema de compresión de

imágenes de tipo "intracuadro", donde todo el procesado se realiza dentro de la ima­

gen. Motion-]PEG o M-]PEG es básicamente lo mismo que JPEG, pero adaptado a

las imágenes de televisión (tamaño del ráster, espacio de color, etc.). Al igual que

]PEG, el Motion-]PEG es un sistema de compresión sólo intracuadro. El concepto es

sencillo: cada imagen de la secuencia de vídeo se codifica como una imagen ]PEG.

El Motion-JPEG no forma parte de las normas JPEG, siendo un estándar de
Jácto creado por los fabricantes que, sin embargo, ha proporcionado una potente
herramienta de compresión, durante una época en que no se disponía de otros sis­
temas. Parece que la llegada de las normas MPEG está desplazando al M-]PEG.
Los si.sT~mas de comlJresión
Una particularidad del M-JPEG es que suele utilizar codificación adaptatil'a (la
dureza de la recuantificación de los coeficientes es variable) para proporcionar un
número fijo de bits por cuadro, lo cual es muy adecuado a las aplicaciones de tele­
visión. Puede decirse que mientras JPEG es esencialmente un sistema "calidad
constante-frecuencia binaria variable", e! M-JPEG es un sistema de "calidad varia­
ble-frecuencia binaria constante".
3.1. Variantes M-JPEG
Existen dos variantes: Baseline M-JPEG (M-JPEG base) y Machematícally Lossless
M-JPEG (M-JPEG matematicamente sin pérdidas).
Baseline M-JPEG
La norma ISO 10.918 define la codificación M-JPEG. El vídeo se muestrea,
normalmente, según la Rec. ITU-601, con 8 bits por muestra. Alternativamente
puede utilizarse e! formato SIF (352 x 288 x 25 campos). La estructura de codifi­
cación es del tipo 4: 2: 2. La frecuencia binaria de la señal comprimida puede variar
desde aproximadamente 1 Mbyte/s para una calidad tipo VHS, hasta más de 15
Mbytes/s para una calidad superior al Betacam SP. M-JPEG utiliza siempre com­
presión intracuadro, por lo que resulta adecuada para los sistemas de edición no
lineal.
Aparecen artificios o defectos espaciales con frecuencias por debajo de
6 Mbytes/s. Por encima de esta frecuencia binaria los artificios existen, pero no
son visibles. La norma M-JPEG no hace mención a la codificación de audio, por lo
que cada fabricante implementa su propia solución.
El M-JPEG se utiliza, sobre todo, en las estaciones de edición no lineal, desde
rjJ-line hasta on-line y para un amplio segmento de! mercado: desde la producción
multimedia hasta la posproducción de alto nivel. El coste del codificador M-JPEG
es relativamente bajo, ya que se trata de un sistema simétrico, donde la compleji­
dad del algoritmo se reparte a partes iguales entre el codificador y el decodifica­
dor.
M-JPEG sin pérdidas
El M-JPEG, matemáticamente sin perdidas, utiliza sólo los algoritmos
M-JPEG que son matemáticamente reversibles, es decir, la codificación de longi­
tud variable, la codificación de secuencias, etc., pero no aquellos que, como la
recuantificación de los coeficientes de frecuencia DCT, se basan en las característi­
cas del sistema de percepción visual y que suelen denominarse como compresores
perceptivos. El esquema de codificación es del tipo ITU-601 , con 8 bits por mues­
tra y estructura 4: 2: 2. Dependiendo del tipo de imagen, se obtienen frecuencias
binarias del tren comprimido entre 9 y 15 Mbytes por segundo (entre 72 y 120
Mb / s), lo que proporciona factores de compresión entre 2,5: 1 y 1,5: 1. La princi­
pal ventaja del sistema M-JPEG sin perdidas es que proporciona una calidad total
de la señal despues de descomprimida, es decir, igual que un D-1 . La editabilidad
es la misma que en la variante baseline, aunque con el sistema sin perdidas no hay
límite en la composición multicapa, ya que no se genera ningún tipo de artificio
222
223
Tl.ll'!()U)(;I., lClll:J l>L TLU.H....J()·
______~l,u~.."i:'llcma:-. (J~1..~~J!l+)j..~:lÓn
que pueda propagarse de una pasada a la siguiente. Desde 1997 están empezando
a aparecer en el mercado sistemas de edicion no lineal basados en la yariante sin
pérdidas M-JPEG, orientados hacia la posproduccion on-line de alta calidad.
Factores de compresión
Puesto que se trata de un sistema de compresion estrictamente intracuadro, el
factor de compresion logrado con los compresores M-JPEG perceptiyos (con pér­
didas) no puede ser muy alto. En aplicaciones profesionales de edicion no lineal sue­
len utilizarse factores de compresion entre 3: 1 y 6: 1. Los discos duros para repeti­
ciones de jugadas deportivas pucden lIcgar hasta 8: J, pero no más. Por su lado, los
comprcsores M-JPEG sin pérdidas no supcran factores dc compresion de 2: 1.
Por desgracia, el M-JPEG no es un sistema normalizado, de manera que los dis­
tintos fabricantes han optado por soluciones diferentes. Prácticamente cada equi­
po utiliza una yariante distinta del M-JPEG. Esto significa que, por ejemplo, un edi­
tor no lineal basado en M-JPEG no puede comunicarse directamente con un "slow­
motion", aunque los dos utilicen compresion M-JPEG. Normalmente el intercam­
bio debe realizarse decodificando (a Rec. 601 en e! mejor de los casos) y volvien­
do a recodificar en el equipo receptor. En un futuro inmediato muchas aplicacio­
nes reemplazarán el M-JPEG por el más moderno MPEG, de forma que e! inter­
cambio en el dominio comprimido ya será posible.
4. La familia MPEG
El Movina Picture Experts Group (MPEG) es un grupo internacional formado bajo
los auspicios de! ISO Yel lEC. Las normas desarrolladas por este organismo se han
dividido en dos grupos: MPEG-1 y MPEG-2.
Los siguientes documentos recogen la normalizacion MPEG:
• ISO/lEC 11172-1 MPEG-1 Systems.
• ISO/lEC 11172-2 MPEG-I Video Codina.
• ISO / lEC 11172-3 MPEG-I Audio Codina.
• ISO/lEC /3818-1 MPEG-2 Systems.
• ISO/lEC 13818-2 MPEG-2Video Codina.
• ISO / lEC 13818-3 MPEG-2 Audio Codina.
El MPEG-1 comenzo en 1988, con la intencion de lograr un procedimiento de
codificacion capaz de ubicar imágenes en movimiento en soportes de tipo CD­
ROM. Para esto es necesario rebajar la frecuencia de bits a solo 1,5 Mbits/s. Ésta
es la frecuencia de transferencia de datos de un eD de audio, de! cual se deriva e!
CD-ROM. En el CD la señal de audio se muestrea a 4-4-, 1 KHz (una reminiscencia
de la época en que la señal de audio PCM tenía que grabarse en cintas de vídeo).
Cada muestra se cuantifica con 16 bits. Por tanto: 4-4-,IKHz X 16 bits x 2 canales
= J ,41 Mbits/s. A esto hay que añadir algunos datos de sincronizacion, identifica­
cion, usuario y proteccion contra errores, lo que conduce a una frecuencia binaria
de 1,5 Mbits/s. Con una frecuencia de bits tan baja, el sistema MPEG-1 no puede
proporcionar imágenes de calidad broadcast. Probablemente su aplicacion más nor­
mal sea la de mostrar imágenes en movimiento sobre pantalla de ordenador.
MPEG~MbiIS/~~
~ ·.·~f
2 a5 Mbils/s¡;:1II. [SDT~r=
dV: .c.r--/ '&1'
5 a 15 Mbits/s r=====!!!!!!!!!!
HOTV
Figura 8.2.

La familia MPEG cubre todo tipo de aplicaciones, desde baja definición (LDTV) hasta alta

rlefinición (HDTV).

El MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar imáge­
nes y sonidos para receptores, que pueden ir desde LDTV hasta HDTY. En principio
el MPEG-2 se ha diseñado para proporcionar imágenes de alta calidad, tanto a nivel
de contribución como a nivel de emisión digital. La resolución de las imágenes
MPEG-2 se acerca a las de la norma CCIR 601 (720 x 576 píxeles!cuadro en la
norma 625/50 y 720 x 480 píxeles/cuadro en la norma 525/60). La frecuencia de
bits puede ir desde 2 hasta 100 Mbits!s. El MPEG-2 permite señales de entrada de
tipo secuencial y de tipo entrelazado. También soporta la nueva relacion de aspecto
16:9, así como multiples canales de audio y vídeo dentro del mismo tren binario.
4.1. El sistema MPEG-1
MPEG-1 es un sistema que emplea codificacion intercuadro con prediccion y
compensacion de movimiento. Para mejorar el proceso de prediccion, los macro­
bloques de 16 x 16 píxeles del campo actual son comparados con todos los posi­
bles bloques de 16 x 16 píxeles del campo anterior, que pueden obtenerse sobre
un área de búsqueda dada. El bloque que proporciona la mejor igualacion se selec­
ciona para su codificacion y se resta del bloque del campo actual. Este proceso de
igualacion minimiza los valores diferencia transmitidos y compensa el movimiento
de los objetos dentro de una imagen. Esto se conoce como compensacion de movi­
miento. Por supuesto, es necesario enviar, además de los valores diferencia, el valor
del vector de movimiento.
224 225
TreNO] OGíA -CTLI:~I DE TfL['I.'iI('P,'
4. J.1. Compensación de movimiento
La compensación de movimiento es el proceso que sigue a la predicción y fun­
ciona de la siguiente forma: se envía una imagen "1" (intra-cuadro), la cual es, ade­
más, almacenada para ser comparada con la próxima imagen de entrada y encon­
trar los vectores de movimiento de los diferentes bloques que componen la ima­
gen. La imagen "1" se desplaza de acuerdo a estos vectores yse compara con la pró­
xima imagen para producir los datos diferencia. Tanto los datos diferencia como el
valor de los vectores son transmitidos. En el receptor, la imagen original ''I'' se
almacena en memoria, se desplaza segun el valor de los vectores y a continuación
.~.
Resta A desplazado de B ___'"'
A. r~l-~
UliJiza los ~', )~[- .
vectores para
desplaur A
)'l~ti~
l:]
,,-~..
...
--""
1--. 8:
Qr:l:] Midefll
movimiento
entre Ay B
Figura 8.3.
La compensación de movimiento se basa en la comparación, bloque a bloque, de la imagen
actual con la imagen previa. Los bloques de la imagen actual se mueven dentro de un área de
búsqueda y se restan de los bloques correspondientes de la imagen anterior. La posicion que
dé mínima diferencia generará los vectores de desplazamiento.
los datos diferencia se suman para recrear la imagen "P" (predecida).
Se puede enviar cualquier número de imágenes "P" (datos diferencia más vec­
tores) entre dos imágenes "1". Tanto las imágenes "1" como las "P" pueden ser some­
tidas a posteriores procesos de compresión.
4.1.2. ImáBenes J, P, B
Como ya se ha comentado, en la terminología MPEG las imágenes (o bloques)
codificadas intracuadro se denominan imágenes tipo "1", mientras que las imágenes
Los sistl'll1il' dt: compn'si('JJl
predecidas intercuadro pasan a denominarse imágenes tipo "P", Lógicamente, la
primera imagen dc un grupo que deba ser tratado independientemente debe ser
de tipo "1", Puede ser necesario disponer de imágenes de tipo "1" con una cierta fre­
cuencia para permitir la edición)' el cambio de canal en el receptor, Aunque la fre­
cuencia de aparición de imágenes '']'' es variable, típicamente una de cada doce
(parámetro M) es de este tipo. Esta imagen "1" servirá de referencia para la codifi­
cación y decodificación de las correspondientes imágenes "p", La distancia entre las
imágenes "1" y las "P" se denota mediante el parámetro "N",
El sistema MPEG proporciona, además, un nuevo tipo de imagen denominada
"bidireccional" o, abreviadamente, "B". A diferencia de las "p", las imágenes de tipo
"B" pueden predecirse a partir de imágenes que son anteriores o posteriores en el
tiempo. Las imágenes "E" tienen una doble utilidad: en primer lugar, la predicción
bidireccional proporciona una mejor aproximación al valor real, lo que reduce el
error de predicción, a la vez que se reducen también los efectos del ruido. En
segundo lugar, cuando un objeto se mueve por la pantalla, el borde anterior del
objeto va tapando u ocultando partes del escenario, mientras que el borde poste­
rior va descubriendo o revelando nuevas partes del escenario. En el primer caso la
igualación de los bloques de la imagen actual debería hacerse con referencia a algu­
na imagen que la preceda en el tiempo. En el segundo caso la igualaci6n debed.
hacerse con referencia a alguna imagen que sea posterior, donde la parte corres­
pondiente del escenario haya sido ya revelada. Cuando no se produce ocultación ni
revelado del escenario, se puede utilizar una mezcla de predicción hacia adelante y
hacia atrás al 50%. Esto genera el doble de vectores de movimiento, pero reduce
PREDICCiÓN HACIA DELANTE
187654321
Bp BBBBB
....... _....
--~
PREDICCiÓN BIDIRECCIONAL
Figura 8.4-.

Tanto las imágenes ''1'' como las "P" pueden servir para predecir la.-; imágenes "B", aunque estas

últimas no se utilizan nunca como predictores.
227
226
1srF
Error de prediCCión
de imagen ~r·. ~p~. o "B~
TEC~'()lOGI: :CTLJ:L DI: TEll.'ISf(').''
el error de predicción. Las imágenes "E" pueden obtenerse a partir de imágenes "1"
o de imágenes "P", pero ellas mismas no pueden servir de predicción, de manera
que no pueden propagar los errores que pudieran contener.
Bits 3, 2, 1 Modo
000 No intra
OO1 Intra
O1 O Hacia delante
O1 1 Bidireccional
1 OO Hacia atrás
En la codificación de las imágenes "P" y "E", la DCT, RLC, VLC, etc. se aplican
sobre la imagen diferencial compensada en movimiento, es decir, sobre los resi­
duos obtenidos al restar la imagen actual de la imagen o imágenes de referencia.
En MPEG-l todos los macrobloques (ME) dc una imagen "I" dcben codificarse
como "intracuadro". En cambio, los ME de las imágenes "P" pueden codificarse
como "intra" o como "no-intra" (temporalmente reconstruidos a partir de una ima­
gen previa). Por su parte, los ME de una imagen "E" pueden seleccionarse entre
"intra", "predecidos hacia delante", "predccidos hacia atrás" o "bidireccionales". La
cabecera de cada ME contiene, entre otras, la siguiente información: "Macroblock­
type", con una serie de conmutadores (bits) mostrados en la tabla anterior.
4.1.3. Diagrama de bloques del codificador MPEG-f
Para conseguir una frecuencia de bits tan baja (sólo 1,5 Mbits/s), el MPEG-1 no
debe eliminar sólo la redundancia, sino que necesita eliminar también una buena parte
ENTRA.DA ¡CONV.E.RSIÓN
4:2'2 2'1 'O -lo
-----+ ELIMINACiÓN
2"'CAMPO
Vectores "B"
haCia adelanle
o hacia atrás
Veclores .p~
haCia adelante
Figura 8.5.
Diagrama de bloques del codificador MPEG-I.
Imagen decodificada _
localmenle
(s610 "1" o ·P")
Lo:-. sistcma::; dc (Omprc;;;jOll
de la entropía. La entropía de entrada se reduce submuesb-eando en las tTes dimen­

siones. Si la señal de entrada es del tipo 4: 2: 2, se comienza por descartar uno de cada

. dos campos. A continuación la seiial 4:2:2 se convierte en ob'a del tipo 2: 1:0, lo que

reduce los datos originales a 3/16. Esto genera lo que se conoce como "famuto de

enb'ada fuente" (SIF). Después de esta compresión 5: 1 se forman los macrobloques de

16 x 16 pixeles. Esto genera 6 bloques DCT por cada macrobloque (4 dc Y, I dc CR

y 1 de CE, todos ellos de 8 x 8 píxeles). Los procesos posteriores mosb'ados en la

figura logran una compresión 21: 1, que, multiplicada por el submuesb'eo previo 5: 1,

proporciona una compresión global superior a 105: 1. De esta manera se pasa de los

168 Mbits/s iniciales a 1,5 Mbits/s.
Las imágenes submuestreadas SIF son almacenadas en una memoria, la cual per­
mite acceder a ellas "fuera de secuencia", es decir, cn un orden distinto al de entra­
da. Esto es necesario para la codificación bidireccional "E". La primera imagen de
un grupo será siempre de tipo "1", A continuación el codificador elige entre pre­
dicción hacia adelante, predicción hacia atrás), predicción al 50% para cada macro­
bloque, codificando la que proporcione el menor erl'Or. El codificador dispone de
un decodificador local, al que le sigue un almacén de imagen. Este almacén per­
mite el acceso a imágenes de referencia pasadas y futuras, necesarias para la codi­
ficación bidireccional. En la codificación predictiva algunas veces la predicción con
compensación de movimiento es perfecta, de manera que el errO!' de predicción es
cero. En este caso MPEG envla al decodificador un código cspecial, diciéndole que
no existe error de predicción y que puede obtener los valores del bloque utilizan­
do sólo los vectores de movimiento.
MPEG-1 permite la codificación "sólo audio" o "sólo video", La capa II de la
especificación de audio, por ejemplo, ha ganado aceptación en la industria del
audio para aplicaciones de distribución (enlaces dc contribución, captaciones en
localizaciones remotas, ete.). La capa 1II es la base del famoso formato MP3.
4.2. El sistema MPEG-2
El MPEG-1 quedó prácticamente congelado en 1991. Las modificaciones que
en el se introdujeron después de esa fecha sólo tuvieron interés académico, ya que
ese mismo año se inició el b-abajo de normalización del MPEG-2, el cual se con­
virtió en un estándar en 1995. La meta inicial fue sencilla: puesto que MPEG-l no
puede trabajar con vídeo entrelazado), sólo soporta calidad SIF, se necesitaba una
norma que incluyera señal de vídeo con calidad de radiodifusión.
El MPEG-2 es una superextensión del MPEG-I, en el sentido de que es capaz
de decodificar señales comprimidas MPEG-l. Esto hace que la familia MPEG sca
adecuada para todo tipo de aplicaciones, desde videoconfercncia hasta alta defini
ción. MPEG-2 podda definirse como un MPEG-l al que se han añadido ciertas
mejoras, tales como herramientas para trabajar con señales entrelazadas, una sin­
taxis escalable, un conjunto de perfiles y niveles, que permitcn acomodar un rango
muy amplio de aplicaciones y una "capa del sistema" que permite generar trenes
binarios "multiprograma".
Es importante resaltar que las normas MPEG no define la forma en que debe rea
228 229
TH'NOI nGI;: ACTlI-L D[ rEI E'¡';¡ÓlJ
!izarse la codificación o las herramientas concretas que deben usarse, sino la sintaxis y
la semántica del tren binario, tal y como debe entenderla el decodificador. La "semán­
tica" es simplemente W1a colección de reglas (en ocasiones llamadas algoritmos) que
le dicen al decodificador cómo recomponer la información, mientras que la sintaxis
se refiere a las cabeceras, descTiptores, orden de multiplexado de la información, etc.
Cualquier tren binario que respete estas normas podrá ser catalogado como MPEG.
Esto proporciona una gran flexibilidad al sistema, ya que es posible ir mejorando las
herramientas de codificación, obteniendo más calidad ymayores factores de compre­
sión. Lo único que hay que respetar es la sintaxis y la semántica.
Un punto fuerte de los sistemas MPEG es su flexibilidad en el nivel de calidad de
imagen, principalmente determinado por la n-ecuencia de bits. En MPEG-2 aparece,
además, el concepto de "escalabilidad". Este principio supone que lm decodificador
MPEG-2 relativamente económico puede decodificar imágenes válidas utilizando
solamente una parte del tren binario. Los datos de vídeo consisten en una serie de tre­
nes binarios, Bamados "capas". La primera capa se conoce como "capa base" y siempre
puede ser decodificada independientemente de las demás. Las otras capas se denomi­
nan "capas de realce" y pueden utilizarse para mejorar la resolución espacial, la reso­
lución temporal y otras características escalables. Cuando sólo se utiliza una capa se
dice que los datos de vídeo no son escalables. Si se emplean dos o más capas se dice
que los datos presentan una "jerarquía escalable". Una ventaja adicional de la escalabi­
lidad es que ayuda a que los datos de vídeo sean más resistentes a los errores de gra­
bación/transmisión, reservando las vías con mejores características de error para la
capa que contiene la información de base.

Las principales características de la norma MPEG-2 pueden resumirse en:

•	 Permite diferentes frecuencias de muestreo de la crominancia (4-:2:0, 4:2:2,
4:4:4).
• Permite entradas de vídeo entrelazadas y progresivas.
•	 Contempla el procesado de señales "pulI-dawn 3:2" procedentes de telecine
americano (24 ips a 30 fps). ,
• Permite ventana "pan-and-scan" móvil a partir de imágenes más apaisadas.
• Amplio rango de calidades de imagen, desde LDTV a HDTV
• Genera canales con tasas de bits fijas y variables.
•	 Contempla modos de "bajo retardo" para comunicaciones bidireccionales.
• Acceso aleatorio al tren binario (para decodiflcación rápida, cambio de canal, etc,).
• Puede decodificar señales MPEG-I (compatibilidad hacia abajo).
•	 Se puede editar el material codificado (este aspecto debe mejorarse y está en
revisión).
• Avance	 rápido y rebobinado del material codificado grabado en cinta, con
calidad de visionado.
• Tren de bits resistente a errores.
NOTA: El "pull-dolYll 3:2"es un método utilizado para convertir las 24- imágenes de la película de cine en los 30 cuadros de
televisión del sistema americano NTSC. En este sistema se trabaja con 60 campos. Si cada fotograma se descompusiera en dos
campos, tendríamos 48 campos/s. La relación entre 60 y 24 es 2,5: 1, es decir, para realizar la conversión cada fotograma tendría
que generar 2,5 campos. Puesto que: esto no es posible, la solución consiste en generar tres campos con el primer fotograma, dos
con el segundo. tres con el tercero. dos con el cuarto. etc.• siguiendo una secuenda 3:2:3:2 ...• es decir. con cada cuatro campos
de entrada se obtienen cinco campos de salida. por simple duplicadón del segundo campo. de una de cad. dos imágenes.
Los sistemas de comnrcsión
Puesto que la función del MPEG es reducir la tasa binaria, no tendría sentido
codificar dos veces el mismo campo. Por esto, cuando se procesa material de vídeo
americano (525/60) procedente de telecinado, el codificador busca e identifica el
campo repetido, el cual omite, codificando sólo 24 ips, 'pero añadiendo una indi­
cación para el decodificador: "esto es material vídeo procedente de cine que debe
inflarse de 24 ips a 30 ips en el momento de su exhibición".
4.2.1. PedIlesy niveles en MPEG-2
En el apartado anterior ya se ha comentado que uno de los puntos fuertes del
MPEG-2 es el concepto de "escalabilidad". Ésta se logra estructurando el tren bina­
rio en varias capas (hasta tres), comenzando por la capa base independiente y aña­
diendo una o dos capas de realce. Así se genera la matriz de perfiles y niveles mos­
trados en la figura 8.6.
Los perfiles pueden entenderse como conjuntos de herramientas de codifica­
ción y se refieren a la forma en que se comprimen y codifican las imágenes. Cada
perfil es más sofisticado que el anterior y añade herramientas o métodos suple­
mentarios. Los niveles se refieren al grado de calidad y la aplicación y van desde
~625/50
NIVEL
SIMPLE
No Imágenes B
4:2:0
No escalable
PRINCIPAL
Imágenes B
4:2:0
No escalable
SNR
Imágenes B
4:2:0
SNR escalable
ESPACIAL
Imágenes B
4:2:0
SNR escalable
Espacial escalable
ALTO
Imágenes B
4:2:064:2:2
SNR escalable
Espacial escalable
ALTO 60 Mb/s (máx.) 100 Mb/s (máx.)
1.920 pixels
1.152 lineas 120 Mb RAM 256 Mb RAM
ALTO-1.44D 60 Mbls (máx.) 60 Mb/s (máx.) 60 Mb/s (máx.)
1.440 pixels
1.152 lineas 64 Mb RAM 126 Mb RAM 126 Mb RAM
PRINCIPAL 15 Mb/s (máx.) 15 Mb/s (máx.) 15 Mb/s (máx.) 20 Mbls (máx.)
720 pixels
576 lineas 6 Mb RAM 16 Mb RAM 32 Mb RAM 32 Mb RAM
. ­
BAJO 4 Mb/s (máx) 4 Mb/s (máx.)
352 pixels
26611noas 4 Mb RAM 6 Mb RAM
..... En los modos escalable SNR. escalable espacialyperfiles altos. se permite como
máximo una capa de realce SNR (además de la capa base).
..... En los modos escalable espacial y perfiles altos se permite como máximo una
capa de realce espacial escalable (además de la capa de base y la capa de realce
SNR).
..... Las líneas porcuadro se refieren al número de líneas activas.
..... Las cifras sobre memoria RAM se refieren a los decodificadores y pueden variar
según su implementación.
Figura 8.6.

Combinaciones de perfiles y niveles aceptados en la codificación MPEG-2.

230
231
TEC~L¡ :1..'"' U·I nr 1 ,,".I~X"-'.L:I.''''''.!c),--- _
"alta definición" hasta calidad "VHS". Con cuatro niveles v cinco perfiles pueden
obtenerse hasta ,einte combinaciones. Sin embar-ao no todas parecen útiles. En la
b '
actualidad c;nce de las veinte combinaciones posibles pueden ser consideradas
aprobadas. Estas se conocen como "MPEG-2 CanjOrmancc Paints". Las fuerzas del
mercado determinarán qué combinaciones terminan por imponerse.
Antes de la transmisión, el audio, el ddeo y otros datos ~uxiliares se combinan
en un múltiplex llamado "A/PEG-2 Trampart Strcam" (TS). Este es un sistema de
paquetes de longitud fija, en el cual cada paquete está formado por 188 bytes, de
los cuales 184 contienen datos úti!cs. Finalmente el MPEG-2 añade una informa­
ción de servicio, llamada "Pra8rammc Specific InjOn~atian" (PSI), la cual etiqueta cada
servicio de! múltiplex )' comunica al receptor los detalles esenciales, tales como los
canales de audio que acompañan al vídeo. Existe un segundo tipo de múltiplex,
denominado "Pro,qram Stream ", que utiliza paquetes de longitud variable y está
orientado a la distribución multimedia, como se verá más adelante.
4.2.2. Escalabilidad en MPEG-2
Uno de los aspectos más interesantes del MPEG-2 es su estructura de capas,
gracias a la cual es posible obtener un sistema escalable. Se define como escalable
aCjue! sistema en el que una corriente de bits (denominada información principal o
capa base) puede ser decodificada por todo tipo de receptores, desde los más sen­
cillos hasta los más caros)' sofisticados. Esta capa base puede estar submuestreada
o subcodificada (menos muestras o menos bits por muestra) con respecto a la ima­
gen original, pero siempre puede ser decodificada individualmente. A partir de
aCjuí el tren binario contendrá una o varias capas de realce, Cjue podrán ser añadi­
das a la capa base en los decodificadores más sofisticados, para mejorar de alguna
forma la calidad de la imagen. La tabla de combinaciones dc perfiles y niveles de la
figura 8.6 propone dos formas o tipos de escalabilidad: espacial y SNR. Veamos con
unos ejemplos su utilidad. '
Escalable SNR: Una codificación MPEG convencional que aplique una fuerte
recuantificación de los coeficientes de AC generará una imagen con una relación
señal/ruido (SNR) moderada. Si esta imagen se decodifica localmente en el pro­
pio codificador y se resta píxe! a píxcl de la imagen original, se obtendrá una "ima­
gen de! ruido de cuantificación frecuencial". Esta segunda imagen diferencial puede
ser, a su vez, comprimida y transmitida como sei'íal de realce. Un decodificador
sencillo sólo decodificará e! tren binario básico y ruidoso, mientras Cjue un deco­
dificador más complejo puede decodificar ambos trenes binarios )' combinarlos
para obtener una imagen de bajo ruido. Éste es el principio de escalabilidad 5NR.
Escalable espacial: Como alternativa, se pueden codificar sólo las bajas frecuen­
cias de una imagen HDTV, las cuales generarán el llamado "tren binario básico",
suficiente para un receptor SDTV convencional. Decodificando localmente la ima­
gen de baja definición y restándola de la original se obtiene una imagen de realce,
la cual puede codificarse como señal de ayuda. Un decodificador adecuado combi­
nará ambas señales para recrear la imagen HDTV Éste es el principio de la escala­
bilidad espacial, ilustrado en la figura 8.7
Lo~-.:&~tJ::.!l1i!_~d~~-º..!.!.l.i..Jrc~0JJ
IMAGEN MEJORADA
CAPA BASE
+
CAPA DE~~AL~".
___ ," ~-~";,,.J' t.__
//~ ,~- - . / .... ' " I / , '
í -,. .,- / ( .
( / 
i,," :',
Figura 8.7.

Una imagen de alta definición puede lograrse sumando lIna señal dc "capa base" y una señal dc

¡¡realceJl
•
La mejora, o escalabilidad, puede referirse a la relación señal a ruido, a la reso­
lución de la luminancia, a la resolución de la crominancia o a la resolución tempo­
ral. En los futuros sistemas de alta definición digital puede resultar ventajoso dis­
poner de una señal base, a partir de la cual puedan obtenerse diferentes niveles dc
resolución y calidad. Los receptores portátiles suelen disponer de una instalación
de antena de menor calidad, de manera que los datos de la capa base deberán
transmitirse con mayor protección contra errores. Estos receptores portátiles de
pantalla pequeña podrían descartar los coeficientes de las altas frecuencias antes de
proceder a la DCT inversa. Las capas de realce se pueden transmitir con menor
protección contra errores, ya que serán decodificadas por receptores con antena
fija. En el caso de deterioro grave de la señal, la presencia de la capa base fuerte­
mente protegida asegura que la degradación de la imagen se producirá de forma
progresiva, lo cual nos acerca un poco al tipo de degradación Cjue se produce en la
señal analógica.
4.2.3. Estructura del múltiplex MPEG-2
El elemento más peCjueño del múltiplex MPEG se denomina "bloCjue" )' tiene
un tamaño de 8 líneas por 8 píxeles. En la figura 8.8 puede verse que los bloques
se agrupan formando "macrobloques" (MB), de acuerdo con alguno de los perfiles
233
232
Tf.CNOI OdA AClUAL f)[ TU EVISIÓN
GRUPO-BLoaUE
• 4:2:0 >'" DE IMAGEN;yC IMAGEN I
~(j (Gap) /~ IMAGEN00] .;:;«; GRUPO
13Jl2J 8J 0
~? DE IMAGENI,::íESI IMAGEN I
y C, CR o (Gap) GEN
MACROBlOQUE 1MB) l , M A
GRUPO
Figura 8.8.
Estructura del tren binado MPEG-2, desde el bloque hasta la secuencia.
DE IMAGE;rt! IIVII"I'-"C:'" I(Gap) I IMAGEN I
I
--BLOQUE
-BLOQUE
~ 4:2:2
0[1] 00
0000
y c. cR'
MACROBLOQUE (MB)
MACROBLOQUE (MBI
; 4:4:4
[Q]IT] 00 lTI[I)
00 0~ LUlm
y C. CR
MPEG-2. Los macrobloques 4:2:0 están formados por 4 bloques de luminancia, 1
bloque de cn y 1 bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminan­
cia, 2 bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloques de
luminancia, 4 de CB y 4 de CR. Como puede verse, los MB 4:2:2 contienen en
total 8 bloques, es decir, 512 muestras (256 de "Y" más 128 de "CB" más 128 de
"CR"). Los segmentos (slices) son conjuntos de macrabloques que siguen la secuen­
cia de líneas horizontales propia de televisión. Los segmentos pueden variar de lon­
gitud, desde un mínimo de un macrobloque hasta un máximo de una línea de
anchura por 16 de altura.
El inicio y fin de un segmento deben localizarse dentro de una misma línea. Los
segmentos proporcionan un mecanismo adecuado para el tratamiento de errores.
Cuando se produce un error en el tren de datos, el decodificador puede saltar al
siguiente segmento. Una imagen está formada por un cierto número de segmen­
tos. Las imágenes pueden ser de tipo "1", "P" o "B" y se agrupan para formar "gru­
pos de imágenes" (GOP). Típicamente hay 12 imágenes por GOp' el cual comien­
za siempre con una imagen "1", aunque algunos decodificadores pueden detectar
cambios entre campos sucesivos y, si el cambio es sustancial, el codificador supone
que se ha producido un cambio de escena y fuerza una nueva imagen "1", acortan­
do el GOP La codificación intercuadro se realiza siempre dentro de un GOP (salvo
en GOP especiales, llamados "abiertos"). Finalmente, uno o varios GOP se unen
para formar una "secuencia de vídeo", la cual tiene su propio código de inicio y de
fin, así como datos que definen el tamaño de la imagen, las frecuencias de mues­
treo y las matrices de cuantificación.
Los sislcmJ~ de cOnlnrcsión
NOT:: !"llt:ntras 'lUl' f.lPEG-l no IInpOI1(' limitaciollC's en ellJl1lailo dcl segmento, que pu~'dc ir desde llll solo MB
hasta una Imagen completa o cualquier otTO tamaño intermedio, MPEG-l ohliga a que todo e} segmento esté contenido
en una misma HI.l de MB. PUCc!C' ser una fila completa o menos, pero nunca más.
Veamos ahora el múltiplex MPEG, desde el elemento mayor hasta el más
pequeño. El tren binario forma una estructura jerárquica que comienza en la
secuencia de vídeo y termina con los bloques DCT (figura 8.9). Cada nivelo capa
de la estructura posee su código de arranque y su cabecera. Esta última contiene
información sobre el contenido de esa capa. Las extensiones son datos adicionales,
no básicos, de la capa en que se encuentran. Las informaciones más importantes
que contienen las capas y sus cabeceras se muestran en la tabla 8.4
Tabla 8.4 Principales utilidades de cada elemento del múltiplex MPEG-2.
SECUENCIA Tamaño de imagen, relación de aspecto y frecuencia de cuadro.
Frecuencia binaria y necesidades de memoria del decodificador.
GRUPO DE Unidad de acceso aleatorio.
IMÁGENES Código de tiempos.
IMAGEN Información de tiempo (referencia temporal y llenado del buffer).
Tipo de codificación (1, P o B).
SEGMENTO Información de direccionamiento intracuadro.
(SL/CE) Unidad básica de tratamiento de errores.
MACROBLOQUE Estructura básica de codificación.
Método de codificación, vectores de movimiento, cuantificación.
BLOQUE Coeficientes DCT.
Fin de bloque.
CAPA DE SECUENCIA
~ SECUENCIA DE ViDEO SECUENCIA DE ViDEO SECUENCIA DE ViDEO"N ro I~
B = CODIFICADA BIDIRECCIONAL
DCl = TRANSFORMADA EN COSENO DISCRETO
EC = CÓDIGO DE FIN
GOP = GRUPO DE IMÁGENES
I = CODIFICADA INTRACUADRO
P = CODIFICADA POR PREDICCION
SC = CÓDIGO DE INICIO
Figura 8.9.

Cada elemento del múltiplex, desde el bloque hasta la secuencia, dispone de su propia cabe­

cera y datos de identificación adicionales.

234
235
TLC:''(}.LOllJ- ACTUAL DI: TLl.L·1.'10:
4.2.4. Notas sobre el múltiplex MPEG-2
o La secuencia, que es el elemento de mayor tamaño del múltiplex, se corres­
ponde con el "Elemcntal)' Strcam", "ES" o "corriente básica" (una forma de
estructurar los datos que se verá un poco más adelante).
o	 Existen GOP denominados "abiertos", en cuyo caso algunas imágenes "B" del
GOP pueden hacer referencia a imágenes 'T' o "P" que no están en ese GOP.
o Una "imagen" puede ser un cuadro o un campo. Es posible conmutar dinámi­
camente entre codificación en modo cuadro y codificación en modo campo,
de imagen a imagen. La codificación en modo cuadro se prefiere cuando la
imagen contiene mucho detalle y poco movimiento, mientras que la codifica­
ción en modo campo es mejor en el caso de rápido movimiento.
o	 En MPEG-2 hay un parámetro denominado "aspca-racio-iriformacion", que defi­
ne la relación de aspecto del píxel. Este mismo parámetw define, en MPEG­
1, la relación de aspecto de la imagen completa.
o	 En el modo cuadro cada bloque DCT está formado por líneas de ambos cam­
pos entrelazados. Los bloques de crominancia 4:2:0 deben codificarse siem­
pre en el modo DCT-cuadro.
o	 En el modo DCT-campo cada bloque está formado por líneas DCT de un solo
campo. Los bloques de crominancia 4: 2:0 no deben codificarse nunca en el
modo DCT-campo, aunque está permitida la predicción basada en campo para
este tipo de bloquc.
o Cuando el primer campo (topjíeld) de una imagen se codifica como "P" o "B",
el segundo campo (bottonjícld) debe codificarse de la misma forma. Sin
embargo, si e! primer campo se codifica como "1", el segundo podrá codifi­
carse como "1" o como "P" (predecido a partir de! primero).
4.2.5. Reordenación de las imágenes
La eficacia de la codificación MPEG depende en gran medida de! tamaño de los
GOP. En general, GOP largos, llenos de imágenes "P"y"B", permiten reducir al máxi­
mo la tasa binaria, manteniendo la calidad de la señal. Sin embargo, e! tamaño del
GOP no puede ser arbitrariamente largo, puesto que cualquier operacion de monta­
je, conmutación o simplemente de selección de canal debe hacerse en las fronteras del
GOP. Cuantas menos imágenes "1" contenga e! múltiplex, más tendrá que esperar el
decodificador para poder sincronizarse y comenzar a proporcionar imágenes útiles.
En muchas aplicaciones, especialmente en distribución, se utilizan grupos de 12
imágenes (GOP =12), lo que significa que habrá 11 imágenes entre dos de tipo "1"
consecutivas, equivalente a 1/, segundo de señal de vídeo. Es una buena solución
de compromiso, entre eficacia y retardo.
En la figura 8.0 (a) se muestra una secuencia típica de imágenes MPEG-2. Ésta
se caracteriza por los llamados "parámetros M y N", siendo "M" el número de imá­
genes comprendidas entre dos de tipo "1" más la imagen "1" inicial, mientras que "N"
es el número de imágenes entre una de tipo "1" o "P" y otra de tipo "1" o "P" más la
inicial de! subgrupo. En este ejemplo (que es bastante típico), M =12 Y N =3.
Lo::; 5i-ítCIJ1c:!l:_~ LU;.I)P~~i.iJJ]
Figura 8.10.

La reordenaci6n de las imágenes facilita el trabajo del decodificador.

En la figura 8. 10 (b) se muestra la misma secuencia que en (a), pero con las imá­
genes numeradas. Éste es el orden en que las imágenes han sido producidas y, por
supuesto, el orden en que deben ser mostradas en el televisor. Sin embargo, antes
de la transmisión las imágenes son reordenadas, de manera que el decodificador
disponga siempre de los predictores antes que de las imágenes diferenciales. En
otras palabras, para decodificar una imagen de tipo "B" es necesario disponer pre­
viamente de las imágenes "1" y "P" que han servido para su codificación. La figura
8.10 (c) muestra el orden real de transmisión. Ahora puede cntenderse el relativa­
mente largo retardo asociado con la codificación MPEG-2: la imagen "B-2" no
puede se codificada hasta disponer de la "P-4", generando el llamado "retardo de
reordenación" de 2 cuadros. Nótese que es el número de imágenes "B" consecuti­
vas y no el tamaño de! GOP el que determina el retardo. En el múltiplex no se
envía información especial sobre la reordenación de las imágenes, ya que cada ima­
gen indica en su cabecera cuál es su tipo ya qué otras imágenes hace referencia.
La utilización de imágenes "B" obliga a disponer de mayor potencia de cómpu­
to, a la vez que aumenta e! retardo de codificación y el tamaño de! buffer. Por otro
lado, la codificación se hace más eficiente, especialmente con bajas frecuencias
binarias. También se reducen los efectos del ruido gracias al promediado en la pre­
dicción.
4.2.6. El lanzamiento en MPEG-2
El entrelazado de campos existe desde los inicios de la televisión y se diseño
para disminuir el efecto de parpadeo, sin aumentar el ancho de banda de la señal
de vídeo. Esta técnica, que ha sido titil durante muchos años, se basa en solapar
entre ellos parte de los espectros vertical y temporal. Esto genera artificios cuan
do bordes horizontales, o casi horizontales (altas frecuencias verticales), se mue­
236
237
I
Los sistemas dc" compr<:slon
TI-e)'!)1 oci·, ..CTlJ,,'1 DI·TU l'n'¡IO~
ven por la pantalla, es decir, cuando coexisten altas frecuencias verticales)' movi­
miento. Como consecuencia del solapamiento entre el espectro vertical)' el tem­
poral, convertir una imagen entrelazada en otra progresi'a no es una tarea trivial.
Los dos campos que componen una imagen representan instantes de muestreo
elistintos (separados 20 ms en el sistema 625/50). En presencia de movimiento,
un bloque Del' obtenido a partir ele los dos campos presentara líneas alternativas
de contenido muy distinto. Esto producirá frecuencias verticales de todo tipo,
haciendo ineficaz la codificación. MPEG-2 ofrece herramientas para codificar
imágenes entrelazadas en combinaciones altamente eficaces. Aunque son muchos
los expertos que creen que el entrelazado de campos debería haber muerto hace
tiempo, pruebas visuales de evaluación realizadas en el ATEL (Ad,'anced Telel,jsion
Emll/acion Laborator] o Laboratorio de Evaluación de Televisión Avanzada, un labo­
ratorio de evaluación de la calidad de las imágenes EOTV y HOTV, dentro del
proyecto ATSC americano, situado en Ottawa, Canadá) con espectadores no
expertos demostró que, para una frecuencia binaria determinada, el entrelazado
permitía imagenes "subjetivamente mejores" que la exploración progresiva. De
todas formas, éste es un debate no cerrado y todo parece indicar que el entrela­
zado tiene los días o, mejor dicho, 105 años contados. Veamos los distintos modos
de codificación.
Una imagen codificada como "1" puede consistir en una imagen "1" (secuencial)
o en un par de campos tipo "1" o un campo "1" seguido de un campo "P" predecido
a partir del campo ''I''.
Una imagen codificada como "P" puede estar formada por una imagen "P" o por
un par de campos "P", mientras que una imagen codificada como "B" puede com­
prender una imagen "13" secuencial o por un par de campos "13", El tipo de codifi­
cación puede elegirse imagen a imagen y se indica en la cabecera de ésta. Como
puede verse, MPEG permite afrontar el entrelazado de campos de muchas formas
distintas.
En una imagen "tipo campo" los campos se procesan secuencialmente, de forma
que los macrobloques contienen sólo muestras de un campo concreto y represen­
tan áreas de la imagen de 32 líneas de altura.
MPEG-2 define dos tipos de codificación OCT, siempre en base a macrobloques
de 16 x 16: OCT-cuadro y OCT-campo, DCT-cuadro es exactamente igual que en
MPEG-I. Los pÍxeles de luminancia del macrobloque de 16 X 16 se dividen en
cuatro bloques de 8 x 8 simplemente por su posición espacial. En la DCT-campo
la division horizontal es la misma, pero la división vertical se hace tomando las
ocho líneas del primer campo (aquí llamado "campo superiOl'''), para formar los
dos bloque superiores y ocho líneas del segundo campo (o campo inferior), para
los dos bloques DCT inferiores (véase figura 8.11). Los bloques diferencia de color
(que sólo tienen ocho líneas por el submuestreo 4: 2:0) se asume que pertenecen
siempre al campo superior.
La DCT-campo es más eficiente cuado hay una diferencia significativa entre los
dos campos que componen un cuadro, generalmente como consecuencia del movi­
miento.
Las imágenes codificadas como dos campos separados siempre utilizan DCT
T ~
11~l:'-
ffl+I-t-J,=--~:•..:,','"~:::==:.... ~,~ t ..
_~----. _, '," ;1',' ~ "
---=. __~ I
j.
•
:1 t := -... ','L'_ '" - ú
;11 ,.,•.
' ... ,
, .<===:-:•............
'-.-1
~ , ~ . '
, -,;.j., l.. ;,;­
.";;~r ':.:lt·.... --- ---... ',','_ ,; :' ." .. ,-, . ,,"
Modo DCT-cuadro
, ..~:l~I;'1, ---,.....'I:>~,~'J.~.~~~S:··~:/·;I::'1;-1:,
r: I
,,' - ...
'fl--".~'~:.I'''F.
,
ffir':>""- ':<'f~¡-.,
'-":,F'J
,.r.a"~<'');..l... ,.
~,jf~
~/":~~
:: fl~,J;·
Modo DCT-campo
Figura 8.11.

DCT-cuadro y DCT·campo en la codificación MPEG-2.

basada en campos (como en la parte inferior de la figura 8.11), ya que es la mane­
ra en que se han formado los macrobloques. Por otro lado, las imágenes codifica­
das como cuadros pueden utilizar OCT-campo o DCT-cuadro. En este último caso
la seleccion se hace en base a macrobloques, de forma que la cabecera de cada
macrobloque debe especificar el tipo de DCT utilizada.
Otra herramienta disponible es la elección del patrón de lectura en zigzag de
los coeficientes de AC del bloque DCT. En el caso de imágenes entrelazadas suele
preferirse la pauta mostrada en la figura 7.20 (b), la cual se ha diseñado para maxi­
mizar la longitud de las cadenas de ceros, en presencia de componentes de energía
vertical, resultantes del movimiento.
4,2.7. Estimación y compensación de movimiento
Cuanto mas precisa sea la estimación de movimiento, más eficaz será la codifi­
cación. La estimación y compensación de movimiento es un aspecto de la codifi­
cación MPEG, en que las distintas soluciones aportadas por los fabricantes pueden
diferir de forma notable. Las técnicas involucradas en estos procesos están sujetas
a constante investigacion. En la detección de movimiento prevalecen dos tecnicas:
"la igualación de bloques" yla "correlación de fase". En la mayoría de los casos los
fabricantes utilizan el algoritmo de "igualación de bloques" (block matehin8), mas
sencillo que el de "correlación de fase". Ademas las búsquedas se realizan aten­
239
238
Tr.c:-.;ur ()('/: Clltl DI: lLLLY/;-'l):,
diendo solamente a la señal de luminancia. Con este metodo la estimación de
movimiento no resulta muy precisa, de forma que este es un campo en el que se
puede progresar de manera significativa.
IstlaJación dc bloqtlcs.-La igualación de bloques es la más simple de las tecnicas
empleadas en la estimación de movimiento. En una imagen dada se selecciona un
bloque ele píxe!cs y se almacena Como referencia. Si el bloque seleccionado es
parte de un objeto en mO'imiento, deberá existir un bloque de pixelcs similar en
la siguiente imagen, pero en una localización distinta. La igualación de bloques sim­
plemente mueve el bloque de referencia ele la primera imagen sobre la segunda,
buscando una zona ele píxcles que proporcione la igualación. Cuando tal igualación
se encuentra, el desplazamiento necesario para obtenerla se codifica como vector
de mO·imiento.
Aunque conceptualmente simple, la igualación de bloques requie¡-e una gran
cantidad de potencia de cálculo, puesto que se debe probar cada posible movi­
miento dentro del área de búsqueda. Por ejemplo, si se asume que el objeto puede
haberse movido en un rango de 16 píxeles, será necesario comprobar J6 desplaza­
mientos horizontales para cada uno de los 16 posibles desplazamientos verticales,
lo que requiere más de 65.000 comparaciones.
Una forma de reducir la cantidad de calculo necesaria es realizar la igualación
por etapas. Con este sistema la primera etapa resulta imprecisa, pero cubre un
buen rango de desplazamientos, mientras que la última etapa resulta muy precisa,
pero cubre un rango de movimiento muy pequeño. La primera etapa de igualación
se realiza sobre una imagen fuertemente filtrada y submuestreada que contiene
muy pocos píxeles y requiere muy pocos desplazamientos. Cuando se encuentra
una igualación el desplazamiento se utiliza como base para una segunda etapa, que
se realiza con una imagen menos filtrada. La última etapa se puede realizar con la
precisión que se desee. Se puede decir que se trata de un sistema por aproxima­
ciones sucesivas.
Corrclación dcJasc.-La correlación de fase se basa en el hecho de que si una señal

compleja (formada por diferentes frecuencias) es desplazada en alguna dirección,

cada frecuencia COmponente sufrid. un giro de fase proporcional al valor de dicha

frecuencia. Por ejemplo, si consideramos una señal unidireccional formada por una

frecuencia fO más otra fI-ecuencia 2fO, la cual se desplaza en una cierta magnitud,

el cambio de fase experimentado por la frecuencia 2fO será el doble que el corres­

pondiente a la frecuencia fo. En el dominio espacial un cambio de fase correspon­

de a un desplazamiento físico. Si se analizan las diferencias de fase de las compo­

nentes espectrales entre dos campos o cuadros sucesivos es posible medir el movi­

miento del bloque.
La correlación de fases trabaja realizando la trasformada de Fourier de dos cam­
pos sucesivos y restando despues las fases de las componentes espectrales. Las com­
ponentes de fase se someten a continuación a una transformada inversa, que direc­
tamente revela unos pieos cuya posición corresponde al movimiento entre los cam­
pos.
En la práctica todo el proceso se realiza bidimensionalmente. Se comienza por
calcular la transformada de Fourier bidimensional de cada campo. A continuación
. _ _ _ _~_Q~)J...tCJllJ·; c¡(....1Q!_~·_'::.¡()11
se restan las fases)' se realiza la transformada bidimensional iIncersa. Como salida
se obtiene un campo plano, del cual se eleYan picos tridimensionales. Esto se cono­
ce como superficie de correlación. La posición del pico en la superficie de corre­
lación indica la dirección del movimiento.
Sin embargo, existe un principio de incertidumbre en el proceso de correlación
de fase: la precisión en el dominio transformado es incompatible con la precisión
en el dominio espacial. Aunque la correlación de fase mide con gran precisión la
velocidad)' dirección del movimiento, no puede especificar en que parte de la ima­
gen se ha producido dicho movimiento. Resulta necesa¡-io localizar elicha zona de
la imagen, en un proceso posterior ele igualación, cuya eficacia se ve dramática­
mente mejorada por la información proporcionada por el proceso de correlación
de fase. Este proceso posterior puede ser del tipo de igualación de bloques.
4.2.8. Predicción basada en cuadro y en campo
La predicción de movimiento basada en cuadro es el método mas sencillo y el
mismo que se utiliza en MPEG-1 . En este caso el estimador de movimiento busca
la mejor región de 16 x 16 pixe!es, en la imagen de referencia, pa¡'a igualar las
muestras de luminancia de! macrobloque que esta siendo codificado en la imagen
actual.
La predicción basada en campo separa los campos superior e inferior, tanto del
macrobloque que esta siendo codificado como de la imagen de referencia. Aquí la
región de búsqueda será aquella que mejor iguale una parrilla de 16 x 8 píxeles
correspondiente al campo superior o al campo inferior del macrobloque actual. Es
facil notar que una zona de 16 x 8 pixeles de un campo conereto corresponde a 16
x 16 en la imagen entrelazada.
En las imágenes tipo "cuadro" se puede elegir entre predicción en base a cuadro
o predicción en base a campo, con la posibilidad de conmutar de uno a otro modo
a nivel de los maerohloques. Si se elige predicción en base a campo, el vector ele
movimiento para el macrobloque del campo superior actual podrá determinarse a
partir de la mejor igualación encontrada en el campo superior o en el campo infe­
rior de la imagen de referencia. Igualmente, para el macrobloque del campo infe­
rior actual, la búsqueda se hará en los dos campos de la imagen de referencia (figu­
ra 8.12, abajo).
Por otro lado, sólo la mejor de las dos igualaciones es utilizada para generar un
único vector de movimiento, el cual se utiliza para predecir tanto el campo supe­
rior como el inferior del macrobloque. La figura 8. 12 muestra los distintos esque­
mas de predicción, tanto en base a cuadros como en base a campos. En la parte
inferior no se ilustra la predicción del cuadro 2 por razones de claridad.
En MPEG-2 una secuencia de video puede ser codificada como "progresivo" o
como "entrelazado". En las secuencias entrelazadas las imagenes pueden codificar­
se como cuadros o como dos campos codificados separadamente. En este último
caso se habla de "imagenes-campo" y la predicción busca la mejor igualación para
un grupo de 16 x 16 muestras (todas de un mismo campo) en los dos campos pre­
vios. Si se está procesando el primer campo (llamado campo superior), los dos
140
141
Imagen P
r" ~._.Gu{l~ro3
~~I - --1
&' 1.0
E; ¡ J~
~.__ 1 I lE
'111..... .h' ¡~
Imagen B
~uac!ro_~ __
~{ j 1..0
01 . N
~[- I ~R
J[- ¡ ~
I fÜ
Hacia ªdelan
el
TECNOLOGIA ACTUAL DE TE! E'ISUJN
Imagen I Imagen B Imagen B Imagen P
Cuadro Oro -----------1 Cuadro 1
~-.9¿,ªº[Q_L
~=:r------·i 1.0o I I~
I~8.' . ~~' I LJR E-~ ~8. 18.J.__L _ _ ~~
lE0c=---r=------=-~~
1(3~ ~ Ü L--=: __::Jü
PrediccIón
haCia adelante
PredIcción P'OdiCClón J P,.dicción
Cuadr03
~ -,
8.. I
iE
~ -- 1
I
hacia adelante haCia adelante haCia aIras
Predicción basada en cuadro
Imagen J Imagen B
Predicción basada en campo
Figura 8.12.
Predicci6n basada en cuadro y predicción basada en campo.
campos previos serán los dos campos que forman la imagen anterior. Por otro lado,
si se está procesando el segundo campo (campo inferior), los dos campos previos
serán el campo inferior de la imagen anterior (espacialmente cosituado) y el campo
superior de la imagen actual (temporalmente cosituado). En cualquier casd, el vec­
tor de movimiento elegido se aplica al macrobloque completo.
Las imágenes tipo "campo" pueden utilizar también con compensación de movi­
miento 16 x 8. En este modo se obtienen dos vectores de movimiento separados
a partir de los dos campos previos, para las secciones de 16 x 8 superior e inferior
de! macrobloque. Los dos vectores son transmitidos y utilizados para la parte
correspondiente del macrobloque. La determinación de los campos previos se hace
igual que en el párrafo anterior.
Existe un modo extra de codificar las imágenes entrelazadas, ya sea para imá­
genes tipo cuadro o tipo campo, denominado "dual-prime" o "doble-básico". La uti­
lización de los vectores de movimiento "dual-prime" sólo está permitida para imá­
genes de tipo "P" y sólo cuando no hay imágenes de tipo "B" entre la imagen actual
y la imagen de referencia (la imagen precedente "1" o "P"). En este modo sólo se
encuentra un único vector para las 16 x 8 muestras de luminancia de un campo
concreto de la imagen-cuadro (16 x 16 en e! caso de imagen-campo), buscando en
el campo previo de la misma numeración (superior o inferior). A partir de este
vector se deriva un "vector incremental" (con valores -1, O o +1, tanto en "x"
Lo~ sj~l('ma.. de compresión
como en "y"), buscando la mejor igualación (de las nueve que pueden obtenerse
desplazando el bloque ±1 posicion en "x" e "y") para la misma región, pero con
respecto al campo de polaridad opuesta. En el decodificador los dos bloques iden­
tificados por el vector completo yel vector incremental son promediados para for­
mar el bloque predictor. Esta tecnica ha demostrado ser altamente eficaz. En
muchos casos la utilizacion del modo "dual-prime" con imágenes tipo "P" puede
reemplazar, con menores exigencias de cómputo y menor retardo ue codificación,
a las imágenes "B".
Cada vector tiene una componente horizontal y una componente vertical. La
resolución en la medida de! movimiento es de '/2 píxel. En caso de que el valor "x"
o "y" de! desplazamiento de un vector sea impar, la predicción real para un píxel será
e! valor promediado de los dos valores adyacentes. Está claro que se necesitan un
montón de bits para transmitir los vectores de movimiento en los modos de pre­
dicción "campo" o "16 x 8". Por tanto, estos modos de predicción sólo se utilizarán
cuando la predicción basada en cuadro no proporcione resultados satisfactorios.
La figura 8.13 muestra el diagrama de bloques del codificador MPEG, cuando
este trabaja en el modo intracuadro, es decir, cuando está codificando imágenes "1".
La señal de entrada es dividida en bloques y sometida a los procesos típicos: OCT,
VLC, etc. En esta figura el bloque marcado con una "Q" representa la recuantifica­
ción de los coeficientes frecuenciales. Por su parte, la figura 8.14 muestra e! traba­
jo del codificador MPEG en los modos "P" y "B". Puede apreciarse, a la entrada del
circuito, la presencia de un almacen para la reordenación de las imágenes de entra­
da. Esto es consecuencia de que el codificador necesita disponer de las imágenes de
referencia antes de poder procesar la imagen diferencial. Puede verse también que
la OCT y procesos posteriores no se realizan sobre la imagen de entrada, sino sobre
una imagen diferencial compensada en movimiento. Una cuestión interesante es que
la imagen predecida no se compara con la imagen de referencia tal como llega al
codificador, sino con la imagen de referencia localmente reconstruida, ya que es esta
imagen reconstruida la que e! decodificador del receptor podrá utilizar como refe­
rencia. Esta reconstrucción local la realizan los bloques QI y OCT'.
Modo I
Para reordenaciónJ '
del GOP
Reordenado
Figura 8. 13.

Diagrama de bloques del codificador MPEG·2 trabajando en el modo "¡".

242
243
TU_¡'iOLOGj" ACr)[!lALI-1IJCLI.,"I-1LLUc.:.'-!'I.~q!..'():,:,,, ~	 _
Almacén de ¡magenes
Figura 8,14.
Diagrama oe bloques del codillcador MPEG-2 trabajando los modos de codificación intercua­
dro "P" o I'B".
4.2.9. MPEG-2 en entorno prifesional
La codificaci6n MPEG-2 se pensó, sobre todo, para la distribución de material
audiovisual, ya sea por radiodifusión o mediante soportes tipo CD-ROM o DVD.
Aunque el MPEG-2 es ya una norma bien definida y aceptada, presenta importan­
tes limitaciones en su uso en el entorno profesional. En MPEG-2 las posibles val'ja­
ciones del tren binario segun las combinaciones de niveles y perfiles son enormes.
Como resultado, el procesado y la edición del tren binario MPEG-2 codificado
resulta prácticamente imposible. Esto significa que las señales MPEG-2 convencio­
nales deberán ser, las más de las veces, decodificadas a banda base R-Gü1, en cada
etapa de procesado, incluso para una simple edicion por corte, Por supuesto, las
operaciones de posproducción complejas, como cortinillas, fundidos y efectos
especiales, necesitarán siempre la decodificación previa a banda base, ya esten codi­
ficadas en M-JPEG o en MPEG-2. Esto es consecuencia de que el contenido del
tren binario no representa directamente la señal de vídeo. Los más importantes
"puntos flojos" de las normas MPEG-2, en su aplicación en el estudio, podrían
resumirse como:
o El MPEG-2 se optimizó para aplicaciones de distribución punto-a-multipun­
to, con codificación de un solo paso, pero no se consideró las características
en multigeneraci6n.
o No se tuvo en cuenta las necesidades de ciertos procesos, tales como el croma­
key. Para procesos de este tipo la estructura mínima necesaria es la 4:2:2.
o Sólo se codifican las líneas activas de la señal de vídeo; no se ha previsto la
codificación de las líneas de borrado vertical, algunas de las cuales contienen
informaci6n vital, como, por ejemplo, el "c6digo de tiempo".
o El límite superior de la frecuencia binaria del MP@ML es de 15 Mbits/s. Las
evaluaciones del grupo MPEG han demostrado que una imagen de calidad
subjetiva similar a CCIR R-601 se puede alcanzar con frecuencias binarias de
unos 9 Mbits/s para aplicaciones de primera generación, pero esto sólo se
_	 ---'Lu!' ,~i~tcma.:; Jl: Cur!.lJ2lS;.~H)JJ
logra con GOP de 12 cuadros, lo que significada una precisión en la edición
de ±6 cuadros; válido para la radiodifusión, pero no para su aplicación en
estudio, Estas evaluaciones han demostrado también que después de la terce­
ra generación las imágenes no mantienen la calidad necesaria para aplicacio­
nes de estudio,
En la actualidad muchos sistemas de edición no lineal utilizan una variante de la
norma JPEG diseñada para imágenes estáticas, Esta va¡-iante se conoce como M­
JPEG (Motion-JPEG). Sin embargo, esta solución presenta las siguientes desventajas:
o	 El M-JPEG no está normalizado, de forma que las aplicaciones de distintos
fabricantes no son compatibles entre ellas.
La mayoría de las aplicaciones M-JPEG producen trenes binal-ios de frecuen
cia variable, lo cual es apropiado para almacenamiento en disco duro, pero no
para grabación en cinta magnética y distribucion por canales de ancho de
banda estable.
o	 El M-JPEG no define la codificación de señales de audio y su multiplexado
con señales de vídeo.
Teniendo en cuenta estas deficiencias, algunos fabricantes propusieron la determi­
nación de unos parámetros especiales para la aplicación del MPEG-2 en estudio. Esto
llevó a la creación de un subgrupo MPEG, con el objetivo de crear un "perfil de estu­
dio". Una posibilidad consistía en usar el "perfil alto/nivel 1.440" (que sí permite la
codificación 4: 2: 2), pero esto dispara la velocidad de procesamiento y las necesidades
de memoria y excede los requisitos de una señal de definición estándar. En lugar de
esto se optó por la creación de un nuevo perfil, denominado 4:2:2P@ML(perfil prin­
cipal/nivel principal, con estructura de codificación 4:2:2).
Las ventajas de la variante MPEG 4:2:2P@ML pueden resumirse en:
o Se mantiene un ancho de banda total de la crominancia (4:2:2 en lugar de
;;;;: SIMPLE PRINCIPAL SNR ESPACIAL ALTO
Imagenes-B Imágenes-B
625/50 No imágenes-B Imágenes-S Imágenes-B ~:2:0 ~2:0 Ó ~:2:2
NIVEL ~:2:0 4:2:0 4:2:0 SNR escalable SNR escalable
No escalable No escalable SNR escalable Espacial escalable Espacial escalable
ALTO 80 Mbls (máx.)
/ 100 Mb/s (milx)
, .920 pixeles
120MbR~
4:2:2 256 Mb RAM
1.152 lineas
SO Mb/s (máx.)
ALTO-1.440 ;Z:m~.) 32 Mb RAM
) 80 Mbfs (máx.)
1.440 plxeles
1.152 lineas 4 MbRAM 128 Mb RAM
./
-­PRINCIPAL 15 Mbls (max)
~ ~----­
20 Mb/s (máx.)
720 plxeles
576 Uneas 8 Mb RAM MbRAM RAM 32 Mb RAM
BAJO 4 Mbls (máx.) 4 Mbls (máx.)
352 plxeles
4Mb RAM 8 MbRAM288 lineas
Figura 8.15.
El "4:2:2P@ML" es una extensión del "MP@ML", especialmente diseñado para aplicaciones
profesionales,
245
244
TLC~OI_()(;iA .t 'Ttlll DE·1 H.E'I'11 ()!:
4:2:0). Un único paso por los filtros de submuestreo raramente presenta pro­
blemas de limitación de! ancho de banda de la croma, aunque en algunos casos
puede apreciarse una cierta pérdida de detalle en imágenes críticas. De todas
formas, el proceso de submuestreo implica una operación previa de filtrado,
lo que genera una pérdida aún mayor de ancho de banda en la multigenera­
ción. Se podría considerar la utilización de filtros de corte abrupto, pero la
experiencia ha demostrado la aparición de rizado de croma, asociado a la uti­
lizacion de este tipo de filtros. La solucion más directa es preservar el ancho
de banda de la crominancia original del nivel +:2: 2.
•	 Aumento de las líneas codificadas para incluir algunas de las correspondientes
al borrado vertical. En concreto, se aumentan 32 líneas por cuadro, lo que
eleva la cuenta de 480 a 512 por cuadro en paises 525/60 y de 576 a 608líne­
as por cuadro en países 626/50.
•	 Aumento de la frecuencia binaria del tren codificado hasta 50 Mbits/s. Ellími­
te de 15 Mbits/s de! MP@ML es una Iimitacion demasiado severa cuando se
desea buena calidad en multigeneracion. En particular, resulta deseable man­
tener e! GOP en un valor lo más bajo posible y esto sólo puede lograrse si se
desea un resultado de calidad, con frecuencias binarias relativamente altas.
• Compatibilidad hacia atrás	 con e! nivel principal. Como consecuencia del
incremento de la frecuencia binaria, se necesitan btiffers de Video más grandes,
pasando de 16 a 32 Mbits de RAM en el decodificador. Resulta interesante el
hecho de que el grupo 4:2:2 no ha afrontado todavía los problemas de multi­
generación de la señal de audio comprimida. Una vez que la señal de Video
alcanza una frecuencia binaria relativamente alta, resulta justificado permitir
la multiplexación de las señales de audio MPEG sin compresión; el audio sólo
representa una pequeña parte del tren binario global (muy inferior al 10%).
4.2.10. Calidad de la imagen 4:2:2P@ML
El subgrupo MPEG responsablc del perfil 4: 2: 2 ha realizado una serie de prue­
bas para determinar el nivel de calidad que puede obtenerse con el nuevo perfil.
Las prucbas incluyeron compresión-descompresión de primera y octava genera­
ciones.
Para simular los problemas que puedcn producirsc en una posproduccion com­
pleja en "cascada", se realizaron los siguientes análisis de secuencias:
• Caracterlsticas de multigeneración con desplazamiento espacial alternado de
la imagen en cada generación. El desplazamiento espacial significa que la ima­
gen se desplaza horizontal y verticalmente dos píxeles y dos IIncas entre las
primeras y segundas generaciones, no se altera en las terceras y cuartas y
vuelve a su lugar en las quintas y sextas. Este desplazamiento espacial simula
el reposicionamiento de la imagen cuando ésta pasa por un generador de efec­
tos digital (DVE).
• Características	 de multigeneración con un desplazamiento temporal del GOP
(grupo de imágenes) entre generaciones. El desplazamiento temporal significa
que la estructura GOP se desplaza un cuadro entre la primera y la segunda gene-
Los sistemas de comoresión
DESPLAZAMIENTODESPLAZAMIENTO
TEMPORALESPACIAL
ORIGINAL B -----,SECU~IP , '
B -----.
P
I
I
of­
Z

'!!;i I

~ g=i~ 1 I L I I L­ ~P.J~NCI'MODIFICADA5ffi I
0..>(/)
w LAS FRONTERAS DEL NUEVO UNA IMAGEN PUEDE SER
Cl
BLOQUE DCT NO COINCIDEN "1" ANTES DEL DESPLAZA­
CON LAS DEL ANTIGUO MIENTO Y "P" O "B" DESPUÉS
Figura 8.16.

Condiciones de prueba de calidad de las imágenes codificadas MPEG-2 4:2:2P@ML.

raciones y de nuevo entre la quinta y la sexta generaciones. El desplazamiento
temporal simula el efecto de diferentes realineamientos del GOP, que pueden
prodUcirse después de la multigeneracion. Este desplazamiento de un cuadro es
una simulación realista, ya que sería pura casualidad que dos generaciones de
codificacion comenzaran con el mismo cuadro. Con este tipo de desplazamien­
to un cuadro determinado podría ser codificado como "P" en la primera genera­
cion, como "B" en las generaciones 2, 3 Y5 Ycomo "1" en la cuarta.
Resuhados.-Con 50 Mbits/ses posible utilizar GOP muy cortos (sólo "1" o "l­
B") mientras se mantiene una calidad excelente en multigeneración. A 30 Mbits/s
es necesario usar GOP de tipo "I-B" para lograr calidad "excelente" (equivalente a
grado 5 CCIR). A 20 Mbits/s es necesario usar GOP más largos del tipo "I-B-B-P"
y se reduce el número de generaciones que proporcionan "calidad excelente". Esto
sugiere que, aunque se pueden usar frecuencias binarias tan bajas como 20 Mbits/s
para la etapa inicial de adquisicion, los trabajos de multigeneración deberían reali­
zarse entre 30 y 50 Mbits/s.
Una pregunta que surge a menudo es: ¿qué calidad puede obtenerse a una fre­
cuencia binaria determinada? Aunque esto depende del tipo de material de programa
que se desee codificar, en lo que sigue se dan algunas indicaciones orientativas.
La relacion entre la frecuencia binaria y la calidad de Video depende del tipo de
compresion empleado. Aqul se comparan tres tipos de compresión MPEG: la apli­
cada sobre imágenes SIF (imágenes previamente submuestreadas a 352 plxeles1288
líneas), imágenes con formato de entrada MP-ML (720 píxeles/576 líneas) y
4:2:2P@ML (como en MP-ML, pero sin submuestreo extra de la crominancia).
El formato SIF ofrece la mejor calidad de imagen para frecuencias binarias por
debajo de 5 Mbits/s, aunque si la fuente de imagen es una película de cine, toda­
vía el MP-ML se muestra superior. En este caso el SIF resultaría ventajoso por
debajo de 3,5 a 4 Mbits/s. El SIF proporciona una calidad aceptable para aplica­
ciones interactivas y multimedia.
247
246
11 CNOL(lí;l." :CfU1 )1 TLI.[·n....[o.'
o
w
O
S
O
<l:
O
-.J
<l:
U
"
4:2:2
SÓLO I
"",
",
4:2:2
SÓLO lB
/
/
",
/
",
",
/
MEJOR
MP-IPB
"
MEJOR
SIF-IPB
10 20 30 40
FRECUENCIA BINARIA MPEG~2 (Mbits/s)
Figura 8.17.
Relación entre frecuencia binaria)' calidad de imagen para varios tipos distintos de codificación.
El MP-ML (perfil principal~nivcl principal) proporciona la mejor calidad para
frecuencias binarias entre 5 y 15 Mbits/s. Este formato proporciona una calidad
adecuada para la radiodifusión e incluso la transmisión punto a punto de progra­
mas de televisión donde no es necesaria la multigeneración.
El nuevo perfil 4:2:2 ofrece alta calidad en aplicaciones de multigeneración. En
este caso la relación entre la frecuencia binaria y la calidad obtenida depende del
tipo de imágenes codificadas (1, Po B). Según la combinación elegida, la codifica­
ción 4:2:2 puede ser hasta dos o tres veces menos eficaz que la MP-ML
Existe una asociación profesional abierta, establecida en julio de 1988, que
agrupa a más de 70 empresas u organismos, desde fabricantes de equipos hasta
radiodifusores y otros usuarios finales, denominada "Pro-MPEG Forum", creada
para asegurar la interoperatividad de los productos MPEG-2 en el entorno profe­
sional. El Fórum incluye también a diseíiadores y fabricantes de circuitos VLSI.
Aunque no se trata de un organismo generador de normas, el Fórum trabaja en
estrecha colaboración con organismos tan importantes como SMPTE y EBU. El
Forum proporciona un puente entre las nuevas normas de televisión digital publi­
cadas por estos yotros organismos y su implementacion práctica e interoperativa.
E-mail: admin@pro-mpeg.org; web: www.pro-mpeg.org.
4.2.11. Transporte de los datos en MPEG-2
Se dispone de dos sistemas distintos para multiplexar corrientes binarias bási­
cas (elemental)' bit streams) procedentes de distintas aplicaciones en un mismo canal
de transmisión. Uno de estos métodos se basa en el uso de paquetes de longitud
L()..~~lna~s.1L~,:_~!~¡2!:!:'~:~).!~
CORRIENTE DE PROGRAMA vs CORRIENTE DE TRANSPORTE

PES DE

viDEO ~

DATOS DE

ViDEO CODIFICADOR
I •
GENERADOR

DE VIDEO DE PAQUETES
 CORRIENTE
x DE PROGRAMAw
-' (PROGRAM STREAM)
Cl(l)
•5n.
::>DATOS DE ¿
AUDIO I[ CODIFICADOR GENERADOR
-----.• AUDIO DE PAQUETES
l CORRIENTE
PES: PACKETIZED ELEMENTARY STREAMS x DE TRANSPORTE
(CORRIENTES BÁSICAS EN PAQUETES) ~ (TRANSPORT STREAM)
~~ ----..PS: PROGRAM STREAM -'
::>
(CORRIENTE DE PROGRAMA) ¿
TS: TRANSPORT STREAM
(CORRIENTE DE TRANSPORTE)
Figura 8.18.

A partir de los paquetes "PES" de video), audio se pueden formar "corrientes de programa" o

"corrientes de transporte".

fija y el otro en paquetes de longitud variable. En ambos casos se comienza por
formar los "PES" (corrientes básicas en paquetes) de longitud variable. La diferen­
cia entre los dos métodos se produce en la etapa final de multiplexado.
Se trata aquí de definir las siguientes utilidades:
•	 Un protocolo para la transferencia de datos en forma de paquetes.
•	 Un método para sincronizar el codificador y el decodificador.
•	 El multiplexado y demultiplexado de los datos que representan los distintos
servicios.
• La posibilidad de enmascarado para acceso condicional.
La necesidad de disponer de dos métodos distintos de multiplexado es conse­
cuencia de los diferentes entornos de aplicación. Las "corrientes de transporte"
(TS) se han definido para entornos ruidosos (con mala SNR), en los que se pueden
producir pérdidas de datos. tstos incluyen sistemas de almacenamiento y, sobre
todo, canales de radiodifusión, ya sean terrenos, por satélite o cable. Los paquetes
TS tienen una longitud fija de 188 bytes. Los errores o la pérdida de datos en los
paquetes PES pueden suponer una pérdida completa de sincronización en el pro­
ceso de decodificación.
Las "corrientes de programa" (PS), por otra parte, se han diseñado para medios
relativamente libres de ruido, como, por ejemplo, CO-RüM. Los paquetes que
forman el PS presentan longitudes variables. La definición del sistema PS en
MPEG-2 viene también motivada por la necesidad de compatibilidad con el siste­
ma MPEG-I.
La transcodificación entre los dos formatos o sistemas de multiplexado es de
todas formas, viable y se pueden construir interfaces que conviertan TS en PS y
viceversa. En la práctica la mayoría de las aplicaciones ATV (televisión avanzada),
248
249
~ VIDEO-2
I 1 I 1  I  1  I  '
.' ,  
" . ... ... .. ..[ffiJrr::::::Jrr::::::JDrr::::::Jrr::::::J
(DOS CORRIENTES
ELEMENTALES)
~ vIDEO-' I
I I I I  1  I  I  I
J!.~'~
[lliJ D rr::::::J_P rr::::::J D
TfCNOI OCJA ACTUAL DE ·llL~'ISIÓr--.·
úl FORMACiÓN DE TSs y PSs A PARTIR DE PESsw
oS
wW
1-1­
zO::
wO
ir fuO::z
8;?
1­
wiñ"
°!O.w",
1-::;
~;?
0::"
0::0
00::
0n.
~úi'
°wüie:.
~~
11>1­
ww
~a
!!!.:
0::0:
O::z
8w
tales como DBS (radiodifusión directa por satélite) y CATV (televisión por cable)
se basan en normas deJacto, que utilizan paquetes de longitud fija.
Ya se utilicen TS o PS, el nivel más elemental del multiplexado consiste en la
formación de los PES, los cuales transportan información de una fuente de datos
determinada (vídeo, audio-1 , etc.) y presentan longitudes variables. Cada codifi­
cador genera su propio tren de PES, los cuales se multiplexan de la forma más ade­
cuada. Aunque los PES se pueden usar para conectar directamente un codificador
y un decodificador, generalmente forman la base de corrientes de datos más com­
plejas: las corrientes de programa (PS) y las corrientes de transporte (TS) de las
que se ha hablado en párrafos anteriores.
Una corriente de programa (PS) permite el uso conjunto de varias corrientes
elementales de vídeo y audio. Con los PES se forman paquetes que a continuación
se organizan en "paquetes de corriente de programa" de longitud variable. Estos
paquetes, que suelen ser bastante largos, disponen de una cabecera que proporcio­
na toda la información necesaria. Por tanto, los paquetes de corriente de programa
son simples colecciones de paquetes PES. Por otro lado, la mayoría de los esquemas
de corrección de errores se han diseñado para trabajar con bloques de datos de lon­
gitud fija. Por esta razón las corrientes de transporte (TS), que se han pensado para
entornos "ruidosos", donde la posibilidad de degeneración de los datos es mayor,
trabajan con paquetes de datos de longitud fija. En MPEG-2 estos paquetes tienen
una longitud total de 188 bytes, de los cuales 184 corresponden a la carga de datos
y 4 a la cabecera. Como losTS pueden transportar varios programas multiplexados,
una suposición obvia, pero incorrecta, sería que los TS se forman a partir de colec­
ciones de PS. No es así; losTS se forman a partir de los más elementales PES.
Los sistt:mas de coml)n..~sióll
Hay una relación entre los paquetesTS dc 184 bytes y las celulas ATM. Estc últi­
mo es un sistema de transmisión de datos de alta velocidad no sincrónico, útil tanto
para operación en áreas locales como en grandes áreas. De los 188 bytes del paque­
te TS, cuatro bytes se utilizan como cabecera y 184 como carga útil para transpor­
tar información de audio, vídeo, etc. Por otro lado, las células ATM ticnen un
tamaño de 53 bytes, de los cuales 48 bytes representan la carga útil y 5 la cabece­
ra. De esta forma un paquete TS puede ser transportado en cuatro células ATM.
4.2.12. Corriente de transporte multiproBrama
En la terminología MPEG "un programa" consiste en una o varias corrientes
elementales (en ocasiones denominadas "servicios"), que comparten una misma
referencia temporal. Por tanto, aquí programa se refiere a los distintos servicios
(audio, vídeo, datos, teletexto, ete.), que están relacionados con un mismo conte­
nido y que deben ser presentados al espectador simultáneamente. Para esto un
único y común PCR (Pro8ram Clock Rifercnce) proporciona información de referen­
cia temporal a todas las corrientes elementales del programa, de manera que el
decodificador usará el mismo reloj master para la decodificación de las todas las
señales de audio, vídeo y datos que componen un programa.
Una de las características interesantes de la corriente de transporte es su capa­
cidad para transportar datos correspondientes a diferentes programas. Esto resul­
ta de gran utilidad en los nuevos servicios de distribución de la señal de televisión,
tales como el "vídeo a la carta", "vídeo casi bajo demanda", etc., donde es necesa­
rio enviar al espectador varios programas en un único tren de datos comprimidos.
Para esto lo que se hace es intercalar los paquetes de corriente de transporte de
varios programas en el mismo tren binario. En la figura 8.20 el programa-l está
formado por dos corrientes elementales (una de vídeo y una de audio), mientras
I - AUDIO-1 ~
PROGRAMA·2 é71'~''~:    (UNA CORRIENTE ~
"'r .... "f
ELEMENTAL) PCR
PROGRAMA-l [ffiJ rr::::::J lI:J lI:J rr::::::J rr::::::J
I
DOS PROGRAMAS EN LA MISMA CORRIENTE DE TRANSPORTE
Figura 8.20.

En MPEG-2 es posible transportar varios programas en una misma corriente de transporte.

Todos los componentes de un programa comparten un mismo reloj.

250
251
Lus ~i~tcm,)_~ d(' tomprniÚn
TU"~UlOGI' ..CTU;L DI.: ITL['-¡SI(¡:,
que el programa-2 contiene una única corriente elemental de delco. En cualquier
caso, cada programa tiene su propio reloj de referencia de 27 MHz, común a todos
los servicios del programa)' que está representado en la figura mediante un cro­
nómetro.
La frecuencia binaria de la corriente de transporte completa es constante, y ello
a pesar de que las frecuencias de cada corriente elemental, e incluso de c<ld<l pro­
grama, pueden ser variables. Para asegurar la total ocupación del canal, a nivel de
la corriente de transporte, se utilizan "paquetf's nulos" o "paquetes baslll-a" siempre
que es necesario.
El Transport-5tream puede transportar uno o varios programas. Al mismo tiem­
po la norma permite añadir programas a un tren binario ya codificado. De forma
similar se pueden extraer uno o más programas de un tren codificado en el modo
TS. Cada programa contenido en un TS tiene su propio reloj, mientras que un PS
sólo puede contener material relacionado con un único reloj del sistema.
4.2.13. Cabeceras e identificadores
Cada paquete de transporte incluye una cabecera mínima formada por 32 bits
(4 bytes). Los dos datos más importantes de esta son el "Sinc Byte" o byte de sin­
cronizacion, de valor fijo (47H o 8811) y el PID (Facket Identtfication o número de
identificacion de paquete). El PID sirve para identificar cada una de las posibles
corrientes elementales o cada uno de los programas. Puesto gue el PID se forma
con 13 bits, se dispone de 2'1 =8.192 números de identificación diferentes, de Jos
cuales MPFG se reserva el "O" para la PAT (Proaram AssocJOtÍon Table), el "1" para la
CAT (ConditionaI Access Table) y el 8.191 para los paguetes nulos o de relleno_
El receptor dispone del llamado "PSI" (Proaram Spectfic Ir:formation) , que le per­
mite determinar qué identificadores tiene que buscar y decodificar para cada pro­
grama. Esto se logra mediante la consulta de cuatro tablas básicas: ,
PAT: La "Pro8ram Association Toble"o "tabla de asociación del programa" tiene siem­
pre un identificador (PID) de valor cero. Es lo primero que tiene que decodificar
el receptor, ya que contiene informacion gue relaciona un programa específico
(identificado por un número) con el PlD de la PMT.
PMT: Cada programa dispone de un "Program Map TabIe" o "tabla de contenidos
del programa", que lista informacian de todos los elementos (vídeo, audio, tele­
texto, etc.) que pertenecen al programa.
NIT: El contenido del "Network lriformation rabIe" o "tabla de información de la
cadena" esta definido en MPEG como "privado" en el sentido de que no lo define
la norma, sino que se deja que sea el radiodifusor o el proveedor del servicio quien
decida su contenido. La intención del NIT es p¡-oporcionar información sobre los
parámetros físicos de la cadena, tales como frecuencia FDM, número de transpon­
dedores, etc.
CAT: La "ConditionaI Access Table" o "tabla de acceso condicional" es un enlace que
permite al decodificador encontrar los trenes binarios que contienen las llaves
electrónicas necesarias para decodificar un programa enmascarado.
La informacian de referencia temporal de programa se transporta mediante el
ICABECERA I CARGA I
VARIABLE
(TIENE SU
PROPIA PROPIA
CABECERA) CABECERA)
Figura 8.21.

Organización de la cabecera de la corriente de transporte.

PCR, que se encuentra en los campos opcionales del campo de adaptación yse usa
para la sincronización del decodificador. Otros campos importantes son:
Contador de continuidad (Continuity CouBter): Campo de 4- bits gue cuenta cíclica­
mente de Oa 15. Este campo se usa para detectar paquetes repetidos o perdidos.
Indicador de discontinuidad (Discontinuity Indicator): Indica tanto una discontinui­
dad en la base de tiempos como una discontinuidad en el contador.
Indicador de acceso aleatorio (Random Access Indicator): Indica que el próximo
paquete PES, con el mismo PID que el actual, contiene una "cabecera de secuen­
cia de video" o el primer byte de un cuadro de audio.
Cuenta atrás para corte (Splice Contdown): Campo de 8 bits que especifica el núme­
ro de paquetes del mismo PID antes de que se produzca un punto de corte, es
decir, se alcanza un punto de corte cuando este campo vale O. Tal paquete contie­
ne el último byte codificado de una imagen o de un cuadro de audio.
Además de los explicados anteriormente, la cabecera puede incluir los siguien­
tes campos:
CABECERA PRINCIPAL:
Indicador de error en el transporre.-lndica si el paquete es erróneo: O =no-error;
1 =error.
Indicador de inicio de unidad de caraa.-Indica si la parte de carga de este paquete
contiene una cabecera de paquete PES o el comienzo de una tabla que contiene
información específica del programa (PSI).
Prioridad de transporte.-Nivel de prioridad en canaleslredes que soporten prio­
rización: O=baja prioridad; 1 =alta prioridad.
Control de Ja JIave de enmascarado_-Indjca el tipo de llave de desenmascarado que
252
253
TI:C.~I;1 0(;1: ACllL! 1)1: Tll T: 'l'il 0:'-,'
IndIcador de comienzo de unidad de carga Bandera de dato5 pnvados

IndIcador de dlscontlnuidad Bandera OPCR

Campos
opcIonales
IndIcador de acceso aleatorio Bandera de extensión de campo de adaptación
Bandera PCR Bandera de punto de corte
Reservado
Longilud del campo (1) Datos privados o
I 33 bits 1 6 bits EJ	 I-1 byte- extensiones del campo de adaptación
Base de Extensión de "1" bytes
referencia del referencia del .. .reloj de programa reloj de programa
FORMATO DECABECERA DE DATOS PRIVADOS
FORMATO DEL (O)PCR O EXTENSiÓN DEL CAMPO DE ADAPTACiÓN
Figura 8.22.
Detalle del formato de la componente de longitud fija de la cabecera de adaptación.
se ha de usar para este paquete. Ejemplo: 00 =no enmascarado; 10 =llave par; 11
=llave impar; 01 =otros usos.
Control del campo de adaptación.-Indica si a continuación aparece un campo de
adaptación: 00 =reservado; 01 =sin campo de adaptación, sólo carga; 10 =sólo
campo de adaptación, no carga, 11 =campo de adaptación seguido de carga (un
campo de adaptación son identificadores y parámetros que definen un servicio,
pero que no se consideran básicos).
CAMPO DEADAPTAClÓN
Longitud del campo de adaptación.-Especifica el número de bytes que siguen en la
cabecera de adaptación. Puede servir también para que e! decoder se salte el
campo de adaptación y vaya directamente a la parte de datos de carga.
Indicador de prioridad de la corriente elemental.-Indicación de prioridad de los
datos que están siendo transmitidos en este paquete (es independiente de ¡Ipriori­
dad de transporte" de la cabecera mínima).
CAMPOS OPCIONALES:
PCR J OPCR.-Se utilizan para la sincronización de! receptor. Mientras que el
PCR puede ser alterado durante la transmisión, el OpeR (Optional PCR) no.
Datos privados.-Indica que la carga está formada por datos privados no recono­
cibles por un decoder MPEG.
Extensión del campo de adaptación.-Para futuras extensiones de la cabecera de
adaptación aún no determinadas.
4.2.14. Control del reloj del sistema
En un sistema (tren binario) donde pueden convivir varios programas y donde
cada programa puede estar formado por varios servicios la sincronización y pues­
ta a tiempo de las señales multiplexadas puede resultar complicada. La figura 8.23
muestra la idea global de! sistema de sincronización.
254
I
I
Los sistemas de compresión I
... .N BIT!' __o>
~gU 1,-_Jif1JD
~ ~
, I
PCR;X PCR;X
, TIEMPO
DE -N- BITS
CODIFICACiÓN TRANSMISIÓN DESCODIFICACIÓN
.. -RETARDO VARIABLE- ... -RETARDO FIJO· ... ·RETARDO VARIABLE· •
..	 RETARDO TOTAL CONSTANTE •
Figura 8.23.
Sincronización de los distintos componentes del múltiplex.
A partir de la señal principal (en este caso la señal de video) se extrae la refe­
rencia temporal (reloj del sistema) que servirá como patrón para todos los servi­
cios asociados a ese programa (canales de audio, datos, te!etexto, ctc.). Esta refe­
rencia temporal está formada por muestras de un reloj de 27 MHz, que se inser­
tarán en los paquetes de transporte al menos 10 veces por segundo.
Nótese que se parte de dos presupuestos: primero, que el retardo total de! sis­
tema es constante (desde el envio del cuadro o campo hasta su llegada) y segundo,
que e! retardo de transmisión es también constante (cada byte invierte la misma
cantidad de tiempo desde la fuente hasta el destino).
En el demultiplexor se reconstruye el reloj de! programa. Cada PCR que llega
se utiliza para reiniciar (reset) el reloj local en caso de discontinuidad (el indicador
de discontinuidad está a "1") o para corregir (poner en fase) dicho reloj. Esta
corrección es similar a la utilización de un PLL (Phase Lock Loop). La idea es pro­
porcionar una sincronización con la precisión necesaria en cada aplicación, con las
siguientes limitaciones:
• Sólo sincronización vertical.
• Las señales de sincronización pueden aparecer sólo 10 veces por segundo.
•	 La sincronización se logra mediante datos siftware, que puede presentar erro­
res de hasta 500 ns.
• Se necesita una rápida fijación de la imagen durante la búsqueda de canales.
La organización de los paquetes de datos en MPEG, ya sea formando TS o PS es
realmente muy complicada. Esta se define en la llamada "capa del sistema" y, en el
caso de! MPEG-2, está especificada en la norma ISO/lEC 13818-1. Decenas de
parámetros y variables aparecen en ella. Un estudio exhaustivo de cada uno de los
parámetros ocuparía un libro completo.
255
TLC;,OI ()(jl: AC¡ LI.:¡L 111: ru Ln"'j( ),
4.3. El sistema MPEG-4
La labor de normalización no se detuvo con el MPEG-2. El MPEG-4 es un
grupo de trabajo, dentro de la familia MPEG, totalmente remodelado, cuyo pro­
pósito es lograr altos factores de compresión, utilizando solamente información
contextua!. El algoritmo de compresión se basará en OCT y IIme/ets y su aplicación
será la de teleconferencia )' similares, aunque se contempla un perfil de estudio,
para aplicaciones profesionales dC' cine y tc!C'"isión, capaz de soportar hasta 100
Mbits/s. MPEG-4 no pretende sustituir a MPEG-l o a MPEG-2, sino basarse en
ellos para mejorar las capacidades de interactividad.
Según argot de comité de expertos, MPEG-4 "proporciona un marco de distri­
bución multimedia integrada para acceso universal e interactividad basada en con­
tenido". Traducido, esto significa que las nuevas herramientas permitiran a los
autores multimedia ya los usuarios acceder, manipular, almacenar y presentar todo
tipo de elementos audiovisuales de la forma que mejor se adapte a sus necesidades
del momento, sin preocuparse de las características y parafernalias técnicas. Si la
tecnología MPEG-4 se impone, puede ser una forma de acabar con la maraña de
sistemas de codificación y compresión propietarios e incompatibles entre ellos,
que proliferan en Internet y otms sistemas de comunicación sin hilos. Lo real­
mente nuevo de MPEG-4 son sus posibilidades de interactividad.
Elemento central de esta nueva prestación es la capacidad de codificar de mane­
ra separada los distintos elementos visuales y sonoros. No sólo es capaz de codifi­
car imagenes rectangulares de distinto tamaño y canales individuales de audio, sino
que dispone, además, de herramientas para codificar imagenes y objetos grMicos
de cualquier forma y objetos de sonido independientes.
Un presentador de informativos puede codificarse de forma independiente del
set de decorado que tiene detrás. Los sonidos pueden localizarse de forma inter­
activa en el espacio. Una vez que los objetos de imagen, sonido, gráfico y texto han
sido codificados, el usuario puede interactuar con cada uno de ellos dé manera
independiente. Dentro de la pantalla los objetos pueden sumarse, restarse, mover­
se, deformase, escalarse...
Pueden codificarse tanto objetos como animaciones ytanto 2D como 3D, sobre
los cuales se pueden "mapear" texturas reales o sintéticas. Herramientas especiales
facilitaran la animación facial y corporal. Otras herramientas permitiran la con­
versión texto-a-voz, voz-a-texto y diferentes niveles de sonido sintetizado.
Se dispone de un sistema de coordinación que dispone los objetos en el espacio
entre ellos y en relación con el fondo y con el usuario. Las capacidades de compo­
sición de "escenarios multimedia" del MPEG-4 estan fuertemente influenciadas
por el trabajo previo realizado para Internet por el Virtual Reality Modeling Lenguaje
(VRML) y existe una relación formal entre MPEG-4 y el Consorcio Web3d para
asegurar que MPEG-4 yVRML evolucionan de manera consistente.
La codificación y manipulación de objetos de formas arbitrarias es una cosa.
Extraerlos de escenas y contextos naturales es muy distinto. Hasta la fecha la mayo­
ría de las demostraciones se han basado en composiciones de croma-key y mucho
trabajo manua!.
______L,l" SlSJCIl1.ª~--SJ_~.Lll.!l4!.r~nÓ!J
Otro punto fuerte del MPEG-4 es la escalabilidad. Los objetos menos impor­
tantes pueden transmitirse con menor resolución o con menos redundancia para
protección contra errores. Los objetos visuales y sonoros pueden codificarsf en
una sola capa base que contenga suficiente información como para proporcionar
una resolución pobre, aunque aceptable, a la que se añade una o mas capas de real
ce que, al sumarse a la capa base, proporcionan más resolución, un mayor rango ck
frecuencias, mayor relación de aspecto, sonido envolvente o tridimensionalidad.
La transformada basica del MPEG-4 sigue siendo la OCT, bastante similar al
MPEG-l y al MPEG-2, aunque se han hecho algunas mejoras en la eficacia de codi­
ficación y en la robustez de transmisión. Se incluye, ademas, un algoritmo wal'elet
para la codificación de texturas e imagenes estaticas. La codificación MPEG-4
comienza con un núcleo VLBV (VeJ)' LOII' Bitrate Video o video a muy baja frecuencia
binaria), que incluye algoritmos y herramientas, para proporcionar entre 5 Kbits/s
Y64 Kbits/s. Para que el sistema funcione a frecuencias binarias tan bajas, se han
mejorado la compensación de movimiento y la corrección y cancelación de erro­
res, manteniendo la frecuencia de refresco muy baja (entre Oy 15 fps) Ylos rangos
de resolución desde unos pocos pixeles por linea hasta SIF (352 x 288).
El MPEG-4 no se preocupa directamente de la protección de errores necesaria
en canales especificas, tales como radiodifusión móvil, pero ha mejorado la distri­
bución del tren binario de forma que la recuperación de la información sea mas
robusta.
Para canales de mayor calidad, generalmente entre 64 Kbits/s Y2 Mbits/s, se
dispone del HBS (High Bitrate Video o video dc alta frecuencia binaria), capaz de
soportar resoluciones que pueden llegar hasta Rec-601 (720 x 576).
Aunque MPEG-4 tiene ventajas evidentes en la producción y distribución de pro
gramas interactivos, no esta claro qué efecto tendra en la distribución y radiodifusión
de programas convencionales de televisión. En estas arcas el MPEG-2 esta fuerte­
mente establecido gracias a su inclusión en normas tan importantes como ATSC,
OVB y OVD. En las funciones avanzadas tanto el codificador como el decodificador
MPEG-4 resultan bastante mas cams que sus compañeros MPEG-l y MPEG-2. De
todas formas, existe un "Studio Pre:file MPEG-4" que puede tene,- un gran impacto en
producciones de alta calidad para cine y televisión en alta resolución.
4.3.1. MPEG-4 peifl1 estudio
Es un perfil especial del sistema de codificación MPEG-4 para aplicaciones de
alta resolución en cine o en televisión. A primera vista la eficiencia en la compre­
sión, la interactividad y la codificación de elementos sintéticos (que son las bases
del MPEG-4) tienen poco que ver con las imagenes de alta resolución y el trabajo
en estudio. Sin embargo, el comité MPEG-4 atendió muy pronto las demandas ele
las empresas interesadas en llevar la compresión a los productos audiovisuales de
mayor calidad.
Cuando se considera la manipulación electrónica en tiempo real de imagencs de
alta resolución, los números se hacen enormes. Una imagen de 4.000 x 4.000
píxeles, con codificación 4:4:4 YUV/RGB, 10 bits/muestra y 24 ips con un canal
256
257
TEC!.'OI OGf: :'CTlHI DI, TU n'I'/(iN
alfa, genera una frecuencia binaria por encima de 16 Gbits/s. Incluso la televisi6n
en alta definici6n actual (HDTV), que en la norma americana de la ATSC puede
proporcionar 1.920 x 1.080 píxeles, 60 cuadros progresivos con codificaci6n
4:2:2 y 10 bits/muestra, genera la nada despreciable frecuencia binaria de 2,5
Gbits/s; actualizada a RGB/YUV 4:4:4 y complementada con un canal alfa, nece­
sitaría 5 Gbits/s. La norma europea de 1.920 X 1.152 píxeles y 50 imágenes por
segundo no entrelazadas generaría tasas similares. Es fácil ver por qué resulta Mil
una norma de compresi6n para este tipo de imágenes.
MPEG-4 permite romper la barrera superior de la codificaci6n MPEG-2, que
está en 100 Mbits/s para imágenes de 1.920 X 1. 152 píxeles en Europa (1. 920 X
1.080 en USA), con codificaci6n 4:2:2 y 8 bits/muest,-a. MPEG-4 se estructura en
tres niveles: LoH' (bajo), Main (principal) y HiBh (alto). El nivel bajo del MPEG-4
es esencialmente equivalente al nivel alto de! MPEG-2.
El nivel principal del MPEG-4 permite acomodar hasta 60 imágenes progresi­
vas con muestreo 4:4:4 y 2.048 X 2.048 píxeles. El nivel alto eleva el número de
bits/muestra a 12 y la resoluci6n a 4.096 X 4.096, permitiendo resoluciones tem­
porales hasta 120 cuadros no entrelazados por segundo. Se espera que la norma
definitiva incluya especificaciones para el canal alfa, aunque los expertos no acaban
de ponerse de acuerdo en el número de bits/muestra para este canal.
Al igual que las demás normas MPEG, esta norma define la sintaxis de tren
binario codificado y fija la forma en que el decodificador debe entender los pará­
metros de codificaci6n, sin entrar en la forma concreta en que debe realizarse la
codificaci6n. Por ejemplo, un decodificador que cumpla con las especificaciones
del nivel alto podría reproducir una imagen de 4.096 X 4.096 píxeles a 24 ips u
otra de 1.920 x 1.152a 100ips.Enelnivelprincipalunaimagende 1.920 x 1.152
podría proporcionar hasta 50 cuadros no entrelazados, mientras que otra de 2.048
X 2.048 se limitaría a un máximo de 25 ips.
Como parte de la norma MPEG-4, el perfil de estudio puede utilizar todas las
herramientas de composici6n de escenas e interactividad incluidas en los perfiles
más bajos, aunque la producci6n de alta calidad ya dispone de un elevado número
de herramientas sofisticadas para la composici6n y manipulaci6n de imagen.
Un beneficio colateral del perfil de estudio del MPEG-4 es que los elementos

básicos de codificaci6n, tales como la colorimetría, el alineamiento de los macro­

bloques y otros parámetros podrán mantenerse durante todo el canal de pro­

ducci6n. Esto ayudará a mantener la calidad a medida que el material vaya pasan­

do, desde los niveles más altos de producci6n hasta los receptores de más bajo

precio.
4.4. El MPEG-7
Es el penúltimo miembro de la familia MPEG. Esta vez no se trata de un siste­
ma de compresi6n, sino más bien de descripción y catalogacian de los contenidos
multimedia. MPEG-7 se describe como Mulcimedia Content DeSCTiption Integace
(MCOI) o interfaz de descripci6n de los contenidos multimedia. Con él se preten­
de normalizar un método de descripci6n de los elementos multimedia. Su inten­
258
Lo!'- ~istcl1la ... de comllrcsión
ci6n es construir un conjunto normalizado de descriptores, esquemas y un len­
guaje estándar que pueda ser utilizado para describir los contenidos multimedia. A
diferencia de los métodos actuales, que se basan en la utilizaci6n exclusiva de
texto, el nuevo lenguaje permitiJ-á al usuario buscar escenas por su color o por las
texturas que contiene o por la acci6n que se desarrolla. Se podrá "tocar unas notas"
en el teclado o introducir una muestra de la voz de un cantante y obtener una lista
de piezas musicales similares del cantante preferido.
4.5. El MPEG-21
Éste sí es e! último miembro (por ahora) de la familia MPEG, cuya finalidad es
afrontar e! problema global de la distribuci6n de contenidos multimedia. El grupo
MPEG- 21 espera comprender c6mo los distintos componentes multimedia se rela­
cionan unos con otros e identificar los huecos que puedan quedar en la infraes­
tructura que pudieran dar lugar a la aparician de nuevas normas.
Los aspectos que se están investigando se solapan e interactúan unos con
otros. Hay temas relacionados con la red, como la velocidad, la fiabilidad, el
retardo, el coste, etc. Otros aspectos relacionados, por ejemplo, con la calidad
incluyen cosas como la autenticidad (¿es esto lo que pretende ser?), la escala de
tiempo (¿puedo disponer de ello cuando quiera?), así como aspectos técnicos y
atributos artísticos.
Los modos de utilizaci6n, los modelos de pago, las técnicas de búsqueda, las
opciones de almacenamiento, todas ellas son objeto de estudio, así como los dere­
chos del usuario y la privacidad. ¿Qué derechos tiene el usuario para utilizar, copiar
y pasar la informaci6n? ¿Ha entendido el usuario correctamente cuáles son sus
derechos sobre la informaci6n audiovisual? ¿C6mo protegerán los usuarios sus
datos personales?Y ¿c6mo podrán negociar la privacidad con el suministrador de
contenidos?
4.6. Los miembros de la familia perdidos
Puesto que se han definido (o se están definiendo) normas MPEG 1, 2, 4, 7 Y
21, cabe preguntarse que ha sucedido con el 3, 5, 6 Yel resto de los números.
MPEG-3 iba a ser la norma de compresión para alta definición, pero muy pronto
se vio que MPEG-2 cubría perfectamente este campo, por lo que MPEG-3 murió
antes de nacer. No fue fácil decidir que la siguiente norma se llamaría MPEG-4 (a
veces las discusiones sobre los nombres de las normas, por parte de los comités
técnicos, son como la discusión sobre la forma de la mesa en las reuniones de los
diplomáticos). Estando ocupados el 1, 2 Y4, parecía lógico seguir la secuencia
binaria de las potencias de 2, aunque, finalmente, se despreci6 el 8 a favor del 7,
tal vez porque hasta éste todos se pueden codificar con tres bits. ¿Por qué se ha sal­
tado directamente al 21? ¡Ni idea! Tal vez sea porque coincidia con la entrada del
nuevo siglo.
259
TEC:-JOI O(;J.- ,el tI.-'1 DE HU 'I~¡()
5. El sistema DV
DV es una familia de magnetoscopios digitales que abarca DY, DVCAM,
DVCPRO-25 y DVCPRO-50. A éstos habría que añadir el recién aparecido
DVCPRO-1 00, que trabajará a 100 Mbits/s y está adaptado a las necesidades de la
HDTV, especialmente a la captación de noticias (ENG) en HDTV para el sistema
americano de la Gran Alianza, ahora denominado ATSC. DVC-PRO está basado en
el mínimo chip-set que el resto de la familia DV. Los tres primeros formatos (DV,
DVCAM y DVCPRO) generan, después de la compresión una tasa binaria de 25
Mbits / s. La diferencia entre ellos está más en el campo de aplicación que en la
forma en que codifican las señales de video y audio. Como puede deducirse,
DVCPRO-SO produce, después de la compresión una tasa binaria de 50 Mbits/s,
por lo que comprime la mitad que los anteriores. Hay otro formato, el llamado
DlGITAL-S de ]VC, que también genera 50 Mbitsls y se basa en los mismos prin­
cipios de codificación que el DVCPRO-50. En cualquier caso, todos ellos utilizan
la DCT como núcleo básico; todos ellos son de tipo intracuadro y todos ellos uti­
lizan los mismos chips básicos de codificación.
En los magnetoscopios digitales los usuarios, que son los montadores de vídeo,
quieren disponer de una precisión total a la hora de definir los puntos de inserto
durante el montaje. Esta precisión "al cuadro" obliga a despreciar la posibilidad de
compresión temporal, intercuadro o tridimensional, que de las tres formas se cono­
ce. Para ser precisos, hay que puntualizar que existe un formato, el BETACAM-SX,
que no respeta este principio. El algoritmo de compresión del BETACAM-SX, que
está basado en una extensión de la norma MPEG denominada MPEG-2 4:2:2 prrifile
at Main Level, utiliza compresión intercuadro con GOP = 2 de tipo 1,8,1,8,8... , se
ha diseñado para aplicaciones ENG y mantiene un cierto grado de compatibilidad
con el Betacam analógico. Con GOP = 2 Y secuencias I,B,I,B ... es posible, sin
embargo, la edición con precisión de cuadro del tren binario comprimido. Las imá­
genes B se obtienen dinámicamente a partir de las imágenes 1 anteriores o poste­
riores al punto de edición y pueden ser convertidas "al vuelo" en imágenes "1" grao
cias a que el DVTR Betacam-SX incorpora varias memorias de cuadro.
Probablemente la característica más novedosa e interesante de la codificación DV
sea el proceso de '1)arajado de bloques intracuadro" que, como se verá, mejora la cali­
dad obtenible para una cierta frecuencia binaria y facilita la obtención de trenes bina­
rios de frecuencia estable. Para lograr la meta de 25 Mbits!s, los formatos de la fami­
lia DV comienzan por submuestrear la crominancia según la tabla 8.5
Tabla 8.5	 Sólo la variante DVCPRO-SO no submuestrea la crominancia antes de proce­
der a la compresión.
FORMATO NORMA DE TELEVISIÓN
525/60 625/50
DV 4:1:1 4:2:0
DVCAM 4:1:1 4:2:0
DVCPRO-25 4:1:1 4:1:1
DVCPRO-SO 4:2:2 4:2:2
~ L_().') :;i~l"-·In.I~~qilllJ-~&~.!iu.!
Como puede verse, los fOI-matos DV y DVCAM, que están destinados al mero
cado doméstico o al rango bajo del sector profesional, utilizan suhmuestreo 4: 1: J
en América (y paises afines), mientras que en Europa y otras zonas de 625 líneas
emplean submuestreo 4:2 :0. Las razones de esta diferenciación regional no han
estado nunca muy claras. Tal vez sea porque una codificación 4: 2:0 se adapta
mejor a la señal PAL (por lo del promediado ycrtical de la crominancia), mientras
que 4: 1: 1 es más adecuado para NTSC (que limita más el ancho de banda de las
señales diferencia de color y, por tanto, la resolución horizontal dc la crominan­
cía), ya que, aunque sean formatos digitales en componcntes, en muchos casos el
usuario verá las grabaciones en un receptor analógico compuesto. También podría
ser quc en América se considerara que el DY, aunquc esencialmente domestico,
podria constituir una fuente de imágenes importante para las cadenas de infor­
mativos. En Europa siempre se ha sido más exigente en este sentido. Además la
codificación 4:2:0 enlaza fácilmente con MPEG, que es el nueleo de la codifica­
ción DVB o "Diaital Video Broadcastina", que es, a su vez, el sistema de televisión
digital vía satélite, cable o difusión terrcna para Europa. Por otro lado, el
DVCPRO, más orientado hacía el mundo de los informativos profesionales, utili·
za compresión 4: 1: 1, tanto en Europa como en América. Se facilita así la transco­
dificación y el intercambio de programas. Sca como sea, tanto 4: 1: 1 como 4:2:0
reducen la tasa binaria de 168 Mbits/s a 125 Mbits/s. Ésta es la señal de entrada
a los compresores DV.
5.1. Entrelazado de campos en DV
Los sistemas DV utilizan compresión intracampo/intracuadro, lo que quiere
decir que pueden conmutar dinámicamcnte entre uno y otro modo. Como en
otros sistemas, la imagen sc divide en bloques de 8 X 8 pixeles, sobre los que se
realiza la DCT. Cuando la señal de entrada es una imagen de vídeo entrelazada, filas
consecutivas en el bloque de 8 x 8 pertenecen altcrnativamente al primero y
segundo campos entrelazados. En tal caso hay dos opciones: procesar cuadros o
procesar campos.
El procesado de cuadros convierte el bloque de 8 x 8, formado por filas corres­
pondientes a ambos campos, al dominio de la DCT. En el caso del procesado en
base a campos, el bloque de 8 x 8 píxeles se divide cn dos bloques de 4 x 8 píxe­
les, uno para cada campo. Ambos bloques son a continuación convertidos a DCT
por separado.
El procesado en base a campos funciona mejor que el basado en cuadros en las
zonas muy detalladas y con movimiento. En este caso el movimiento deshace la
correlación entre pÍxeles correspondientes a filas alternadas. Por su parte, el pro­
cesado en base a cuadros es más eficaz cuando no hay movimiento o éste es muy
pequeño. En este segundo caso la redundancia dentro del bloque de 8 x 8 es
mayor, proporcionando e! doble de muestras por zona local que el modo campo.
En las zonas lisas de la imagen o de muy poco detalle e! procesado en base a cua­
dros es también mejor que el basado en campos. Los sistemas DV combinan las
ventajas de! procesado basado en cuadro (denominado 8-8) y el procesado basado
261260
- -
TECNO! oct'. ACTU.I nI: TEI n'I~U)N
_ _ o - ­DCT 8·8
I
POSICIón hOllzonlat --..
,0.0 ,,O 2,0 3.0 4.0 5,0 6.0 7,0 Campo
0,1 1,1 2,1 3.1 4,1 5.1 6,1 7,1 Campo
t0,2 1.2 2.2 3,2 4.2 5.2 6,2 7.2. Campo
..E 0,3 1,3 2,3 3,3 4.3 5,3 6,3 7.3 "'Campo
0,0 1,0 2,0 3.0 4.0 5.0 6.0 7.0
0.1 1,1 2,1 3.1 4.1 5.1 6,1 1.1
0,2 1,2 2.2 3.2 4.2 5.2 6.2 7.2
0.3 1,3 2,3 3.3 '.3 5.3 6.3 7.3
0.4 1,4 2'< 3.< 4,4 5.4 6.4 7,4
0.5 1.5 2.5 3.5 4,5 5,5 6.5 7.5
0,6 1,6 2.6 3.6 '.6 5.6 6,6 7,6
0,7 1.7 2,7 3.7 .., 5.7 6,7 7,7
. OCT 2·4-8
~ 0.4 1,4 2,4 3,4 4,4 5.4 6,4 7,4 +-Campo
!! 0,5 1,52.53,54,55,56.5 7,5 +-Campo
0,0 1,0 2.0 3.0 4.,0 5,0 6,0 7.0
0,2 1,2 2.2 3.2 4,2 5,2 6.2 7,2
0,4 1.4. 2.< 3'< 4.4 5,4 6,4 7,4
0,6 1,6 2.6 3.6 4,6 5,6 6.6 7.6
-~ 0.6 1.6 2.6 3.6 4,6 5,6 6,6 7.6 +-Campo ~
el,0.7 1,1 2.7 3,1 4,7 5.7 6.7 7,7 ... Campo
0,1 1,1 2,1 3.1 4.1 5.1 6,1 7.1
1 0,3 1,3 2,3 3,3 4,3 5,3 6,3 7.3
0.5 1.5 2.5 3.5 4,5 5.5 6.5 7.5
0,7 1,7 2.1 3,7 4,7 5,7 6.7 7,1
N
&
E
el
Video In
DETECCiÓN DE I,-:====~=~·
MOVIMIENTO ¡- ¡ . / OCT HVLc·.. 1
Figura 8.24.

Selección de los bloques intracampo o intracuadro según el movimiento.

en campo (denominado 2-4-8), los cuales se seleccionan bloque a bloque en fun­
ción del movimiento.
5.2. Bloques, macrobloques y superbloques
Los bloques DCT, ya sean 8-8 o 2-4-8, descritos en los párrafos anteriores
se agrupan para formar macrobloques. Éstos son similares a los MB del
MPEG-2, sólo que adaptados a una estructura de muestreo 4: 1: 1. Puede verse
en la figura 8.25 que un macrobloque está formado por cuatro bloques DCT
de luminancia dispuestos en fila, más un bloque DCT de CS, más un bloque
DCT de CR, abarcando una zona de 32 píxeles por ocho líneas. Un solo blo­
que CS o CR abarca 32 píxeles de anchura, ya que estas señales están sub­
muestreadas 4: l. Se utilizan seis bloques DCT de 64 bytes (384 en total) para
formar un macrobloque. Este proceso es básicamente doblado en el caso del
DVCPRO-Sü.
A continuación se agrupan cinco macrobloques, seleccionados de distintas par­
tes de la imagen, para formar un "segmento de vídeo", el cual tendrá un tamaño de
384 X 5 ::: 1.920 bytes (flgura 8.25). Hay que notar que hasta este punto no se ha
producido ningún tipo de compresión. Se trata más bien de una reordenación pre­
via a la compresión. El proceso de formar segmentos agrupando macrobloques de
distintas partes de la imagen se denomina "barajado" (shriffling) y se realiza con la
intención de "igualar la dificultad" de los segmentos.
Los sistl'nJ.J. ele cOlllllret>ioll
MACROBLOQUE 4: 1:1
- I
.ó-.-.":~':n'~:;'H
1 IImltl;SiáI
'-<"-~ElII /~¡jlj~ TITIII
&i". ~T6~64b:~~_= :~:YI:~T ',)
l ~~~xej;~;~l~~ov~~~~.. ~I
Figura 8.25.
Barajado intracuadro de los macrobloques en el sistema OY.
Puesto que cada uno de los cinco macrobloques procede de una zona distinta de
la pantalla, su contenido será distinto y variado, de manera que un macrobloque
determinado contendrá mucho detalle y poca redundancia espacial, mientras que
otro macrobloque del mismo segmento pertenecerá a una zona lisa con mucha
redundancia. La ventaja del barajado, previo a la compresión, es que, como pro­
medio, los grupos de macrobloques contienen aproximadamente la misma canti­
dad de redundancia.
En DV se utilizan las mismas tablas de recuantiflcación para todos los bloques
del mismo macrobloque. Por otro lado, distintos macrobloques pueden utilizar dis­
tintas tablas de recuantificacion, dependiendo del análisis espectral en esa zona de
la imagen.
5.3. Análisis previo a la DCT
Una de las particularidades más interesantes de la compresion DV es que
permite un análisis de los bloques DCT de vídeo antes de que se realice la
compresion. La idea es optimizar el proceso DCT para conseguir la máxima
calidad con una tasa de datos de salida estable. El concepto es similar, aunque
se realiza a la inversa que en el casO del MPEG-2. Hay que recordar que el
proceso de recuantificación de los componentes frecuenciales DCT en
MPEG-2 está controlado por un mecanismo de realimentación. Es la tasa de
datos de salida ya comprimidos la que determina la dureza del proceso de
263
262
__
TLC,UI (H.;!. :(1 U:L IH- 1I,1I.UID"
rccuantificación. Puede decirse que mientras que OV "mira hacia delante",
MPEG-2 "mira hacia atrás".
En OV el p¡'eanálisis se realiza separadamente para cada uno de los segmen­
tos de' vídeo de 1.920 bytes formados con cinco macrobloques. Como en otros
sistemas basados en OCT, la recuantificación se logra aplicando factores de
ponderación a cada coeficiente OCT. La matriz de 64 coeficientes frecuencia­
les se multiplica por una tabla de factores predefinida. En OV se puede selec­
cionar entre 64 tablas de' recuantificación distintas. Este proceso de selección se
hace' para adaptar la importancia de los coeficientes de frecuencia al sistema de
percepción visual humano, a la vez que se logra una tasa binaria por cuadro
estable.
Las 64 tablas de recuantificación se organizan en cuatro grupos de 16 tablas cada
uno. El grupo 1 contiene las 16 tablas de recuantificación optimizadas para las más
bajas frecuencias espaciales. El grupo 4 está optimizado para los detalles de más
alta frecuencia espacial, mientras que los grupos 2 y 3 lo están para las frecuencias
medias.
Para comenzar, el proceso de compresión selecciona uno de los cuatro grupos
de 16 tablas cada uno midiendo "la energía de AC", que no es otra cosa que la suma
ponderada de los valores absolutos de los coeficientes AC (todos excepto el de
OC). Este valor es una indicación de la cantidad de detalle espacial que contiene
esa zona de la imagen.
A continuación el proceso de compresión selecciona entre las 16 posibles la
"lperbloqUll'·¡7m8<;:,.ot.l.¡qves
< J ll4 ~(S8!..:,:,
o~ ~ , "
/,	 ~--=---­ 6 MBsdi! llpiJeles
,	 -- - . ~.8p;.Gln
2	 ---- -- l'
~ _~~~_:~~/p~~:~~eles~ ,1
5 ~¡se!.:U ~
~ 1.,. I~f+tl-H~I )'JM~s4~e~::..~:ll'1"~
. ­
1 e.-"l1f1Ó:"J.lUfO"PAl
0 fl'SIIII en NTSC)
- -) /
~.,e:'~
,·,.,,.,e] ,.¡", " , ."~
Figura 8.26.
En DV la compresion esta flanqueada por un proceso dc barajado y otro de desbarajado, de forma
que la cantidad de datos sca constante después dc la codificación de longitud variable (VLC).
________________________Lo.c; ~i:'l{'ma~ dc ("n.!l1p,.c~i~Hl
tabla definitiva de cuantificación. Esta selección se hace probando las 16 posibles
tablas)' contando el número de bytes que proporciona cada una de ellas por seg­
mento de vídeo. La tabla que proporCione una cuenta más cercana, pero sin exce·
der a 385 bytes, es la que se selecciona definitivamente. Puesto que un segmento
de vídeo estaba formado por 1.920 bytes, el factor de compresión logrado será:
1.920: 385 = 5: 1. Este proceso de preanálisis garantiza una tasa binaria por cua­
dro de televisión estable, lo cual es necesario en el caso de Jos magnetoscopios
digitales.
La figura 8.26 muestra un resumen de la codificación OV Tanto si Se trata de
señales 4: 1: 1 como si son 4:2:0, un MB se forma con seis bloques OCT, cuatro de
luminancia, más uno de CB y otro de CR. La diferencia está en que los MBs 4: 1: 1
son alargados y tienen unas dimensiones de 32H x 8V, mientras que los MBs 4:2:0
son cuadrados, con un tamaño de 16 x 16. También en ambos casos un superblo­
que (SB) se forma con 27 MB, aunque la forma de la zona abarcada cambia ligera­
mente en función de si se trata de señales 4:1:10 de señales 4:2:0 (figura 8.26).
Una imagen completa está formada, en la norma de 625 líneas y 50 campos, por
60 SB (5 en la dirección horizontal y 12 en la vertical). En las imágenes 525/60
sólo hay 10 SB por altura de imagen. Con 5 MB tomados de SB distintos se forma
un segmento de 1.920 bytes, los cuales son sometidos a compresión OCT. Después
de la codificación de longitud variable, los 1.920 bytes de un segmento se con­
vierten en 385, lográndose una compresión de 5: 1.Todos los macrobloques de una
misma fila de SB se graban en una misma pista en la cinta magnética. Se necesitan,
por tanto, 12 pistas para grabar una imagen completa en la norma 626/50, que se
convierten en lO en 525/60.
Resumen
• Los	 principales sistemas de compresión pal-a imagen son: JPEG para reto­
que fotográfico de imágenes estáticas; M-JPEG para compl'esión intracua­
dro de imágenes en movimiento; MPEG-l y MPEG-2, que forman una
familia completa de normas de compresión, para todo tipo de aplicaciones,
y grupo OV para compresión intracuadro aplicada a los magnetoscopios
digitales.
•	 JPEG utiliza dos modos de compresión: compresión sin pérdidas basada en
codificación predictiva, seguida de codificación aritmética o codificación
Huffman, y compresión con pérdidas (pcrceptual) basada en OCT progresiva
o secuencial.
•	 M-JPEG es básicamente lo mismo que JPEG, pero adaptado a las imágenes de
televisión (tamaño del raster, espacio de color, etc.). Al igual que JPEG, el
Motion-JPEG es un sistema de compresión intracuadro.
• Los codificadores	 con pérdidas M-JPEG para aplicaciones profesionales de
edición no lineal suelen utilizarse factores de compresión entre 3: 1 y 6: 1. Por
su lado, los compresores M-JPEG sin pérdidas no superan factores de com­
presión de 2: l.
o	 El MPEG-l comenzó en 1988 con la intención de lograr un procedimiento
264	 265
T¡.('NOI O(;¡-. AC"¡"lIU DE TU EVI"iIÓ"-!
de codificación capaz de ubicar imágenes en movimiento en soportes de tipo
CO-ROM. Para esto es necesario rebajar la frecuencia de bits a sólo 1,5
Mbits/s. Con una frecuencia de bits tan baja e! sistema MPEG-l no puede
proporcionar imágenes de calidad broadcast. Probablemente su aplicación más
normal sea la de mostrar imágenes en movimiento sobre pantalla de ordena­
dor.
•	 La compensación de movimiento funciona como sigue: se envía una imagen
"1", la cual es, además, almacenada para ser comparada con la próxima ima­
gen de entrada y encontrar los vectores de movimiento de los diferentes blo­
ques que componen la imagen. La imagen ''['' se desplaza de acuerdo a estos
vectores y se compara con la próxima imagen para producir los datos dife­
rencia, Tanto los datos diferencia como el valor de los vectores son transmiti­
dos.
• Las	 imágenes "B" tienen una doble utilidad: en primer lugar, la predicción
bidireccional proporciona una mejor aproximación al valor real, lo que
reduce el error de predicción, a la vez que se reducen los efectos de! ruido.
En segundo lugar, cuando un objeto se mueve por la pantalla, e! borde
anterior del objeto va tapando u ocultando partes del escenario, mientras
que el borde posterior va descubriendo o revelando nuevas partes del esce­
nario.
• El	 MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar
imágenes y sonidos para receptores, que pueden ir desde LDTV hasta
HOTV. En principio, el MPEG-2 se ha diseñado para proporcionar imáge­
nes de alta calidad, tanto a nivel de contribucion como a nivel de emisión
digital.
•	 Un punto fuerte de los sistemas MPEG es su l1exibilidad en el nivel de cali­
dad de imagen, principalmente determinado por la frecuencia de bits. En
MPEG-2 aparece, además, el concepto de "escalabilidad". Este principio
supone que un decodificador MPEG-2 relativamente económico puede
decodificar imágenes válidas, utilizando solamente una parte de! tren bina­
rio.
• En MPEG-2 los perfiles pueden entenderse como conjuntos de herramientas
de codificación y se refieren a la forma en que se comprimen y codifican las
imágenes. Cada perfil es más sofisticado que el anterior y añade métodos
suplementarios.
• Los niveles se refieren al grado de calidad y la aplicación, y van desde "alta
definición" hasta calidad "VHS". Con cuatro niveles y cinco perfiles pueden
obtenerse hasta veinte combinaciones. Sin embargo, no todas parecen úti­
les.
•	 El elemento más pequeño del múltiplex MPEG se denomina "bloque" y tiene
un tamaño de 8 líneas por 8 píxe1es. Los bloques se agrupan formando
"macrobloques" (MB), de acuerdo con alguno de los perfiles MPEG-2. Los
macrobloques 4:2:0 están formados por 4 bloques de luminancia, 1 bloque de
CB y l bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminancia, 2
Los sistemas dt' compresión
bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloqucs dc hnni­
nancia, 4 de CB )' 4 dc CR.
• Los segmentos (slices) son conjuntos de macrobloques que siguen la secuencia
de líneas horizontales propia de televisión. Los segmentos pucden variar dc
longitud, desde un minimo de un macrobloque hasta un máximo de una línea
de anchura por 16 de altura.
•	 La eficacia de la codificación MPEG depende en gran medida del tamaño
de los Gap. En general, Gap largos, llenos de imágenes "P" y"B", per­
miten reducir al máximo la tasa binaria, manteniendo la calidad de la
señal.
• En la detección de movimiento prevaleccn dos técnicas: "la igualación de blo­
ques" y la "correlación de fase". En la mayoria de los casos los fabricantes uti­
lizan el algoritmo de "igualacion de bloques" (block matchinB), más sencillo que
el de "correlación de fase".
•	 La codificación MPEG-2 se pensó sobre todo para la distribución de material
audiovisual, ya sea por radiodifusión o mediante soportes tipo CD-ROM o
DVD. Por esto se creó un nuevo perfil, denominado 4:2:2P@ML (perfil prin­
cipal/nivel principal, con estructura de codificación 4:2:2).
•	 4:2:2P@ML permite utilizar una estructura de muestreo 4:2:2, aumenta el
númcro de líneas codificadas hasta 608 (512 en la norma 525/60) Ypermite
frecuencias binarias del tren comprimido hasta 50 Mbits/s
•	 Se dispone dc dos sistemas distintos para multiplexar corrientes binarias
básicas. Uno de estos métodos, denominado "Transpore Stream" o "TS", se
basa en el uso de paquetes de longitud fija, y el otro, conocido como
"Program Stream" o "PS", en paquetes de longitud variable. En ambos casos
se comienza por formar los "PES" (corrientes básicas en paquetcs) de lon­
gitud variable. La difcrencia entre los dos métodos se produce en la etapa
final de multiplexado.
Los paquetes TS tienen una longitud fija de 188 bytes y se han pensado para
entornos ruidosos, tales como radiodifusión, donde la integridad de los datos
pucde quedar afectada durante la transmisión. Los paquetes PS no tienen una
longitud definida, suelen ser bastante largos y se han pensado para entornos
libres de errores, tales DVD.
El MPEG-4 es un grupo de trabajo dentro de la familia MPEG, totalmente
remodclado, cuyo propósito es lograr altos factores de compresión utilizando
solamente información contextual. El algoritmo de compresión se hasará en
DCT y wavelets y su aplicación será la de teleconferencia y similares, aunquc
se contempla un perfil de estudio para aplicaciones profesionales de cine y
televisión capaz de soportar hasta 100 Mbits/s.
•	 MPEG-7 es un sistema de descripción y catalogación de los contenidos mul­
timedia. Su intención es constTuir un conjunto normalizado de descriptores,
esquemas)' un lenguaje estándar que pueda ser utilizado para describir los
contenidos multimedia.
•	 DV es una familia de magnetoscopios digitales que abarca DV, DVCAM,
266
267
TLC,lllUJcL ;CTU:1 nl HJ.l"l';;f(.,
DVCPRO-2S y DVCPRO-SO. A éstos habría que añadir el recién aparecido
DVCPRO-100, que trabajará a 100 Mbits/s y está adaptado a las necesidades
de la HDTV
•	 Probablemente la característica más novedosa e interesante de la codifica­
ción DV sea el proceso de "barajado de bloques intracuadro", que mejora
la calidad obtenible para una cierta frecuencia binaria y facilita la obtención
de trenes binarios de frecuencia estable.
CAPÍTULO 9
El audio analógico
1. Naturaleza del sonido
El sonido se define como las variaciones u oscilaciones en la presión, en e! despla­
zamiento o en la velocidad de las particulas en un medio elástico. Para nosotros los
humanos e! sonido es una sensación producida en e! oído por las mencionadas oscila­
ciones. Tres son las características que definen al sonido: intensidad, tono y timbre.
1.1. Intensidad del sonido
Es la característica de! sonido relacionada con la amplitud o altura de la vibración
y que nos permite distinguir entre sonidos débiles, medios o fuertes. La intensidad
de! sonido depende de la cantidad de energía que se utiliza para producir la vibra­
ción o variación de presión de! aire. Cuanta más energía se utilice, mayor será la
variación de presión y más alta la intensidad de! sonido producido. Nosotros pel-ci­
bimos la intensidad como volumen o potencia del sonido.
El oído humano no es capaz de medir la intensidad de un sonido de forma absolu­
ta. En lugar de esto, el oído humano trabaja por comparación, es decir, comparando
la intensidad o volumen de un sonido con otro. Por tanto, nuestra sensación de volu­
men es más una medida relativa que una escala absoluta, de tal forma que lo que per­
cibimos son realmente relaciones de intensidad de un sonido con respecto a otro. Estas
relaciones de intensidad se miden en decibelios (dB).
De forma simple podemos decir que un decibelio no es otra cosa que la com­
paración entre la intensidad de dos sonidos. Se trata de una escala logarítmica que
nos permite expresar valores físicos muy altos mediante una escala de números
relativamente pequeña. Por ejemplo, la escala de decibelios está diseñada de tal
manera que doblar la intensidad (potencia) se expresa mediante un incremento de
3 dB. En otras palabras, cuando doblamos o dividimos por dos la intensidad de un
268 269
l:I audio analógico
·rrc'-!( H 0(;1 ACTll.l,, nr lT n·¡....t();"
sonido producimos una "ariacion de 3 dB. Por tanto, un cambio de 3 a 6 dR signi­
fica doblar la intensidad de sonido, de la misma forma que sucede con un cambio
de 6 a 9 dB o de 15 a 18 dB. Es necesario familiarizarse con la escala de decibelios,
puesto que es la que se utiliza más frecuentemente en las producciones de audio
para refcl-jrse al nivel de los sonidos y para describir las características de los equi­
pos. Por ejemplo, los indicadores de sonido (medidores VU) que se emplean para
medir la intensidad de la seiial de audio están calibrados en decibelios.
1.2. Tono de un sonido
El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, un vio­
lín o un pÍcolo, por ejemplo, produce muchas ondas sonoras por segundo, es decir, un
sonido de alta frecuencia. Por contra, un bajo o una tuba producen muchas menos
ondas sonoras por segundo, esto es, sonidos de baja frecuencia. Nosotros medimos la
frecuencia de los sonidos en hercios (Hz), que significa número de ciclos por segun­
do. En audio, a la frecuencia fundamental o básica de un sonido se le suele ]Jamar tono.
Las personas podemos oír frecuencias comprendidas entre 15 y 15.000 Hz
(algunos afortunados hasta 20.000 Hz), pero esto depende de cada persona y varía
con la edad. A medida que nos hacemos viejos la sensibilidad a las frecuencias
extremas, es decir, a las más altas y las más bajas, disminuye. Además para una per­
sona normal de cualquier edad la sensibilidad a Jos sonidos de frecuencia media,
comprendidos entre unos 500 y 4.000 Hz, es muy superior a la correspondiente a
las frecuencias extremas. Estas frecuencias medias son precisamente las más impor­
tantes para entender una conversación.
Los equipos profesionales de audio son capaces de reproducir frecuencias sono­
ras entre 15 Hz y 20.000 Hz, lo cual comprende todo el espectro de audio nece­
sario para reproducir con precision y nitidez cualquier tipo de música.
Los sonidos con frecuencias superiores a los 20.000 Hz se denominan ultrasonidos
y. aunque algunos animales pueden oírlos, carecen de interés a nuestl"OS efectos.
1.3. Timbre del sonido
Es la característica del sonido relacionada con el número, amplitud y orden de
los armónicos de la frecuencia fundamental que un sonido determinado contiene
y que nos permiten diferenciar el matiz de cada instrumento. Supongamos que dis­
ponemos de un violln y un piano que producen exactamente la misma nota musi­
cal y con la misma intensidad, esto es: producen dos ondas sonoras de igual inten­
sidad y frecuencia. La pregunta es: ¿producen la misma sensación sonora ambas
notas musicales? Evidentemente, no. Ambas notas se diferencian en su timbre.
Tanto el sonido del violín como el del piano son producidos por la vibracion de
una cuerda a una frecuencia determinada, por ejemplo, 400 Hz, pero a partir de
aquÍ todo lo demás es diferente. La nota del violín resuena en el interior de la caja
de madera de tal forma que se producen, por interferencia, ciertas frecuencias
armónicas, es decir, frecuencias múltiplo de la original (800 Hz, 1.200 Hz, 1.600
Hz, etc.). Dependiendo de la forma, tamaño e incluso tipo de madera con que está
construida la caja del violín, ciertas frecuencias armónicas salen más favorecidas
que otras, de tal forma que lo que realmente olmos es la suma de la frecuencia ori­
ginal (400 Hz) y ciertas proporciones de frecuencias armónicas. En el interior de
la caja del piano se produce el mismo efecto de generación de frecuencias annoni­
cas, pero en este caso la caja es mucho más grande y tiene una forma muy dife­
rente. De hecho, puesto que no es posible construir dos instrumentos absoluta­
mente idénticos aunque sean de! mismo tipo (por ejemplo, dos violines), cada ins­
trumento tendrá su propio sonido aunque ambos estén perfectamente afinados.
1.4. Nivel de presion sonora
La presión sonora se mide en dinas por centímetro cuadrado (d/cm'), en
microbares (mb), en newtons por metro cuadrado (N/m') o en pascales (pa).
Puede establecerse la siguiente relacion entre estas unidades de medida:
1 d/cm' =1 microbar =0,1 N/m' =0,1 pa
Existe un "nivel de presion sonora" (SPL o Sound Pressure Leve!) de referencia,
establecido en 0,0002 d/cm', que corresponde al umbral de audición de una per­
sona media, de edad inferior a los treinta años y para una frecuencia de
1 KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel umbral
de referencia, de acuerdo con la siguiente fórmula:
SPL(dB) = 20 log10 (P/P.,,)
Donde:
• SPL(dB) es e! número en decibelios de la señal medida.
dlcm2
dB
10.000 15D Avión despegandO
140
1.000
130 2
100
120 Umbral de molestia
110 Martillo neumatlco - -120Nlrrf;;; 200 d/cm
100 Metro
10
90 Trafico
.eo Cantanle profeSIOnal
70 Fábnca
Q
1.000.000 : 1
O.L,
60 Conversación normal
,
50 Ofictna
V
40
r Susurro0.01~
30
Sala de estar
20
0.001
1-'0
20 ~NJm2 =. 200 IJd/Cm
2
Umbral de audiCión0.0002
Figura 9.1.

Algunos niveles de presión expresados en d/cm' y en decibelios.

271
270
Il:::OC(llir;;-:-,t"·--ru.-1. rJI 1ti.!. ·',10:--'
• P es la presión del sonido medido en di cm' .
• PREF es la presión del umbral de referencia =0,0002 di cm' =0,0002 mb
= 2 x 10-5 N/m' = 20 micropascalcs.
La figura 9.1 mucstra algunos niveles de presión sonora encontrados en la vida
cotidiana, cxpresados en dI cm', así como en decibelios, siempre en comparación
con el umbral (k audición.
1.5. Niveles de sonoridad
La sonoridad o intensidad aparcnte de un sonido es algo subjetivo. Es el atri­
buto por el cual pueden ordenarse, en una escala, las sensaciones audibles en
términos de "flojas" o "fucrtes". La sonoridad depcnde no sólo de la intensidad
del sonido, sino también de su frecuencia. El decibelio exprcsa intensidades
sonoras en términos absolutos. Esto tienc el inconvcniente de que, siendo el
nivel percibido variable con la frecuencia, una cierta cantidad de decibelios
supondrá un sonido que parecerá más o mcnos intenso dependiendo de su fre­
cuencia. Para evitar este inconveniente aparece el "fon", que es una unidad de
apreciación subjetiva, es decir, que en las curvas isofónicas el número de fonos
se mantendrá constante. El fon es, por tanto, una unidad de nivel sonoro que,
juzgado por un obscrvador mcdio, resulta numéricamente igual al nivel de
intensidad de un tono puro de 1 KHz, es decir, a 1 KHz el número de fonos y
e! de decibelios coinciden; a otras frecuencias distintas harán falta más o menos
decibelios para producir una cantidad de fonos constante. Por ejemplo, un tono
puro de 125 Hz y 40 dB produce la misma intensidad percibida que otro de 4
KHz y 25 dB, aunque en ambos casos el nivel subjetivo es de 30 fonos.
Por su parte, la medida de la intensidad de! sonido basada en fonos presenta
también algunos problemas, ya que se trata de una escala de medida subjetiva, de
forma que en la mayoría de los casos se sigue utilizando el decibelio para expresar
niveles de sonoridad o de ruido en instalaciones industriales, etc. Además los fonos
no pueden sumarse directamente. Por ejemplo, una señal de 200 Hz y 70 fonos
más otra de 4 KHz)' también de 70 fonos no producen, al sumarse, una intensidad
de 140 fonos, sino que la sonoridad total percibida es de unos 80 fonos. Debido a
esto y a otras imprecisiones, Fletcher, Munson, Robinson, Stevens y otros elabo­
raron una serie de curvas de apreciación subjetiva de las intensidades, denominas
escalas del son o "sonios". El son se define como la sonoridad de un tono de 1 KHz
y 40 dB Ytiene la característica de que un aumento del nivel sonoro de 10 fonos
es aproximadamente equivalente a doblar el nivel de sonoridad en sanos, mientras
que un aumento de medio fono corresponde al cambio mínimo perceptible del
nivel sonoro. El son está mejor adaptado que el fon a la apreciación subjetiva del
oído humano. Puede establecerse la siguiente relación entre fonos y sonios:
Ns =2(L.4UjIW
Sicndo "Ns" la sonoridad en sonios y "L" el nivel en fonos. Igualmente sc puede
establecer la relación inversa:
L=40+ 10 lag, Ns
La figura 9.2 muestra las curvas o contornos de igual sonoridad en fonos para
_____________________________________--""'E'--I.",'U",dIU .1!)'1.lljgM
120
'101onl)!:
110
t100
!
i 90

ro

ái 80

íji
~ 70
~~ 60

§

~ 50
~
"ii 40
~
30
20
10
_
100 ronos
90 fonos
30 lonos.
40 lonos
~
~~~0
7010"'!!~0
--------:f~no~-~
~
i
i
,. ,.
. ..
,
....
','-, ­
, ,
,­ ,
,,
;~~'i~: -1-:- L_
!·10	 I
:
I l; I
20	 :H.5 63 125 250 500 1.000 2.000 4.000 8000 12500
FTI~cuencta en Hz ________
Figura 9.2.

Contornos de nivel de presión sonora de igual sonoridad.

tonos puros según la norma ISO 226 de 1987. Estas curvas pueden entenderse
como las curvas inversas a las de respuesta a las distintas frecuencias por parte del
oído humano y para dife¡"entes niveles de presión sono¡"a (Sound Pressure Leve! O
SPL). Un tono de 1 Khz que tiene una presión sonora de 40 dB produce un nivel
de sonoridad de 40 fonos. Para que otro de 63 Hz produzca la misma sensación
sonora, su SPL dcbc incrementarse en 20 dB. Los contornos de igual intensidad
tienen diferentes formas a diferentes SPL. A medida que la intensidad del sonido
aumenta, la respuesta a frecuencia del oído mejora y se vuelve razonablemente
plana, con una variación de ± 10 dB a un SPL de 110 dB.
Puede verse, a partir de la figura 9.2, que el umbral de audición para bajas fre­
cuencias esta en torno a los 60 dB. Igualmente puede apreciarse que la maxima
sensibilidad del oído humano se cncuentra hacia los 3 KHz, superados los cuales la
sensibilidad vuelve a decrecer.
1.6. Rango dinámico audible
El rango dinámico del sistema de audición humano está limitado en su parte alta
por el nivel de dolor y en su parte baja por el umbral de audición. Aunque varía de
un individuo a otro, el valor típico es de 120 dB. Sin embargo, una cxposición per­
manente o habitual a niveles de presión sonora por encima de 90 dB, puede causar
pérdida de audición. Niveles SPL de 120 dB o más pucden producir dolor o pérdi"
272 273
TECNOLOGíA ACTUAL llL Tl:LEVISION
i
"0
110
roo
90
<D
¡ BO
..
~ 70
~ 60
jj
~ 50
~
;; 40
z•
30
20
lO
O
Figura 9.3.
-10
20 31,S 63 '25 500 250 1.000 2.000
Frecuencia en H,z-------.
4.000 6.000 12_500
La curva exterior muestra la zona de audición humana en función de la frecuencia y del nivel
de presión sonora. Las curvas interiores muestran las zonas ocupadas por la música y la pala­
bra, respectivamente.
da temporal o permanente de audición, incluso aunque la exposición no sea muy
prolongada. Con la edad, y sobre todo a partir de los treinta años, la audición se
deteriora, en términos del umbral de audición y de la sensibilidad a las altas fre­
cuencias. El umbral de audición depende también del nivel de ruido ambiente, el
cual produce un efecto enmascarador. Este efecto de enmascaramiento por parte
de! ruido se define como el proceso por e! cual el umbral de audición de un sonido
deseado es elevado por la presencia de otro sonido no deseado, en este caso el ruido.
1.7. Resolución espectral del sistema de audición
El sistema de audición humano se caracteriza por presentar una capacidad de
resolución que puede equipararse con una batería de filtros paso-banda que se sola­
pan entre sí, llamados "bandas críticas". Son estas bandas críticas las responsables
de los fenómenos de enmascaramiento del sonido. Este fenómeno de enmascara­
miento se define como la medida en que debe elevarse el umbral de audición de
un sonido en presencia de otro sonido enmascarador. Dado un sonido dominante
de una cierta frecuencia, otros sonidos de nivel inferior cuyas frecuencias caigan
dentro de la misma banda crítica son enmascarados, hasta el punto de que pueden
resultar inaudibles. Este aspecto psicoacústico es una de las bases de los sistemas de
compresión en audio digital, tal como se verá en el capítulo 11.
El audio analú2'ico
2. Características eléctricas del sonido
Una 'ez convertido a seJ'íal eléctrica, el sonido se caracteriza por variaciones
constantes de amplitud. El rango de amplitudes, niveles o voltajes que puede pre­
sentar la señal de audio es tan grande que se acostumbra a expresar en decibelios,
con respecto a un valor de potencia o de voltaje predeterminado.
2. 1. Medidas de nivel
En general se utilizan tres o cuatro unidades de medida para definir los niveles
de audio.
2.1.1. E1dBm
Es la abreviatura utilizada para expresar la "potencia cuadrática media" (RMS) de
una onda senoidal con respecto a una potencia de referencia de 1 milivatio. Esta poten­
cia de 1 milivatio, cuando es disipada por una carga de 600 ohmios, produce un vol­
taje RMS de 0,775 V. En cambio, si esta misma potencia es disipada por cargas de otros
valores, el voltaje resultante será distinto. La potencia de referencia de 1 mW se defi­
ne como OdBm. Cualquier otro nivel de potencia de audio se expresará en dBm con
respecto al nivel de OdBm, según la fórmula:
N(dB) =10 10glO (P/P.EF)
Donde N(dB) es el número de decibelios.
P es el nivel de potencia medido.
p.EI es el nivel de potencia de referencia de 1 mW.
También puede utilizarse la fórmula anterior para medir voltajes o corrientes,
sólo que en este caso cambia ligeramente:
N(dB) =20 10glO (VIV"",); N(dB) =20 10g¡0 (111,1,)
En las dos últimas fórmulas el factor "10" que multiplica al logaritmo decimal del
quebrado, en el caso de las potencias, ha sido cambiado por "20", como consecuencia
de la relación cuadr¡itica que hay entre la potencia y el voltaje, así como entre la poten­
cia y la intensidad (W =1" R; W =V2
IR). En cualquier caso, se asume que los volta­
jes y las corrientes están medidos sobre impedancias idénticas, es decir, sobre 600 Q.
2.1.2. EL dBu
Una forma alternativa de medir los niveles de la señal de audio es el dBu. En este
caso se asume que la impedancia de la fuente es "casi-cero" y que la impedancia de la
carga es "casi-infinito". En estas condiciones idealizadas de carga abierta la fuente no
disipa ninguna potencia medible en la carga, de manera que el voltaje de la fuente de
carga abierta no queda afectado en absoluto por dicha carga. El nivel de señal de refe­
rencia sigue siendo O,775V RMS. A efectos prácticos, el concepto dBu requiere impe­
dancias de la fuente del orden de 50 ohmios o menos y que la impedancia de la carga
iguale o exceda a 10 K Q. En ocasiones se emplea también la abreviatura dBfl.
274
275
T[CNOLOGI:' :CTU:L 1)[: TEl.['"I,I;¡Ó:-,,:
2. 1. 3. EL dB V
Literalmente se refiere a cambios de nivel con referencia a 1V RMS. Es una utiliza­
ción poco afortunada, ya que los decibelios no pueden referirse a simples voltajes. Para
superar este escollo se asume que los voltajes se desarrollan sobre cargas totalmente
abiertas. El dBV suele ser utilizado por los fabricantes de mio-ófonos.
2.1.4. EL dBW
Hay una cuarta unidad: e! dBW o decibelio-vatio. Se utiliza para medir la poten­
cia a la salida de los amplificadores. Se dice, por ejemplo, que un amplificador de
100 vatios tiene una potencia de 20 dBW El valor de potencia medido en dBW es
numéricamente igual a diez veces el logaritmo decimal de la potencia de salida
expresada en vatios.
2.2. LÍneas equilibradas y no equilibradas
Las líneas de audio "no equilibradas", también conocidas como "no balanceadas"
se encuentran en la mayoría de los equipos domésticos e incluso en algunos profe­
sionales. Se caracterizan por utilizar un solo hilo conductor interno, recubierto por
una malla de blindaje. El conductor interno o "alma" constituye el "camino de ida",
mientras que la malla forma e! camino de retorno. La malla o pantalla reduce consi­
derablemente los efec1:os de interferencia externa, aunque no las elimina totalmen­
te. Cuando la longitud de! cable es considerable (por ejemplo, mas de cinco metros),
la acumulación de interferencias puede distorsionar la señal de audio hasta hacerla
inservible. Las líneas no balanceadas terminan en conectores de tipo "Jack", "RCA",
"DIN" y similares. La figura 9.4 muestra la conexión no balanceada entre una fuente
de señal y un equipo de destino.
Salida de señal Entrada
Cable conductor
Malla de apantallamiento
Tierra
AiSla~~le)
Cubierta de
plástico
Malla -
Conductor
central
Figura 9.4.
Conexión entre dos equipos "no equilibrada".
276
El auJiu art®~Q
Las lineas equilibradas se basan, en cambio, en la utilización de dos cables con­
ductores centrales (figura 9.5) en Jugar de uno solo. Como en e! caso anterior,
estos cables están recubiertos por una malla de apantallamiento. Así se mejora el
rechazo a las interferencias externas. En cada extremo del cable se coloca un trans­
formador que actúa como equilibrador. El primario del transformador está conec­
tado a la salida de la fuente. Las variaciones de tensión del primario aparecen indu­
cidas en e! secundario. Los dos conductores constituyen los caminos de ida y retor­
no de la señal de audio. La malla no forma parte del circuito, en e! sentido de que
la señal no circula por ella y sólo actúa como pantalla de aislamiento. Si una señal
interferente atraviesa la pantalla, se inducirá en los dos conductores por igual. Esta
corriente interferente llegara a los dos terminales del primario del segundo trans­
formador, donde será cancelada, ya que dos señales idénticas que circulen en sen­
tidos opuestos se cancelan al encontrarse. Este tipo de circuito se conoce como
"modo común", ya que la interferencia es igualo común para los dos conductores.
La cancelación de las interferencias en e! transformador se denomina "rechazo en
modo común" (CMR). Suelen lograrse factores de rechazo en torno a los 80 dB.
Salida de señal
Enlrada eQUilibrad{>
Transformador Transformador
rv;­ M.r4­
Señal de audio
'"'¡:.~~III~JI'--
TIerra
Dos conductoresCubierta de
plástico aislados
oConector macho

visto desde el

lado de las patillas

Figura 9.5.

Conexionado de dos equipos utilizando transformador y Hnea equilibrada.

Por su parte, la señal de audio en un terminal determinado, a la salida del secun­
dario de! primer transformador, se encuentra en contrafase con respecto al otro
terminal. Dos señales en contrafase circulando en sentido contrario equivalen a
dos señales en fase circulando en el mismo sentido, de forma que se suman al
encontrarse. Este tipo de señales se denomina "señal diferencial", mientras que la
entrada equilibrada se denomina "entrada diferencial", porque acepta "señales dife­
renciales" mientras rechaza las "señales comunes". Las líneas equilibradas o balan­
ceadas se utilizan en aplicaciones profesionales, ya que son mucho más resistentes
277
Tr-CNOIDCiA ACTU.-I DF nJ I-ShIO.:
a las interferencias. Esto es especialmente importante en el caso de encaminar
sei'íales de muy bajo nivel, ya que, como siempre, lo importante no es el nivel de
las interferencias o del ruido en sí mismo, sino de la relación señal-a-ruido.
El conector balanceado más utilizado en equipos profesionales es el XLR-3
(también conocido como "tipo CANON"). XLR significa eXternal, Live, Return, o
externo, vivo, retorno, e indica que la patilla 1 es la pantalla, la patilla 2 es el "vivo"
o "caliente" y la patilla 3 es el "retorno" o "frío" .
En la mayoría de los equipos el conector macho es el que entrega la señal de
audio, mientras que el conector hembra es el que la recibe. Sin embargo, en algu­
nos casos muy concretos se utiliza el principio contrario, por lo que este extremo
deberá comprobarse en cada ocasión.
2.3. Señales de alto y hajo nivel
Son muchos los equipos de audio que pueden encontrarse en el estudio de
grabación o en las prodUCCiones en exteriores. Sin embargo, en lo que al nivel
de señal que entregan se refiere, éstos pueden dividirse en dos grandes gru­
pos o categorías: los quc entregan niveles de salida bajos y los que dan un nivel
de salida alto. A la primera categoría corresponden, de forma casi exclusiva,
los micrófonos (y otros transductores similares). Todos los demás equipos
~rop~rcionan un nivel de salida alto, que suele etiquetarse como "nivel de
lmea .
2.3.1. Micrijonos: sensibilidad e impedancia
La sensibilidad de los micrófonos suele expresarse en microvoItios, o dBY,
mcdidos sobre una carga abierta y para un nivel de presión sonora de 74 dB, Yes
una medida de la eficacia con que un micrófono convierte la presión sono;a (ener­
gía mecánica) en señal de audio (energía eléctrica).
Otra forma de expresar la sensibilidad de los micrófonos es indicando la tensión
que entregan en circuito abierto en funcian de la unidad de presión incidente:
Tension de salida Vs
Sensibilidad (S) ==
Presión incidente de njerencio p
La tensión de salida se mide sobre circuito abierto. La presian incidente de refe­
rencia puede ser un pascal (pa) o un microbar (mb), por lo que la sensibilidad que­
dará expresada en milivoltios por pascal o en milivoltios por microbar, siendo 1
pascal = 10 microbares. El pascal es la unidad de presión en el Sistema
lnternacional (SI), se abrevia "pa" y es igual a 1 newton por metro cuadrado. La
presión de referencia equivalente a un sonido de 20 dB es de 20 micropascales
(mpa).
Los micrófonos de condensador, que son los más sensibles, proporcionan, típi­
camente, 20 mVIpa, mientras que los micrófonos de bobina móvil dan, aproxi­
madamente, 2 mV Ipa.
El audio analópico
A menudo la sensibilidad de los micrófonos se expresa en decibelios. Esta forma
de medir la sensibilidad se refiere a cuántas veces la tensian de salida del micrófo­
no es inferior a un voltio cuando la presión mecánica es de un pascal)' siempre en
circuito abierto:
SensibiJidad (S) =201 Tensión de salidaog dB
1 voltio
La tensión de salida de los micrófonos es siempre muy inferior a un voltio, de
manera que la fraccian será necesariamente inferior a la unidad, y ya se sabe que
el logaritmo de una cifra menor que 1 es siempre negativo. Así tendremos que:
-20 dE == 100 mVIpa; -30 dE == 32 mVIpa;
-40dBf 10 mVIpa; ---{iD dE == 1 mVIpa...
La impedancia de los micrófonos de calidad profesional está normalizada a
1SO ohmios, aunque pueden encontrarse, en la práctica, otros valores. Un
micrófono típico de bobina móvil, con una impedancia fuente de 1SO ohmios,
genera un voltaje en circuito abierto de 100 mV (-SO dB) al aplicarle una pre­
sión sonora de 74 dB. La impedancia de la entrada del preamplificador se adap­
ta a la de salida del micrófono, esto es, tiene un valor de 1.500 Q o superior,
para evitar que la señal del micrófono se atenúe y se degrade la relación señal­
a-ruido.
La figura 9.6 muestra la configuración típica de un circuito de entrada de
micrófono. Puede apreciarse que la señal entregada por el micrófono está balance­
ada con respecto a tierra y que se utiliza un cable de dos conductores activos, más
una malla de blindaje conectada a tierra.
Micrófono
Preamplificador
1.500 ohmios~
.-
Malla de blindaje r---.J
Figura 9.6.

Circuito de entrada de preamplificador de micr6fono.

Puesto que la impedancia de entrada del preamplificador no es infinita, el
micrófono disipará una pequeña energía en esta carga. Esta situación es típica en
los micrOfonos de bobina móvil o de cinta. La tabla 9.1 muestra los niveles típicos
entregados por los micrófonos de bobina móvil para tres niveles distintos de SPL.
Las medidas en my, dBV y dBu se refieren a los niveles de salida en circuito abier­
to. La columna de más a la derecha se refiere al nivel de señal entregado por el
micrófono, conectado a una carga de 1.500 Q y expresado en flV RMS.
278
~D~L:--';(JlJ)(.;i.- :CTlL-1 IH rUL"[]O:'-.'
Tabla 9.1 Niveles de señal t/picos de los micrófonos.
En circuito abierto Con carga de 1,5 KW
SPL (dB) mV dBV dBu mV
120 20.000 -34 -31.8 18.000
74 100 -80 -77.8 91
34 1 -120 -117,8 0,91
Los micrófonos electrostaticos disponen de preamplificadores internos, montados
en el propio micrófono, de manera e¡ue entregan niveles de salida mucho mas altos.
Las mesas de mezcla)' control de audio disponen de atenuadores variables e¡ue actú­
an sobre la señal de entrada, para afrontar así distintas situaciones. En cuale¡uier caso,
la impedancia de entrada del preamplificador de micrófono es de 1.SOOW o mas.
2.3.2. Nivel de línea: sensibilidad e impedancia
Las señales entregadas por los micrófonos y otros transductores similares son
demasiado débiles como para distribuirlas entre los equipos de producción con segu­
ridad. Por esto tan pronto como es posible son amplificadas a "nivel de línea".
En 1939 se adoptó en los Estado Unidos de América una impedancia característi­
ca de 600 Q para las líneas de transmisión. Así puede verse e¡ue en equipos como
mesas de mezcla, magnetófonos, amplificadores de micrófono y otros equipos con
salida de linea se mcnciona frecuentemente: "Impedancia = 600 Q". Este valor no
tiene ninguna propiedad especial o milagrosa. Se eligió por ser una imperlancia relati­
(a)
Fuente	 Carga300ll
/Iv f
+4d Bm.JL!J 2,4'6 V
=1.23 V
ooo~Ll>300ll 1!j-----­
(b) CargaFuente 25n
Figura 9.7.

En (a) puede observarse el principio de igualación de potencias, mientras que en (b) puede

verse el concepto de igualación de voltajes.

Uª-l-....Ji_lJ.¿",!lhll("L_·¡gI
yamente alta, por lo que reqtúere poca corriente, pero a la "ez lo suficientemente haja
como para no permitir muchas interferencias. Aunque esta impedancia se escogió
pensando en los circuitos de telecomunicaciones, fue posteriormente adoptada por la
industria de la radio)' la televisión.
En una primera época la conexión entre los distintos equipos de producción clP
audio, así como la conexión a los equipos de transmisión, se hizo siguiendo el prin­
cipio de "igualaCión de potencias". La figura 9.7 (a) muestra una configuración típi­
ca. Este modo de conexión se basa en los siguientes principios:
1.	 La fuente de audio, ya sea un magnetófono, una mesa de mezclas, la salida
de un amplificador de micrófono, etc., presenta una impedancia de salida de
600 W balanceada.
2, Igualmente la impedancia de	 entrada del equipo receptor es de 600 W y
balanceada.
El nivel de la señal de audio se expresa en dBm, adoptándose un nivel de ope­
ración normalizado (Standard Operating Leve] o SOL) de +4dB, correspondiente a
+ 1,23V RMS sobre una carga de 600 Q, aun­
que tambicn pueden utilizarse niveles más
Voltios altos, como, por ejemplo, 6 dBm u 8 dBm. El
mW dBm sobre 600 D SOL representa el nivel maximo, o nivel de
1.000 --.--­ 30 24,5
pico de una señal sostenida, tal como es medi­
29 21,8800
da con un "vúmetro" (medidor de unidades28 19,5600
27 17,3 VU). La figura 9.8 muestra la relación entre el
26 15,5 nivel dBm, el voltaje desarrollado sobre una
25-1-- 13.8 carga de 600 Q y los niveles de potencia en300
24 12,3 m W de las señales de audio.
23 10,9
Hay otro concepto o sistema de conexión
22 9,75
150 más moderno, basado en la igualación de vol­
21 8,69
tajes. En este caso el nivel de la señal se expre­100 20 7,75
sa en dBu y el SOL puede ser de 4 dBu, 6 dBu80 19-f--- 6,90
18 6,15 u 8 dBu. De esta forma se reducen considera­60
17 5.48 blemente las necesidades de potencia de la
1 6 - - 4,89 fuente de audio, ya que sólo se precisa disipar
30
20 ---f---
50 ----=t--­
40 ==1---
500 -t­
400 ==1----
200 ---f---
-
~
~
- 1 5 - - 4,36
una mínima cantidad de potencia sobre la
14 3,88
carga. Una ventaja adicional es la mejor res­
13 3.46
puesta, tanto a las distintas frecuencias como a12 3,0815
los transitorios, ya que la carga capacitiva del
10 2,45 cable blindado y balanceado tiene menos efec­
9 - f - - 2,18 to sobre una impedancia de la fuente pequeña
8 - - 1.95
11 2.75
de sólo SO Q, que la que presentaría sobre una
7	 - f - - 1,73'¡I impedancia de la fuente de 600 Q, Este siste­
6 1.55
ma puede verse en la figura 9.7 (b),5 1,383
4 1.23
2 ---f--­ 3 1.09

2 0,975
1.5
Figura 9.8.1 0,869
o 0,775 Rclaeion entre mW, dBm y voltios.
280 281
TECN()LOc;l" ACTll:L DL· n:LE'ISIÚ:'-J
2. Medición y monitorizado de nivel
Los niveles de la señal de audio son cuidadosamente controlados por los opera­
dores, pal-a asegurar que picos momentáneos o niveles sostenidos no causen sobre­
carga y distorsiones en los distintos equipos de! estudio. Se dispone de medidores
normalizados de varios tipos, aunque los más importantes son el "medidor YU" o
"vúmetro" y el "PPM" o "picómetro"_ A éstos habría que añadir el "modulómetro".
2. 1. El vúmetro
El "vúmetro" o "medidor YU" fue desarrollado por los laboratorios de la Bell
Telephone en Estados Unidos en 1939 y se utiliza para controlar ymonitorizar
el audio de programa. Las especificaciones del vúmetro reflejan la filosofía de
los años 30. Este medidor está formado básicamente por un galvanómetro y un
rectificador en puente de onda completa. Dispone de una escala graduada en
dB y en tanto por ciento. La figura 9.9 muestra el tipo de escala más utilizado
en los medidores tipo vúmetro, sobre todo en aplicaciones de grabación y con­
trol.
El nivel cero en el vúmetro debería corresponder al nivel de referencia de 1
mW sobre una carga de 600 W. Por tanto, e! medidor debería indicar "O VU" cuan­
do el voltaje de la línea que se está midiendo fuera de 0,775 V.
Por otro lado, se considera que para que el instrumento de medida no suponga
una carga significativa sobre el circuito, su impedancia debe ser unas diez veces
superior a la de éste. Por tanto, si la impedancia del circuito es de 600 Q, la impe­
dancia del instrumento debería ser, al menos de 6 KQ. Sin embargo, los medidores
YU tienen una resistencia interna normalizada a 3,9 KQ, por lo que normalmente
disponen de una resistencia extra en serie de 3,6 KW, presentando una resistencia
global de 7,5 KQ. Esta resistencia ocasiona una caída de 4 dBm, de manera que
cuando en la línea tengamos la tensión de referencia de 0.775 mV, la indicación del
-3 -2 -1 O
a -1 -~ ~~-L~, .. ~_' ~ -~ ~~... "f..J.7-'J J.--.---.----.:0	 10080 .'""'~
"«f¡';;;"vI
'0/. • Aa
+•a 7-'J
vu
Figura 9.9.

Escala graduada del medidor tipo vumetro.

El audio analó[!ico
medidor será de -4 lSdB (equiyalente a un 65%). Dicho de otra forma, cuando el
medidor indica nivel "O YU", en la línea habrá +4 dBm (1,23 Y).
Tal como puede verse en la figura 9.9, el indicador vúmetro dispone de dos
escalas:
o	 Una escala VU en la que el nivel de referencia "O" se sitúa aproximadamente
en el 71 % del máximo de escala, con un rango total entre -20 (mínimo) y +3
(máximo).
o	 Una escala de porcentaje, en la que el nivel de 100% corresponde al nivel "O"
de la escala anterior.
El mediclor ,,'Úmetro debe, además, respetar una serie de características dinámicas:
o Si se aplica de [arma rápida un voltaje senoidal de frecuencia comprendida
entre 35 Hz y 10KHz y de una amplitud tal que corresponda al nivel de refe­
rencia "O", la aguja indicadora mostrará la deflexión adecuada en un tiempo
de 0,3 segundos, con una tolerancia de ±I0%. Este valor se eligió para igua­
lar la respuesta elel sistema de audición humano.
o	 En las mismas condiciones que en el punto anterior, la aguja no sobrepasará
la indicación "O YU" más de un 1,5%.
o La respuesta en frecuencia del indicador no debe desviarse más de 0,2 dB
entre 35 Hz y 10 KHz, ni más de 0,5 dB entre 25 Hz y 16 KHz, siempre en
relación a la respuesta a 1 KHz.
El tiempo de elevación de 0,3s. del medidor vúmetro introduce un efecto de
enmascaramiento. El instrumento es incapaz de dar indicaciones de nivel de audio
precisas para formas de onda complejas con tiempos de elevación rápidos. El nivel
instantáneo de la palabra o de la música podría realmente situarse hasta 10 VU por
encima de la lectura proporcionada por el instrumento. Si se utilizan medidores
vúmetro para controlar la grabación, es necesario dejar mucha tolerancia, en los
niveles máximos, para evitar el recorte en transitorios o en ráfagas cortas de la
señal de audio. Por esta razón el medidor vúmetro se utiliza relativamente poco en
los estudios de grabación y radiodifusión.
2.2. El picómetro
El picómetro es un medidor capaz de mostrar "picos" rápidos en la señal, tales
como transitorios y subidas rápidas de nivel. Utiliza un amplificador logarítmico y
un sistema de indicación luminoso, que puede estar formado por una barra de LEO
o por un punto de luz que se mueve gracias a la deflexión de un pequeño espejo
montado sobre un galvanómetro, o por un mecanismo de aguja rápido. El picóme­
tro presenta una impedancia equivalente a más de cincuenta veces la de la fuente.
La "balística" o respuesta dinámica del picómetro es tal que responde de mane­
ra casi inmediata a los picos transitorios de la señal. Por otro lado, estos picos sue­
len extinguirse casi tan rápido como se forman. La balística del picómetro se ha
diseñado para que proporcione una muy rápida respuesta a la elevación de la señal,
mientras retiene la medida durante un tiempo suficiente como para que el opera­
dor pueda apreciarlo con claridad. En este sentido el picómetro se comporta como
un circuito de muestreo yretención.
283'
282
(b) +6
(e)
o
000000 100
00 ~O 7
O 'l-O~
5 3 2 1 88
.~ 8
-6
O ..<:J )(~ 8
":>~ PEAK LEVEL .;
-12
dB
-18
TLCNOUJ(¡IA AClll:1 IJI: TrU'I<.;Il>:" 1.:1 J UdE~~!.E!tºgi~
-24
·30
-36
Aunque no hay una norma universal, el tiempo de subida o elevación puede estar
en torno a los 10 ms, mientras que el tiempo de extinción puede alcanzar los 3 s.
Como puede deducirse, el indicador VU y el picómetro proporcionarán esen­
cialmente la misma medida, mientras el contenido del programa se base en seña­
les de nivel sostenido. Sin embargo, cuando la señal de audio presenta un número
importante de transitorios, como, por ejemplo, cuando suenan los instrumentos
de percusión, el picómetro puede indicar hasta 10 dB mas que el medidor VU. La
figura 9.10 muestra cuatro tipos distintos de picómetros. En concreto, la figura (d)
muestra el tipo conocido como "PPM-I1A", muy utilizado por las cadenas de radio­
difusión europeas. En este indicador cada intervalo corresponde a 4 dB. Un tono
de OdBu colocaría la aguja en el centro, es decir, en la posición "4". Un tono de +8
dBu sería indicado como "6". Los picómetros se utilizan preferentemente en
Europa, mientras que en Estados Unidos se prefieren los medidores VU.
3. Ruidos y distorsiones
Las características de un equipo de audio, ya sea una mesa de mezclas, un mag­
netófono o cualquier otro aparato, o incluso de un sistema completo de audio, se
expresa en términos de una serie de parámetros de calidad medibles. La figura 9.11
muestra un esquema de los tipos de distorsiones mas importantes.
Figura 9.10.

Cuatro tipos de picómetros: (a), de formato vertical con LEO; (b), de formato vertical

mediante haz luminoso; (e), de arco con LEOs; (d), de aguja tipo !lA.

-t
AlflatoriD
Zumbido
Ruien Peri6diW--{
otros
IntefE!rencias
Alinsalidad dQ
Distorsi6~ Frecuencia
Elé,).ri~
Une;¡1 LAljll~8lidad
de Fase
InteTIlodulació n
Distorslonf)ISTORSIÓN
.. -l Total
- No-Lineal ArMénica - { 3 Ar1'ónieoer
WCJw
Mec;ánica --FIUGtuaCitin~FIUller
Figura 9.11.

Distorsiones y empeoramientos que pueden afectar a la señal de audio.

Como puede verse, las distorsiones de origen eléctrico pueden agruparse en
tres categorías básicas: ruido, distorsiones lineales y distorsiones no lineales. El
otro grupo de distorsiones lo forman las de origen mecánico y se deben a imper­
fecciones en los sistemas de desplazamiento de los magnetófonos y otros repro­
ductores.
Las primeras mediciones se realizan (o se deben realizar) cuando los equipos
son instalados pOI' primera vez, para comprobar que cumplen las especificaciones
indicadas por el fabricante y que se adaptan a la instalación. Igualmente deben rea­
lizarse pruebas y mediciones de forma periódica y después de una intervención de
mantenimiento. Para estas pruebas se utilizan instrumentos de medida de alta pre­
cisión, tales como generadores de audio de frecuencia variable de alta estabilidad y
muy baja distorsión, analizadores de frecuencia de audio de muy alta precisión o
medidores de fase.
3.1. Ruido
A toda señal de audio le acompaña, inevitablemente, una cierta cantidad de
ruido. En general, se puede decir que el ruido es consecuencia de imperfecciones
o irregularidades en la materia, tales como una distribución irregular de las part!­
culas de óxido en la cinta magnética o en la estructura granular del carbón de una
resistencia.
El ruido se define como cualquier señal indeseable que se añade a la seiíal de
audio útil. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
señal útil, es decir, como "relación señal a ruido" (SNR). En los equipos utilizados
en estudios de grabación y radiodifusión el nivel de la señal útil que sirve como
referencia para medir la SNR es el "MOL" (Maximum Operatina Leve] o nivel máxi­
284 285
TI-c.,'( JI ()(;I: rCTlIAL DE rl:llVISIÓ.,'
mo de operación), el cual está unos 10 dB por encima dd SOL (Standard Operatina
Lel'elo nivel normal de operación). En el caso de los grabadores de audio analógi­
cos, el nivel de referencia es el correspondiente a la saturación de la cinta. Este
nivel de saturación suele calcularse como aquel en el que la distorsión del tercer
armónico (clue se verá un poco más adelante) se sitúa entre el 1% y el 3% (segun
el equipo). Esto coloca el MOL típico de un magnetófono en unos 6 dB por enci­
ma del SOL.
3.3.1.	 Ruido aleatorio
Tambien conocido como ruido termico, es generalmente el más importante y
tiene su origen en la agitación o movimiento caótico de los electrones en los com­
ponentes electrónicos. Presenta una densidad espectral de igual potencia en todo
el ancho de banda, por lo que se suele denominar "ruido blanco", ya que una dis­
tribución espectral de este tipo, pero en la banda visible de las ondas electromag­
neticas, produciría luz blanca. Existen tambien otros ruidos "coloreados" de los
cuales el más popular es el ruido rosa, utilizado para hacer mediciones, cuya poten­
cia decrece a ritmo de 3 dB por octava.
La magnitud del ruido termico es proporcional a la temperatura, de manera que
desaparece cuando se alcanza el cero absoluto (-273° C). Si la impedancia "z" de un
circuito presenta una componente resistiva "R", el valor cuadrático medio del ruido
termico expresado como voltaje viene representado por la fórmula:
E
2
=4kTBR; E = 2.JkTBR" fl
Siendo: Eu =voltaje RMS del ruido.
k = constante de Boltzmann = 1,38 x 10-23 joules/grado.
T =la temperatura absoluta en grados Kelvin.

B = el ancho de banda en Hz.

R =resistencia en ohmios.

La fórmula anterior suele simplificarse dando a "T" un valor de 3000
K (equi­
valente a unos 27° C). En tal caso puede escribirse:
E2
= 16 '10-20
BRn '
Aplicando la fórmula anterior se puede demostrar que una elevación de la tem­
peratura de 20 grados eqUivale a un incremento en el nivel de ruido de
3 dB, mientras que multiplicar por diez la resistencia (por ejemplo, pasar de
1 KQ a 10 KQ) supone un incremento de 10 dB en el nivel de ruido.
La SNR a la salida de un sistema depende del ruido generado por la compo­
nente resistiva del generador de señal, como, por ejemplo, el micrófono y de las
primeras etapas amplificadoras.
Suponiendo que el ancho de banda "B" de un micrófono sea de 20 KHz y que
tenga una componente resistiva de 150 Q, "En" será = 0,219 mV La tabla 9.2
muestra las SNR típicas de los micrófonos, para diferentes niveles de presión sono­
ra (SPL), medidas en condiciones de circuito abierto.
El audio analórico
Tabla 9.2	 Relación señal a ruido a la salida de un micrófono en circuito abierto, para
diferentes niveles de presión sonora.
Nivel de presión sonora (dB) Salida del micrófono (mV) SNR (dB)
120
74
61
34
20.000,00
100,00
22,40
1,00
99,21
53,19
40,19
13,19
Por su parte, el preamplificador de micrófono (por ejemplo, en la mesa de mez­
clas) contribuye con su propio ruido aleatorio, lo que empeora considerablemen­
te la SNR del sistema. La situación real puede entenderse como si se dispusiera de
un generador ideal, que no genera nada de ruido, cuya entrada es alimentada con
un generador de ruido. Este ruido ficticio se denomina "ruido de entrada equiva­
lente". La diferencia entre el "ruido de entrada equivalente" y el nivel de "ruido ter­
mico teórico" de la señal de audio de entrada se denomina "factor de ruido del
amplificador".
La medida de la relación señal a ruido de un equipo es una rutina bastante com­
plicada, cuyos resultados dependen del grado en que se respeten una serie de nor­
mas y procedimientos. A continuación se muestran los pasos a seguir para medir la
SNR de un mezclador de audio:
•	 Alimentar la entrada de micrófono del canal a medir con una señal de
1 KHz, al nivel de entrada normalizado (por ejemplo, -70 dB).
• Desactivar todas las entradas, excepto la que se está midiendo.
• Desactivar todos los compresores y las ecualizaciones.
• Conectar el analizador de audio a la salida del mezclador.
• Ajustar	 los potenciómetros "lmput-Cain" y "Channef-Cain" del circuito de
entrada, así como el "Master-Cain" en el circuito de salida, hasta obtener en el
analizador el nivel de operación estándar (SOL = +4 dB o + 8 dB).
• Sustituir la señal de entrada por una resistencia de 150 Q de bajo ruido.
•	 Medir el ruido a la salida del equipo con el analizador calibrado en dBu y el
ancho de banda fijado a 20 KHz.
•	 La relación señal a ruido vendrá dada por la diferencia en dB entre el SOL Y
el ruido medido.
Por ejemplo, si el SOL (nivel normal de operación) se ha fijado a 8 dB Yse ha
obtenido una lectura del ruido de -95 dB, la SNR del equipo será de 103 dB.
Un metodo alternativo y más sencillo para medir la calidad de un equipo, en lo
que al ruido se refiere, consiste en medir el ruido cargando la entrada con la resis­
tencia nominal (150 Q) Yluego en cortocircuito. Si la segunda medida es clara­
mente mejor que la primera (5 dB o más), el preamplificador será de muy buena
calidad, mientras que si las dos medidas son aproximadamente iguales, la calidad
del preamplificador será baja, ya que serán los circuitos internos del preamplifica­
dor los que habrán contribuido principalmente al ruido y no la resistencia exter­
na. Los potenciómetros de regulación de nivel (entrada, ganancia y máster) debe­
rán estar en una situación de operación típica (SOL) o unos pocos dB por encima.
286
287
TI.C.'OIJH,;!~JI11 PI 1_,I"'U".,,""",,"'-':'.: _
3.3.2. Ruido periódico
Este tipo de ruido suele generarse fuera del equipo, al que se acopla de alguna
forma. A diferencia del ruido aleatorio, el peri6dico puede ser totalmente elímina­
do mediante un adecuado diseño del equipo), una instalación adecuada. El tipo más
frecuente de ruido peri6dico es el llamado "zumbido", consistente en oscilaciones
de 50 Hz y sus arm6nicos, provenientes de la red eléctrica. Suele deberse a induc­
ciones o a defectos en la puesta a tiena de los circuitos.
La medida del ruido peri6dico es similar a la del ruido aleatorio, excepto que
se necesita disponer de un osciloscopio o de un analizador de espectros para iden­
tificar la frecuencia de! ruido periódico. Este tipo de medidas sólo se realiza por
parte de los técnicos de mantenimiento.
En el apartado de "otros ruidos" habria que citar el "ruido de granalla" que se pro­
duce en los semiconductores por la generación y recombinación aleatoria de algu­
nos pares elech·6n-hueco. El ruido de granalla presenta, al igual que el térmico, un
espectro plano dentro de la gama de frecuencias. Este tipo de ruido no suele encon­
trarse en las especificaciones de los equipos actuales, ya que es de muy poco valor
en los semiconductores modernos. Debe citarse también el "ruido digital", que se
produce cuando la señal anal6gica es cuantificada después del muestreo, pero éste
es un tema que se verá en el apartado del audio digital en e! capítulo siguiente.
3.4. Distorsiones lineales
Se denominan distorsiones lineales aquellas que son independientes de la ampli­
tud de la señal de audio. Se asume que la amplitud de la señal de audio no supera
el nivel de recorte del equipo, ya que tal recorte sería en sí mismo una forma de
distorsión, consecuencia de la propia amplitud de la señal. Las dos principales dis­
torsiones lineales son la "alialidad en la respuesta a frecuencia" y la "alinealidad en
la fase". La primera se define como las variaciones, medidas pico-a-pico, de la
amplitud de la señal, sobre el ancho de banda considerado, es decir, la compara­
ci6n de la amplitud de todas las frecuencias del ancho de banda de interés, toman­
do como referencia, en el caso de! audio, la frecuencia de t KHz. El ancho de
banda considerado suele estar entre 20 Hz y 20 KHz.
La alinealidad de fase se define como las variaciones o desplazamientos de la fase
de la señal, en funci6n de la frecuencia, dentro del ancho de banda de interés. Esta
medida es bastante infrecuente y tiene más interes para los fabricantes de equipos
que para los usuarios.
3.5. Distorsiones no lineales
Las distorsiones no lineales se refieren a las desviaciones en la relación lineal
que debe existir entre la entrada y la salida de un equipo y se dividen, básica­
mente, en: distorsi6n armónica y distorsi6n por intermodulaci6n. La distorsión
arm6nica se produce cuando, al inyectar en un sistema una onda senoidal pura de
1.L1~.ªJ.!_;Jl0J2J~
frecuencia "f", se obtiene a la salida una señal en que, además, de la frecuencia ''1"'',
están también presentes frecuencias múltiplo de "f", es decir, 2f, 3f, 4f. .. Se deno­
mina "factor de distorsión armónica" a la relación entre el "Oltaje RMS de todos
Jos armónicos (separados de la señal principal y sumados) y e! voltaje RMS total
de la señal distorsionada. Esta medida es muy importante en los equipos de audio
)' suele especificarse como el tanto por ciento que supone la señal arm6nica con
respecto al total de señal para una potencia de salida dada.
La distorsi6n del tercer arm6nico se ha venido utilizando para medir la calidad de
los magnetófonos. Para ello se utiliza una señal de prueba de 333 Hz y se extrae a la
salida, mediante un filtro, la componente de 999 Hz. En el caso de los grabadores de
audio, la amplitud de las distorsiones de orden mayor es irrelevante, como conse­
cuencia del preénfasis que sufre la señal antes de la grabaci6n.
La distorsi6n por intermodulación se produce cuando un sistema que es alimen­
tado con dos señales de frecuencias distintas (f1 y f2) genera a su salida, además de
dichas señales fI y f2, otras iguales a la suma y la diferencia de fI y f2 o a la suma y
diferencia de múltiplos de estas señales. Una de las normas o procedimientos de
medida especifica la utilización de 60 Hz para fI y 7 KHz para f2, siendo la ampli
tud de la primera cuatro veces superior a la de la segunda.
3.6. Lloro y fluctuación
El "wow" o lloro es una variaci6n relativamente lenta de la frecuencia del sonido,
causado por variaciones en la velocidad de grabaci6n y1o reproducción de los mag­
net6fonos, giradiscos u otros dispositivos mecánicos. La menor cantidad de lloro, es
decir, la mínima variación de frecuencia que es percibida como tal por el oyente, está
en torno a t 125 de semitono en el rango de las frecuencias medias. En las frecuencias
extremas el intervalo es mucho mayor, lo que significa que la variación de frecuencia
debe ser relativamente alta para ser percibida.
Las variaciones cuya frecuencia es de uno, dos o menos ciclos por segundo se
denominan lloro o "wow", mientras que las variaciones más rápidas se denominan
'JIutter" (fluctuación). El termino lloro se introdujo en los primeros días de! cine
sonoro, cuando al enhebrar la película en el proyector y moverla manualmente se
producía un sonido que recuerda al lloro humano. También se denomina "lloro" al
resultado audible de poner en el aire un disco antes de que el giradiscos haya alcan­
zado la velocidad correcta de reproducción.
La fluctuaci6n es mucho más rápida que el lloro; es suficientemente rápida
como para imponer un cambio en la calidad del sonido y, al igual que sucede con
el lloro, se nota más en las notas sostenidas que en las de corta duraci6n.
Resumen
• Tres son las características que definen al sonido: intensidad, tono y timbre.
La intensidad es la característica del sonido relacionada con la amplitud o altu­
ra de la vibraci6n y que nos permite distinguir entre sonidos débiles, medios
288 289
Trc",",ol OC1: .J"CTUU DE TU rq....¡(l:':
o fuertes. Nosotros percibimos la intensidad como volumen o potencia del
sonido.
•	 El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, por
ejemplo, produce muchas ondas sonoras por segundo, es decir, un sonido de alta
frecuencia. Por contra, un bajo o una tuba producen muchas menos ondas sono­
ras por segundo, esto es: sonidos de baja frecuencia. Nosotros medimos la fre­
cuencia de los sonidos en hercios (Hz). Las personas podemos oír frecuencias
comprendidas entre 15 y 15.000 Hz (algunos afortunados hasta 20.000 Hz).
• El timbre	 es la característica del sonido relacionada con el número, amplitud y
orden de los armónicos de la frecuencia fundamental que un sonido determinado
contiene y que nos permiten diferenciar el matiz de cada instrumento.
• Existe un "nivel de presión sonora" (SPL o Sound Pressure Level) de referencia,
establecido en 0,0002 dicm', que corresponde al umbral de audición de una
persona media, de edad inferior a los treinta años y para una frecuencia de 1
KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel
umbral de referencia, de acuerdo con la siguiente fórmula:
SPL(dB) =20 10glO (PIPRH)
•	 La sonoridad o intensidad aparente de un sonido es algo subjetivo. Es el atri­
buto por e! cual pueden ordenarse en una escala las sensaciones audibles en
términos de "flojas" o "fuertes". La sonoridad depende no sólo de la intensi­
dad de! sonido, sino también de su frecuencia. El fon es una unidad de nivel
sonoro que, juzgado por un observador medio, resulta numéricamente igual
al nivel de intensidad de un tono puro de 1 KHz.
• El son se define como la sonoridad de un tono de 1 KHz y 40 dB Ytiene la
característica de que un aumento de! nivel sonoro de 10 fonos es, aproxima­
damente, equivalente a doblar e! nivel de sonoridad en sanos, mientras que
un aumento de medio fono corresponde al cambio mínimo perceptible del
nivel sonoro.
•	 El rango dinámico del sistema de audición humano está limitado en su parte alta
por e! nivel de dolor y en su parte baja por e! umbral de audición. Aunque varía
de un individuo a otro, el valor típico es de 120 dB. El sistema de audición huma­
no se caracteriza por presentar una capacidad de resolución que puede equipa­
rarse con una batería de filtros paso-banda que se solapan entre sí, llamados
"bandas críticas". Son estas bandas críticas las responsables de los fenómenos de
enmascaramiento del sonido. Este fenómeno de enmascaramiento se define
como la medida en que debe elevarse el umbral de audición de un sonido en pre­
sencia de otro sonido enmascarador.
• "dBm" es la abreviatura utilizada para expresar la "potencia cuadrática media"
(RMS) de una onda senoidal con respecto a una potencia de referencia de 1
milivatio. Esta potencia de 1 milivatio, cuando es disipada por una carga de
600 ohmios produce un voltaje RMS de 0,775 V La potencia de referencia de
1 m W se define como OdBm. El "dBu" es una forma alternativa de medir los
niveles de la señal de audio. En este caso se asume que la impedancia de la
fuente es "casi-cero" y que la impedancia de la carga es "casi-infinito". Existen
otras medidas, como el "dBV" y el, "dBW".
El ¡,udlo ,lIlalÚPICo
•	 Las lineas de audio "no equilibradas" se caracterizan por utilizar un solo hilo
conductor interno, recubierto por una malla de blindaje. El conductor inter­
no o "alma" constituye el "camino de ida", mientras que la malla forma el
camino de retorno.
• Las líneas equilibradas se basan, en cambio, en la utilización de dos cables con­
ductores centrales, en lugar de uno solo. Así se mejora el rechazo a las inter­
ferencias externas. En cada extremo del cable se coloca un transformador,
que actúa como equilibrado!". Las lineas equilibradas o balanceadas se utilizan
en aplicaciones profesionales, ya que son mucho más resistentes a las interfe­
rencias.
• En lo que al nivel de señal que entregan se refiere, los equipos de audio pue­
den dividirse en dos grandes grupos o categorías: los que entregan niveles de
salida bajos y los que dan un nivel de salida alto. A la primera categoría corres­
ponden, de forma casi exclusiva, los micrófonos (y otros transductores simi­
lares).Todos los demás equipos proporcionan un nivel de salida alto, que suele
etiquetarse como "nivel de línea".
•	 La sensibilidad de los micrófonos suele expresarse en microvoltios o dBV,
medidos sobre una carga abierta y para un nivel de presión sonora de 74 dB,
Y es una medida de la eficacia con que un micrófono convierte la presión
sonora (energía mecánica) en señal de audio (energía eléctrica). Los micrófo­
nos de condensador, que son los más sensibles, proporcionan, típicamente, 20
m VIpa, mientras que los micrófonos de bobina móvil dan, aproximadamen­
te, 2 mV/pa.
La impedancia de 600 Q se eligió para las señales de línea porque es relativa­
mente alta, por lo que requiere poca corriente, pero, a la vez, lo suficientemen­
te haja como para no permitir muchas interferencias. Aunque esta impedancia se
escogió pensando en los circuitos de telecomunicaciones, fue posteriormente
adoptada por la industria de la radio y la televisión.
• Se dispone de medidores normalizados de varios tipos, aunque los más impor­
tantes son el "medidor VU" o "vúmetro" y el "PPM" o "picómetro". A éstos
habría que añadir el "modulómetro".
• El vumetro dispone de una escala graduada en dB y en tanto por ciento. Es el
más utilizado, sobre todo en aplicaciones de grabación y control. El picóme­
tro es un medidor capaz de mostrar "picos" rápidos en la señal, tales como
transitorios y subidas rápidas de nivel. El picómetro presenta una impedancia
equivalente a más de cincuenta veces la de la fuente. El indicador VU y e!
picómetro proporcionarán esencialmente la misma medida mientras el con­
tenido de! programa se base en señales de nivel sostenido.
•	 Las distorsiones de origen eléctrico pueden agruparse en tres categorías bási­
cas: ruido, distorsiones lineales y distorsiones no lineales. El otro grupo de
distorsiones lo forman las de origen mecánico y se deben a imperfecciones en
los sistemas de desplazamiento de los magnetOfonos y otros reproductores.
El ruido se defille como cualquier señal indeseable que se añade a la señal de
audio útil. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
señal util, es decir, como "relación señal a ruido" (SNR). En los equipos utiliza­
290 291
"'tEC"iOJ Os..I. ACTlIAl "JI. "1 [L1.'I....,{),'!
dos en estudios de grabacion )' racliodifusion el ru"el de la señal útil que sine
como referencia para medir la SNR es el "MOL:' (Maximum Operatin8 Lel'el o nivel
máximo de operación), el cual está unos 10 dB por encima del SOL (Standard
Operating Lere! o nivel normal de operacion).
•	 El ruido periódico suele generarse fuera del equipo, al que se acopla de algu­
na forma. A diferencia del ruido aleatorio, el pe¡-iódico puede ser totalmente
eliminado mediante un adecuado diseño del equipo y una instalación adecua­
da. El tipo más frecuente de ruido periódico es el llamado "zumbido", consis­
tente en oscilaciones de 50 Hz y sus armónicos, pwvenientes de la red eléc­
trica.
•	 Se denominan distorsiones lineales aquellas que son independientes de la
amplitud de la señal de audio. Las dos principales distorsiones lineales son la
"alialidad en la respuesta a frecuencia" y la "alincalidad en la fase". La primera
se define como las variaciones, medidas pico-a-pico, de la amplitud de la
señal, sobre el ancho de banda considerado. La segunda se refiere a las varia­
ciones o desplazamientos de la fase de la señal, en función de la frecuencia,
denh'o del ancho de banda de interés.
•	 Las distorsiones no lineales se refieren a las desviaciones en la relación lineal
que deben existir entre la entrada y la salida de un equipo, y se dividen, bási­
camente, en: distorsión armónica y distorsión por intermodulación. La dis­
torsion armónica se produce cuando al inyectar en un sistema una onda
senoidal pura de frecuencia "f" se obtiene a la salida una señal en que, ademas
de la frecuencia "f", están también presentes frecuencias múltiplo de "f", es
decir, 2f, 3f, 4f. .. La distorsión por intermodulación se produce cuando un
sistema que es alimentado con dos señales de frecuencias distintas (fl y f2)
genera a su salida otras frecuencias iguales a la surna y la diferencia de fl y f2
o a la suma y diferencia de múltiplos de estas señales.
CAPÍTULO 10
El audio digital
1. Conceptos generales
Todos los conceptos, principios y teorías sobre vídeo digital, tratados en capítu­
los anteriores, son perfectamente aplicables al audio digital. En el fondo se trata de
lo mismo: coger una información analógica, que fluye de manera continua en el
tiempo, y trocearla para convertirla a continuación en una hilada de dígitos binarios.
Hay, sin embargo, diferencias importantes entre las señales de audio y vídeo ya
desde su estado analógico, las cuales obligan a utilizar distintos parametros y dis­
tintas estrategias a la hora de proceder a la digitalización. En prime¡-lugar, el ancho
de banda de la señal de audio es muy inferior al de la señal de vídeo. Una señal de
audio de calidad alta no excede los 20 KHz de ancho de banda, mientras que una
señal de vídeo analógica de calidad media, como la señal compuesta PAL, presen­
ta un ancho de banda en torno a los 5 o 5,5 MHz. La relación, en lo que al ancho
de banda se refiere, es, por tanto, de 1 a 250. Consecuencia: habrá que tomar 250
veces más muestras de vídeo que de audio.
Hay otra diferencia entre ambos tipos de señal (menos evidente, pero no menos
importante) y es el hecho de que la señal de audio es unidimensional, mientras que
la de vídeo es tridimensional. En efecto, en el caso de la señal de vídeo la infor­
mación cambia o fluye en tres dimensiones separadas: la horizontal, la vertical y la
temporal. Puesto que la señal eléctrica que se ha de digitalizar sólo puede variar en
una dirección, es necesario descomponer, ya en el estado analógico, dos de las tres
dimensiones de la señal de vídeo; la dimensión vertical se descompone en líneas,
que se colocan una a continuación de otra, mientras que la dimensión temporal se
descompone en cuadros que se suceden en el tiempo. En el caso de la señal de
audio, esta descomposición previa (que puede entenderse como un proceso de
muestreo) no es necesaria, ya que el audio sólo fluye o varia en una dirección: el
tiempo.
292 293
T¡·CNOLqCIA -C1 UAI nI: THLVhlÓN
Por otro lado, esta característica unidimensional de la sel1al de audio la hace en
cierto sentido más delicada. Se trata de una cuestión de tipo perceptivo: puesto
que la señal de vídeo muestra cambios de información en tres dimensiones, el
espectador estará entretenido analizando un gran flujo de información, de manera
que cualquier error o perturbación de muy corta duración no será percibido (efec­
to de enmascaramiento). Concretando, si un bit o un byte fallan en la señal de
vídeo, pasarán inadvertidos para el espectador, si Jo hacen en la señal de audio, el
efecto será un "dic" claramente audible por el oyente.
Oc lo anterior se deduce que la señal de audio no precisa de una frecuencia de
muestreo tan alta como la señal de vídeo, pero, por otro lado, la cuantificación de las
muestras, es decir, la precisión con que se mide y expresa e! valor instantáneo, ha de
ser mucho más elevada. En concreto, si para representar la señal de vídeo se utilizan
(en la norma básica) en torno a 250 niveles, en el caso de la señal de audio cada mues­
tra necesita de unos 65.000 niveles, es decir, 250 veces más que la señal de vídeo.
Vemos que se produce la siguiente situación (bastante curiosa): la señal de vídeo
precisa 250 veces más muestras por intervalo de tiempo que la señal de audio, pero
esta última necesita 250 veces más niveles de cuantificación por muestra que la pri­
mera. En esta paradoja hay algo que trabaja a favor de la señal de audio: mientras
que la frecuencia binaria (cantidad de bits generados por segundo) es directamente
proporcional a la frecuencia de muestreo, e! número de niveles o peldaños de cuan­
tificación no se relaciona de forma tan simple con el número de bits empleados. En
concreto, con cada bit que añadimos doblamos el número de niveles. Por ejemplo,
si con 8 bits/muestra se obtienen 256 niveles (caso de la señal de vídeo), con 16
bits/muestra se logran los más de 65.000 niveles necesarios para la señal de audio.
Por tanto, si tenemos 250 veces menos muestras y el doble de bits por muestra, la
frecuencia binaria final de la señal de audio será unas 125 veces menor que la señal
de vídeo. Un ejemplo: en la norma 4:2:2 de vídeo se producen unos 170 Mbits/s;
un CO de audio estéreo genera una frecuencia binaria de 1,4 Mbits/s. La relación
es 121: l. La comparación es un tanto heterodoxa porque se trata de una séñal de
vídeo por componentes y /R - Y/B - Y de tipo SOTV comparada con una señal de
audio estéreo de alta calidad, pero da una idea de los órdenes de magnitud.
Otra cuestión a considerar es la forma de onda de la señal analógica. La señal
de audio analógica es simétrica, en e! sentido de que sus valores de voltaje se cen­
tran en e! valor cero, con excursiones hacia positivo y hacia negativo. Las formas
de onda por encima del valor nulo son prácticamente copias especulares de las for­
mas de onda negativas. En el caso de la señal de vídeo la forma de onda analógica
no es simétrica ni está centrada en el valor nulo. Por el contrario, se extiende desde
cero hasta un cierto valor máximo. Lo anterior condiciona, como se verá, la forma
en que se codifican las muestras de audio.
Como se ha visto en e! capitulo anterior, el sonido no es más que variaciones de
la presión de! aire que rodea al tímpano y que son capaces de producir sensaciones
auditivas. El audio digital pretende, por tanto, convertir tales variaciones de pre­
sión en digitos binarios. Igual que sucede con e! video, la ventaja de! audio digital
está en su naturaleza discreta o discontinua. Las señales analógicas presentan infi­
nitas variaciones continuas, que son difíciles de grabar y reproducir con precisión;
El audio dieital
las digitales sólo permiten un cierto número de estados discretos. Para ver la dife­
rencia entre ambos casos, pongamos un ejemplo: queremos medir (por supuesto
con la máxima precisión) la cantidad de agua que fluye por un río. Podríamos dis­
poner de un montaje similar a una presa de central hidroeléctrica. El agua, al salir
de la presa por un orificio, movería un mecanismo contaclor calibrado en litros, en
metros cúbicos o en cualquier otra unidad de volumen. Por muy bien que se dise­
ñe y se fabrique tal mecanismo, es inevitable que se produzcan errores de medi­
ción. Hay problemas de rozamiento, inestabilidades mecánicas, agua que rebosa,
turbulencias, etc., que trabajan siempre contra la precisión del proceso.
El caso expuesto en el párrafo anterior puede entenderse como un proceso ana­
lógico, ya que se trabaja con magnitudes fisicas continuas. Por otro lado, suponga­
mos que queremos contar las ovejas que entran en un redil. Éste sería un proceso
digital, puesto que la magnitud (la cantidad de ovejas) está discretizada. No puede
haber fracciones de oveja: o hay 86 o hay 87. Es cierto que se pueden cometer
errores y contar una misma oveja dos veces o dejar de contar alguna, pero tales
errores no son propios de! sistema. Por tanto, los sistemas digitales son más preci­
sos. También son más predecibles; es seguro que si se repite el proceso tendremos
la misma cuenta para las ovejas. Por otro lado, es casi seguro que si se realizan dos
medidas separadas del agua del rio habrá alguna diferencia entre ambas.
Un canal de audio analógico podda estar formado por un micrófono, un pre­
amplificador, una mesa de mezclas, un magnetófono, una máster en casete o LP, la
copia de distribución, el reproductor doméstico, el amplificador y los altavoces.
Todos ellos forman la cadena analógica, la cual funciona de manera que cada vez
que se pasa de un dispositivo al siguiente se mantiene la relación entre los cambios
de amplitud y e! tiempo. Podemos decir, por tanto, que cada etapa es "análoga" a la
anterior. Pero análoga no significa idéntica, sino parecida. En efecto, cada disposi­
tivo que atraviesa la señal de audio añade su propia distorsión o deformación.
Además añade también ruido. A la salida la distorsión total de la señal será igual a
la suma de las distorsiones añadidas en cada etapa. Lo mismo sucede con el ruido.
Por otro lado, la cadena o secuencia que sigue la señal digital es: micrófono, con­
versor A/O, etapas que copian o procesan numeras, conversor O/A, amplificador
y altavoces. En efecto, tan pronto como la señal de audio abandona e! micrófono, es
inmediatamente convertida en un tren de bits. Todos los procesos de mezcla, ampli­
ficación, efectos, etc. son, en e! dominio digital, meras operaciones matelmiticas. El
error (salvo que falle e! sistema) es, sencillamente, imposible. Puesto que la señal de
audio se mantiene como una información numérica, los efectos ele distorsión y
ruido no pueden producirse o, mejor dicho, si que se producen, pero no tienen nin­
gún efecto sobre los dígitos binarios. El necesario cambio a analógico se produce
sólo en la etapa final, cuando el oyente reproduce el sonido original.
2. Conversión A/ D
La relativamente baja tasa binaria que se produce al digitalizar una señal de
audio hizo que el audio digital se desarrollara bastante pronto, tanto en e! ámbito
doméstico como en el profesional. Un hecho clave fue sin duda la introducción,
294
295
TLC:J(llOG1: :CTU:L DL TEll"¡SIO:
por parte de Sony y Philips (1979), del "compact disc"; una verdadera revolución
que ha dado paso al versátil CO-ROM. Desde entonces la mayor parte del equipa­
miento analógico ele los estudios ha ido sustituyéndose por equipos digitales, pro­
ceso en el cual marca un hito la aparición de una norma de comunicación digital,
o interfaz digital para audio, conocida como AES/EBU (1985). Las ventajas más
importantes que presenta la señal digital con respecto a la analógica son: multige­
neración sin límites, fiabilidad y, más recientemente, integración en entornos de
ordenador y redes.
Incluso hoy en día los equipos digitales siguen teniendo conectores de entrada
y de salida analógicos, ya sea de tipo RCA en los domésticos o de tipo XLR
(Canon) en el caso de los profesionales.
Hoy por hoy los llamados transductores, es decir, el micrófono y el altavoz, son
dispositivos analógicos que generan y se alimentan de señales que fluyen de mane­
ra continua, las cuales son una analogía de hecho físico que las ha producido. Es
necesario, por tanto, convertir la señal eléctrica analógica, que es continua en el
tiempo, en otra digital, cuya principal característica es ser discontinua en el tiem­
po y estar expresada mediante números. Esto se logra en la etapa de conversión
A/O, la cual es el factor más importante y el que más determina la calidad de la
señal digital, tanto en el contenido de frecuencias como en el rango dinámico y la
distorsión armónica. Igual que sucede con cualquier señal analógica, la digitaliza­
ción o conversi6n A/D se logra mediante dos etapas separadas: el muestreo y la
cuantificación.
2. 1. El muestreo
Digitalizar es convertir la señal anal6gica en números. Por tanto, hay que deci­
dir cómo se obtienen estos números. En la primera etapa (el muestreo) la señal
analógica es medida o muestreada a intervalos regulares, para, a contil1l-:aci6n,
durante la segunda etapa (la cuantificación), expresar cada una de estas medidas
con un número limitado de dígitos binarios. Aquí nos centraremos en el muestreo
y lo primero que hay que determinar es cuántas muestras debemos tomar de la
señal analógica por unidad de tiempo, es decir, la frecuencia de muestreo.
Un concepto importante, aunque nada intuitivo, es que, si se elige cuidadosa­
mente la frecuencia con que se toman las muestras, el muestreo es un proceso sin
pérdidas. La figura 10.1 ilustra el principio del muestreo.
El proceso de muestreo puede entenderse como la multiplicaci6n de la señal
analógica de entrada por una señal muestreante formada por impulsos instantáne­
os, que vale cero en todo momento, excepto en los instantes puntuales de mues­
treo en que vale uno. Por tanto, se trata de una variación o modulación de la ampli­
tud de la señal de audio por parte de los impulsos muestreantes. Esto se conoce
como "PAM" (Pulse Amplitudc Modulatian) o modulación de amplitud de impulsos.
Aunque sea una simplificación, se asume que en este proceso la duración de los
impulsos muestreantes es nula o casi nula. Llegados a este punto, lo que tenemos
son una serie de valores puntuales de la señal original y nada en absoluto entre dos
valores cualquiera. Intuitivamente puede apreciarse que a partir de los impulsos
____U_<LU.sJ~~~J
'tl
'" (a) Señal=ª15.

E
 de audio

<

Tiempo
-~
(b)
Señal muestreante
'"
_1 J. -*
Tiempo
Figura 10.1.

La señal de audio analógica se multiplica por un tl'en de impulsos equiespacíados para generar

la señal muestreana (PAM).
PAM de la figura 10.1 (c) se podrá, durante la conversión digital a analógico,
reconstruir la señal original de (a), pero ¿sería posible reconstruir la scilal original
a partir de los impulsos de la figura 10.2 (a). ¿Y a pa¡-tiJ- de la figura 10.2 (b)?
¿Qué pasa con los valores de la señal original comprendidos entre dos instantes
de muestreo? ¿Se han perdido para siempre? Sorprendentemente, la respuesta es
¡no! Siempre que se tomen las precauciones necesarias, ¡no pasa nada! Para enten­
der esto puede ser útil analizar la diferencia entre un reloj analógico y otro digital.
El analógico muestra el paso del tiempo gracias a unas manecillas que se mueven
de forma continua por la esfera. Podemos entender que, a medida que "barren" la
superficie de la esfera, adoptan infinitas posiciones distintas. Un reloj digital indi­
ca también la hora, pero lo hace mediante valores discretos, que cambian instantá­
neamente, sin que haya nada por medio. Ahora bien, si asumimos que la máxima
precisión que es capaz de "leer" el usuario humano en el reloj es un segundo, podrí­
amos decir que el reloj digital no introduce pérdidas de información, con respec­
to al analógico; si suponemos que es posible apreciar hasta décimas de segundo en
el movimiento del segundero del reloj analógico, habrá que pedir al digital que
cambie de estado y muestre la lectura diez veces más rápido. En definitiva, necesi­
taremos que la frecuencia con que se suceden las muestras en el reloj digital, se
adapte a la resolución que queremos obtener.
Para responder a la pregunta sobre la figura 10.2 habría que analizar qué fre­
cuencias componen la señal analógica de entrada: si sabemos cual es la frecuencia
296 297
TI~CN~)l t)GiA ,,(:-1 UAI. DE lTLE'I"ION
.;. (a)	 .. (b)
"O
Ji tll I I
~l l' , LLL,_I.Tiempo Tiempo
Figura 10.2.
¿Cuántas muestras hacen falta para representar una forma de onda sin ambigüedad?
más alta en la señal de entrada, podremos determinar una frecuencia de muestreo
que no introduzca pérdidas de información. El análisis de las frecuencias de las
señales eléctricas se hace mediante representaciones gráficas llamadas "espectrales"
en las que el eje horizontal muestra un determinado rango de frecuencias mientras
el vertical representa las amplitudes o la energía de dichas frecuencias. La figura
10.3 es un ejemplo de representación frecuencial.
2.1.1. Muestreo idealy muestreo real
En la figura 10. 3 (a) se representa el espectro de la señal de audio "en banda
base", es decir, en su estado analógico normal. Nótese que se ha intentado repre­
sentar una señal con un ancho de banda ligeramente inferior a 20 KHz. El trape­
cio que forma el espectro de la señal de audio analógica se ha rellenado de gris para
reflejar el hecho de que están o pueden estar comprendidas todas las frecuencias,
desde cero hasta un cierto valor máximo. Además la caida en la zona de altas fre­
: Modulador
el. amplitudr~  (a)
Especlro Á d;·I~e.C:~~1 (e)

1 -~

~ d:,I~~:~oal
1m....
1-LHH ¡-¡ j-j t-j-1++-1 t-H H~ ;n-':-" l. 211 3~O 1D 20KHz Frecuencia 1 (I-rrL1-t. lb),,, / 3" ..
..,¡ j J tJJILUl'~lj~
o 20.tO j60' 80 J'1DD')'2DKH:l'
11 Es••clro.2 delaeeña'
t••lmb..) fs+fmax '¡ 3f.-Imb.. 3f¡+fmáx.
d. mu••treo 2f.·1m'•. 2t..fmb.
Frecuencia ...
~~+HI-'¡¡	 Hi-~,++H+HH' H '1-1 H
O 20 40	 60 lO 1(10 120 KHz

Frecuencia

Figura 10.3.
Espectros de las señales de audio, de la señal impulsiva de muestreo y de la señal muestreada.
El audio dirit,
cuencias no es abrupta, sino que muestra una cierta pendiente, tal como sucede
con las señales reales. La figura 10.3 (b) representa el espectro de la señal mues­
treante, es decir, de los impulsos de muestreo que miden la señal analógica de
entrada. En este ejemplo se ha elegido una frecuencia de muestreo de 40 KHz (fs
o jl-equenc)' eifsamplina). Se trata de una señal que posee una frecuencia única (40
KHz) y no un rango de frecuencias. Por esto aparece como una raya sin espesor en
el espectro. Por otro lado, no es una señal senoidal, sino un pulso instantaneo que
se sucede 40.000 veces por segundo. El análisis de Fourier permite conocer qué
contribuciones senoidalcs y cosenoidales son necesarias pal-a obtener cualquier
forma de onda. En el caso de una señal impulsiva de duración nula, el espectro con­
tiene, además de la frecuencia fundamental (en nuestro ejemplo, 40 KHz), múlti­
plos de dicha frecuencia que se extienden hasta el infinito. Por tanto, la primera
linea del espectro corresponde a la frecuencia de muestreo; el resto son armóni­
cos, todos ellos de igual amplitud, que se extienden, al menos en teoría, hasta el
infinito.
Siendo e, la frecuencia mas alta de la señal de audio analógico y siendo fs la fre­
cuencia de muestreo (figura 10.3-c), se producen, en torno a fs bandas laterales, con
valores = f.-C, y f.+C.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina ''banda lateral superior". Esto es consecuencia de la multiplica­
ción o modulación de la amplitud de los impulsos por parte de la señal analagica ele
entrada. Además el espectro de la señal de audio analagica aparece como banda late­
ral superior de la "frecuencia cero", ya que la señal impulsiva de muestreo posee una
componente continua, también llamada componente de OC.
A partir de la f'¡gura 10.3 vemos que el espectro de la señal analógica de entra­
da ha producido, durante el proceso de muestro, múltiples copias de sí mismo. La
primera desde DC hasta e" luego de f-Ch a f.+(," después desde 2(-f,,,,, hasta
2f,+C.... Estas copias se denominan "alias" y, aunque son inevitables y existen
mientras la señal se mantenga en el dominio digital, serán eliminadas, por indese­
ables, en la conversión digital-a-analógico. La figura 10.3 (c) demuestra también
que si la frecuencia de muestreo fuera inferior a dos veces C" entonces se produ­
ciría un cierto solapamiento cntre la banda superior de una determinada f¡-ecucn­
cia y la inferior de la siguiente, es decir, ¡las alias se pisan unas a otras! Esto se cono­
ce como "aliasina".
2.1.2. Criterio de NJquist
Aunque esta teoria fue inicialmente descrita por Shannon, en los documentos
sobre audio y video digital casi siempre se conoce como teorema ele Nyquist o cri­
terio de Nyquist. En la antigua Unian Soviética esta teOl-Ía es atribuida a
Kotelnikov, cuyo trabajo fue casi simultáneo al de Shannon. En breve esta teoria
viene a decir que, suponiendo que se disponga de filtros ideales, la frecuencia de
muestreo debe ser al menos dos veces mayor que el ancho de banda de la señal a
muestrear. Puesto que en las señales de audio y video la frecuencia más baja a tra­
tar es cero o casi cero, el término "ancho de banda" puede cambiarse por "fre­
cuencia más alta".
298
299
Tiempo
Impulsos PAM~:
/  JI  I  •
Tr.:CNOUJGI: .'CTU,l IH n.U·qS!n,""
Precisamente para respetar el criterio de N),CJuist, el primer paso que sufre la
señal analógica durante su conversión a digital es un "filtrado-pasa-bajo", que ase­
gura que en la señal de entrada no estará presente ninguna frecuencia mayor que
.' la mitad de la frecuencia de muestreo o, dicho de otra forma, que elimina todas las
frecuencias por encima de la mitad de la frecuencia de muestreo (límite de
N)'quist). Igualmente a la salida, durante el proceso de conversión cligital-a-analó­
gico, el último paso consiste en un filtrado paso bajo mediante un filtro muy simi­
Jar al empleado en el proceso de conversión a digital. Este último filtro elimina las
altas frecuencias creadas internamente por la digitalización y suaviza el efecto de
escalones que presenta la señal analógica, reconstruida a partir de los impulsos
PAM.
Ahora si la señal de entrada no incluye frecuencias por encima del límite de
Nyquist, las hanclas laterales no se solaparán y no se producirá a!iasina. En la prác­
tica la frecuencia de muestreo es siempre un poco superior al criterio de Nyquist.
En primer lugar, si nos ajustáramos a dicho criterio, la frecuencia más alta presen­
te en la señal de entrada generaría exactamente dos muestras por ciclo, las cuales
podrían coincidir con los dos pasos por cero de la señal (figura 10.4). Esto gene­
raria incertidumbre, ya que, a la hora de reconstruir la señal Q1'iginal, igual podrí­
amos obtener fm" o Oc.
Puede verse, a partir de la figura 10.4 (a) que, si se emplea una frecuencia de
muestreo exactamente igual al doble de la frecuencia de entrada, es posible que
los instantes de muestreo se situen en los cruces por cero, lo cual podría inter­
pretarse como una señal de frecuencia cero, es decir, una forma de onda plana.
J::l
."
ii
~
f i
li~
~-~,
<11(2 fmax)
)
Figura 10.4.
Muestreo a exactamente dos veces la frecuencia de entrada (a) y muestreo con una frecuen­
cia ligeramente superior.
_.__ . ~ ti.~_t)Ji{)_~0:1j~1J
Por otro lado, si la frecuencia de muestreo es ligeramente superior al eloble ele la
frecuencia de la señal de entrada, las muestras delimitan perfectamente la forma
de onda original; no hay ambigüedad y, por tanto, no hay aliasing. Otra razón,
CJuizá incluso más importante para emplear una frecuencia de muestreo algo
superior al criterio de N)'quist, es que los filtros que limitan las frecuencias de la
seüal de entrada no son totalmente ahruptos, es decir, no dejan pasar todas las
frecuencias con total energía, hasta un punto en gue cortan de forma total cual­
quier frecuencia superior. Por el contrario, la forma en que se eliminan las altas
frecuencias es gradual, con una cierta pendiente, que se mide en dB por octava,
de forma que se asemejan un tanto a lo mostrado en la figura 10.3.
Es necesario recalcar que el uso de tul filtro, que limita las fi'ecuencias de la seilal de
entrada, no va en detrimento de la calidad de la se¡'lal de audio. Si asumimos que el oído
htunano no puede oír frecuencias más alla de los 18 o 20 KHz, la digitalización de cual­
quier frecuencia más alta no aportaría nada a la experiencia perceptiva y sólo serviría
para ocupar espacio en el CD o en cualqUier otro medio de grabación. Recientemente
se han puesto de moda teorías sobre percepción auditiva segUn las cuales si bien las fre­
cuencias por encima de los 18 o 20 KHz no son audibles por sí mismas, pueden mejo­
rar la calidad del sonido cuando están presentes, a la vez que otras frecuencias que sí
entran dentro del rango audible, pero éste es otro tema.
2.1.3. Frecuencias de muestreo en la práctica
Si tomamos como limite audible los 20 KHz, está claro que la frecuencia de
muestreo elegida para la señal de audio debería estar por encima de los 40 KHz.
En la practica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y
48 Kz. La primera es la mas popular, mientras que la segunda puede considerarse
como la mas profesional. Estas cifras no tienen nada de especial: simplemente res­
ponden a cuestiones prácticas.
Sin lugar a dudas, uno de los hitos más importantes en el desarrollo elel audio
digital fue la aparición a principio de los 80 de CD o compact disco Este formato
fue propuesto por Sony y Phiplis en 1978 y adoptado en 1979, pero las investiga­
ciones sobre un soporte digital de audio por parte de estas empresas se remontan
a 1973. Un cálculo inicial sobre la frecuencia binaria de un canal estéreo de cali­
dad indicaba la necesidad de grabar por encima de 1,2 Mbits/s. Utilizando un códi­
go de canal (la forma exacta en que se graban los hits) sencillo, donde dos bits
representan un hercio, esto nos llevaría a 600 KHz de ancho de banda. Por otro
lado, los magnetófonos de la época eran capaces de grabar sólo 20 KHz en el mejor
de los casos.
Hay una fórmula básica en física que dice que V=:A X f, es decir, que la velo­
cidad con que se propaga, graba, etc. una onda es igual a la longitud de dicha
onda multiplicada por su frecuencia. Esto es aplicable a los magnetOfonos: la
velocidad a que debe desplazarse la cinta en el magnetófono es proporcional a
la longitud de la onda que queramos grabar en la cinta (representada por patro­
nes magneticos que cambian de intensidad y dirección) y a la frecuencia que
tenemos que grabar. Ahora la longitud de la onda grabada en cinta no puede ser
300
301
tan pequeña como queramos, ya que para poder ser recuperada por la cabeza
lectora dicha longitud de onda ha de sel' claramente mayor que el entrehierro o
"Bap" de la cabeza y hay un límite en lo que a tecnología de cintas y cabezas se
refiere. Por tanto, si aumentamos la frecuencia de la señal a grabar (pasar de 20
KHz a 600 KHz es multiplicar por 30), tendríamos que aumentar proporcio­
nalmente la velocidad de paso de la cinta sobre la cabeza.
Todo lo anterior significa que si queremos grabar en un magnetófono una señal
de audio digital tendríamos que multiplicar por 30 la velocidad de la cinta. Esto
generaría enormes problemas de aceleración, control de los servas, etc. Ademas
¡un carrete de cinta sólo duraria un par de minutos) En lugar de esto, los ingenie­
ros de Sony y Philips de mediados de los 70 buscaron algún aparato ya existente
que fuera capaz de grabar anchos de banda como el que genera una señal de audio
digital estéreo. Encontraron un equipo al efecto en el grabador de vídeo "U-matic",
un formato de magnetoscopio, creado por Sony en 1971, que empleaba cinta de
tres cuartos de pulgada en casete.
Los magnetoscopios dedicados a la grabación de vídeo son capaces de grabar
grandes anchos de banda, que se miden en MHz, gracias a que emplean el princi­
pio de rotación de cabezas; las cabezas de grabación se montan en cilindros que
giran a gran velocidad, escribiendo pistas oblicuas en la cinta. En el caso del "U­
matic", la velocidad de paso de la cinta es de 9,5 cmls (bastante moderada), mien­
tras que la velocidad con que se escriben las pistas es de mas de 10 mis. La rota­
ción de cabezas hace que la velocidad efectiva cabezalcinta sea mas de 100 veces
superior a la velocidad de paso de la cinta. Así el "U-matic" lograba grabar una
hora de programa en una casete del tamaño de un libro mediano.
El "U-matíc", de todas formas, no es un grabador de datos digitales, sino un gra­
bador de vídeo analógico. El truco, en este caso, consiste en formar con las mues­
tras de audio una especie de señal de seudovídeo, es decir, algo que al magnetos-
Nivel de 1 O 1 1 O 1 O OO 1 O 1 O 1 1 O O 1 O 1 1 O 1 O 1 1 O 1 OO O 1 O 1
blanco - ~ ~ - - ­
i
>i
.... 1
o.
I
Nivel de
negro
:>Sincronismo f"l~i
o:horizontal
--l.
Figura 10.5.
Formación de una señal de vídeo a partir de los bits procedentes de las muestras de audio.
copio le parezca vídeo, aunque en realidad se trate de bits que representan la señal
de audio. Quizá algunos recuerden que los primeros onlenaJores domésticos
(Spectrum, Commodore-64, etc.) utilizaban casetes de audio para grabar los pro­
gramas, es decir, generaban sei'lales de seudoaudio con los datos binarios.
Resulta 'entajoso, a la hora de formar la señal de seudovídeo y a la hora de su
recuperación, que cada línea de televisión contenga un número entero de mues­
tras. Igualmente es interesante que las muestras de los canales izquierdo y derecho
se intercalen en las líneas de television, puesto que esto facilita la sincronización de
los dos canales durante la reproducción. Con estas premisas el sistema para "mas­
terizar" los CD optó por grabar tres muestras del canal izquierdo, más otras tres
del canal derecho, en cada línea de televisión. Conteniendo cada línea de television
un número entero de muestras, queda claro que la frecuencia con que se suceden
las muestras (frecuencia de muestreo) debe ser múltiplo de la frecuencia de líne­
as. De las 625 líneas que forman la señal de televisión en la norma europea, sólo
se utilizan 588 para grabar audio digital, ya que no se pueden tocar la sincroniza­
cion vertical ni sus vecinas mas inmediatas. Ahora, 588 líneas multiplicado por tres
muestras por línea y por 25 imágenes por segundo: 588 x 3 x 25 =44.100 mues­
tras por segundo. En la norma americana se utiliza: 490 x 3 x 30 =44.100.
Paradojas de la vida: el origen de la frecuencia de muestreo de audio digital, en el
formato más popular, está en la grabación de la señal de vídeo analógica.
Por otro lado, el CD es, desde su origen, un formato dirigido al gran público y
existían en su momento razones para pensar que podrían hacerse copias (por ejem­
plo, a un grabador DAT) de digital a digital. Por tanto, se pensó que los formatos
profesionales deberían tener una frecuencia de muestreo distinta a la de! CD. En
este caso se optó por 48.000 Hz como frecuencia de muestreo, ya que presenta dos
ventajas. En primer lugar, es múltiplo de la frecuencia de campo de televisión
(48.000/50 =960), lo que permite utilizar 10sVTR como másters y facilita la sin­
cronización con la señal de vídeo. En segundo lugar, mantiene una relación senci­
lla con la 32 KHz, que fue la frecuencia de muestreo propuesta en su momento
para la radiodifusión digital. Además 48 KHz deja un margen más que generoso por
encima de los 40 KHz que exige e! criterio de Nyquist. Aunque parece que una fre­
cuencia de muestreo de 48 KHz debería ofrecer mas calidad que otra de 44,1 KHz,
no siempre es así, ya que a menudo se utilizan los mismos filtros de entrada y sali­
da en los dos casos.
2.1.4. Aliasin8 en audio
Ya se ha visto, a propósito del criterio de Nyquist, cuáles son las causas del alia­
siDg y cómo evitarlo, pero a menudo surge la duda de ¿qué es exactamente el alia­
sing en audio y cómo se manifiesta? En otras palabras, ¿cómo reconocer una señal
de audio que contiene aliasinB? De manera sencilla, el aliasina, que se produce
siempre por submuestreo, supone sumar a la señal correcta otras señales indesea­
das y es, por tanto, una forma de distorsión. En concreto, si "S" es la frecuencia de
muestreo, "F" es una señal de frecuencia superior a S/2 Y"N" es cualquier número
entero, se crearán componentes de aliasinB con frecuencia Fa = ± NS ± F, es decir,
302 303
TLC,'JOl()(;I: ,CllL1 111. II.U.q..,¡O:,­
la suma)' la resta de la frecuencia de entrada con cualquier múltiplo de la fre­
cuencia de muestreo.
Como muestra la figura 10.6, se produce un solapamiento entre bandas latera­
les, que puede entenderse como un repliegue ele frecuencias fuera de banda, hacia
la banda base de la señal de audio. Estas sei'iales replegadas producen un verdade­
ro batido con las seii.ales de audio, en especial con las altas frecuencias. Por ejem­
plo, supongamos que trabajamos con una frecuencia de muestreo de 40 KHz)' que
se introduce en el circuito de muestreo una señal de 26 KHz. El primer componente
de aliasin8 tendrá una frecuencia de 40 Khz - 26 KHz = 14 KHz. En otras palabras, una
seii.aJ de entra<Ja de 26 KHz ha generado una señal de salida de 14 KHz; una señal
no audible produce, por submuestreo, una señal fantasma de alta frecuencia per­
fectamente audible. Ningún equipo de audio digital será capaz de saber si se trata
de una señal original de 14 KHz o si, por el contrario, es un producto de aliasin8'
Zona de

.. aliasing

ji 1
fs 2fs 3fs .
r-I
"O
::J
;t:
c..
~1+4 h
, ~i
O 20/ 40 60 80 100 120 KHz
14 KHz . 26 KHz Frecuencia
Figura 10.6.
Los productos de aliasin8 se producen a frecuencias Fa := ± NS ± F.
En realidad no se genera un único producto de aliasin8' Tal como indica la fór­
mula del párrafo anterior, obtendríamos sei'iales fantasma con frecuencias ele 40
KHz + 26 KHz = 66 KHz; 80 KHz - 26 KHz = 54 KHz; 80 KHz + 26 KHz = 106
KHz... , además de la ya citada de 14 KHz, aunque sólo esta última debe preocu­
parnos, ya que es la única que podra estar presente después de la conversión digi­
tal-a-analógiCo.
Resumiendo, nos encontramos con la siguiente situación: dada una frecuencia
de muestreo determinada (por ejemplo, 40 KHz), todas las señales de entrada
hasta 20 KHz serán codificadas con su frecuencia correcta; si aumentamos la fre­
cuencia de la señal de entrada desde 20 KHz hasta 40 KHz, obtendremos en la sali­
_____---'l".,·] .lIdio difLtiil
da seÍ'iales que descienden desde 20 KHz hasta O Hz; frecuencias de entrada desde
40 KHz hasta 60 KHz generarían salidas de Oa 20 KHz, etc. La sei'ial de salida es
como un acordeón, que ya de Oa 20 KHz, luego de 20 KHz a O, de nuevo de Oa
20 KHz...
En los ejemplos anteriores siempre hemos supuesto seila1cs de entrada simples,
es decir, senoides puras. Los tonos complejos, como los generados por los instru­
mentos musicales, están formados por la suma de múltiples armónicos. En este
caso las frecuencias de a]iasina se gene¡-an para cada uno de los armónicos. Por
ejemplo, el segundo armónico de una forma de onda compleja, cuya fundamental
sea de 10 KHz, tendrá una frecuencia de 20 KHz, la cual estaría en el límite si uti­
lizáramos una frecuencia de muestreo de 40 KHz, mientras que el tercer armóni­
co sería devuelto como una señal de 10KHz, reforzando la fundamental y cam­
biando el timbre del instrumento.
En la mayoría de las ocasiones la fundamental y sus armónicos no serán sub­
múltiplos exactos de la frecuencia de muestreo. Por ejemplo, una señal de
6 KHz tendrá un cuarto armónico de 24 KHz, que generará un producto de alia­
sin8 de 16KHz, un quinto armónico generará aliasi1J8 a 10KHz, un sexto a 4 KHz,
cte. Puesto que la amplitud decrece a medida que aumenta la frecuencia de los
armónicos, el efecto, si se produce, sólo tiene un cierto peso en el caso de los pd­
meros armónicos.
Por tanto, el aliasin8 genera esencialmente distorsión, en especial distorsión
armónica. La solución, una vez más, es un buen filtrado previo al muestreo, res­
petando el criterio de Nyquist y, a ser posible, dejando un cierto margen de segu­
ridad que permita acomodar holgadamente los filtros.
2.2. La cuantificación
Después del muestreo, el siguiente paso en la conversión de analógico a digital
es la cuantificación. Ésta consiste en representar cada muestra de audio mediante
un número, normalmente en formato binario. Así como el muestreo discretiza o
limita la señal de audio en la dirección temporal (sólo existe en determinados ins­
tantes), la cuantificación discretiza la señal de audio en lo referente a las amplitu­
des (sólo están permitidos determinados valores de amplitud). Se puede decir que,
mientras el muestreo preserva la información temporal, la cuantificación preserva
las amplitudes, o que, mientras el muestreo se relaciona con el ancho de banda, la
cuantificación hace lo propio con el rango dinámico.
Los valores de amplitud que están permitidos son aquellos que pueden repre­
sentarse con un número predeterminado de bits. Por ejemplo, si sólo pudiéramos
usar cuatro bits para representar cada muestra, dispondríamos de 16 posibles valo
res (24= 16). Con cinco bits dispondríamos de 32 posibles niveles de cuantifica­
ción; con seis bits, de 64, etc. La cuantificación, por tanto, mide y codifica cada ins­
tante de tiempo. En la cuantificación, tal como sucede con cualquier tipo de medi­
da, la precisión queda limitada a la resolución del sistema. Si medimos longitudes
con una cinta métrica que está tarada en milímetros, ésa será nuestra precisión: un
milímetro. Si queremos más precisión, tendremos que usar un "pie de rey", capaz
30S
304
Tt:( 'NOI oc!.'. ACTUAL Ilr TI:I E,ISlc)N
de precisar décimas de milímetro, etc. Esta limitación en la resolución de las mues­
tras supone la generación de errores de medida que, como se verá un poco más
adelante, pueden entenderse como la introducción de ruido.
Para mejor entender los efectos de la cuantificación y de los errores que durante
esta se introducen, veamos el siguiente ejemplo: supongamos que disponemos de dos
cronómetros, uno analógico y otro digital. Con ambos instrumentos medimos a la
vez la duración de un suceso determinado. La precisión que obtendremos con e! cro­
nometro analogico depende de nuestra agudeza visual y de nuestra capacidad para
deducir la posición de la manecilla, parada entre dos marcas proximas de la esfera.
La precisión obtenida con el cronómetro digital depende de su capacidad para mos­
trar fracciones de segundo, la cual se determinó durante el proceso de diseño de!
aparato. Con e! cronómetro analogico podríamos haber obtenido una medida de 2
min., 12 seg., 5 décimas. Con un cronómetro digital barato podríamos haber obte­
nido 2 min., 12 seg. ; con otro cronómetro un poco mejor, 2 min., 12 seg., 7 déci­
mas; con uno muy bueno, 2 min., 12 seg., 72 centésimas. Además si dos personas
miran la esfera del cronómetro analógico es muy posible que den dos medidas dis­
tintas para las décimas interpoladas; en cambio, ¡no es posible que lean dos valores
digitales distintos!
El error en la medida analógica es aleatorio, ya que depende de variables físicas
no controlables, tales como la balística de la saeta de! reloj o la capacidad de un
observador humano para interpolar valores. El error en el dominio digital no es
aleatorio, sino que depende de la precisión con que se haya diseñado el sistema. En
e! caso de! cronometro, depende del número de dígitos decimales que se muestren
en la pantalla; en el caso del audio digital, depende de! número de dígitos binarios
(bits) que se utilicen en la representación de las muestras.
En cualquier sistema de medición digital el último dígito es siempre una apro­
ximacion, por defecto o por exceso, al valor real o, lo que es lo mismo, un redon­
deo. Un medida, de por ejemplo, 26,672 se representaría como 26,7 en el caso de
que la precisión estuviera limitada a un decimal, o como 26,67 si permiten dos
decimales. El error mínimo posible es cero y se da cuando, por casualidad, los dígi­
tos no representados son cero; e! máximo error es igual a '/2 del dígito represen­
tado de menor peso.
La cuantificación consiste, por tanto, en medir un suceso analógico para con­
vertirlo en información numérica, que, en e! caso de! audio digital, es, por supues­
to binaria. Al igual que sucede con el cronómetro, la precisión de la medida depen­
de de la cantidad de dígitos utilizados para representarla. Así como el muestreo es,
si se toman las precauciones adecuadas, un proceso sin pérdidas, en la cuantifica­
ción siempre se producen errores, es decir, sí se introducen pérdidas. Por otro
lado, tales pérdidas o errores se pueden minimizar hasta que resulten irrelevantes.
2.2.1. La relación señal a ruido de cuantificación
En television nunca ha sido muy importante el valor del ruido en terminas
absolutos. En lugar de esto, prefiere utilizarse otro parámetro: la relación señal a
ruido o, abreviadamente, SNR. Este parámetro nos indica cuántas veces la señal es
El audiu di.ital
mayor que el ruido, lo cual es mucho más significativo, ya que e! ruido, al ser una
perturbación o interferencia, puede ser enmascarado por la sel1al si ésta es sufi­
cientemente alta.
En el sistema de numeración decimal (el que normalmente utilizamos los
humanos) el número de "alores (V) que se pueden representar depende del núme­
ro de dígitos (n) empleados, según la expresión V = 10"; así, por ejemplo, con tres
dígitos decimales podemos expresar 103
=1.000 valores distintos; con cuatro dígi­
tos decimales, 10' == 10.000, etc. Igualmente con el sistema de numeración bina­
ria podemos representar hasta 2" valores, siendo "n" el número de dígitos binarios
o "bits" utilizados para representar las muestras.
Tabla 10.1	 Relación entre el número de bits empleados y el número de posibles valo­
res de cuantificación.
N. o de bits Potencias
de dos
Valores minimo y máximo Combinaciones
1 2' 0-1 2
2
3
2'
2'
00-11
000-111
4
8
4
5
2'
2'
0000-1111
00000-11111
16
32
6 2' 000000-111111 64
... ... ...
10 2'0 0000000000-1111111111 1.024
... ... ... ...
16 2" 0000000000000000­ 65.536
1111111111111111
... '"
20 2'" 00000000000000000000­ 1.048.576
11111111111111111111
... ...
24 2" 000000000000000000000000 16.777.216
-111111111111111111111111
Como puede verse en la tabla 10.1, con cada bit extra añadido en la represen­
tación de las muestras se dobla la cantidad de combinaciones o valores de cuantifl­
cacion posibles. Está claro que cuantos más bits se utilicen en la representación de
las muestras, mayor será la precisión. Con 6 bits sólo podremos dividir la amplitud
de la señal analogica en 64 niveles distintos; con 10 bits dispondremos de 1.024
niveles; con 16 bits, más de 65.000 niveles, etc.
En la figura 10.7 la señal analogica ha sido muestreada a una cierta frecuencia
(lit) Y cuantificada con sólo dos bits. Esto proporciona un número dc niveles de
cuantificación N == 4. El número de intervalos de amplitud entre los niveles máxi­
mo ymínimo es igual a N - 1 =4 - 1 == 3. Un intervalo de cuantificación "q" puede
definirse como S/(N - 1), siendo S el nivel de amplitud de la señal analógica.
En cada instante de muestreo el conversor A/D tiene que tomar la clecisión de
otorgar un valor digital a cada valor de amplitud de la señal analógica. Para eH.o
establece un umbral de decisión, situado justo entre dos valores digitales permltl­
306
307
---------------
, ,
TEC~()LOGI,' ..t"'fU.L 1)1. lTL';;'I~IÓN
Señal muestreada
decisión y cuantificada
Umbrales de Señal original
~

11 --- __ ~:".)- I ;=;:::
 --------J-.----4- -•
/10 -.-..,...l .. ,q
3" .
=ªQ.
E
« 01 :
., ­ 2
i
-f --.1-.

00 _.~ J _
 . __ L_ •. , _ ~
~!J Tiempo ----------..
eError de cuantificación
r----r-Y I I I , .1 I
Figura 10.7.
Relación entre la senal analógica, los niveles digitales, los intervalos y el error de cuantificación.
dos. Si en ese instante de muestreo la seíi.al analógica tiene un nivel superior al del
umbral, el conversor optará por el nivel digital inmediatamente superior; en caso
contrario, se decidirá por el inmediatamente inferior. De esta forma el conversor
AID comete un error, cuyo valor máximo es de ± 1/2 q o, en terminas absolu­
tos, "q". Esto es lo que representa la parte inferior de la figura 10.7. A medida que
añadimos bits en la representación de las muestras, el número de niveles aumenta
y el error se reduce exponencialmente. Con 6 bits por muestra el error será de
1/63 S; con 16 bits, 1165.535 S, Ycon 20 bits el error será menor que una millo­
nésima parte de la señal analógica de entrada. Por tanto, a partir de ún cierto
número de bits el error, en comparación con la señal (que es lo que interesa) puede
considerarse como irrelevante.
Podemos entender el error de cuantificación como un ruido o señal indeseable
que se añade a Ja señal útil. En radio y televisión nos interesa poder expresar la
relaci6n entre la señal original y el ruido de cuantificación introducido en decibe­
lios. Puesto que estamos trabajando con voltajes, la fórmula que tendríamos que
aplicar es:
S
SNR (dB) = 20 log­
N
Por otro lado, hemos visto que con cada bit que añadimos el ruido se reduce a
la mitad o, lo que es lo mismo, la relación S/N se dobla. Si sustituimos S/N por 2,
podremos expresar la fórmula anterior en función del número de bits "n" emplea­
dos: SNR ::: 6n; puesto que 20 veces es logaritmo decimal de 2, es aproximada­
mente 6. En otras palabras, la relaci6n señal a ruido de cuantificación es igual a 6
veces el numero de bits empleados en la representación de las muestras.
____--'l~:l~,lUJit)d..;g_!J~
La señal de entrada es analogica, pero el ruido producido es de origen digital.
Esto cambia un poco las cosas con respecto al caso de trabajar con seii.ales y ruidos
de carácter analógiCO. En concreto, no se trabaja directamente con los "alol-es de
voltaje de la señal)' del ruido, sino que se divide el valor RMS de la señal por el
,'alar de energla del ruido, dependiendo este último no sólo de "q", sino también
de la probabilidad de ocurrencia de todos los valores de error, desde Ohasta ± '! 2
"q". ASI, finalmente, se obtiene la formula:
SNR ::: 6,02n + 1,76 dB
El rango dinamico de una señal de audio se entiende como el rango dE' niveles
de volumen o sonoridad que se cubren correctamente en un sistema de comuni­
cación, normalmente expresados en decibelios, y viene determinado por la rela­
ción entre el umbral de ruido y el máximo nivel reproducible sin distorsión. En
audio tradicionalmente se ha considerado como "muy buena" una señal cuyo rango
dinamico este por encima de los 90 dB, Utilizando 16 bits por muestra obtendre­
mos: 16 x 6,02 + 1,78 dB ::: 98,1 dB. Nótese que si hubieramos utilizado la fór­
muja simplificada de SNR = 6n, el resultado sedan 96 dB en lugar de 98,1, lo que
significa que en la practica la fOrmula simplificada es perfectamente válida,
La mayoría de las aplicaciones de audio digital trabajan con 16 bits por mues­
tra. El interfaz de audio digital AES/EBU permite utilizar 20 e incluso 24 bits por
muestra, lo que dada una relación señal a ruido de cuantificación de 122,18 Y
146,26 dB, respectivamente, aunque las más de las veces los interfaces AES/EBU
sólo transportan 16 bits por muestra.
Volviendo al ruido de cuantificación, puede ser aclaratorio el siguiente ejemplo:
supongamos que tenemos que digitalizar una señal de audio de, por ejemplo, 2
Vpp. Para simplificar, utilizaremos 8 bits por muestra, de manera que a los cero
voltios le corresponda el valor binario 00000000 (O decimal) y a los 2 voltios el
11111111 (255 decimal). Con estos valores habrá 256 c6digos para representar
256 valores, que abarcan 255 intervalos de cuantificación. Cada intervalo cubrid
2 V1255 ::: 0,00784 Va 7,84 mY. Si en un instante de muestreo determinado la
señal de entrada vale exactamente 1,6 V, su valor de cuantificación será 255 x
1,6/2 ::: 204, es decir, a la tensión de entrada de 1,6 V le corresponde el valor
exacto de salida 204, que se expresa en binario como 11001100. En este caso la
cuantificación habría sido perfecta y no se habda producido ningún error. A
1,60784V le corresponde el valor 205 (11001101 en binario), que también es un
código exacto. Por otro lado, a un valor de voltaje de entrada de 1,60392 V le
corresponde el valor decimal 204,5, que no puede expresarse con ocho bits, por
lo que debe truncarse a 204 o a 205, cometiendose, en cualquier caso, un error de
medio intervalo de cuantificación,
El ruido de cuantificación puede entenderse como una señal de error, con valo­
res entre +1/2 q Y-1/2 q, que se suma a la señal de entrada. Este error o ruido
de cuantificación es distinto de! ruido de la señal analógica, ya que, mientras que
este último es aleatorio, e! debido a la cuantificación depende del valor de la señal
de entrada, ya que no es otra cosa que la diferencia entre los valores de la señal de
entrada en los instantes de muestreo y los valores de cuantificaci6n permitidos. Por
tanto, más que ruido deberla clasificarse como una forma de distorsión. Un análí­
309
308
TEl'NOI ()(i1A -CTU-I IlrTH l'IS/O:'.
sis matemático del error de cuantificación demuestra que la distorsión no depen­
de del rango de amplitudes que se esté codificando en un momento dado, sino de
la amplitud de los peldaños de cuantificación, es decir, de "q". Por tanto, cuanto
mayor sea el número de intervalos de cuantificación, menor será la distorsión.
Ahora bien, lo realmente importante no es el numero total de peldailos de cuanti­
ficación que un sistema determinado permita, sino los que realmente se usen para
codificar la señal. Dicho de otra forma, la distorsión introducida por el ruido de
cuantificación es más notable, como era de esperar, en los pasajes de bajo nivel que
en los "fortísimos". La conclusión es que, aunque el error de cuantificación es en
esencia una especie de ruido que introduce el conversor A/D y que como tal debe
entenderse en la mayoría de las ocasiones, tal ruido es distinto del analógico-alea­
torio y puede también entenderse como una forma de distorsión, tanto más moles­
ta cuanto más bajo sea el nivel de la señal a codificar.
2.2.2. CuantificaCión diferencial y no lineal
Existen otras formas de codificar las muestras de audio, además de la explicada
en los párrafos precedentes. Aunque no se aplican en producción o posproducción
de audio digital, existe una familia de sistemas, llamados de "codificación diferen­
cial", que tienen su aplicación en ciertos sistemas de transmisión o cuando se quie­
re grabar audio con baja tasa binaria.
Dentro de la familia de sistemas de codificación diferencial, uno de los más
populares es la modulación delta. Es ésta una forma especial de modulación dife­
rencial de impulsos, en la cual el valor actual de la muestra de la señal de entrada
es comparado con el valor de la muestra precedente. Si el valor de la muestra ante­
rior era menor (la señal sube), se codiflca con un estado binario (por ejemplo, un
1). Si el valor era mayor (la señal baja), se utiliza el otro estado binario (en este
ejemplo sería un O). De esta forma sólo se emplea un bit por cada período de
muestreo. Para evitar errores de pendiente (la señal de entrada cambia' más rápi­
damente de lo que es capaz de indicar el bit codificado), la frecuencia de muestreo
de un sistema delta debe ser muy superior a la de un sistema PCM (Pulse Code
Modulacion).
Existen también sistemas de cuantificación no lineal, en los que, una vez que la
señal ha sido muestreada, se procede a cuantificar las muestras, pero de manera que
el tamaño de los pe!daños o niveles de cuantificación es desigual: más pequeño para
los valores bajos de la señal de entrada y mayor para los niveles altos. La intención tam­
bién en este caso es ahorrar bits. Utilizando cuantiflcación lineal, es decir, como se ha
explicado en los párrafos anteriores, el error medio cometido es independiente de!
nivel de la señal de entrada y vale siempre 1/(2" ~ 1) partes de la señal, siendo "n" e!
número de bits empleados para cuantificar las palabras de audio. Ahora bien, la per­
cepción de! error es mucho más evidente en los pasajes de bajo nivel que en los de
nivel alto, ya que en e! primer caso la pl"Opia señal útil enmascara e! ruido. Si utiliza­
rnos menos bits (por ejemplo, 10 o 12 en lugar de 16), el ruido durante los pasajes
bajos será intolerable, a no ser que empleemos un sistema de cuantificación que divi­
da la señal de entrada en peldaños, cuya altura sea proporcional al nivel de la propia
El audio divital
señal de entrada: pequeños para los niveles de cuantificación menores y grandes para
los niveles de cuantificación más altos. Esto es lo que hacen los sistemas de cuantifica­
ción no-lineal, de manera que, si bien generan señales de error o ruido variable, man­
tienen constante la relación señal a ruido que, desde e! punto de vista perceptivo, es
lo que interesa.
De todas formas estos sistemas de codificación alternativos, cuya intención es la de
ahorrar bits, están cayendo en desuso, ya que la modernas técnicas de compresión,
basadas en sofisticados algoritmos matemáticos y en complejos mecamsmos de
enmascaramiento, permiten reducciones de datos muy superiores.
2.3. Códigos ponderados y no ponderados
La señal de audio suele se bipolar, es decir, está formada por hemiciclos positi­
vos y negativos, centrados en cero voltios. Por esto la mejor manera de codificar la
señal, pensando en posteriores procesados, es otorgar a cero voltios el valor digi­
tal cero, valores negativos a los niveles de entrada negativos y valores positivos a
los niveles de entrada positivos. Por otro lado, los números negativos son un pro­
blema, ya que el signo debe ser codificado junto con los otros bits que representan
la cantidad. Se podría, por ejemplo, emplear un" 1" en la parte de mas a la izquier­
da para indicar que se trata de una cantidad negativa y un "O" para indicar positivo.
Aunque las maquinas digitales no empleen el sistema decimal, puede ser con­
veniente para los humanos disponer de un código binario que esté directamente
relacionado con el sistema decimal, de forma que a cada dígito decimallc corres­
ponda una combinación binaria de ceros y unos. Con tres bits podemos codiflcar
hasta ocho valores diferentes, lo que resulta insuflciente para los diez digitos deci­
males que queremos codificar. Con cuatro bits las combinaciones se elevan a 16;
no queda más remedio que coger la opción por exceso y emplear cuatro bits. Hay
muchas formas de codificar cuatro bits para representar los diez dígitos decimales.
Ya que se dispone de muchas opciones, lo mejor será emplear las que proporcio­
nen más ventajas. Por ejemplo, un buen código debería facilitar las operaciones
aritméticas, la corrección de errores, reducir el espacio de almacenaje necesario y
la complejidad de la circuitería lógica.
En los códigos ponderados (que a menudo ofrecen ventajas sobre los no pon­
derados) cada posición de bit representa un valor decimal. La cantidad representa­
da se obtiene sumando los valores ponderados de cada bit. En el código BCD
(BinaIY Coded Decimal) se emplean cuatro bits para representar cada valor decimal.
El bit de más a la izquierda tiene peso 8; el siguiente a la derecha, 4; el siguiente,
2, Yel de más a la derecha, 1. La tabla 10.2 muestra este código (también llamado
8-4-2-1), junto con otros códigos como el "exceso-3", el "2-entre-S" y e! "código
Gray". De todos ellos, sólo e! "BCD" es un código ponderado.
En algunas aplicaciones se prefieren los códigos no ponderados, en los cuales la
posición del bit no indica directamente un valor a sumar a la cantidad final. El códi­
go "exceso-3" se obtiene sumando 3 (0011) al código "8-4-2-1". De esta forma no
se emplean los valores binarios comprendidos entre "O" y"9", sino los que van del
"3" al "12", con lo cual el código queda "centrado" con respecto a los 16 valores
310
311
I[c~pL()(JI.' .'CTlJ~1 DI ITLl:·I~IO:
posibles. Además se asegura de esta forma que todas las combinaciones utilizadas
tendrán, al menos, un "1 ".
El codigo 2-enlre- 5 emplea 5 bits pal-a cada palabra, con lo que resulta menos
eficiente en términos de necesidades de almacenamiento. Su yentaja es que pre­
senta una regla de codificación muy clara: cada palabra esta formada por dos unos
y tres ceros. Esto permite la deteccion de errores, ya que cualquier error indivi­
dual supondría que la palabra contendría un soja uno o tres unos.
El codigo Gray se caracteriza por e! hecho de que sólo cambia un bit de una
palabra dada a la siguiente, de manera que un "contador" que iniciara la cuenta en
cero sólo tendría que alterar el valor de un bit en cada incremento. Una desventa­
ja de los códigos no ponderados es que, en general, el valor decimal que les corres­
ponde no puede ser calculado aritméticamente a partir del codigo hinario. En lugar
de esto se suele emplear el método de "consultar tablas".
Tabla 10.2 Varios ejemplos de códigos binarios ponderados y no ponderados.
D/GITO CÓDIGO CÓDIGO CÓDIGO CÓDIGO
DÉCIMAL 8-4-2-1 EXCESO-3 2-ENTRE-S GRAY
o 0000 0011 00011 0000
1 0001 0100 00101 0001
2 0010 0101 00110 0011
3 0011 0110 01001 0010
4 0100 0111 01010 0110
5 0101 1000 01100 1110
6 0110 1001 10001 1010
7 0111 1010 10010 1011
8 1000 1011 10100 1001
9 1001 1100 11000 1000
2.3.1. Complemento a dos
Ya se ha comentado anteriormente la dificultad de representar números nega­
tivos. El método de codificacion "complemento a dos" proporciona una represen­
tación eficaz para este tipo de números. Como se ha visto en capítulos anteriores,
es fácil evitar los valores negativos en la señal de vídeo digital. Para ello basta con
otorgar el valor digital positivo y más pequeño al nivel mínimo de la señal analo­
gica. Esto es posible porque la señal de vídeo analogica es "unipolar".
Por el contrario, la señal de audio es bipolar y generalmente "simétrica", de
manera que presenta por igual valores positivos y negativos. La eodifieacion "com­
plemento a dos" tiene su aplicación sobre todo en la representacion de! audio digi­
tal, aplicacion en la que presenta numerosas ventajas. Por ejemplo, cuando los
números binarios se procesan y almacenan en su forma complementada, tanto la
suma como la resta pueden lograrse utilizando la misma circuitería.
La aritmética binaria puede presentar problemas cuando se desea, por ejemplo,
almacenar el resultado de una operacion. Supongamos que estamos trabajando con
tres bits y deseamos sumar los números 100 Y 111. Vemos que el resultado es
_________. lLillJ~lliulli;.li~l.i
1011. El problema es que en la célula de memoria, donde queremos almacenar el
resultado, sólo caben tres bits, de manera que no podemos almacenar e! bit de más
a la izquierda, que es producto del acarreo, con lo que tendríamos que almacenar
"O 11 ". Se dice entonces que se ha producido un "dcsbordamiento". El problema de!
desbordamiento es propio de todos los sistemas que trabajan con un número fini­
to de dígitos.
Podríamos representar la suma de dos números, por ejemplo 7 y 5, colocando
dos segmentos de longitud adecuada uno detrás de otro, formando una línea recta.
Si trabajamos con un número finito de dígitos, podría ser más aclecuado conectar
los dos segmentos formando un círculo.
01111111
0000
0111
1000
1111
0000 1000
Desplazamiento Complemento
binario a dos
Figura 10.8.

Señal senoidal con codificación por desplazamiento binario (a la iZCJuierda) y con comple­

mento a dos (derecha).

Si sumamos 710 (1 J1,) Y510 (10 1') con este sistema, el resultado será 4 10 (100,),
que corresponde a la zona de solapamiento de los dos sumandos, en la reprcsenta­
cion circular. Estc tipo de operaciones se denomina "aritmética modular" y, aunque
parezca muy teorico, lo usamos cada día cuando decimos, por ejemplo, que son la
"seis de la tarde". En realidad, son las "seis modulo 12", o las "18 modulo 24", etc.
El resultado obtenido antes puede calcularse aritméticamente, restando de la
"suma normal" 2", siendo "n" el número de bits empleado; en nuestro ejemplo, tra­
bajando con tres bits, restaríamos 8.
Dos números que proporcionen e! mismo resto al ser divididos por el modulo
se dice que son iguales. Por ejemplo, 10 = J8 modo 8, ya que ambos producen un
resto = 2.
El complemento de un número se forma restando cada dígito de la "hase­
312 313
TECNO! OGIA ACI llAI DE TlI.r'ISIO~
menos-l" y ai1adiendo 1 al dígito menos significativo. Por ejemplo, e! "comple­
mento a la" de! número 43 es 57 y se obtendría restando de 9 (la base 1O menos
1) el 3 de las unidades, con lo que obtendríamos un "6" para las unidades. A conti­
nuación restaríamos e! 4 de 9 y obtendríamos un 5 para las decenas. Así tendría­
mos como resultado provisional e! número 56; sumándole 1 a las unidades obten­
dríamos 57.
Dos números complementarios suman siempre una potencia exacta de la base.
En nuestro caso, al trabajar con dos dígitos decimales: la' == lOO.
Trabajando en binario el método es más sencillo. Todos los números positivos
comienzan por cero y todos los negativos por l.
a) Conversión de binario a complemento a dos.
Números positivos
Añadir ceros al inicio para indicar el bit de signo.
Ejemplo: lOO, == 410 == alOa,,"
Números negativas
Añadir ceros al inicio hasta igualar la longitud definitiva. Invertir todos
los bits. Sumar uno.
Ejemplo: la, == 2'0 añadiendo los ceros iniciales 0010, invirtiendo 1101
y sumando 1: 1110le ==-2
b) Conversión de complemento a dos a binario.
Si el "MSB" (BIT más significativo) == 1 (números negataivos).
Invertir todos los bits y sumar uno.
Ejemplo: 1001 invirtiendo todos los bits: olla y sumando 1: 0111.
Nótese, en el ejemplo anterior, que hemos pasado de 1001 (-7) a 0111 (7), con
lo que hemos perdido el signo. Los números que en el sistema de complemento a
dos comienzan con cero tienen la misma representación en el "metodo directo",
también llamado "codificación con desplazamiento".
Trabajando con el metodo de "complemento a dos", las señales de audio digi­
tal quedan representadas, con respecto a un punto medio, igual que las'analógi­
caso De esta forma es posible, por ejemplo, "mezclar" dos señales digitales,
sumando simplemente sus valores. Si se desea atenuar una señal a la mitad (- 6
dB) bastará con dividir el valor de las muestras complementadas por dos, etc.
2.4. El dither
Siempre que se cuantifica se producen errores por redondeo. Aunque la ampli­
tud de estos errores es muy pequeña, es necesario considerar sus efectos si quere­
mos obtener la máxima calidad en la reproducción de la música.
El dither es una señal de bajo nivel, generalmente formada por ruido blanco con
una amplitud inferior a un nivel de cuantificación (típicamente entre '/l Y'/, pico-a­
pico), que se suma a la señal analógica antes de ser muestreada. El dieher asegura que
incluso la señal más pequeña cruzará, al menos, un nivel de cuantificación, de mane­
ra que los períodos adyacentes corresponderán a niveles de muestreo distintos.
Cuando la señal de audio presenta altos niveles, el error de cuantificación es pequeño
y puede entenderse realmente como ruido. A medida que la señal se hace más peque-
El audio dipital
ña, el error de cuantificación se hace más importante y comienza a correlacionarse
con la señal, es decir, el error deja de ser aleatorio y pasa a ser una función de la señal,
lo que significa que el ruido de cuantincación se convierte en distorsión.
Para entender el efecto de! dicher, puede ser interesante revisar la siguiente
situación: supongamos una seña senoidal con una amplitud pico-a-pico entre '/, Y
un nivel de cuantificación (figura 10.9-a). Pueden pasar dos cosas (dependiendo
del nivel medio de la señal): o que nunca cruce el umbral entre dos niveles (y, por
tanto, se codificaría como una señal de OC) o que sí cruce dicho umbral (lo que
generaría una señal rectangular). En el primer caso perdemos la información; en
el segundo, la distorsionamos (figura IO.9-b).
Umbral de
Decisión,
IblllJ l I
(e)
Figura 10.9.

Efecto de adición de dicha a una señal senoidal de muy bajo nivel.

Antes de la conversión A/D sumemos un poco de ruido aleatorio a la señal
senoidal (figura 1O.9-c). Los picos del ruido, distribuidos al azar, harán que la señal
cuantifkada cruce aleatoriamente los umbrales de cuantificación. Seguid siendo
una onda rectangular, pero se habrá producido una especie de modulación de
anchura de pulsos extra (figura 1O.9-d) que, al ser promediada por el oído, volve­
rá a reconstruir algo similar a la señal senoidal original.
3. Interfaces digitales para audio
De poco serviría disponer de señales digitales si cada vez que una máquina
reproductora tiene que enviar la señal de audio a otra, la primera tuviera que
reconvertir dicha señal a analógica, mientras que la grabadora tuviera que vol­
315
IdlUJUfllm lJ

314
Trc:-.;'oLo<.;I: :CTUAL nr. lTLl.:'I"[O:'
ver a convertir la s6ial a digital para grabarla como ceros y unos. Lo que hace
falta es una norma de comunicación digital o "protocolo" que determine el
orden en que se envían los bits, los niveles de tensión que los representan, las
impedancias, conectores, etc. Esto se conoce como interfaz y, en el caso del
audio digital, se dispone de dos interfaces o normas: el SPDlF y el AES/EBU.
También veremos algo sobre el interfaz MADI, diseñado para encaminar múlti­
ples canales de audio digital sobre un único cable coaxial. Aquí veremos prime­
ro el AES/EBU, ya que no sólo es más antiguo, sino que es el único verdadera­
mente profesional.
3.1. El interfaz AES/EBU
El interfaz adoptado por AES/EBU está destinado a la interconexión de señales
digitales de audio en estudio mediante cables de hasta unos centenares de metros
de longitud. La frecuencia básica de muestreo de la señal digital de audio es de 48
KHz, capaz de proporcionar una banda pasante de más de 20 KHz, aunque sopor­
ta también otras frecuencias de muestreo, como 32 KHz y 44,1 KHz. Por supues­
to, se dispone de métodos para señalar qué frecuencia de muestreo se está utili­
zando en cada caso. La resolución de las muestras será variable, con un mínimo de
16 bits (lo que proporciona una dinámica de 98 dB) Yun máximo de 24 (146 dB).
Este interfaz está principalmente concebido para encaminar señales monofóni­
cas o estereofónicas en estudio, con las características de muestreo y cuantificación
citadas anteriormente. Como se ha dicho, puede utilizarse también para uno o dos
canales muestreados a 32 KHz e incluso para canales muestreados a 44,1 KHz.
Junto con los datos de programa se transmiten también una referencia de reloj e
informaciones auxiliares.
3.2. Terminología
Para simplificar la explicación y facilitar la comprensión es conveniente fijar el
vocabulario o terminología utilizada:
Frecuencia de muestreo.-Es la frecuencia con que se toman muestras de la señal ana­
lógica de audio en el proceso de digitalización. Cuando se transmiten dos señales a
través del mismo interfaz, éstas deberán tener la misma frecuencia de muestreo, es
decir, no es posible transmitir e! canal izquierdo con una frecuencia de 48.000 pala­
bras por segundo y e! derecho con 44. 100 palabras por segundo
Palabra de muestra de audio.-Representa la amplitud de una muestra de audio
digital, es decir, se trata de! código de 16, 20 o 24 bits que representa la amplitud
de una muestra puntual del canal izquierdo o de! derecho. La representación es
lineal (todos los peldaños de la misma amplitud), en forma binaria y con comple­
mento a dos. Los números positivos (comienzan con O) corresponden a tensiones
lógicas positivas a la entrada del conversor analógico digital. Los números negati­
vos (comienzan con 1) corresponden a tensiones negativas.
El número de bits atribuidos a cada palabra es de 24 o de 20. Si la fuente pro­
porciona menos bits de los que requiere e! interfaz (lo cual es muy frecuente, ya
_______________________________~EI audiu digilil
que la mayoría de las fuentes sólo trabajan con 16 bits por muestra), los bits menos
significativos (LSB) no utilizados se pondrán a O lógico.
Bondera de mlidcz.-Cada muestra de audio incorpora W1 bit de validación (bandera de
validez), el cual indica si la muestn es fiable o no. No se trata de W1 sistema de correc­
ción de errores, sino de una simple indicación que senirá para que el receptor tome la
decisión pertinente, como, por ejemplo, interpolar el valor de la muestra actual, o
enmudecer si el número de muestras erróneas seguidas es demasiado alto. También se
utiliza para indicar el modo de funcionamiento en un solo canal (monofónico).
Estado del conal.~Es una estructura fija de infOl-mación, basada en paquetes de
192 bits obtenidos a partir de un único bit por cada muestra de audio. Esta infor­
mación se relaciona con cada canal audio y puede ser decodificada por cualqUier
interfaz de usuario. Como ejemplos de informacion de la sei'íal de estado de! canal
se pueden citar: longitud dc las palabras de las mucstras de audio, indicación de
preacentuación, la frecuencia de muestreo, los códigos de tiempo y códigos alfa­
numéricos de origen y destino.
Datos de usuario.-La estructura dcl interfaz digital prevé un canal de datos de
usuario para la transmisión de cualquicr otra información que pueda interesar al
usuario. No se imponen limitaciones a la organización de los bits de usuario, aun­
que ofrece ventajas adoptar una estTuctura normalizada.
Bits de paridad.-Cada muestra de audio incorpora un bit dc paridad, e! cual per­
mite la detección de un número impar de errores, debido al funcionamiento inco­
rrecto del interfaz.
Preámbulos.-Los preámbulos son esquemas específicos (grupos dc bits con valor
fijo) para la sincronización. Se trata de patrones dc bits que no se pueden encon­
trar en los valores PCM de las muestras y que se sitúan al inicio de cada palabra.
Existen tres tipos de preámbulo: de trama, de subtrama y de bloque_
Subtrama.-Es una estructura fija, utilizada para llevar la información descrita en
palabra de muestra de audio y preámbulos. Cada canal de audio se relaciona con
una subtrama. Así existe una subtrama para e! canal izquierdo y otra para el dere­
cho o una para e! principal y otra para el secundario, etc. Una subtrama está com­
puesta por el preámbulo, hasta 24 bits de la muestra de audio y cuatro bits auxi­
liares. En todo período de la frecuencia de muestreo dc la fuente se transmiten
secuencialmente dos subtramas, una para cada canal de audio.
Trama.-La trama es una secuencia de dos subu-amas, una para cada canal. Una
U"ama corresponde a un período de muestreo y lleva información dc los dos canales
que conforman la señal de audio digital AES/EBU. Por tanto, está formada por dos
palabras de muestra de audio, dos preámbulos y dos conjuntos de bits auxiliares.
Bloque.-Con 192 tramas consecutivas (que corresponden a 192 períodos dc
muestreo) se forma un bloque. El comienzo de un bloque se identifica mediante
un preámbulo especial. La estructura de bloques es muy útil para codificar la infor­
mación de estado y la de usuario.
Codificación del canal.-La codificación del canal describe el método mediante e!
cual se representan las cifras binarias para su transmisión a través del interfaz, es
decir, la forma eléctrica exacta de la señal de audio, tal como se transmite por el
interfaz. El procedimiento es el denominado "marca bifase".
316 317
TrC"JOI OCIA ACTUAl D1: Tri rq';;lo,,-:
3.3. Estructura del interfaz
Este interfaz está pensado para encaminar dos señales de audio digital multiple­
xadas en el tiempo. Las dos seilales pueden estar relacionadas entre ellas (por ejem­
plo, en el caso de un canal estereofonico) o ser totalmente independientes. El
interfaz AES/ EBU se basa en la utilización de tramas y subtramas. Una subtrama
no es otra cosa que una muestra de audio, ya sea del canal izquierdo o del derecho,
del canal primario o del secundario, etc., a la que se han añadido unos pocos bits
al inicio para sincronización y unos pocos bits al final como información auxiliar.
3.3.1. Estructura de la subtrama
Cada subtrama se divide en 32 intervalos de tiempo iguales (períodos de bit),
numerados del Oal 31 .
Los intervalos de tiempo O al 3 corresponden a uno de los tres preámbulos
permitidos, denominados X, Y o Z, segun identifiquen una trama, una subtrama o
un bloque.
Los intervalos de tiempo 4 al 27 llevan la palabra de la muestra de audio en
representacion lineal (todos los peldailos de igual altura) con complemento a dos
(los valores positivos comienzan por Oy los negativos por 1). El intervalo de tiem­
po 27 corresponde al bit más significativo de la muestra de audio (MSB).
Cuando se cuantifica con 24 bits, el LSB (bit menos significativo) corresponde
al intervalo de tiempo 4.
Cuando se cuantifica con 20 bits, el LSB corresponde al intervalo 8 y los inter­
valos 4 a 7 pueden ponerse a cero o destinarse a otras aplicaciones (canal de audio
de calidad "comentarios", por ejemplo). En estas circunstancias los bits en los
intervalos de tiempo 4 a 7 se denominan "bits auxiliares de la muestra". Los datos
del estado del canal informan, entre otras cosas, de la longitud de las pa)abras de
las muestras de audio.
Si la fuente suministra menos bits de los que permite e! interfaz (20 o 24), los bits
menos significativos no utilizados deberán ponerse a cero lógico. Mediante este pro­
cedimiento pueden interconectarse equipos que utilizan distinto nUmero de bits:
•	 El intervalo de tiempo 28 lleva la bandera de validez asociada a la palabra de
la muestra de audio. Esta bandera se pone a cero si la muestra de audio es fia­
ble y a uno en caso contrario.
•	 El intervalo de tiempo 29 es un bit de! canal de datos de usuario asociado al
canal de audio transmitido en la misma subtrama. Éste es e! bit con e! que se
obtienen los paquetes de 192 bits que transportan la información de! canal,
de la que se ha hablado en un párrafo anterior.
•	 El intervalo de tiempo 30 lleva un bit de la palabra de estado de! canal aso­
ciado a la misma subtrama. Con este bit se obtiene, después de 192 tramas,
toda la información que se relaciona en e! apartado 3.3.
•	 El intervalo de tiempo 31 es un bit de paridad, con un valor tal que los intervalos
4 al 31 inclusive tengan un nUmero par de ceros yun nUmero par de unos (pari­
dad par). Esto permite al receptor analizar la integridad de la señal de audio reci-
El Jlldio Jip-ital
~o- -3 4 7 8	 27 28 29 30 31
I
Datos I
Palabra de la muestra de audio
Preámbulo auxiliares I
I
en PCM y complemento a dos
al para longitudes entre 16 y 20 bits ID'ID
(J) I(J)	 (J)XóYóZ
..J ..J :¡¡

Sumados permiten usar palabras de 24 bits - - - ---.~

Bandera de Validez

V U e p
Bit de Usuario--..l
Estado del Canal i
Bit de Paridad .J
Figura 10.10.

Estructura de la subtrama en el interfaz AES/EBU.

bida muestra a muestra. Si alguna muestra se ha alterado durante la transmisión por
e! interfaz, lo más probable (aunque no seguro) es que la paridad falle. La falta de
seguridad se debe a que si se alteran dos o cualquier otro nUmero par de bits en
una muestra, el análisis de paridad dará un resultado correcto.
3.3.2. Estructura de la trama
Una trama se compone de dos subtramas (figura 10.10) y se forma, por tanto,
con 64 bits. La velocidad de transmisión de las tramas se corresponde exactamen­
te con la frecuencia de muestreo de la fuente (48,44,1 o 32 KHz).
Cuando se trabaja con dos canales las muestras tomadas de ambos canales se
transmite por multiplexación en e! tiempo en subtramas consecutivas, es decir,
primero una muestra de! canal A, luego una de! canal B, una del canal A, etc. Las
subtramas correspondientes al canal 1 (canal izquierdo o "A" en funcionamiento
estereofónico y canal primario en funcionamiento monofónico) se identifican nor­
malmente mediante e! preámbulo X. Sin embargo, cada 192 tramas se cambia al
preámbulo Z, con lo que se define la estructura de bloque utilizada para organizar
la información de! estado del canal.
Las subtrarnas de! canal 2 (canal derecho o "B" en funcionamiento estereofónico y
canal secundario en funcionamiento monofónico) utilizan siempre el preámbulo Y.
Resumiendo, e! canal 2 siempre se inicia con e! preámbulo "Y", mientras que e! canal 1
se inicia siempre con e! preámbulo "X", excepto una de cada 192 veces en que lo hace con
e! preámbulo "Z". Este preámbulo "Z" es e! que indica que se inicia un nuevo bloque.
En el modo de funcionamiento de un canal se utiliza solamente el canal l. El bit
de validación (bandera de validez) de las subtramas correspondientes al canal 2
deberá ponerse a 1 (muestra no válida).
3.3.3. Codificación del canal
Los intervalos de tiempo 4 a 31 se codifican en "marca bifase", también conoci­
do como "bifase-M" o "código Manchester". Con esto se pretende minimizar la
componente continua (cuando varios bits consecutivos tengan e! mismo valor).
318 319
TU:iOl.OGI,. :C rU:l ])1 rlLl:TI;-,10~
... ... Medio periodo de bit
llill1J muJUJ rmJUlJ

.
X
Canal y Canal
Z
Canal y Canal
X
Canal y Canal
X
1 2 1 2 1 2
Subtrama O Subtrama 1
~ ....
Trama 191 Trama O Trama 1..:.
i~- - Comienzo del bloque
Figura 10.11

Forma en que se multiplexan las subtramas )' detalle de los preámbulos.

Además se facilita la recuperación del reloj a partir de los propios datos, con lo que
no hace falta una conexión extra de reloj y se hace insensible e! interfaz a las inver­
siones de polaridad de las conexiones.
Cada uno de los bits que se transmiten se representa mediante un símbolo,
que consta de dos estados binarios consecutivos. El primer estado de un símbo­
lo es siempre diferente del segundo estado del símbolo anterior. El segundo esta­
do es idéntico al primero si e! bit que se ha de transmitir es un cero y es dife­
rente si se trata dc un uno (figura 10.12). Dicho de otra forma, siempre se pro­
duce una transición al final de período de bit, pero, además, si el bit a codificar
es un "1", se produce también una transición a mitad de período de bit.
Nótese en la figura 10.12 que con la codificación "marca bifase" lo que deter­
mina, si se está transmitiendo un cero o un uno lógico, no es el nivel eléctrico de
la señal, sino la presencia o ausencia de transiciones a mitad de período de bit. Una
señal como la de la figura 10.12, pero totalmente invertida, sería también válida,
ya que las transiciones se producirían en los lugares adecuados. Por esto se dice que
la codificación "marca bifase" es insensible a los cambios de polaridad del cable.
Puede notarse, a partir de la figura 10.12, que la codificación "marca bifase" es una
especie de modulación en frecuencia digital: a los unos lógicos se les otorga una fre­
cuencia doble que a los ceros lógicos. En ocasiones a la codificación "marca bifase" se
la conoce también como "código FM". Si se compara esta codificación o modulación
con los datos PCM originales, puede verse que la frecuencia máxima se ha doblado.
Esto conduce a la siguiente reflexión: ganamos robustez a costa de emplear un mayor
ancho de banda. En aplicaciones de audio digital esto es perfectamente aceptable, ya
qué se trabaja con frecuencias binarias moderadas. Un pequeño cálculo nos permite
saber en que rango de frecuencias nos movemos:
32 bits por muestra X 48.000 muestras por segundo X 2 canales = 3.072.000 bits/s.
En PCM la frecuencia más alta se obtendría cuando se presentara la secuencia
binaria 10101O1010... Un ciclo básico estaría representado por una pareja"10".
La frecuencia eléctrica más alta sería, por tanto, 3.072.000/2 = 1.536.00
ciclos/segundo o, redondeando, 1,5 MHz.
1 o 1 1 1 o 1 o o 1
Codificación en PCM
o
Reloj al doble de la frecuencia binaria
T T T T • T T • • T • T • T • T T Y T Y •
Codificación en "Marca Blfase"
IUl1 o 1 1 1 o 1 o O 1
Figura 10.12.

Codificación de la secuencia binaria" 1O111 O100 1" 3n Marca Bifase.

Empleando codificación "marca bifase" la secuencia que genera cambios más rápi­
dos en la señal eléctrica es 11111 , ya que produce dos flancos por cada período de bit.
Tal señal genera un ciclo completo por cada período de bit, es decir, 3.072.000
ciclos/segundo o, aproximadamente, 3 MHz. Cuando se normalizó este interfaz se
comprobó que frecuencias en torno a los 3 MHz podían encaminarse sin problemas
por los cables apantallados utilizados para audio analógico.
3.3.4. Los preámbulos
Los preámbulos son pautas o esquemas fijos de bits que facilitan la sincronización
e identificación de tramas, subtramas y bloques. Para lograr la sincronización dentro
de un período de muestreo y hacer que el proceso sea fiable, estos preámbulos no
cumplen las reglas de! código de marca bifase antes citado, con lo que se evita que los
datos puedan decodificarse como preámbulos y viceversa. Así cada vez que el recep­
tor se encuentra con una pauta de bits que no cumple las normas de codificación de
los datos PCM, "intuye" que se trata de una señal de sincronización, es decir, de inicio
de subtrama, trama o bloque. Las transiciones subsiguientes terminan de confirmar la
sospecha e informan del tipo de sincronización concreta.
Cada preámbulo está formado por cuatro intervalos de tiempo (del Oal 3) y se
representan por ocho estados consecutivos (dos estados por cada intervalo). El pri­
mer estado del preámbulo es siempre distinto del segundo estado del intervalo
anterior (del bit de paridad de la muestra anterior). Dependiendo de este estado,
los preámbulos son:
O bien:
• Preámbulo X: 11100010 subtrama 1.
320 321
Tr-CN()! (){;L oCTlJ:1 nF TI:II:'I:'lIO~
El audio dipital
• Preámbulo Y: 111001 00 subtrama 2.
• Preámbulo Z: 11101000 subtrama 1 y comienzo del bloque.

O bien:

• Preámbulo X: 00011101 subtrama 1.
o Preámbulo Y: 00011011 subtrama 2.
• Preámbulo Z: 00010 111 subtrama 1 y comienzo del bloque.
La figura 10. 11 muestra, en la parte superior, los preámbulos X y Z de! primer grupo.
El segundo grupo es exactamente igual al primero, pero totalmente invertido.
Al igual que en el caso del código de marca bifase, estos preámbulos no llevan
componente continua (o es mínima) y permiten una fácil recuperación de! reloj.
Como mínimo difieren en dos estados de cualquier secuencia bifase válida. En la
codificación "marca bifase" no puede haber un período de bit completo (dos semi­
períodos) sin transición. Sin embargo, todas las secuencias de sincronización se sal­
tan esta norma, ya que se inician con tres bits iguales (cada bit de sincronización
equivale a un semiperÍodo de bit de datos).
3.4. Formato de los datos de estado del canal
Los datos del estado del canal se obtienen gracias al bit numero 30 de cada
muestra, etiquetado como "C". Las dos subtramas de cada trama transportan e!
mismo valor para e! bit "C": con 192 tramas se obtiene un bloque y, por tanto, 192
bits "c" Miles. Estos datos se estructuran en octetos, con lo cual habrá 24 octetos
por bloque (24 X 8 =192). La tabla 10.3 muestra los 24 octetos de estado de!
canal correspondientes a un bloque.
Para la transmisión de los datos se utiliza el mismo cable bifilar apantallado que
viene utilizándose en audio analógico profesional. La impedancia de la fuente es de
110 ohmios, la cual debe ser igualada por e! cable, al menos en e! rango de frecuen­
cias en que nos movemos. Sobre esta impedancia e! transmisor deberá producir una
señal filtrada de, como mínimo, 2 V Y máximo 7 V pico-a-pico. La impedancia del
receptor se fijó inicialmente en 250 ohmios, lo que permitía conectar varios recepto­
res a una sola fuente de señal. Sin embargo, en la revisión de la norma de 1992 (AES­
3) se dice que la impedancia del receptor será igual que la de la fuente y que la de la
línea de transmisión y que sólo se conectará un receptor por interfaz. Si se desea
conectar varios receptores a una misma línea, se utilizarán distribuidores activos.
El diagrama de ojo en e! extremo de recepción debe presentar una anchura mínima
de 0,5 T", siendo T" igual a medio período de bit. La altura o amplitud mínima de! dia­
grama de ojo en e! receptor será de 200 mV El conector es de tipo XLR (Canon). Con
estas especificaciones se logran distancias de más de 300 metros.
3.5. El interfaz SPDIF
Se trata de una variante de! interfaz para audio digital AES/EBU, muy utilizada en
aplicaciones domésticas. Esta norma tiene su origen en la IEC958 1989-03 (consumer
pare) de la UER. Al igual que el interfazAES/EBU, el SPDIF codifica señales de audio
Tabla 10.3 Datos contenidos en los 24 bytes de los datos de estado del canal.
OCTETO FUNCIONES
o Utilización del bloque. Preacentuación. Frecuencia de muestreo.
1 Modo del canal: mono, estéreo, dos independiente. Gestión bits de usuario.
2 Longitud de la palabras de audio: 20 bits, 24 bits...
3 Ampliación del octeto 1 para futuras aplicaciones.
4
5
Reservados pero no definidos. Valor por defecto: 00000000.
6
7 Datos alfanuméricos para indicar el origen del canal.
8 Permite 4 símbolos ASCII de 7 bits + paridad impar.
9
10
11 Datos alfanuméricos para indicar el destino del canal.
12 Permite 4 símbolos ASCII de 7 bits + paridad impar.
13
14 Código de 32 bits para indicar la dirección local de las muestras. Tiene la misma
15 función que un índice de cómputo en un registro y su valor es el de la dirección
16 de la primera muestra del bloque en curso. El LSB primero.
17
18 Código de tiempo de 32 bits correspondiente a la primera muestra del bloque
19 en curso. Normalmente indica la hora del día fijada durante la codificación
20 de la señal fuente. El LSB primero.
21
22 Banderas de validez de los datos de estado del canal.
23 Código redundante cíclico para control de errores en los bytes O a 22.
con cuantificación lineal de 16 bits mínimo y 24 máximo. Las frecuencias de muestreo
pueden ser: 32 KHz, 44,1 KHz o 48 KHz. Se dispone también de 4 bits de informa­
ción adicional por muestra: bit de validación, bit de usuario, bit de estado de! canal y
bit de paridad. Las diferencias más importantes entre e! SOIF y el AES/EBU son de
tipo físico: cable coaxial de 75 ohmios (AES/EBU: par blindado de 110 ohms), conec­
tor RCA o BNC (AES/EBU: XLR 3 pins.), nivel de señal 0,5 a 1V (AES/EBU: 2 a 7
V). Por lo demás, los protocolos de comunicación son casi idénticos. Hay un bit en e!
cuadro de canal de estado que indica si la señal procede de uno u otro interfaz.
3.5.1. DiferenciasJ similitudes entre AES/ EBUJ FPDIF
Los dos interfaces están pensados para encaminar dos canales de audio, aunque uti­
lizan métodos eléctricos diferentes. El interfaz profesional AES/EBU utiliza un siste·
ma de transmisión simétrico con voltajes relativamente altos, mientras que e! interfaz
doméstico utiliza transmisión asimétrica con niveles de voltaje bajos. La figura 10.13
(a) muestra e! circuito eléctrico recomendado en el caso de! interfaz profesional,
mientras que la figura 10. 13 (b) muestra la variante doméstica.
Los transformadores no son obligatorios ni en la variante profesional ni en la
doméstica, aunque resultan ventajosos, ya que proporcionan el mejor aislamiento
322
323
TECNOl()(;I: :,-(TU 1. 1)[ T,L1~"",.L"'!cIS",j(","J'",-·	 _
enb-c dispositi'os )' reducen los efectos de las interferencias elecb'omagneticas, En el
caso de la norma profesional se especifica que la patilla 1 del conector XLR se utilice
para la malla, mientns que la patilla 2 es el "positiYo")' la patilla 3 el "negativo", aun­
que en este caso, si las patillas 2 y 3 se invirtieran, esto no tendría ningún efecto en la
recuperación de los datos, ya que el código de canal utilizado hace que estos sean
insensibles a los cambios de polaridad.
En la variante profesional el bit 29 se define como bit de usuario y se deja a la
elección de éste su contenido. La norma sólo especifica qlle se utilizaran códigos
(a) r-Transmlsor ~--t-- Cable -+--- Receptor ------1
~1?:': ~)I I ~~~H2=~ Patillas ) "=
(b) ·Conec1or XLR·­
~II¡-O) k>=
L-. 1 !
~-+--
r----Transmlsor ------t--- Cable -----t--- Receptor --1
Figura 10,13.

Circuito eléctrico recomendado para el interfaz profesional AES/EBU (a) y para el doméstico (b).

ASCII Yque seria conveniente una mayor normalización para facilitar el intercambio
de información. En el caso del interfaz doméstico, el bit 29 pasa a llamarse "bit de
subcódigo". El contenido del subcódigo se deja a la elección del fabricante (no del
usuario) y se estructura en bloques de 1.176 bits, delante de los cuales aparece una
palabra de sincronización de 16 ceros seguidos. .
El subcódigo puede utilizarse para transportar información de protección contra
copias no autorizadas, segUn un protocolo denominado SCMS (Serial COPf Mana8crncnt
System). La idea es que una señal digital con derechos de autor (normalmente música
pregrabada) puede copiarse una sola vez de "digital-a-digital", lo que permite al usua­
rio asegurarse una copia de seguridad, pero evita el pirateo sistematizado.
En el interfaz profesional e! bit 2 del octeto O del "código de estado de canal" se
utiliza para especificar, junto con los bits 3 Y4 del mismo octeto, el tipo de "prea­
centuación". En el caso de! interfaz domestico, este bit se utiliza para decir si estan o
no permitidas las copias o, mas específicamente, si la señal tiene o no derechos de
autor. Ahora bien, este bit no es suficiente para una gestión eficaz de los derechos de
autor, ya que no indica la generación de la copia de que se trata. Esta información adi­
cional, estructurada en varios bits, puede localizarse en los datos SCMS transporta­
dos por el bit de subcódigo. De todas formas, el tema de la protección contra copias
de digital-a-digital nunca ha sido respetado.
Existe también una variante del SPDIF que utiliza fibra óptica como medio de
propagación. El medio de transmisión es una fibra de plastico de 1 mm y las seña­
___________---'[o!.l-".,,<I;o d'I'1!J
Tabla 10A Diferencias entre los interfaces para audio digital AESIEBU y SPOIF.
PARAMETRO AESIEBU SPDIF
Cable	 110 ohmios (2 conductores 75 ohmios (cable coaxial o fibra
apantallados) óptica)
Conector XLR (Canon) de 3 patillas RCA o BNC
Nivel de la señal 2 a 7 voltios 0,5 a 1 voltio
Modulación Marca bifase Marca bifase
Información de Texto en ASCII Información de protección contra
subcódigo copias SCMS
Máxima resolución de 24 bits 20 bits (24 bits opcional)
las muestras
Principal aplicación	 Profesional Doméstica
les se transmiten utilizando luz visible (un LED rojo con longitud de onda de 660
nm), Este interfaz suele utilizarse en ciertos equipos domesticas, tales como
reproductores de CD,
3.6. El Interfaz MADI
MADI significa Multichannel Audio Di8itallnteiface (interfaz digital de audio multi­
canal) y está pensado para proporcionar una norma de conexión entre equipos de
audio digital multicanal. Es capaz de transportar hasta 56 canales de audio AES/EBU
en formato serie, a través de un cable coaxial, a 125 Mbitsls, utilizando un código de
canal NRZI. Los conectores son de tipo BNC yse garantizan distancias de mas de 50
metros. La longitud de las muestras de audio puede llegar hasta 24 bits. Se utiliza un
código de canal de conversión directa, en el que con cada cuatro bits de datos se obtie­
ne una palabra de cinco bits de canal. De esta forma es posible despreciar las 16 peo­
res combinaciones (en terminas de bajas frecuencias y componente continua) de las
32 que son posibles con cinco bits.
El formato de los datos MADI se diferencia del formato AES/EBU solamente en los
primeros cuatro períodos de bit. En AES/EBU estos son ocupados por los preambulos.
En MADI, el primer período, o bit "O", es una bandera que indica el "canal O", que es el
primero que se transmite en un período de muestreo dado (hay que recordar que en
cada período de muestreo se transmiten hasta 56 muestras de 56 canales, una detras de
otra). El bit 1 indica si los datos son válidos (desde el punto de vista del transmisor). Los
bits 2 Y 3 codifican los tres posible preambulos transmitidos al inicio de las subtramas
AES/EBU. El resto de los datos que conforman la subtrama MADI es idéntica a la
AES/EBU, lo que facilita el intercambio de datos entre ambos sistemas.
Resumen
• Todos los conceptos, principios y teorías sobre vídeo digital, tratados en capítu­
los anteriores, son perfectamente aplicables al audio digital. Por otro lado, una
señal de audio de calidad alta no excede los 20 KHz de ancho de banda, mien­
324	 325
TIT!'Jlll.()(;P. ACTUAL Df TEI r:'rslo~
tras que W1a señal de vídeo analógica de calidad media, como la sei"ial compues­
ta PAL, presenta un ancho de banda en torno a los 5 o 5,5 MHz.
•	 El audio digital no precisa de una frecuencia de muestreo tan alta como la
señal de vídeo, pero, por otro lado, la cuantificación de las muestras, es decir,
la precisión con que se mide y expresa el valor instantáneo, ha de ser mucho
más elevada. Otra cuestión a considerar es la forma de onda de la señal ana­
lógica. La señal de audio analógica es simétrica, en el sentido de que sus valo­
res de voltaje se centran en el valor cero, con excursiones hacia positivo y
hacia negativo. Las formas de onda por encima del valor nulo son práctica­
mente copias especulares de las formas de onda negativas.
• Un canal de audio analógico podría estar formado por un micrófono, un preampli­
ficador, una mesa de mezclas, un magnetófono, una máster en casete o Lp, la copia
de distribución, el reproductor doméstico, el amplificador y los altavoces. Cada dis­
positivo que atraviesa la señal de audio añade su propia distorsión o deformación.
Además añade también ruido. A la salida la distorsión total de la señal será igual a la
suma de las distorsiones añadidas en cada etapa. Lo mismo sucede con el ruido.
•	 La cadena o secuencia clue sigue la señal digital es: micrófono, conversor AID,
etapas que copian o procesan números, conversor DIA, amplificador y altavo­
ces. Todos los procesos de mezcla, amplificación, efectos, etc. son, en el dominio
digital, meras operaciones matemáticas. El necesario cambio a analógico se pro­
duce sólo en la etapa final, cuando el oyente reproduce el sonido original.
• La digitalización o conversión AID se logra mediante dos etapas separadas: el
muestreo y la cuantificación. Durante el muestreo la señal analógica es medi­
da o muestreada a intervalos regulares para, a continuación, durante la segun­
da etapa (la cuantificación), expresar cada una de estas medidas con un núme­
ro limitado de dígitos binarios.
• Siendo C. la frecuencia más alta de la señal de audio analógico y siendo f la fre­s
cuencia de muestreo, se producen, en torno a f bandas laterales, con valores =s
(-f.." y (+(,¡.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina '1nnda lateral superior". Estas copias se denominan "alias"
y, aunque son inevitables y existen mientras la señal se mantenga en el dominio
digital, serán eliminadas, por indeseables, en la conversión digital-a-analógico.
• En la práctica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y 48 Kz.
La primera es la más popular, mientras que la segunda puede considerarse como la
más profesional. La primera se relaciona con la señal de vídeo según la siguiente
fórmula: 588 líneas multiplicado por tres muestras por línea y por 25 imágenes por
segundo: 588 X 3 X 25 = 44.100 muestras por segundo. En la norma americana
se utiliza: 490 x 3 X 30 = 44.100. Para aplicaciones profesionales se optó por
48.000 Hz como frecuencia de muestreo, ya que presenta dos ventajas. En primer
lugar, es múltiplo de la frecuencia de campo de televisión (48.000/50 = 960), lo
que permite utilizar los VTR como másters y facilita la sincronización con la señal
de vídeo. En segundo lugar, mantiene una relación sencilla con la 32 KHz, que fue
la frecuencia de muestreo propuesta en su momento para la radiodifusión digital.
•	 El aliasing genera esencialmente distorsión, en especial distorsión armónica.
La solución, una vez más, es un buen filtrado previo al muestreo, respetando
El <ludio dipilal
el criterio de Nyquist y, a ser posible, dejando un cierto margen de seguridad
que permita acomodar holgadamente los filtros.
•	 La cuantificación consiste en representar cada muestra de audio mediante un
número, normalmente en formato binario. Así corno e! muestreo discretiza o
limita la señal de audio en la dirección temporal, la cuantificación discretiza
la señal de audio en lo referente a las amplitudes. Se puede decir clue mien­
tras el muestreo preserva la información temporal, la cuantificación preserva
las amplitudes, o que mientras el muestreo se relaciona con el ancho de
banda, la cuantificación hace lo propio con el rango dinámico.
• En cualquier sistema de medición digital el ultimo dígito es siempre una apro­
ximación, por defecto o por exceso, al valor real o, lo que es lo mismo, un
redondeo. El error mínimo posible es cero y se da cuando por casualidad los
dígitos no representados son cero; el máximo error es igual a '1, del dígito
representado de menor peso.
• En cada instante de	 muestreo el conversor AID tiene que tomar la decisión
de otorgar un valor digital a cada valor de amplitud de la señal analógica. Para
ello establece un umbral de decisión situado justo entre dos valores digitales
permitidos. Si en ese instante de muestreo la señal analógica tiene un nivel
superior al de! umbral, el conversor optará por el nivel digital inmediata­
mente superior; en caso contrario, se decidirá por el inmediatamente inferior.
• La relación señal a ruido de cuantificación es igual a seis veces el numero de
bits empleados en la representación de las muestras. Finalmente se obtiene la
fórmula: SNR =6,02 n + 1,76 dB.
• En audio tradicionalmente se ha considerado como "muy buena" W1a señal cuyo
rango dinámico esté por encima de los 90 dE. Utilizando 16 bits por muestra
obtendremos: 16 x 6,02 + 1,78 dB = 98,1 dB. La mayoría de las aplicaciones
trabajan con !6 bits por muestra. El interfaz de audio digital AES/EBU permite
utilizar 20 e incluso 24 bits por muestra, lo que daría una relación señal a ruido
de cuantificación de 122,18 y 146,26 dB, respectivamente.
Existen otras formas de codificar las muestras de audio, además de la expli­
cada en los párrafos precedentes. Aunque no se aplican en producción o pos­
producción de audio digital, existe una familia de sistemas, llamados de "codi­
ficación diferencial", que tienen su aplicación en ciertos sistemas de transmi­
sión o cuando se quiere grabar audio con baja tasa binaria.
• Aunque las máquinas digitales no empleen el sistema decimal, puede ser con­
veniente para los humanos disponer de un código binario que esté directa­
mente relacionado con el sistema decimal, de forma que a cada dígito deci­
mal le corresponda una combinación binaria de ceros y unos.
•	 La codificación "complemento a dos" tiene su aplicación, sobre todo, en la
representación del audio digital, aplicación en la que presenta numerosas
ventajas. Por ejemplo, cuando los números binarios se procesan y almace­
nan en su forma complementada, tanto la suma como la resta pueden
lograrse utilizando la misma circuitería. El complemento de un numero se
forma restando cada dígito de la "base-menos-!" y añadiendo 1 al dígito
menos significativo. Trabajando con el método de "complemento a dos", las
326 327
sCl'iales de audio digital quedan representadas, con respecto a un punto
medio, igual que las analógicas. De esta forma es posible, por ejemplo,
"mezclar" dos señales digitales sumando simplemente sus yalores.
•	 El dither es una señal de bajo nil·el, generalmente formada por ruido blanco
con una amplitud inferior a un nivel de cuantificación (típicamente entre '/,
Y'/, pico-a-pico), que se suma a la señal analógica antes de ser muestreada.
El dicher asegura que incluso la señal más pequeila cruzará, al menos, un nivel
de cuantificación, de manera que los períodos adyacentes corresponderán a
niveles de muestreo distintos.
•	 El interfaz adoptado por AES/EBU está destinado a la interconexión de señales
digitales de audio en estudio mediante cables de hasta unos centenares de metros
de longitud. La frecuencia básica de muestTeo de la sei'ial digital de audio será de
48 KHz, capaz de proporcionar una banda pasante de más de 20 KHz, aunque
soporta también otras frecuencias de muestreo, como 32 KHz y 48 KHz.
• La codificación de! canal describe	e! método mediante el cual se representan
las cifras binarias para su transmisión a través de! interfaz, es decir, la forma
eléctrica exacta de la señal de audio tal como se transmite por el interfaz. El
procedimiento es el denominado "marca bifase".
• En el interfaz AES/EBU los preámbulos son pautas o esquemas fijos de bits
que facilitan la sincronización e identificación de tramas, subtramas y bloques.
Para lograr la sincronización dentro de un período de muestreo y hacer que
el proceso sea fiable, estos preámbulos no cumplen las reglas del código de
marca bifase antes citado, con lo que se evita que los datos puedan decodifi­
carse como preámbulos y viceversa.
• Para	 la transmisión de los datos se utiliza el mismo cable bifilar apantallado
que viene utilizándose en audio analógico profesional. La impedancia de la
fuente eS de 110 ohmios, la cual debe ser igualada por el cable, al menos en
e! rango de frecuencias en que nos movemos.
•	 El diagrama de ojo en el extremo de recepción debe presentar una anchura mini­
ma de 0,5 Tn, siendo ''Tn" igual a medio período de bit. La altura o amplitud mini­
ma del cliagrama de ojo en el receptor será de 200 mV El conector es de tipo XLR
(Canon). Con esta~ especificaciones se logran distancias de más de 300 metros.
•	 El SPDIF es un interfaz pa¡-a audio digital AES/EBU, muy utilizado en aplicacio­
nes domésticas. Al igual que el interfaz AES/EBU, el SPOlF codifica señales de
audio con cuantificación lineal 16 bits mínimo, 24 máximo. Las frecuencias de
muestreo pueden ser: 32 KHz, 44,1 KHz ó 48 KHz. Las diferencias más impor­
tantes entre el SOlF y el AES/EBU son de tipo fisico: cable coaxial de 75 ohmios
(AES/EBU: par blindado de 110 ohms), conector RCA o BNC (AES/EBU: XLR
3 pins.), nivel de señal 0,5 a 1V (AES/EBU: 3 a 10 V).
• MADI significa	 Multichannel Audio DisitaI Inteiface (interfaz digital de audio
multicanal) y está pensado para proporcionar una norma de conexión entre
equipos de audio digital multicanal. Es capaz de transportar hasta 56 canales
de audio AES/EBU en formato serie a través de un cable coaxial, a 125
Mbits/s, utilizando un código de canal NRZI. Los conectores son de tipo
BNC y se garantizan distancias de más de 50 metros.
CAPíTULO 11
COlupresión en audio
1. Introducción
Ya se comentaba en el capítulo anterior que la digitalización de una señal de
audio no es muy distinta a la de una de vídeo. Lo mismo sucede en el caso de la
compresión. En vídeo existen precedentes de "sistemas de compresión analógi.
cos". La utilización de las componentesY, R - Y, B - Y, por ejemplo, no es otra cosa
que un intento de ahorrar ancho de banda, sin perjudicar a la calidad percibida por
e! espectador, aprovechando las limitaciones del sistema de percepción visual
humano. Por otro lado, la codificación PAL o NTSC podría entenderse como un
método de compresión entrópica, donde se intenta "empaquetar" la máxima can­
tidad de información en el mínimo ancho de banda.
En audio los sistemas de reducción de n¡ido Dolby A, B, C YSR son una forma
de compresión, ya que procesan la señal de tal manera que el ruido, que inevita­
blemente se sumará durante las etapas de grabación o transmisión, pase desaperci­
bido por el oyente. Para ello el codificador modifica la señal de audio de una forma
predeterminada, mientras el decodificador aplica la transformación inversa. Estos
sistemas de reducción de ruido se basan en la "compresión" y "expansión" de "sub­
bandas de frecuencia", según "modelos psicoacusticos", términos todos ellos pro­
pios de los sistemas de compresión digital de audio y que aparecerán con frecuen­
cia a lo largo de este capítulo.
NICAM significa Near lnstantaneous CompandiIJ8 ?f Audio Multiplex, es decir,
"compresión-expansión casi instantánea del multiplex de audio". En NICAM la
señal de audio se muestrea a 32 KHz y cada muestra se cuantifica linealmente con
14 bits. A continuación se reduce el numero de bits por muestra (compresión) de
14 a 10 bits. Los cuatro bits de cada muestra que se eliminan dependen del valor
de amplitud del grupo de un milisegundo (casi instantánea), al que pertenece la
muestra. De esta forma el error de cuantificación no es fijo, sino variable; se come­
328 329
TECNOI ()(;I- :lTlIAl DE TU ('ISION
ten errores grandes en los pasajes de alto nivel y errores pequeños cuando la señal
tiene un valor bajo. Dicho de otra forma, el error de cuantificación es función del
valor de amplitud de la señal, de forma que la propia señal enmascara al ruido.
¡Esto ya es compresión digital y tiene más de veinte años! El enmascaramiento o
masking es una de las claves de la compresión de audio.
1.1. Utilidad de la compresión en audio
La compresión produce dos beneficios: por un lado, aumenta la capacidad de
almacenamiento de un soporte dado; por otro, reduce la velocidad de transmisión
necesaria. Pero tiene tambien algunos inconvenientes: aumenta la complejidad de
los equipos y puede perjudicar a la calidad de la señal de audio, al menos cuando
se emplean factores de compresión elevados. Además puede aumentar la latencia
(tiempo necesario para que una señal resulte util en un determinado proceso).
En general, se puede decir que en el entorno de producción y posproducción pro­
fesional, donde se necesita disponer de la señal de forma rápida y con la máxima cali­
dad, la compresión se utilizará cada vez menos. En realidad, en la actualidad a penas
se usa. Los canales de audio digital de los magnetoscopios profesionales no emplean
compresión, a diferencia del vídeo, que sí se comprime. La razón es que la tasa bina­
ria generada por un canal de audio digital es tan pequeña en comparación con la tasa
binaria generada por el canal de vídeo que comprimir la primera no supondría un aho­
rro de cinta o de procesado significativos. Igual sucede con los equipos dedicados espe­
cíficamente al audio digital; un disco duro moderno puede almacenar, sin compresión,
decenas e incluso centenares de horas de audio digital estereo. Además la compresión
dificulta las labores de montaje, ya que los sistemas de compresión no trabajan proce­
sando muestras individuales, sino bloques de muestras, denominados "cuadros" o ya­
mes", cada uno de los cuales representa varios milisegundos de audio. Los "cuadros" son
la unidad mínima de acceso al tren comprimido, de forma que si se quiere edit~r con
precisión una muestra, no queda más remedio que descomprimir la señal de audio,
seguramente para volver a comprimir despues.
En cambio, en el entorno doméstico las cosas son distintas. Casi todos los equipos
actuales utilizan algu.n tipo de compresión. En un mini-disc, por ejemplo, no sólo se
logra aumentar la capacidad para almacenar minutos de música, sino que, además, se
reduce la velocidad a la que ha de girar el disco, ya que el número de datos grabados
por unidad de tiempo es menor. Es cierto que se complica el tratamiento posterior de
la información, pero resulta más fácil y más barato incluir un chip descompresor que
complicar los elementos mecánicos.
Desde hace unos años se ha puesto de moda el "sonido multicanal". Se trata de sis­
temas de codificación de audio basados en la utilización de seis canales envolventes:
izquierda, centro, derecha, izquierda-surround, derecha-surround, más el canal de real­
ce de baja frecuencia. Sin compresión serían necesarios más de 4 Mbits/s para codifi­
car una señal multicanal como la anteriormente descrita. En el entorno doméstico y
de usuario la compresión siempre ofrecerá más ventajas que inconvenientes.
Otro ámbito en el que la compresión de audio resulta muy útil es el de la trans­
misión. El DAB, por ejemplo, es un sistema de emisión digital de canales de audio,
Com[lrL'~i('Jn ell audio
es decir, radio digital, utilizado principalmente en Europa. Se trata de un proyecto
desarrollado por un numero importante de empresas y radiodifusores europeos
con la intención de obtener un sistema de emisión digital de sonido multisenicio,
que pueda ser captado por receptores fijos, móviles y portátiles, equipados con una
antena de pequeño tamaño. La clave del sistema es lograr una forma de codifica­
ción capaz de ubicar audio estéreo digital, más datos (asociados y no asociados al
audio), en un ancho de banda suficientemente pequeño. Para ello se utiliza el sis­
tema de compresión digital de audio MPEG (capa 2 ISO). Sistemas de compresión
de este tipo pueden multiplicar por diez o más el número de canales que se pue­
den transmitir por un cierto ancho de banda.
1.2. Redundancia
El tren binario generado por una señal de audio de calidad está entre 0,75 y
1,15 Mbits/s; trabajando en estéreo estas cifras se doblan: 1,5 Mbits/s para una
frecuencia de muestreo de 44,1 KHz y16 bits/muestra y 2,3 Mbits/s para
48 KHz y 24 bits/muestra. Con estas tasas binarias se pueden preservar anchos de
banda de 20 KHz y rangos dinámicos entre 100 Y 140 dB.
La idea es reducir al máximo la cantidad de datos necesarios para representar la
señal de audio sin que la calidad percibida se resienta. Al igual que sucede en vídeo,
la estrategia se basa en la eliminación de la redundancia, y también aquí esta puede
ser de dos tipos:
1.	 La "redundancia matemática" o "redundancia enn-ópica", que es aquella que
se puede eliminar sin pérdida real de información, de manera que el oeco­
dificador pueda obtener una señal idéntica a la original.
2.	 La redundancia perceptual, siendo esta última aquella información que, sí es
eliminada en el codificador, no podrá ser reconstruida de forma perfecta en
el decodificador, pero tampoco supondrá una merma de calidad apreciable
por parte del usuario.
La eliminación de la redundancia entrópica es pura ciencia; la eliminación de la
redundancia perceptual, un arte. La redundancia perceptual puede dividirse, a su
vez, en dos categorías diferenciadas:
1.	 La información a la que el observador es sencillamente insensible. En vídeo,
por ejemplo, los coeficientes de alta frecuencia de los bloques DCT se cuan­
tifican con pocos bits, porque se sabe de la poca precisión, que muestra el
sistema de percepción visual humano a estas frecuencias. Esta estrategia fun­
ciona bien siempre.
2.	 La información cuya eliminación puede o no ser notada por el usuario
dependiendo del contexto (efecto de enmascaramiento). Por ejemplo, cier­
tos errores de recuantificación de los bloques DCT de vídeo son muy visi­
bles cuando se producen en zonas lisas o de poca actividad de la imagen y,
en cambio, pasan totalmente desapercibidos en zonas de gran actividad, tales
como tramas, texturas, etc. Este efecto de enmascaramiento de una infor­
mación por parte de otra es especialmente importante en e! caso de! audio
y forma la base y e! arte de todos los sistemas de compresión sofisticados.
330 331
.__COIlpn.·~l(j.!L.1:.l].jlu(h(¿
)"tl';-"¡UUH..iI: l r lI:I,--,-,Il,--'l-T"'E1U''''.EI.''''J(,,',''--- _
2.1.3. El oído interno2. Anatomía del oído
Todos los compresores perceptuales se basan en el mismo principio: de poco
sinc codificar y almacenar datos que no podran ser apreciados por los usuarios
finales, es decir, por los órganos sensoriales humanos. Por tanto, la mejor manera
de comprender cómo se produce tal enmascaramiento es estudiar, aunque sea de
forma somera, el funcionamiento del sistema de percepción auditi'a.
2.1. División funcional del oído
El aido es el órgano sensitivo que nos permite transformar la energía mecanica
de una onda de presión primero en energia eléctrica nerviosa y luego en sensación
sonora. Es frecuente dividir la organización anatómica del oído en tres partes o
secciones: el oído externo, el medio)' el interno.
2. 1. 1 El oído externo
El oido externo está formado por el pabellón auricular y el llamado "conducto
auditivo externo". La misión del pabellón es la de captar el sonido y ayudar a la
localización espacial de la fuente, ya que es más sensible a los sonidos que proce­
den de la parte frontal, mientras que e! conducto se encarga de transmitir las ondas
de presión hacia estructuras más internas, más concretamente hacia la membrana
de! tlmpano. Este conducto actúa como un resonador de un cuarto de onda, con
una frecuencia central en torno a 3.000 Hz. Esta estructura probablemente ayude
a la percepción de ciertos sonidos orales que presentan el máximo de energía en
estas frecuencias medias.
2.1.2 El oído medio
El oído medio consiste en una pequeña cavidad atravesada por una cadena de
huesecillos. Elemento clave es el tlmpano: una membrana que separa el oído exter­
no de! medio. Adherido al tímpano se inserta el martillo, el cual conecta con el
yunque y éste, a su vez, con e! estribo. Estos pequeños huesos actúan básicamente
como palancas, transformando la impedancia (desde el aire exterior hasta ellíqui­
do contenido en la cóclea), a la vez que protegen las estructuras internas de soni­
dos excesivamente intensos. El llamado "reflejo acústico" activa unos músculos en
el oido medio capaces de cambiar e! tipo de movimiento de los huesecillos cuando
el tímpano es alcanzado por sonidos de alto nivel (por encima de los 85 o 90 dB)
Yde baja frecuencia, produciendo una atenuación de unos 20 dB. El último huese­
cilla, es decir, el estribo, comunica mediante la llamada "ventana oval" con el oído
interno. Cuando una onda sonora llega al tímpano, éste actúa como la membrana
de un micrófono, resonando en función de la frecuencia y la amplitud de la onda.
Su movimiento es comunicado a la cadena de huesecillos )' llevado al oido interno.
332
El oído interno es una estructura ósea)' esta formado por dos partes: el laberinto
anterior o coclear, que es responsable de la audición, y el laberinto poste¡'ior, respon­
sable del sentido del equilibrio. Aquí nos interesa sólo la audición, especialmente
desde el PWlto de vista de los fenómenos de enmascaramiento aplicables a la com­
presión. En esto juega lill papel clave el oído interno. Las vibraciones llegadas a tra'es
de la ventan o'al se transmiten hacia el interior del caracol, que es un tubo espiral
cónico, con una sección de unos 4- mm' en su base. Se produce entonces una vibración
de la membrana basilar, la cual esta en contacto con Wl0S pelillos que actúan sobre los
auténticos sensores: las células acústicas. Las salidas de estas células envían los mensa­
jes electroquímicos al cerebro. Ahora bien, la memhrana basilar varía en anchura, en
espesor y también en rigidez a lo largo de su recorrido; en su hase es estrecha y rígi­
da, mientras que se va haciendo ancha)' flexible a medida que avanza hacia el final.
Esto hace que sea capaz de discriminar frecuencias, de manera que distintas arcas de
la membrana vibran a diferentes frecuencias. Además no se trata de una membrana
pasiva que se limita a vibrar en simpatía, sino que dispone de un mecanismo de retro­
alimentación que amplifica los estímulos mas débiles,
Oldo
O¡do externo medio Oldo interno
~---}.. ---r-~
Canales
C;;lemIClrCUlare.
!&~ a,__.,_
AV ;~~ -T ~
- (( ci'l) 'l"  Nervio coclear
, -~j) ,
-:~~cócleaocaracol
 . ¡
Pabellón .'I
auricular IG Q1J7'!LlilJ;
~'
'~ ~onductoauditivo externo
Figura 11.1.

Anatomla basica del oído.

2.2. Fenómenos de enmascaramiento
Lo mas interesante son los efectos que el mecanismo descrito en e! párrafo ante­
rior produce. Algunos autores (Fletcher y Sharft, entre otros) han sugerido que la
membrana basilar se divide en 24 regiones, mientras otros sugieren un número
TLC0JO/ oGlo ACTU:l nf Tri n'ISIO:''
mayor. Estas regiones, llamadas "bandas críticas", podrían tener una anchura de unos
100 Hz por debajo de los 500 Hz, mientras que por encima su anchura iría aumen­
tando a medida que crece la frecuencia. De cualquier forma, parece seguro que
dicha membrana esta. dividida en un número finito y no muy g¡-ande de regiones,
cada una de las cuales es estimulada y vibra en simpatÍa a un rango limitado de fre­
cuencias, pero, lo que es mas importante, dentro de este rango sólo una frecuencia
es capaz de hacer vibrar "su región" en un momento dado. Ahora, una vez que una
f¡-ecuencia muy concreta ha hecho vibrar su región y ésta aplica realimentación posi­
tiva, el sistema se comporta como un circuito sintonizado de alta selectividad. De
esta forma cada región vibra a una frecuencia, determinada por el estímulo de
mayor amplitud, dentro del rango de esa región, mientras que ignora cualquier otro
estímulo de intensidad menor. Esto significa que dentro de cada banda sólo la fre­
cuencia de mayor intensidad será convertida en impulsos nerviosos y encaminada
hacia el cerebro. Este mecanismo de simplificación proporciona, por sí solo, la
herramienta de compresión mas potente en e! tratamiento de! audio digital. ¿Para
qué codificar aquellos tonos que en realidad no oímos?
El concepto de bandas críticas de frecuencia se deriva de la idea de que el oído
analiza el rango de frecuencias audible, utilizando un conjunto limitado de subban­
das. Las frecuencias dentro de una banda crítica son similares en términos de per­
cepción auditiva y se procesan de forma separada con respecto a otras bandas crí­
ticas. La localización de estas bandas en el espectro y su anchura se deducen
mediante experimentos con personas y también a partir de la distribución de las
células sensoriales en el oído interno. La tabla 11.1 muestra una posible distribu­
ción del espectro audible en 25 bandas de frecuencia.
Tabla 11.1	 Una posible distribución de los valores de frecuencia mínima, máxima y
anchura de las bandas criticas.
Frecuencia en Hz Frecuencia en Hz Frecuencia en, Hz
Banda Mín. Máx. Ancho Banda Mín. Máx. Ancho Banda Mín. Máx. Ancho
O O 100 100 8 920 1.080 160 16 3.150 3.700 550
1 100 200 100 9 1.080 1.270 190 17 3.700 4.400 700
2 200 300 100 10 1.270 1.480 210 18 4.400 5.300 900
3 300 400 100 11 1.480 1.720 240 19 5.300 6.400 1.100
4 400 510 110 12 1.720 2.000 280 20 6.400 7.700 1.300
5 510 630 120 13 2.000 2.320 320 21 7.700 9.500 1.800
6 630 770 140 14 2.320 2.700 380 22 9.500 12.000 2.500
7 770 920 150 15 2.700 3.150 450 23 12.000 15.500 3.550
24 15.500 22.050 6.550
2.2.] . Enmascaramientofrecuencial
El mecanismo descrito en el párrafo anterior se denomina "enmascaramiento
frecuencial" o también "enmascaramiento simultaneo", ya que tanto el estímulo
perturbador como el perturbado están presentes a la vez y proporciona, en reali­
dad, dos vías de compresión. Por un lado esta el efecto ya descrito, por el cual no
Comnfcsion en audio
es necesario codificar ninguna frecuencia que sea suficientemente inferior a la fre­
cuencia de mayor intensidad dentro de su rango. Por otro lado, dentro de un rango
o banda dado, el ruido es irrelevante, siempre que se mantenga unos cuantos deci­
belios por debajo del nivel de la señal principal. En otras palabras, sólo hay que
codificar una parte de la señal, y esto puede hacerse con un número relativamen­
te pequeño de bits, ya que el error o ruido de cuantificación quedará también
enmascarado.
Es bien sabido que el sistema auditivo no presenta la misma sensibilidad a todo
e! rango de frecuencias. Los sonidos en torno a los 3 KHz son los que se perciben
con mayor facilidad, es decir, hace falta menos energia o presión sonora para pro­
ducir la misma sensación auditiva. La curva de trazo sólido de la figura 11.2 mues­
tra la sensibilidad a las distintas frecuencias. Esta curva es valida siempre que no haya
ningún sonido perturbador. Esta figura muestra también la presencia de un tono
puro, de 1 KHz, el cual es, por supuesto, audible, ya que está muy por encima de!
umbral de audicion para esa frecuencia. Ahora bien, este sonido de 1 KHz altera el
umbral de audición, e!evandolo, sobre todo, en las frecuencias mas cercanas. Otro
sonido de, por ejemplo, 1,2 KHz, que sería perfectamente audible si estuviera solo,
resulta enmascarado y no puede oírse por la presencia del tono de 1 KHz.
Cuando se estudia el enmascaramiento acústico es necesario considerar dos
tipos de sonidos perturbadores. Por un lado están los sonidos de tipo ruido, que
tienen un espectro ancho y no presentan ninguna coherencia de fase, capaces de
producir efectos de enmascaramiento muy altos. En este caso la diferencia de nivel
entre el elemento perturbador y el enmascarado puede ser de sólo 2 a
6 dB. En la compresión de audio, este no es e! tipo de perturbación que mas inte­
rese estudiar, ya que se supone que se trabaja con señales esencialmente libres de
80	 ----1 ¡--I'

I i . i
 1
70 ,-----·-I--H-r~---
l '
I
o I i
~: --l~-I~--i---~
i ~~ --- ---Ld--I-"-----------' .
¡ 30 ____~ __
.", 27' .. 1
~ 20 ' 1
~ ----I-T--T--~-
~ 10-- ---1-1-----:---'---·­
O l~'- .- -~" 1._- Umbral de aucl:tci6n
sIn estimulo perturbador
-'0 L_J_J LJ__
.
-~
--~ --~ ~K Hz a 45 dB
I
L~~e~ia~:-~'~al
.
0 - -
----
L 8.000 '2.50020	 31.5 63 125 250 500 1.000 2.000 4.000
Frecuencia en Hz---------Jo-
Figura 11. 2.

El umbral de audición varía con la frecuencia.
TI C'<OI ((;1: ·el lí:! J)f. 1n J.. ·I....J"-')~'-- ~ _
ruido o, al menos, con buena relación señal-a-ruido. POI- otro lado, los sonidos
coherentes, tipo tono, necesitan niveles mucho más altos (entre 18 y 26 e1B) para
cnmascarar tanto a otros sonidos coherentes como a ruidos. El niyel de enmasca­
ramiento depende tambi&n del nivel absoluto del tono enmascarador. La figura
11.3 muestra el grado de enmascaramiento producido por un tono perturbador de
1 KHz, cuando este tiene distintos niveles dé' presión absuluta. Puede apreciarse en
esta figura que la pendiente de las cunas por encima de la frecuencia del tono per­
turbador varía ampliamente con la intensidad de dicho tono. En otras palabras, el
número de octavas enmasca¡-adas crece con la intensidad del tono perturbador por
encima de la frecuencia de dicho tono, mientras prácticamente se mantiene en la
zona de frecuencias inferiores a la perturbadora. Los experimentos sobre enmas­
caramiento suelen realizarse utilizando bandas estrechas de ruido blanco como
señales enmascaradoras, mientras se mide clnivel apenas audible de un tono puro
para distintas frecuencias y dm-aciones.
1001----~_·-_------
Tono enmascarador de 1 KHz
íil
~
E
g 60
..o
e
'0
.~ 40
5.
"
~
Qi
.~ 20
z
o ~-------+-- ~1----------r- ­
1000 Hz 2000 Hz 3000 Hz 4000 Hz
SOO Hz
80-'-
20 dB
Frecuencia (Escala logarítmica)
Figura 1J.3.
Curvas dc enmascaramiento producidas por un tono perturbadO!- de ] KHz.
Al igual que sucede con otros procesos perceptivos, el enmascaramiento auditi­
vo no es lineal. Al contrario, el enmascaramiento es muy superior en el extremo de
las altas frecuencias. Si tiene la suficiente amplitud, un estímulo de alta frecuencia
puede enmascarar varias octavas; con amplitudes más bajas el efecto de emnascara­
do abarcará menos de una octava. En estas bajas frecuencias el efecto de enmasca­
rado es mucho menor incluso con niveles altos. Por tanto, dentro de una subbancla
determinada, el peor caso se produce cuando el estímulo de mayor amplitud, es
decir, el estímulo enmascarador, se sitúa en la parte alta de la subbanda.
Los fenómenos de enmascaramiento son bastante frecuentes. Mercuno y Venus
son los dos planetas interiores del sistema solar, es decir, están más cerca del Sol
que laTierra. Mercurio es el más cercano al Sol, tiene un diámetro de 4.880 km Y
gira alrededor de nuestra estrella en una órbita casi circular, aunque bastante
__. ,_ ~·.illHpx:~sjun_tllaudi.52
excentrica, de 58 millones de kilometros de diámetro como pl"Ol11edio. A simple­
vista es casi imposible ver Mercurio, )' ello a pesar de la fuerte iluminación que
recihe. Se muen tan cerca del Sol que el fulgor del astro impide, o enmascara, la
visión del planeta. El caso de Venus es distinto: tiene un diámetro similar al de la
Tierra (12.000 km) y se mueve en una órbita más alejada (lOS millones de kiló­
metros). Esto hace que sólo sea visible durante un breve periodo de tiempo, justo
al amanecer, antes de que salga el Sol, o en el ocaso, después de que se haya escon­
dido. Entonces Venus aparece en el firmamento, siempre cerca del horizonte,
como una especie de superestrella, decenas de veces más brillante que cualquier
otra. Hay que esperar a que el estímulo enmascarador desaparezca para poder per­
cibir ciertas informaciones. De hecho el fulgor de las estrellas es el principal obs­
táculo para encontrar planetas fuera de! sistema solar. Otro ejemplo: en ocasiones
es posible oír el sutil chirrido de los dedos al deslizarse por e! mástil de la guitarra
entre los trastes, mientras el artista toca una pieza clásica o una balada. Esto mismo
resulta imposible en un concierto de "rack".
2.2.2. Enmascaramiento temporal
La realimentación positiva de la membrana basilar, de la que se ha hablado en
un apartado anterior, además de reforzar los sonidos más débiles, tiene otro efec­
to. La vibración responde lentamente a los cambios en la amplitud del estímulo,
lo que genera un efecto de enmascaramiento extra. Este efecto se denomina
"enmascaramiento tempOl"al" y significa que no somos capaces de oír sonidos que
se produzcan un poco antes o un poco después que oh-o sonido más intenso. En
el primer caso se habla de "preenmascaramiento", mientras que el segundo se
denomina "posenmascaramiento". Las duraciones no son simétricas: e! preenmas­
caramiento es muy corto, mientras que e! posenmascaramiento es más largo. Para
tonos puros y de intensidad media, cl posenmascaramiento podría estar entre 50
y 200 ms, mient¡-as que e! preenmascaramicnto presenta tiempos unas diez veces
más pequeños. La figura 11.4 muestra tal asimetria.
80
Enmascaramiento• 70
simultáneo
60
al 50

1J 40

e

~ JO

;;;

> ZO

Z 10
L -40 -20 o o 20 40 60 80 100 120 140 160
~Tiempo
Pre·enmascaramiento ~Post--enmascaramiento /
Figura 11.4.

Fenómenos de pre y postemnascaramiento en la señal de audio.

336
337
TI:C:"I01 ()(;IA ACTUAl p( TFL['ISIÚ:--J
Hay otros fenómenos de enmascaramiento de los que algunos sistemas de com­
presión sacan partido. En e! caso de niveles sonoros elevados y frecuencias medias se
produce también un efecto de elUnascaramiento notable en torno al segundo armó·
nico de! tono enmascarador. OtTO efecto también interesante es e! conocido como
"irrelevancia estereofónica", que se refiere a que hay información que es captada por
un sistema de sonido estereofónico y que resulta irrelevante para la localización espa­
cial, es decir, que no contribuye para nada a la percepción estereofónica. No se trata
exactamente de información enmascarada, sino de información inútil.
3. División en subbandas
Para sacar partido de! efecto de enmascaramiento frecuencial que muestra el
sistema de percepción auditiva necesitamos dividir e! espectro de la señal de audio
en bandas o regiones de anchura igualo inferior a las bandas de la membrana basi­
lar. La división en pequeñas bandas de frecuencia puede hacerse por dos procedi­
mientos distintos: ya sea mediante filtros o mediante sistemas basados en transfor­
madas, similares estos últimos a los empleados en vídeo.
3.1. División mediante filtros
La teoría nos dice que dividir el espectro en subbandas aumentará el número de
muestras necesarias, ya que, según Nyquist, la frecuencia de muestreo tiene que
ser igualo superior al doble de la frecuencia más alta presente en la señal de entra­
da. Ahora bien, la frecuencia más alta va creciendo de subbanda en subbanda, con
J .'"d"~1 I 1~

O f 2f
r~··J"f".' 1~

O f/2 f 2f
J T~"d""T' ¡_~

ComnrC:Slón en a.udlo
lo que en la misma proporción crecerá la frecuencia de muestreo de las subbandas
sucesivas. Al final la suma de todos los muestreos será muy superior a las muestras
que se habrían obtenido contemplando la señal como una sola handa. Por otro
lado, el sentido común nos dice que no manejamos más información por el hecho
de trabajar con subbandas, por lo que debe haber una solución para no incremen­
tar el número de bits finales. Veamos cuál puede ser la solución.
Para simplificar, supongamos que di·¡dimos una banda de anchura "f" en dos mita­
des iguales de anchura "f/2", denominadas, respectivamente, "inferior" y "superior",
de forma que la banda inferior va desde Ohasta f/2 y la superior de fl2 hasta f (figu­
ra 11.5). Si trabajáramos con una sola banda, la frecuencia de muestreo tendría que
ser de 2f para no producir aliasina. El truco está en pensar que, cuando se muesn'ea,
la señal válida y sus alias son idénticas (las alias no son otra cosa que repeticiones a fre­
cuencias mayores de la información útil). Normalmente nos quedamos con la parte
inferior, pero si, por alguna razón, esta parte no estuviera presente, las muestTas
representarían sin ambigüedad la frecuencia superior.
En la figura 11.6 podemos ver que dos señales de frecuencias distintas pueden
producir los mismos valores de muestreo (indicados por los pequeños círculos).
Esto generaría ambigüedad a la hora de reconstruir la forma de onda. ¿Cuál es la
buena: la (a) o la (b)?Tal ambigüedad desaparece si sabemos que antes del mues­
treo la señal ha sido filtrada, de forma que sólo una de las dos senoides sea posible.
Volviendo a la figura 11.5, comenzamos por dividir la banda de audio en dos
subbandas de anchura mitad. El siguiente paso consiste en muestrear la banda infe­
rior a "2f", lo cual supone un sobremuestreo, ya que para respetar el criterio de
Nyquist sería suficiente con muestrear a "f". A continuación eliminamos una de
cada dos muestras, lo que equivale a reducir la frecuencia de muestreo desde "2f"
hasta "f", Esto no es ningún problema, ya que el ancho de banda de esta subbanda
es de sólo f/2. Con la subbanda superior procedemos de forma idéntica: muestre­
amos a "2f" y eliminamos una de cada dos muestras, con la precaución de tomar
nota de que este paquete de muestras pertenece a la banda superior. Durante la
reconstrucción digital-a-analógico estas muestras generarán tanto la banda inferior
como sus alias; un filtro paso-banda nos permitirá escoger e! alias adecuado, es
decir, la subbanda superior.
(a)
O 1/2 f 2f
Figura 11.5.
División de una banda de frecuencias en dos subbandas.
Figura 11.6.
El mismo conjunto de muestras puede representar dos señales cuyas frecuen­
cias tengan la relación matemática adecuada.
338 339
rc(,,'p OtilA ;C 1U". I ,I",JL,--''.!n-,-I!cl,-,J~""(),,,~c _
En resumen, hemos hecho dos muestreos a la frecuencia "2[" para, a continua­
ción, submuestrear a "f", en lugar de un solo muestreo a "2[", con lo que no hemos
aumentado para nada el tren binario. Esta misma operación de di"idir una banda
en dos subbandas puede hacerse tantas "eces como se Cjuiera, es decir, cada sub­
banda puede ser a su vez dividida en dos. Después de unos pocos pasos habremos
generado todas las subbandas Cjue necesitamos, y todo ello sin aumentar para nada
el número de bits.
3.2. Codificación de las subbandas
La división dc la señal de audio en subbandas de frecuencia no sólo adapta [as
características de la señal a la forma en que trabaja el sistema de percepción auditi,
va, sino que prepara la información de audio para ser tratada de manera más efi­
ciente. Por ejemplo, una dc las herramientas más importantes en compresión de los
datos de audio es la compresión-expansión del rango de amplitudes (compandina), la
cual consiste en limitar el rango de amplitudes de la seí'ial. Si dividimos el espectro
de la señal de audio en subbandas, será mucho más probable que dentTo de cada sub­
banda encontremos ya un rango de amplitudcs limitado, incluso es posible que cier­
tas subbandas no tengan ninguna amplitud en absoluto. Además si una subbanda
determinada presenta una amplitud igualo inferior a la subbanda crítica correspon­
diente, el enmascaramiento nos dice que no será necesario codificarla.
La mayoría de los codificadores utilizan 32 subbandas, cada una de las cuales
tiene una anchura aproximada de 1/3 de octava. Hay que recordar que la señal de
audio presenta un espectro que se extiende desde 20 Hz a 20 KHz. Si partiendo de
20 Hz vamos doblando la frecuencia (ganando una octava), después de diez pasos
habremos llegado a los 20 KHz. Por tanto, la señal de audio presenta un rango de
frecuencias de 10 octavas. Puesto que queremos dividir cada octava en tres partes,
necesitaremos unas 30 subbandas. En la práctica es mejor utilizar 32, ya que este
número es potencia de dos; 30 subbandas está por encima de las 24 o 25 subban­
das perceptivas descritas por Fletcher y Sharf. Idealmente la anchura de las sub­
bandas y sus limites de frecuencia deberían aproximarse a los mostrados en la tabla
11.1, aunque, para simplificar, el diseño del hardware, tanto en el codificador como
en el decodificador, la mayoría de los sistemas de compresión trabajan con sub­
bandas de codificación de anchura fija, que o bien coinciden con la anchura de las
bandas criticas en las frecuencias medias o bien son mucho más estrechas, de forma
que la agrupación de un cierto número de subbandas de codificación iguala a las
bandas críticas.
Utilizando subbandas de 113 de octava y estímulos suficientemente altos, el
umbral de enmascaramiento podría situarse entre 18 y 26 o máximo 30 dB por
debajo del nivel del estímulo. Volviendo a la figura 11.2, puede verse que un tono
puro de 1 KHz, con un nivel sonoro de 45 dB, eleva el umbral de audición de esa
frecuencia a 27 dB. Esto significa que cualquier ruido por debajo de ese nivel no será
audible. En otras palabras, un tono de 1 KHz puede ser cuantificado con un error o
ruido de cuantificación igualo inferior a 27 dB. Si el umbral de ruido está en 27 dB
y el de la señal en 45 dB, la excursión de la "zona limpia" será de 45 dB - 27 dB =
_ ---'oC()U.ll-~.L~.,iúll.<;1L~
18 dB. Ahora, basándonos en la regla simplificada de e¡ue con cada bit que a¡'iadimos
en la cuantificación ganamos 6 dB en la SNR, sólo necesitamos 3 bits para cuantifi­
car el tono de 1 KHz. Si eleqmos el ni"el del tono a 65 dB, el umbral de enmasca­
ramiento subirá hasta 55 dB Yla diferencia será d<' sólo 10 dB, que se pueden codi­
ficar con 2 bits. En la misma figura 11.2 puede wrse que la región de enmascara­
miento frecuencial situada por encima del estímulo es mucho maYal' que la situada
por debajo; esto intenta ilustrar el hecho de que son las altas frecuencias las más
enmascaradas, ¡igual que en vídeo!
Hemos visto cómo dividir el espectro de la señal de audio en subbandas. Veamos
ahora cómo codificarlas. Esto se logra en tres pasos consecutivos: para comenzar,
se trocea la señal en el tiempo, generando los llamados "cuadros" o "frames". A con­
tinuación cada cuadro, que cubre unos pocos milisegundos, es dividido en subban­
das de frecuencia mediante un "mapeado" o transformación de los valores tempo­
rales a una representación frecuencial. Despues se busca el dato más alto dentro de
un cuadro y se otorga a todo el cuadro un factor de escala tal que el dato de mayor
nivel se desplace al valor más alto posible. Para finalizar, y basándonos en el valor
real, se determina un umbral de enmascaramiento, de manera que los datos son
redondeados o truncados al número de bits correspondiente a dicho umbral. Estos
datos truncados son enviados, junto con el factor de escala de todo el cuadro, al
decodificador. La presencia de una seíi.al de alto nivel en una banda podría suponer
que varias bandas de orden superior fueran codificadas con menos bits de los que
normalmente les tocaría o incluso no ser codificadas en absoluto.
El paisaje descrito en los párrafos anteriores es un tanto idílico. En la práctica
pueden producirse problemas, tales como cambios rápidos en la amplitud de la
seíi.al dentro de un mismo cuadro o la variabilidad entre las capacidades auditivas
de las personas. Esto significa que hay que dejar un cierto margen de seguridad y
codificar los cuadros de audio con algunos bits más de los estrictamente necesa­
rios. Otra complicación es que generalmente interesa que el codificador entregue
a su salida una frecuencia de bits constante, con independencia de la complejidad
de la señal de entrada. Por tanto, e! sistema de compresión necesita controlar la
adjudicación de los bits a las diferentes subbandas en función de:
• Las necesidades de cada subbanda.
• El ancho de banda disponible.
• El modelo psicoacústieo humano.
3.3. División por transformación
Otra forma más sofisticada de dividir e! espectro de audio en bandas de fre­
cuencia adaptadas a las bandas críticas de sistema de audición consiste en pasar toda
la información de! dominio del tiempo al de la frecuencia mediante técnicas simi­
lares a las usadas en vídeo. Si se analiza el espectro de una señal típica de audio,
puede verse que está compuesto por muchas frecuencias discretas. Si dividimos tal
espectro en unas pocas bandas anchas, la mayoría de las subbandas contendrán uno
o varios componentes, los cuales tendrán que ser codificados. Por e! contrario, si
dividimos el espectro en muchas bandas estrechas aumentamos la posibilidad de
340
que muchas subbandas se sitúen justo en los huecos ncíos del espectro, con lo que
no contendrán información que codificar. La división de la señal de enn'ada en un
número elevado de pequeñas subbandas de codificación facilita la adaptación de
éstas a las bandas críticas del sistema de percepción auditiva.
Sabemos que e! número de bits necesarios para codificar una subbanda deter­
minada depende, entre otras cosas, del grado de enmascaramiento que se produz­
ca en esa subbanda. Sabemos también (lue tenemos que considerar el peor caso, en
el cual el estímulo enmascaradO!- se sitúa en el extremo superior de la subbanda.
Esto último es consecuencia de que la pendiente de la curva de enmascaramiento
es muy abrupta por debajo de! estímulo y mucho más suave por encima. Esta falta
de simetría de la curva enmascaradora (figura 11.2) hace que subbandas estrechas
enmascaren niveles de ruido muy superiores y puedan codificarse con menos bits.
Cuando se utilizan bancos de filtros como los descritos en e! apartado 3.1 para
dividir e! espectro de la señal de audio, suelen utilizarse 32 subbandas, porque, en
principio, son suficientes para adaptarse a las bandas críticas del sistema de per­
cepción humano y, por otro lado, si quisiéramos aumentar el número de subban­
das, el banco de filtros se haría enorme. Con las técnicas basadas en e! dominio
transformado es posible utilizar un número mucho mayor de subbandas, el cual
suele llegar hasta 1.024. Un sistema de división de frecuencias basado en transfor­
mación que genere 256 subbandas presenta aproximadamente la misma compleji­
dad técnica que otro de 32 subbandas basado en filtros convencionales.
3.3.1. El ifecto de pre-eco
Los sistemas de división de subbandas basados en transformadas suelen utilizar
una variante de la DCT (véase capítulo 7) denominada MDCT o Modified Discrete
Cosine Traniform. en la cual las muestras de audio que representan variaciones tem­
porales son transformadas en una representación frecuencial dividida en "rl," sub­
bandas (entre 256 y 1.024), de forma que existe un cierto solapamiento entre sub­
bandas adyacentes. Esta técnica de filtrado por transformación presenta un proble­
ma muy específico: los filtros que tienen una alta resolución en frecuencia (los que
dividen el espectro en muchas subbandas) presentan mala resolución temporal, lo
cual afecta a la codificación de aquellos cuadros de muestras que contengan transi­
torios, de manera que el ruido de cuantificación generado por el transitorio puede
repartirse por todo el cuadro de muestras. Puesto que la duración de los cuadros
es de sólo unos pocos milisegundos, lo más probable es que el propio transitorio
enmascare a dicho ruido, aunque, por otro lado, la asimetría de la curva de enmas­
caramiento temporal (figura 11.4) puede hacer que el ruido se oiga al inicio de!
cuadro, ya que e! enmascaramiento temporal es asimétrico y la parte inicial de!
ruido no es enmascarada. Este efecto se denomina "pre-eco". Para contrarrestar
este efecto algunos codificadores son capaces de analizar los cuadros y detectar
transitorios. En caso de que encuentren algún transitorio en e! cuadro, conmutan
a un modo de trabajo distinto, en el que se utilizan menos subbandas por cuadro,
es decir, reducen la resolución frecuencial para mejorar la temporal.
Existen también técnicas de división híbridas que utilizan tanto filtros como
transformadas. Normalmente están compuestas por un banco de flltros de sub­
banda seguido de una transformación MDCT. Esta combinación, que proporciona
muy alta resolución en frecuencia, es la utilizada por la capa III del sistema MPEG.
El primer proceso, que utiliza un tipo especial de filtros, denominado PQMF
(Po1yphase Qyadrature Mirror Film o filtro espejo en cuadratura polifase), divide el
espectro en un número limitado de bandas de frecuencia, por ejemplo, 32. A con­
tinuación se toman unas cuantas muestras de cada subbanda y se someten a la
MDCT para generar un conjunto de coeficientes frecuenciales dentro de cada sub­
banda. Por ejemplo, si la MDCT genera 16 microbandas para cada una de las 32
bandas generadas por los filtros, en total tendemos 32 x 16 =512 subbandas. Si la
señal de audio se ha muestreado a 48 KHz, el ancho de banda total máximo será
de 24 KHz y la anchura de cada subbanda, al menos en un caso ideal, será de
24.000 Hz/ 512 = 46,875 Hz.
3.4. Toma de decisiones
Las decisiones tomadas por el codificador en cuanto a la adjudicación de los bits
a las distintas subbandas (factor de escala y bits de precisión) deben ser conocidas
por e! decodificador. Para esto hay varias estrategias. Una sería que e! codificador
hiciera todos los cálculos y tomara todas las decisiones. Este método, llamado "asi­
métrico", tiene la ventaja de reducir la complejidad y e! precio del decodificador,
a la vez que permite actualizar las estrategias y algoritmos utilizados en el codifi­
cador sin tener que modificar el decodificador. Por otro lado, tiene la desventaja
de tener que utilizar parte del ancho de banda disponible para los bits que infor­
man al decodificador sobre las decisiones tomadas en el extremo codificador.
Otra posibilidad es que codificador y decodificador realicen los mismos cálcu­
los y lleguen a las mismas conclusiones sin necesidad de enviar bits extras (méto­
do simétrico). Cabe incluso una solución ''híbrida'', en la que los cálculos difíciles
son realizados en el codificador y comunicados al decodificador mediante unos
pocos bits extras, mientras que los cálculos de complejidad moderada se realizan
en los dos extremos. En este caso sigue siendo posible cambiar algunos de los pará­
metros de! codificador sin afectar al otro extremo.
4. Los sistemas de compresión
Las distintas aplicaciones de! audio digital hacen que haya muchas normas de
compresión diferentes. De todas formas, el mundo de la compresión de audio se
divide en dos grandes sistemas: por un lado está la familia de normas MPEG y por
otro el sistema AC-3 de Dolby. Otros sistemas muy difundidos son el ATRAC de
Sony y los sistemas APT, utilizados estos últimos para transmisión ypara audio en
CD. Las normas MPEG, además de estar reconocidas por la ISO (lnrernational
Standard OTBanization u Organización Internacional de Normalización), gozan del
apoyo de las organizaciones de radiodifusión europeas y son las elegidas, por ejem­
plo, para el DAB (DiBital Audio Broadcas¡inB o radiodifusión digital de audio).
342 343
TI:C0-'()l ~ )<..;1. ACTlI.-l DE '1 1'1.1."1"10.'
Adcmas las llamadas "capas" ISO!MPEG sc basan sobre todo en trabajos dc invcs­
tiaación )' dcsarrollo llevados a cabo en Europa. Por otro lado, el sistema AC- 3 dc
D~lb)' ha sido adoptado por la ATSC (Admnccd Jélel'ision Sptem Comité o Consorcio
para la II1'estigación de la Televisión Avanzada), una asociación americana para la
investigación)' el desarrollo de la EDTV )' HDTV
Como pucdc verse, tampoco cs posible, por desgracia, una norma única mun­
dial en el campo de la compresión digital de audio. Todo parece indicar que las nor­
mas MPEG cubrirán la mayoría de las aplicacioncs multimedia del futuro. Tanto el
grupo MPEG como el grupo Dolby extendieron a mitad de los ail0s 90 sus capa­
cidades para proporcionar audio multicanal en lo que se conoce como "sonido
surTOund")' otros sistemas que precisan más de dos canales. Por su parte, el ATRAC,
que es un sistema desarrollado por Sony para su minidisc, ofrece también capaci­
dades multicanal que pueden llegar hasta ocho canales independientes. El APT­
X100 se utiliza como sistema de audio multicanal para acompañar a las películas en
CD-ROM. Tanto Dolby como APT estan implantados sobre todo en Estados
Unidos. Con mucho, los sistemas MPEG son los más utilizados y, además, fueron
los primeros en aparecer, por lo que comenzaremos con ellos.
4.1. Las normas MPEG de audio
Al igual que sucede en vídeo, MPEG-audio no normaliza la forma en que debe
trabajar el codificador; únicamente define el tipo de información que éste debe
producir y cómo debe ordenarla para que el decodificador pueda entenderla, des­
comprimirla y regenerar los sonidos originales. Para ello el coelificador genera un
tren binario organizado en paquetes de elatos, los cuales pueden intercalarse con
otros paquetes de audio o de vídeo.
En MPEG la señal de audio de entrada es descompuesta en porciones temporales,
llamados "cuadros", todos ellos de igual tamaño. Así, un cuadro está compue~to por
384 muesb-as en la llamada capa 1)' por 1_152 muesb-as en las capas 11 y III. Los cua­
dros de audio son a continuación descompuestos en subbandas de frecuencia de igual
anchura, mediante filtros digitales o mediante transformadas tipo DCT. Esto otorga a
cada subbanda un pequei'io número de muesb-as. Se establece así la siguiente relación:
número ele Muestras!subbanda X número ele subbandas!cuadro x númro de cua­
dI-OS!segundo =número de muestras!segundo.
Las muestras de cada subbanda constituyen una representación en el dominio
de la frecuencia de la señal temporal original y son recuantificadas de forma simi­
lar a como se hace con los coeficientes frecuenciales de los bloques DCT de vídeo.
Primero se busca un factor de escala común para todo el bloque de coeficientes de
la subbanda que se esté procesando (lo que equivaldría al coeficiente de OC de los
bloques de video). A continuación se recuantifiean los coeficientes a los que se ha
restado el factor de escala, pero con un número de bits que depende de las capaci­
dades de enmascaramiento de sistema auditivo humano en esa subbanda de fre­
cuencia.
MPEG ofrece toda una familia de sistemas de compresión de audio basada en
do~ normas o subgrupos (MPEG-l y MPEG-2) Yen tres "capas" o niveles de com­
_________________________________~JIl';-;¡ónen audjQ
plcjidad. De las dos normas, la primera fue el MPEG-l, que apareció en 199 J . Esta
norma se recoge en ISO !lEC 11.172-3, mientras que la compresión de ddeo se
define en 11.172-2. Se trata de un sistema para comprimir), codificar un canal de
vídeo más su audio asociado en un tren binario de, como máximo, 1,5 Mbits!s,
para su utilización en soportes tipo CD, que es consecuencia del creciente uso ele
ordenado¡-es que se daba ya en aquella época, tanto para el tratamiento de imáge­
nes como para el almacenamiento de elementos multimedia en distintos soportes.
MPEG-l está concebido para "meter" en un Sopol-te, inicialmente pensado para
"audio estéreo de calidad", una señal de vídeo comprimida, más un canal de audio
estéreo también comprimido. El sistema MPEG-l , en lo referentc a la codificación
del vídeo, se explica en el capítulo 8, por lo que aquí nos centraremos en los aspec­
tos del audio digital.
4.1.1. El MPEG-1
El audio digital contemplado para este sistema tiene su precedente en otro ante­
rior, denominado MUSICAM (Moskin8 p0rtern odopted Universal Sub-bond Inte8rated
Codin8 And Multiplexin8 o codificación y multiplexado integrado universal ele sub­
bandas adaptadas con enmascarado), MUSICAM es un sistema de codificación y
compresión flexible para audio de alta calidad, diseñado dentro del proyecto
EUREKA-147 por CCETT (unión entre France Tclecom y su subsidiaria TDF), el
IRT (lnstitutfuI' RunijunkTechnik) y Philips Consumer Elcctronics. Desde la finali­
zación de la norma MPEG-l el algoritmo de compresión MUSICAM no ha vuelto
a ser utilizado, a pesar de lo cual el nombre MUSICAM se sigue todavía emplean­
do en ocasiones para referirse a la capa II de MPEG- 1, lo cual es un error, ya que
MUSICAM es un nombre de marca registrado por diferentes empresas.
MPEG no es una norma de compresión sin pérdidas, en la que sólo se elimine
la redundancia matemática, de manera que el decodificador sea capaz ele recons­
truir una señal digital idéntica a la original. Por el contrario, las normas MPEG se
basan en la compresión perceptual, es decir, con pérdidas reales de información,
pero de tal manera que "es distinto, pero suena igual". Oc forma sencilla, podría­
mos decir que un codificador de audio MPEG extrae de la señal de sonido, una
representación de las frecuencias que la componen, elimina aquellas componentes
de frecuencia que son enmascaradas por otras más intensas, codifica con el míni­
mo número de bits posible las componentes de frecuencia restantes y empaqueta
los bits resultantes según la "sintaxis" definida por la norma.
En MPEG-l se definen tres capas (laJers) denominadas 1, II Y III. Hasta hace
poco la capa II era la más utilizada, aunque, dada la popularidad del formato MP3,
ya no se puede decir lo mismo. En MPEG las capas de audio son similares a los per­
files del vídeo. Cada capa es más sofisticada que las anteriores y añade nuevas
herramientas, lo que significa que, en general, una capa determinada proporciona­
rá más calidad de audio para una frecuencia binaria determinada o bien gastará
menos bits para una calidad dada. Al igual que sucede con el vídeo, se respeta la
compatibilidad hacia abajo entre capas, lo que significa que cualquier decodificador
será capaz de decodificar correctamente su capa y las anteriores_ La complejidad
344 34-5
Tlc:-,:nLOG!.O ACTUAL pr TEI n'II()N
del codificador y del decodificador, así como el retardo que se produce durante la
codificación y la decodificación y, por supuesto, la eficacia en la compresión,
aumenta cuando se pasa de la capa 1 a la II o de la II a la III. Si comparamos la capa
II con la 1, la primera es capaz de eliminar más redundancia y de aprovechar mejor
las limitaciones psicoacústicas humanas. La capa 1II está orientada hacia aplicacio­
nes de bajas frecuencias binarias y es más eficaz que la capa II en la eliminación de
la redundancia perceptual. Además la capa III aplica compresión entrópica VLC­
Huffman, por lo que consigue tasas binarias realmente muy bajas, con elevada cali­
dad subjetiva de audio.
El termino "capas" sugiere que la información generada por una de ellas se colo­
ca encima o completa la de otra capa inferior. Esto no es exactamente así, aunque
algo parecido. Por ejemplo, el banco de filtros de subbandas de la capa 1es utiliza­
do tambien por las capas II y I1I, pero la capa II hace un uso más eficiente de ellas
al trabajar con bloques de muestras más largos, mientras que la capa III añade tec­
nicas de tipo transformado, mediante las cuales las 32 subbandas de las capas ante­
riores son subdivididas en 18 bandas cada una.
Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con tres
frecuencias de muestreo: 32 KHz, 44,1 KHz Y48 KHz. Por su parte, el subgrupo
MPEG-2, que se verá en un apartado posterior, amplía estas frecuencias de mues­
treo, incluyendo, además de las ya citadas, las frecuencias mitad, es decir: 16 KHz,
22,05 KHz Y24 KHz, ya que se ha podido comprobar que cuando se quieren fre­
cuencias binarias muy bajas es mejor partir de anchos de banda menores que com­
primir más. Volviendo al subgrupo MPEG-l , éste soporta los siguientes modos de
operación:
• Modo monofónico (un solo canal de audio).
• Modo dual monofónico (dos canales de audio independientes).
•	 Modo estereafónico (un par estéreo con cada canal codificado por separado,
aunque se pueden repartir los bits entre los dos canales. En un momento
determinado un canal puede estar utilizando el 60% de la capacidad y 'el otro
el 40%, aunque la suma de los dos se mantiene constante).
•	 Modo estereofónico común (un par estéreo que aprovecha la redundancia
entre canales, así como la irrelevancia de la diferencia de fase entre canales o
ambas. Este modo se utiliza cuando se necesita codificar canales estéreo con
frecuencias binarias bajas).
Para los dos subgrupos (MPEG-l y MPEG-2) Ypara todas las capas se definen
dos modelos psicoacústicos. El modelo-l es el más sencillo, sobre todo desde el
punto de vista del diseño del codificador, y se basa en el análisis preciso de la ener­
gía de cada frecuencia contenida en cada subbanda del espectro audible mediante
una transformada rápida de Fourier (FFT). Para ello la FFT analiza grupos de 384
muestras. Lo más frecuente es que las capas 1y II utilicen el modelo-l, mientras que
la capa III utiliza el modelo-2, con el cual se analizan conjuntos de 1.152 muestras.
La compresión de la información de audio se logra mediante dos herramientas:
la llamada redundancia matemática y la redundancia perceptual o irrelevancia. Para
eliminar esta última el codificador contiene un modelo psico-acústico (figura
11.7), el cual analiza las señales de entrada de los bloques consecutivos y determi-
COIllDróiún en audio
(; I;¡¡
)(
.. -­
~:;
::;;
Factores dll escalé!
y bits de precisión
(a nivel de t:U.ldr05
I t ~
Señal dlt lintradil
divIdid_ en cuadros
I
r~J~Tiempo---­
I
Figura 11.7.

Principio de la compresion de audio en MPEG-l .

Paquete5
MPEG
ICII:JClCJ
-------+
na, para cada bloque, sus componentes espectrales. A continuación "modela" las
capacidades de enmascaramiento del sistema de audición humano y hace una esti­
mación del nivel de ruido "apenas-apreciable" para cada subbanda de frecuencia, lo
que a veces se llama "umbral de enmascaramiento". A la vez la señal de entrada
dividida en bloques se envía al generador de subbandas, que divide las muestras del
cuadro en función del rango de frecuencias al que pertenecen. En la siguiente etapa
el codificador genera un factor de escala adecuado al bloque de muestras e intenta
repartir los bits de datos disponibles, de forma que se respete el bit-rate o fre­
cuencia binaria y los requisitos de enmascaramiento, teniendo en cuenta el umbral
precalculado. Con la ayuda de la figura 11.8 podemos ver esto último con un poco
más de detalle.
I I i
r
-Espectro. de la seña.1de enlrada
I I I
I i I
T
I
fI
I
I
i
:
­ I -- '11 ~I
/
I
:
:	
'-8
-,
I
100
¡ I
90
~ 80:­
~
~ 70!
~ 60í
.a
·~50
o.
-8 40~­
'i
"i)
301
20
la'
Figura 11.8.
' I I
¡ TICu",a de enmascaramlenlo
1. t!I )' -7
-5--m'I':'" -6
I ,1 :::;
·-2
I :::11 I
12K 13K 14K 15K 16K
A partir de! espectro de la señal de entrada se calcula una curva de enmascaramiento y a par­
tir de ésta se decide e! número de bits necesarios para cada subbanda.
346 347
____________________________________~C=oJl!llrcsi611 en i1U.iJJl!
TI CSi)1 PGI: ICfU ""-,',,,",-.l"""'cL"'L-'-'''''',,''.c.''---- _
El prime¡- paso consiste en obtener una representación del espectro de la señal
de entrada. A continuación se calcula la curn de enmascaramiento, que tiene en
cuenta tanto la señal dc entrada como el sistema de percepción humano (línea de
trazos). La diferencia entre la seiial de entrada y el umbral de enmascaramiento,
para cada subbanda, es 10 que hay que codificar. La parte inferior de la figura mues­
tra el número de bits necesarios para la codificación de las subbandas, partiendo de
la base de que se ganan 6 dBs por bit utilizado. Puede verse en este ejemplo que
sólo se necesitan 6 bits para las subbandas más exigentes, situadas en el centro de!
espectro, o que la presencia de un tono relativamente fuerte de 10KHz, enmasca­
ra todas las señales por encima de 11 KHz, con lo cual todas las bandas por enci­
ma de esta frecuencia no se codifican. Tampoco es necesario codificar la subbanda
que se encuentra justo por encima de los 5 KHz, ya que es totalmente enmascara­
da por la componente de 4 KHz de la señal de entrada. Esta operación se hace,
sucesivamente, para cada uno de los cuadros o frames.
La información sobre cómo se distribuyen los bits sobre el espectro se añade
como datos extra en la etapa de multiplexado. Además cada paquete de datos
MPEG-1 permite añadir datos auxiliares de usuario, sin limitaciones en su longi­
tud o en su contenido, de manera que tales datos pueclen estar asociados o no con
el audio codificado en esos paquetes_ Estos datos auxiliares de los paquetes MPEG­
1 son la clave para la codificación de paquetes MPEG-2 de forma compatible, como
se verá en un apartado posterior.
El trabajo del decodificador es mucho más sencillo, porque no requiere disponer
de un modelo psicoacústico ni de un sistema de adjudicación de bits; sólo tiene que
reconstruir la información de audio a partir de los componentes espectrales y de la
información auxiliar recibida. Por tanto, MPEG-1 (y también MPEG-2) son siste­
mas asimétricos, donde todas las decisiones se toman en la etapa de codificación.
Capa 1 de MPEG-I
La capa 1, que, como se ha dicho, es la más sencilla, contempla frecuencia~bina­
rias de salida desde 32 Kbits!s hasta 448 Kbits! s. En esta capa la señal digital es
dividida en cuadros de 384 muestras, que se distribuyen en 32 subbandas de igual
tamaño, quedando 12 muestras por subbanda y cuadro (32 x 12 := 384). Ahora
cada muestra dura 1!48.000:= 20,83 IlS o 1!44.100 = 22,67 IlS, o bien 1132.000
:= 31,25 I1S. Esto hace que los cuadros tengan una duración de 12 x 32 x 20,83 IlS
= 8 I1S o 12 x 32 x 22,67 IlS = 8,7 IlS o 12 x 32 x 31,25 Ils:= 12 IlS.
Para cada banda se utiliza un factor de escala de 6 bits, que indica cuánto hay
que desplazar el grupo de datos en esa subbanda para alcanzar el valor de pico. Una
vez codificado el factor de escala, que puede entenderse como el valor medio del
grupo, el residuo o djferencia se indica mediante un número variable de bits (entre
O y 15 para esta capa), determinados por un circuito llamado ''bit-aIlocator''o "asig­
nadar de bits". Este circuito tiene en cuenta tanto el umbral de audición humano
como la representación frecuencial de la señal de entrada y el número de bits dis­
ponible. Por ejemplo, si estamos codificando un archivo a 128 Kbits!s, esto deter­
minará el número máximo de bits que pueden transportar los cuadros. A 192
Kbits! s el asignador de bits dispondrá de más bits para la codificación de las sub­
bandas.
Si el número de bits de codificación de una suhbanda determinada resultara ser
cero, entonces no haría falta codificar ningún factor de escala, ya que este último
puede entenderse como un factor por el cual el decodificador multiplicará los valo­
res de esa subbanda, )' multiplicar por cero no tiene sentido. En esta capa, al igual
que en las otras dos capas MPEG, todos los cálculos), decisiones sobre el reparto
de los bits residuales se toman en el lado del codificador.
La capa 1 puede utilizarse tanto para sonido monofónico, dos canales, esté­
reo o estéreo común y resulta apropiado para aplicaciones de consumo, aunque
también para aplicaciones de estudio, ya que los cuadros de muestras son muy
breves (sólo 8 ms en e! modo de 48 KHz). El factor de compresión logrado en
esta capa puede llegar a 48: 1. El formato Dee (Di8ital Compact Cassette), que
permite la grabación de audio digital estéreo sobre cinta magnética de 3,78
mm, orientado al mercado doméstico utiliza la capa 1 de MPEG- 1.
La figura 11.9 muestra la disposición de las tramas MPEG-l capa I. La cabece­
ra se divide en dos zonas: la sincronización, que siempre muestra el mismo patrón
fijo (FFFH), y la información de sistema, la cual se distribuye según la tabla 11.2.
Esta cabecera es común a las tres capas MPEG-1 , no así el resto del paquete, que
cambia según la capa.
32 bits
Cabecera
Sincronización Información del

(12 bits) sistema (20 bits)

1111 11111111
Figura 11.9.
Formato de los paquetes de audio codificados MPEG-I capa 1.
Después de la cabecera aparece el eRe (figura 11.8), que es una palabra
para comprobación de errores de 16 bits, de uso opcional, obtenida a partir
de la información de carga del paquete. La siguiente zona o campo del paque­
te, denominada "asignación de los bits", sirve para indicar al decodificador
cómo se han repartido los bits en la zona de carga (muestras de subbanda).
"Factores de escala" indica el rango de amplitudes de cada grupo de 12 mues­
tras y tiene una longitud variable, ya que puede haber subhandas que no lle­
guen a codificarse, por lo que no habrá ningún factor de escala para ese
grupo!subbanda.
Capa II de MPEG-I
La capa 11 soporta, al igual que la capa 1, las frecuencias de muestreo de
32 KHz, 44,1 KHz)' 48 KHz y también divide el espectro de audio en 32 sub­
bandas de igual anchura, pero en este caso cada una de las subbandas se codifi­
ca con 36 muestras, por Jo que el cuadro completo se compone de 1.152 mues­
349
348
TEC~{)I O(jl: ACTUAl DE TELI:'I~I<':''
Tabla 11.2	 Estructura de la cabecera de las tramas MPEG-1, común a las tres
capas
NOMBRE DEL N. o DE

CAMPO BITS
 UTILIDAD
Syncword 12 Siempre 1111 1111 1111 (FFFH)·
MPEG = 1; MPEG-2= O.ID 1
2	 Capa I = 11; capa 11 = 10; capa 111 = 01; reservado == OO.Layer
Valor Osi se añade redundancia (zona CRC del paquete de
datos); 1 si no se añade redundancia.
Error Protection 1
4	 Frecuencia binaria del tren comprimido; 15 valores; el valor
0000 significa flujo libre; el valor 1111 prohibido.
Bitrate index
Frecuencia de muestreo de la fuente: 32 KHz = 10; 44,1 KHz
frequency = 00; 48 KHz =01; reservado = 11 .
Padding'
Sampling 2
Si está a 1 se utilizan bits de relleno, necesarios cuando la
frecuencia de muestreo es de 44,1 KHz.
Prívate*' 1 Bit no especificado, de uso libre.
Estéreo = 00; estéreo común: 01; dual: 10; mono: 11.
Mode Extensión 2 Sólo se usa en Intensity Stereo, que es una variante del
estéreo común para indicar margen de las subbandas.
Mode 2
Copyright 1 Con derechos de autor = 1; libre = O.
Original/Copy 1 Original = 1; copia == O.

Emphasis 2 J17 = 11; 50/75 ¡ls = 01; sin énfasis = 00; reservado = 10.

, Un bit-stream MPEG capa 11 a 128 Kbits/s muestreado a 44,1 KHz podría terminar con algunos
cuadros de 417 bytes y otros de 418 bytes. Los cuadros de 417 bytes tendrían el bit de pad­
ding puesto a "1".
.. Puede ser utilizado por ciertas aplicaciones para arrancar procesos o rutinas definidas por el
usuario.
tras. Por tanto, los cuadros tendrán una longitud de 24 ms (e! triple que en la
capa 1), para una frecuencia de muestreo de 48 KHz (1/48.000 x 1. 152 = 24
ms). El factor ele escala es también de 6 bits, aunque este factor de escala pueele
aplicarse a todas las muestras del grupo de 24 ms (48 KHz) o cambiarse cada 8
ms (48 KHz) si la variabilidad dentro de! bloque fuera muy alta. El reparto de
los bits posterior a la codificacion del factor de escala en esta capa se hace, igual
que en la capa 1, en base a cálculos realizados exclusivamente por e! codificador,
lo que se conoce como "FoTwaTd Bit AlJocation" o "reparto de los bits hacia delan­
te". La forma en que se adjudican los bits es adaptativa y cambia de cuadro en
cuadro, aunque se mantiene constante durante los 24 ms. Se puede codificar
sonido monofonico, dual, estéreo o estéreo común, igual que en la capa I. Sus
aplicaciones se encuentran en DAB, DVB, CD-ROM, multimedia, etc. Suele
decirse que la capa II proporciona una "calidad transparente", es decir, no intro­
duce distorsiones o artificios notables con tasas binarias de 128 Kbits/s y canal,
aunque esto depende mucho del contenido de! sonido original. Igual que suce­
de en video, los mejores resultados se obtienen con señales limpias, sin distor­
CO!nnrcsion en audio
siones ni ruido. Resumiendo, las diferencias más importantes entre la capa 1 )'
la 11 son que esta última:
l.	 Reduce la tasa máxima del tren binario codificado de 48 Kbits!s a
384 Kbits!s como maximo.
2.	 La señal de entrada se divide en cuadros de 1.152 muesn-as, en lugar de las
384 de la capa I.
3.	 Puede aplicarse el mismo factor de escala a todo el grupo de 32 muestras o
cambiarse cada 12 muestras (equivalente a 8 ms en e! modo de 48 KHz).
Puede verse en la figura 11.10 que la estructura de! cuadro codificado con la
capa II difiere básicamente en dos aspectos con respecto a la capa 1. En primer
lugar, aparece un campo nuevo, denominado SCFSl, que significa "SCole Factor
Seleetion lriformation" o "información de la seleccion del factor de escala". Este
campo informa sobre si todo e! cuadro de 36 x 32 muestras tiene e! mismo factor
de escala o si se cambia cada 12 muestras, o cualquier combinacion dentro del
grupo de 3 X 12 muestras.
La otra diferencia está en que se triplica el número de muestras de subbanda
que transporta la zona de carga.
Capa 111 de MPEG-I
La capa JIl es verdaderamente sofisticada y toma lo mejor del sistema ASPEC
para proporcionar la máxima calidad para una frecuencia dada o, si se prefiere, la
mínima tasa binaria para una calidad predeterminada. Esto, por otro lado, supone
aumentar la latencia, es decir, el retardo de codificacion/decodificacion. La mejo­
ra de la calidad de! sonido se nota, sobre todo, en las tasas binarias más bajas. Esta
capa utiliza el modelo psicoacústico tipo 2 y un análisis más preciso de los feno­
menos de enmascaramiento. En realidad los dos modelos psicoacústicos pueden
utilizarse con las tres capas, pero solo el modelo 2 incluye modificaciones especi­
ficas para acomodar los requisitos más exigentes de la capa JIl. Las capas 1y 11, que
tienen menos pretensiones en lo referente a tasas de compresion, acomodan bien
el modelo 1, por otro lado más sencillo. Con la capa III se pretende una calidad
casi-transparente a 64 Kbits/s y canal.
La separacion en subbandas en esta capa se logra mediante técnicas híbridas.
Primero, mediante un banco de filtros se divide e! espectro de la señal de entrada en
32 subbandas (igual que en las capas l y Il). A continuacion se utiliza la transformada
MDCT para lograr un máximo de 576 subbandas. La capa III especifica dos longitu­
des de bloque MDCT distintas: una longitud de bloque de 18 muestras y otra más
corta de sólo 6. Los bloques largos permiten una mejor resolucion de la frecuencia
con señales de audio estacionarias, mientras que los bloques cortos proporcionan
mejor resolucion temporal en presencia de transitorios. Debe notarse que la longitud
del bloque corto es de 1/3 la del bloque largo. Cuando se trabaja en el modo de blo­
que corto, tres bloques reemplazan a uno largo, de forma que el número de muestras
MDCT para un cuadro de audio permanece inalterado. En un cuadro de muestras
determinado todos los bloques pueden ser cortos, o todos largos, o una mezcla de
cortos y largos. Cuando se trabaja con e! modo de mezcla, las dos subbandas inferio­
res se codifican con bloques largos, mientras que las 30 bandas superiores restantes
utilizan bloques cortos. Esto proporciona la mejor resalucion en frecuencia para las
351350
--------------
TI.c.";Of.{H.;I: 'l:J'U,l 1)] HU 'l~ll'r'
32 bits Oó 16 bits
Asignación1;cFSI Muestras de subbandas: 3 grupos Datos ¡
Cabecera CRe de los bitsJ= de 12 muestras x 32 subbandas auxiliaresI
Sincronización Información ~

(12 bits) sistema (20 bi~lJ

1111 1111 1111
Figura 11. 10.

E,tructura ct' un cuadro de audio MPEG-l capa JI.

bajas frecuencias, donde es más necesaria, sin sacrificar la resoluci6n temporal de las
altas frecuencias.
Ésta es la capa utilizada por el popular MP3. En realidad, la extensi6n "mp3" fue
creada con la aparici6n del sriftware de codificaci6n Windows para la capa III del
MPEG-l. La norma MPEG,2, que apareci6 posteriormente, amplía las posibles
frecuencias de muestreo, incluyendo frecuencias mas bajas que el MPEG-l. A par­
tir de entonces los archivos codificados MPEG-2 recibieron también la extensión
y e! nombre MP3. En ocasiones a estos archivos comprimidos con la capa III se les
llama MPEG-3, lo cual es err6neo, ya que nunca ha existido una norma con este
nombre ni para vídeo ni para audio (véase capítulo 8). Una característica especial
de esta capa es que los datos de audio codificados pertenecientes a un cuadro deter­
minado pueden distribuirse sobre una serie de cuadros consecutivos si tales cua­
dros no llegaran a lIenane con sus propios datos. As!, en esta capa, cuando la cabe­
cera informa sobre el bit-rate o frecuencia binaria del tren codificado, lo que está
diciendo es la frecuencia media promediada, ya que los bits se distribuyen sobre
varios campos, es decir, esta capa permite una especie de VBR (Variable Bit Rate o
frecuencia binaria variable), aunque elVBR, tal como es entendido por los codecs
de audio, es algo diferente, ya que en tal caso lo que se especifica es el grado de
empeoramiento o degradación de la calidad permitido, es decir, en lugar de indi­
car la tasa binaria de salida (por ejemplo, 128 Kbits/s estéreo), el usuario dispone
de una barra deslizante similar a la que se emplea en JPEG, CJue permite escoger
entre calidad y tamaño de! archivo.
En la capa III la información de factores de escala y reparto de los bits de pre­
cisión va en un solo paquete combinado, denominado "parámetros del paquete",
32 bits
Parámetros del paquete Depósito de bitsCabecera
Sincronizaciónl'nformación del

(12 bits) sistema (20 bits)

1111 11111111

Figura 11. 11.
Estructura de un cuadro de audio MPEG-l capa 1II.
352
donde se incluyen, además, otras informaciones propias de esta capa. La carga
principal del paquete está ocupada por el llamado "bit merl'Oir" o depósito de bits,
ya que, además de contener los bits de precisi6n del cuadl'O actual, puede conte­
ner también bits de precisión de cuadl'Os anteriores.
Bandas de jactares de escala
A diferencia de las capas 1y 11, donde cada subbanda puede tener un factor de esca,
la diferente, la capa III utiliza las llamadas "bandas de factor de escala". Estas bandas
cubren muchos coeficientes MDCT y presentan anchuras apl'Oximadamente iguales a
las "bandas críticas ele la percepción auditiva". En esta capa los factores de escala
"modelan" el ruido de cuantificación, adaptándose a los contornos de frecuencia del
umbral de enmascaramiento, de forma que el reparto de bits para factores de escala y
para bits de precisión de las subbandas forman parte ele un mismo proceso.
Codificación en trópica
Una vez que se han aplicado todas las helTamientas de compresión perceptual,
los datos resultantes son enviados a un segundo codificador, denominado "codifi­
cador entrópico" o "codificador sin pérdidas", el cual utiliza los conocidos "códigos
de Huffman" explicados en el capítulo 8. Este tipo de compresores puede equipar­
se a los conocidos codificadores ZIP, tan utilizados en informática para la compl'e­
sión de archivos. Se trata, por tanto, de compresores sin pérdidas, que sólo huscan
una forma más eficiente de empaquetar la información.
Se dice que la funci6n del compresor perceptual es la de "descorrelacionar" los
datos, es decir, rompe¡' la relación de redundancia CJue hay entre ellos. Si este codi­
ficador fuera 100% eficiente en la eliminación de la redundancia perceptual y apro­
vechara al 100% las ca¡'actcrísticas de enmascaramiento del sistema de percepción,
el codificador entrópico tendría poco que hacer. Por ejemplo, un pasaje de música
que contenga muchos instrumentos que suenan a la vez se beneficiará de los algo­
ritmos de enmascaramiento. Sin embargo, una frase musical formada por un solo
tono sostenido no podrá aprovechar tan eficazmente el fenómeno de enmascara­
miento. Por otra parte, es evidente que el tono sostenido contiene, por definición,
mucha redundancia y puede ser comprimido mediante técnicas tradicionales mate­
máticas, como las utilizadas por los compresores ZIP. Como promedio, se puede
calcular en un 20% la reducción total aportada por la codificación entrópica a los
archivos de audio precomprimidos con técnicas perceptualcs,
La capa III utiliza codificación de longitud variable Huffman para compactar los
datos previamente comprimidos mediante técnicas perceptivas. Para esto el codi­
ficador ordena los 576 coeficientes MDCT (32 subbandas x 18 MDCT coeficien­
tes/subbanda) en un orden predeterminado, basado en el incremento de frecuen­
cia, es decir, se ordenan de menor a mayor frecuencia. Este orden no se respeta en
el modo de bloCJues MDCT cortos. En este modo hay tres conjuntos de valores
para una frecuencia dada, de manera que la ordenación es primero por frecuencia
y luego por orden del primero al tercero, dentro de cada banda de factor de esca­
la. Esta ordenación presenta la ventaja de que los valores largos suelen darse en el
caso de las bajas frecuencias, mientras que los valores cercanos a cero y las largas
cadenas de ceros suelen corresponder a las altas frecuencias.
TH.~()[ ()(;I', A( TlJ.1 ni TIII"'I.'iIO"l
El codificador separa los coeficientes reordenados en tres regiones distintas.
Esto permite codificar cada región con un conjunto distinto de tablas Huffman,
específicamente ajustadas a las estadísticas de cada región particular.
Comenzando por la frecuencia más alta, el codificador identifica las cadenas
continuas de ceros como una región. Esta región no necesita ser codificada, ya
que su longitud puede deducirse a partir del tamaño de las otras dos regiones.
La segunda región, llamada "cuenta-¡ ", consiste en una cadena continua de valo­
res que sólo pueden incluir --1, Oo 1. La tabla de Huffman para esta región hace
grupos de cuatro valores de éstos, de manera que el número de valores inclui­
do ha de ser múltiplo de cuatro. La tercera región cubre todos los valores res­
tantes y se denomina "g¡'andes valores". Las tablas de Huffman para esta región
codifican los valores por parejas. Esta región de grandes valores es, a su vez,
subdi"ida en tres subregiones, cada una de las cuales tiene su propia tabla
Huffman. Además de mejorar la eficacia de la compresión, la subdivisión de los
coeficientes MDCT en regiones ayuda a controlar la propagación de errores.
Al igual que en otras aplicaciones, las tablas de Huffman asignan códigos cortos
a las combinaciones binarias más frecuentes y códigos largos a las menos frecuen­
tes. En MPEG-audio, si el número de bits resultante durante la codificación exce­
de el número de bits disponibles para codificar un bloque de datos dado, esto
puede ser corregido ajustando la ganancia global, lo que produce un mayor tama­
ño de los peldaños de cuantificación de los coeficientes y, por tanto, códigos de
cuantificación más cortos. Esta operación se conoce como "lnner lteration Loop" o
"lazo iterativo interior" y se repite con diferentes tamaños para los peldaños de
cuantificación, hasta que el número de bits resultante iguala la demanda de las
tablas de codificación Huffman.
Tabla 11.3. Comparación de los tamaños, en Mbytes, de archivos de música sin com­
primir y con compresión entrópica.
Original
.wav
Comprimido
.ape
Factor de
compresión
.ape
Comprimido
.zip
Factor de
compresión
.zip
Adagio 57,576 16,856 3,41:1 50,343 1,12:1
Marcha 23,429 10,245 2,28:1 20,213 1,16:1
Balada
Rack
68,983
44,347
41,869
28,733
1,67:1
1,54:1
64,725
42,519
1,06:1
1,04:1
A modo de ilustración, la tabla 11.3 muestra los tamaños en megabytes de cua­
tro archivos de música más o menos representativos. Los dos primeros son de
música clásica: un adagio muy lento y una marcha rápida. Los dos últimos son una
balada con bastantes pausas y amplio rango dinámico y una pieza de rack mayor­
mente instrumental. Los archivos .ape han sido generados con un programa espe­
cialmente diseñado para comprimir música sin pérdidas (Monkey Audio), de
manera que, una vez descomprimidos, vuelven a producir archivos, wav idénticos,
byte a byte, a los originales. Puede verse que se generan factores de compresión
moderados, en torno a 2: 1 como media, y que el grado de compresión varía
COIllPrc"jún ('J) audio
mucho de llna pieza a otra. También puede verse que los compresores tipo ZIP no
resultan muy eficaces en la compresión de música, ya que son algoritmos de tipo
general, que no reordenan los datos antes de aplicar la codificación dc longitud
variable (VLC).
Depósito de bits
Una de las características más importantes dc la capa III es su capacidad para
afrontar la demanda de bits, variable en el tiempo. Al igual que la capa 11, la capa
III procesa cuadros de datos de audio correspondientes a 1.152 muestras, pero, a
diferencia de la primera, en la capa IIIlos datos codificados de un cuadro no tienen
que ubicarse necesariamente en un campo de longitud fija dentro del bic-stream. Si
el codificador se encuentra en una situación tal que el promedio de bits que le llega
es superior a los que puede acomodar en un momento determinado, puede "donar"
temporalmente bits a un depósito. Más tarde, cuando el codificador necesite más
bits de los que le están llegando para llenar el cuadro actual, podrá tomar los bits
temporalmente almacenados en el depósito. El codificador sólo puede coger del
depósito bits pertenecientes a cuadros anteriores, es decir, un cuadro determina­
do no puede contener bits de otro que es posterior en el tiempo. El biC-stream de
la capa III incluye un "puntero" de 9 bits, que se localiza en el campo "parámetros
del paquete" (figura 11 .11). Este puntero indica la dirección o apunta hacia la loca­
lización del primer byte de los datos de audio correspondientes a ese paquete.
Tabla 11.4. Calidad en función de la tasa binaria para la capa IJ/-MPEG-1.
Calidad'
Ancho debanda Modo Frecuencia binaria
Factor de
compresión
Mejor que onda corta 4,5 KHz Mono 16 Kbits/s 48:1
Mejor que radio en AM 7,5 KHz Mono 32 Kbits/s 24:1
Similar a radio en FM 11 KHz Estéreo 56...64 Kbits/s 26...24:1
Casi compact disc 15 KHz Estéreo 96 Kbits/s 16:1
Como compact disc >15 KHz Estéreo 112...128 Kbits/s 14... 12:1
Según el Fraunhofer liS.
En la tabla 11.4 puede verse la calidad de sonido que cabe esperar en función
de la frecuencia binaria de! tren comprimido cuando se utiliza la capa 1II. La fre­
cuencia binaria de 8 Kbits/s es una extensión de la capa III no recogida en las nor­
mas ISO que proporciona una mejora de las características subjetivas, en lo que se
conoce como "MPEG-2.5", y se basa en frecuencias de muestreo de 11,025 KHz
o 12 KHz.
Las diferencias más notables con respecto a la capa 11 son:
1.	 Las 32 subbandas de igual anchura son subdivididas en 18 bandas cada una,
utilizando técnicas de tipo transformado, como la MDCT, con lo que se
obtiene un total de 576 subbandas. En presencia de transitorios, y para evi­
tar e! efecto pre-eco, este número puede rebajarse a 192 subbandas (véase
apartado 3.3.1).
2. Los valores proporcionados por el codificador perceptual son a continuación
354 355
_________ Comprl'~iÚn en audio
pasados por un compresor entroplCo que, mediante' un codigo VLC­
Huffman, "empaqueta" las cadenas de unos y ceros de la forma más eficaz
posible.
3. Genera bajas tasas binarias que encuentran sus aplicaciones en RDSI, enlaces
de satélite y audio de alta calidad YÍa Internet o en reproductores MP3.
4. Los bits de datos de un cuadro pueden repartirse sobre "arios cuadros futu
ros. Esto dispersa la informacion en el tiempo, por ]0 que el decodificador
necesita de un almacén temporal, cuyo tamaí10 es la mayor limitacion al
grado de dispersion.
Tabla 11.5. Comparación de los principales parámetros de las tres capas MPEG-1.
PARÁMETRO CAPA I CAPA 11 CAPA'"
Modos de codificación Mono, dual, estéreo, estéreo común
Frecuencias de muestreo 32 KHz, 44,1 KHz, 48 KHz
Número de subbandas 32 192 o 576
Muestras/cuadro 384 1.152
128 Kbits/s/canall 64 KBits/canal
24 ms/26,12/36 ms
Calidad casi transparente
Duración cuadros:
48 KHz / 44,1 KHz / 32 KHz
192 Kbits/s/canal
8 ms/8,7 ms/12 ms
Frecuencias binarias
mínima y máxima
32 Kbits/s­
448 Kbits/s
32 Kbits/s­
384 Kbits/s
16 Kbits/s
-320 Kbits/s
Anchura de las subbandas 750 Hz 36 125 Hz o 41 ,67 Hz
4.1.2. Aspectos acnerales de MPEG-I
Repasando todo lo expuesto anteriormente, la señal de audio muestreada a 32
KHz, 44,1 KHz o 48 KHz es dividida en bloques de 384 muestras en la capa 'loen
1.152 muestras en las capas II y IlI. Estos bloqucs son codificados mediante la adi­
ción de una cabecera, información del sistema, CRC, cte. y forman un "cuadro de
audio". Un stream o corriente de audio MPEG-I se forma, por tanto, con una serie
de cuadros consecutivos.
La cabecera de un cuadro contienc información general, tal como el tipo de
capa que se está utilizando, la frecuencia de muestreo, el número de canales, la
protección contra errores, el preénfasis o los derechos de autor. Aunque la mayor
parte de esta información se repite de un cuadro a otro, la norma MPEG decidió
dar a cada cuadro una cabecera completa para facilitar la sincronización y la edición
o montaje del tren binario sin necesidad de descomprimir.
La ITU-R (International TeJecommunications Union o Unión Internacional de
Telecomunicaciones, rama Radiodifusión) ha llevado a cabo una serie de pruebas
encaminadas a establecer las capacidades de los distintos codecs de audio. Para ello
probaron varias configuraciones de canales codificador/decodificador con pasadas
reiterativas, a diferentes frecuencias binarias y con material de programa variado. En
todas ellas MPEG-l resultó ser el mejor, por lo que la ITU recomienda el uso de la
capa II de MI'EG- 1 para contribución (una forma o I¡¡,·el de calidad de la sel1al en
la que el destinatario de la transmision no es el usuario final, sino otro radiodifusor
o profesional, y donde, además, puede ser necesario algún proceso de edición pos­
terior), así como para transmision, es decir, entre el radiodifusor y la estación de
transmisión final)' también para emision digital, es decir, la transmisión final al
usuario. Por otro lado, este organismo recomienda la capa III para enlaces de
comentarista, es decir, enlaces para señales de habla, que son transmitidas a la esta­
ción, desde una localización remota, mediante una línea RDSI. Más detalles sobre
estas recomendaciones pueden encontrarse en ITU-R BS. 115. Por su lado, la ETSI
(European Telecommllnicatians Standards Institllte o Instituto para las Normas de
Telecomunicación Europeas) incluyó en 1995 el audio MPEG-l y MPEG-2 en su
norma ETS 300401 "Radio Broadcastina System, Diaital Audio Brodcastina" (DAB).
4.1.3. Las nuevas normas MPEG-2
La primera versión de la norma MPEG-2 fuc publicada cn 1994 como ISO-lEC
13.813, con la intcnción de cubrir las necesidades de radiodifusion de televisión y
grabación en soportes multimedia, con diferentes niveles de calidad, frecuencias
binarias y complejidad de codificación. Hay que recordar que la norma MPEG-l
estaba pensada para ubicar vídeo y audio comprimido en CD-audio, a la freeuen
cia binaria que este soporte permite, es decir, a 1,5 Mbits/s. MPEG-2, en cambio,
permite frecuencias binarias (audio + vídeo) desde 2 Mbits/s hasta 100 Mbits/s.
En lo referente al audio, la norma MPEG-2 se diseñó con la intención de que fuera
compatible, hacia abajo, con el audio codificado MPEG-l . Además, siguiendo las
recomendaciones de la UER y el SMPTE, se decidió aumentar el numero de cana­
les desde dos hasta cinco, de manera que el sistema incluyera, además de los cana­
les estéreo normales, uno central, uno trasero-izquierdo y otro trasero-derecho.
Estos dos últimos suelen denominarse J~ft-surround y riaht-surround. También se
incluyó un canal de realce de bajas frecuencias, llamado LFE, que esencialmente es
un subwoqfer con un ancho de banda menor que los otros canales (típicamente < 120
Hz). El LFE no tiene ningún efecto sohre la direceionalidad percibida, es decir, el
altavoz LFE se puede colocar en cualquier lugar sin que esto afecte a la percepción
espacial. El conjunto completo de los cinco canales más el de realce de baja fre­
cuencia se conoce como "sistema 5.1".
La mancra en que se codifican los 5.1 permite que los decodificadores antiguos
puedan extraer el par estéreo básico, ignorando los otros 3,1 canales, mientras que
los decodificadores nuevos pueden recuperar todos los canales. Además los deco­
dificadores modernos pueden reproducir los trenes binarios codificados MPEG-1 ,
con lo cual se respeta tanto la compatibilidad hacia delante como hacia atrás. La
compatibilidad hacia atrás se mejora si el decodificador MPEG-l recibe un par de
canales obtenidos a partir de la mezcla adecuada de los cinco canales. Los datos de
estos dos canales mezcla constituyen el núcleo del tren codificado MPEG-2 y son
la porción que el decodificador MPEG-1 puedc entender.
Para mejorar las prestaciones de los codificadores, cuando éstos trabajan con
muy bajas tasas binarias, es preferible partir de señales digitales con bit-rate reduci­
356 357
do )' aplicar una compresión moderada, que aplicar fuertes compresiones a señales
más ricas. Concretando, es mejor filtrar), submuestrear )' luego comprimir mode­
radamente que aplicar fuertes compresiones a señales con total ancho de banda. Por
esta razón la norma MPEG-2 contempla, además de las frecuencias de muestreo
normalizadas en MPEG-I (32 KHz, 44,1 KHz)' 48 KHz), las frecuencias mitad, es
decir, 16 KHz, 22,05 KHz)' 24 KHz. La aplicación de estas frecuencias es aconse­
jable cuando se pretenden tasas binarias del tren comprimido por debajo de 64
Kbits!s. Con una frecuencia de muestreo de 24 KHz, por ejemplo, la capa 1Il, que
utiliza 576 subbandas, presenta una resolución de frecuencia (anchura de las sub­
bandas) de aproximadamente 21 Hz. Esto permite una mejor adaptación de las ban­
das de factor de escala a las badas críticas del sistema de percepción humano, lo que
se traduce en mayor calidad de audio para tasas binarias bajas, aunque el ancho de
banda teórico sea de sólo 12 KHz en este caso. La aplicación de esta extensión de la
norma es muy fácil para los decodificadores MPEG-I, ya que sólo supone la inclu­
sión de algunas tablas mas.
Cuando ya se había definido y publicado la primera versión de la norma MPEG­
2, algunas organizaciones arguyeron que existían nuevas técnicas de codificación
capaces de proporcionar mejores características de calidad que el MPEG, por lo
que se realizaron nuevas pruebas. De hecho ya se estaba trabajando en normas que
superaban al MPEG, tales como el sistema AC-3 de Dolby o algunas normas de la
AT&T. Por eso la norma MPEG-2 incluyó, en su versión de 1997, un sistema de
codificación denominado AAC (Advanced Audio Codina) que no es compatible hacia
atrás, es decir, que los trenes binarios codificados MPEG-2 AAC no pueden ser
decodificados por sistemas MPEG-I. Se dice entonces que el AAC es un sistema
Non Backward Compatible o NBC (no confundir con la cadena de televisión ameri­
cana).
Aparte de permitir nuevas frecuencias de muestreo más bajas, la codificación com­
patible de 5.1 canales y la inclusión de la variante AAC no-compatible, la norma
MPEG-2 de audio es idéntica al MPEG-I y trabaja con las mismas tres capas que éste.
Existe también una extensión no normalizada por los organismos lEC e ISO, cuya
patente es propiedad del Fraunhofer Institute for Integrated Circuits, que permite la
utilización de frecuencias de muestreo equivalentes a un cuarto de las nominales del
MPEG-I, es decir, 8 KHz, 11,025 KHz Y 12 KHz.
La ampliación a multicanal se logra insertando los datos básicos, que han de ser­
vir tanto al decodificador MPEG-l como al MPEG-2, en la zona de carga normal
de los paquetes codificados, es decir, la que aparece etiquetada como "muestras de
subbandas" en las figuras 11.9 y 11.10, correspondientes a las capas 1 y I1, o como
"depósito de bits" en la figura 11.11 para la capa IlI. Los bits extra, que permitirán
al decodificador MPEG-2 obtener los cinco canales surround más el de realce de
bajas frecuencias, se transmiten en la cola del paquete, dentro del campo etiqueta­
do "datos auxiliares". Estos datos pasarán desapercibidos para el decodificador
MPEG-I. Por tanto, se produce un "anidado" de paquetes, ya que en el campo "datos
auxiliares" podemos encontrar paquetes completos, con su cabecera, su CRC, cam­
pos de factor de escala y reparto de bits, así como zona de carga para las muestras
de subbanda de los 3.1 canales.
MPEG-AAC
Éste es el último miembro (por ahora) de la familia MPEG-2 )' ha sido diseña­
do para proporcionar alta calidad de audio a frecuencias binarias de
64 Kbits!s y canal para aplicaciones multicanal. El tren binario codificado puede
acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre­
cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos auxilia­
res. Con esto se pueden codificar hasta 16 programas independientes, cada uno con
su propia configuración, es decir, formado por cualquier número de canales de
audio y paquetes de datos. El sistema AAC utiliza los mismos principios básicos de
codificación que el MPEG-I , aunque añade nuevas herramientas para mejorar las
características finales.
Algunas de las mejoras introducidas por el sistema AAC son: un banco de filtros
con una mayor resolución en frecuencia, una codificación entrópica más eficaz y un
mejor aprovechamiento de la redundancia e irrelevancia estereofónica. Se introdu­
cen dos nuevas herramientas: un predictor hacia atrás opcional y un modelador de
ruido en el dominio temporal, que mejma la calidad cuando se codifican señales
de habla a muy bajas tasas binarias. Como resultado, el AAC es, aproximadamen­
te, un 30% más eficaz que la capa 1Il.
PeIjiJes en AAC
La variante AAC recupera el concepto de "perfiles" de! MPEG-2 vídeo, que en
e! fondo no es muy distinto del concepto de capas en MPEG-2 audio. En AAC hay
tres perfiles, denominados: Main Prrifile, Low Complexity Predile y Scalable Simple Rate
Prrifile. En general se puede decir que los tres perfiles AAC, cuando trabajan a 128
Kbits!s, proporcionan mejores características que la capa II a 192 Kbits/s o que la
capa III a 128 Kbits!s. Se puede considerar que la meta inicial, que consistía en una
calidad casi transparente para frecuencias binarias de 64 Kbits!s y canal, está ple­
namente conseguida. Tanto el perfil principal como el de baja complejidad pro­
porcionan, a 96 Kbits/s, una calidad que es comparable a la capa II a 192 Kbits!s,
lo que supone una mejora de 2: 1 en la eficacia de compresión. Por otro lado, el
perfil principal a 96 Kbits!s da mejores resultados que la capa III a 128Kbits!s.
Paquetes AAC
En MPEG-I (y, por tanto, en MPEG-2) cada capa normaliza la forma en que se
empaquetan los datos mediante los llamados "cuadros" o "frames", los cuales se
suceden a una frecuencia constante. La forma en que se estructuran estos paque­
tes no cambia mucho de una capa a otra. En todos los casos se comienza por una
cabecera, luego vienen unos campos de factor de escala, asignación de bits, etc.,
para nnalizar con la zona de carga y los datos auxiliares. AAC, por el contrario, deja
abierta la eleccion de la sintaxis de transporte a la aplicación que se esté utilizan­
do, normalizando sólo el formato de los datos de audio codificados, es decir, bási­
camente la llamada "zona de carga". Por otro lado, ya han sido normalizados dos
sintaxis de transporte que pueden servir de ejemplo más o menos típico:
l.	 ADIF: Audio Dota lnterchanae Format.-EI tren binario de audio codincado
contiene una cabecera única con toda la información necesaria para contro­
lar el decondicador, tal como la frecuencia binaria, la frecuencia de mues­
3S8	 359
Tlí.'~(ll ()(,I.-' ,'L ¡U:,! !JI IllJ. ¡"jll:'-,
treo o el modo de estéreo que se estú utilizando. La principal aplicación de
ADlf es el intercamhio de archivos de audio digital comprimido por redes
informáticas, serYidores, etc.
2.	 ADTS: Audio Data Transpor Strcam.-El tTen hinario de audio está formado por
una secuencia de cuadros, cada uno de los cuales se inicia con una cabecera
similar a la de] MPEG- 1. Los datos de audio codificado de un cuadro deter­
minarlo se localizan siempre entre dos patrones de sincronización, de forma
que se facilita la extracción de segmentos), la edición sin descompresión. De
todas formas, el número de hits contenidos en un cuadro puede ser variable.
4.2. El sistema AC-3 de Dolby
Éste es el principal contrincante de la familia MPEG. El origen del AC-3 se
encuentra en el deseo de proporcionar un sonido multicanal de alta calidad para la
televisión en alta definición en Norteamérica, aunque luego se ha utilizado tam­
bién en otras aplicaciones, tales como sonido envolvente pa¡-a cine, laserdisc, tele­
visión por satélite, o para descarga controlada de música por Internet.
4.2. l. Precedentes históricos
El proceso de normalización de HDTV en los Estados Unidos comenzó hacia
1987 cuando el FCC (Fcderal Comml1nications Comisión o Comisión Federal de
Comunicaciones) creó el ACATS (Advis0'Y Committee on Adl'anced TcJevision Serl'ice o
Comité Consultivo para la Televisión Avanzada). La primera propuesta de este
organismo para la HDTV en Norteamerica se basaba en v¡rleo analógico y audio
digital. Este último consistía en un par estéreo obtenido por matrización de un sis­
tema multicanal, codificado con el sistema AC- 1 de Dolby. El AC- 1 era un método
de codificacion de bajo coste, con modulación delta. En el receptor los dos' cana­
les podían ser opcionalmente decodificados a los cuatro canales originales median­
te una matriz inversa. Se trataba, por tanto, de un sistema matricial 4-2-4, donde
la compresión se lograba gracias a la modulación delta y a la reducción del núme­
ro de canales de transmisión. En 1989 los avances que se habían producido en la
codincación de audio y en el hardware para procesado digital de la señal (DSP) per­
mitieron la creación de! AC-2, que mejoraba la calidad, a la vez que disminuía la
frecuencia binaria del tren comprimido. La filosofía de matrizado multicanal 4-2­
4 no se alteró. En 1990 se sugirio al comité para la HDTV que podrían evitarse las
limitaciones impuestas por el sistema de matrizado de canales y que sería mejor
transmitir varios canales discretos. Así nació el AC- 3: un sistema de codificación de
audio multicanaJ que trabaja, aproximadamente, a la misma frecuencia binaria que
la requerida por un sistema de dos canales.
Se ha podido comprobar que la utilización de un sistema de audio multicanal de
alta calidad mejora enormemente la experiencia de ver televisión, en el sentido de
que, cuando una imagen es acompañada de audio de calidad, incluso la propia ima­
gen obtiene puntuaciones más altas por parte de los espectadores. Aunque el AC­
C0!.!ll-l..u;~I.l..-t;lL~:u.!i.1J(~
3 se concibió inicialmente para HDTV, a medida que se iba dcsalTollando, se fue­
ron encontrando aplicaciones en el mundo del sonido el1'oh-ente para cinc. La pri­
mera película en utilizar codificación AC-3, con 5.1 canales a 320 Kbits/s, fue Star
Trek 1'1, en diciembre de 1991, aunque el estreno formal del Dolby-DSR (que es
como se le conoce en e! mundo del cine) fue en junio de 1992 con la entrega de
Batman returns.
4.2.2. Codificación AC-3
Al igual que los sistemas MPEG, el AC-3 se basa en la división de la señal de
entrada en cuadros y luego en subhandas de frecuencia, cada una de las cuales es
codificada mediante un factor de escala)' unos cuantos bits de precisión. En MPEG
es e! codificador el que decide cómo se reparten los hits por las distintas subban­
das, basándose en e! contenido de la señal, es decir, de forma adaptativa. Estas deci­
siones se comunican al decodificador mediante una serie de bits auxiliares inserta­
dos en las cabeceras ele los paquetes. Esto se conoce como Forll'ard Adaptil'c Bit
Al/ocation (FABA). Lo contrario sería el Backll'ard Adaptil'e Bit Al/ocation (BABA) o
reparto de los bits hacia atrás (vcase apartado 3.3). Con este sistema los coeficien­
tes de las subbandas se estructuran mediante una combinación de exponente y
mantisa (equivalente a factor de escala)' bits de precisión de! MPEG). El expo­
nente representa el valor medio de su subbanda, mientras que la mantisa aporta el
detalle sobre el nivel de cada coeficiente. La coleccion ele exponentes de las dis­
tintas subbandas, en un momento determinado, forma una representación gene¡-al,
a BTOSSO modo, de las componentes frecuenciales de la señal, denominada "envol­
vente espectral". Esta envolvente se codifica y se envía al decodificador, pero a la
vez se utiliza para decielir qué coeficientes son importantes para la codificación de!
sonido y, por tanto, para determinar el reparto ele los bits entre los coeficientes de
cada una de la subbandas. Esto se hace de forma similar al MPEG, controlando e!
numero de bits utilizados para representar cada valor, lo cual supone alterar la
resolución con que dichos valores son expresados.
Variar la resolución con que se expresa e! valor de las muestras (en función del
reparto de bits) equivale a modular el ruido de cuantificación, pero esto se hace de
manera que dicha modulación sea controlada por la envolvente espectral, de forma
que quede enmascarada. Una vez que la envolvente de la señal ha sido codificada y
los valores de mantisa cuantificados, las dos informaciones se multiplexan y se
colocan en los paquetes de datos. Cuando el decodincado¡" recibe estos paquetes,
decodifica la envolvente espectral y a partir de ella calcula la forma en que se han
repartido los bits en la codificación de las mantisas. Puesto que tanto el codifica­
dor como e! decodificador utilizan la misma envolvente espectral y el mismo algo­
ritmo, obtienen los mismos resultados, es decir, las mismas decisiones de reparto
de bits para las mantisas de las subbandas. Esto permite al decodificador recons­
truir los valores de las mantisas, sin necesidad de que se le envíe por separado
información sobre cómo se hizo el reparto de bits. Así la mayor parte de los paque­
tes codificados puede utilizarse para datos representativos de la señal de audio y no
para datos de control.
360
361
El AC-3 de Dolb)' es un sistema híbrido que utiliza tanto reparto adaptativo
hacia delante como reparto adaptativo hacia atrás. Básicamente es un sistema
BABA, como el descrito en el párrafo anterior, ya que existe una rutina básica de
reparto de los bits adaptativa hacia atrás, que funciona de manera identica e inde­
pendiente en el codificador y en el decodificador. Esta rutina es sencilla, se basa en
un modelo psicoacústico predeterminado y, en general, resulta bastante precisa. La
rutina es controlada por la envolvente espectral, que forma parte de los datos
enviados desde el codificador al decodificador. Ahora bien, esta rutina puede ser
modificada en ambos extremos. Mediante una información auxiliar, el codificador
comunica al decodificador los cambios introducidos (por tanto, información
FABA). Resumiendo, la rutina básica funciona de manera independiente en el codi­
ficador y en el decodificador, basándose en la envolvente espectral, tal como se
hace en los sistemas BABA puros, pero pudiendo ser alterada mediante informa­
ción FABA que mejora su precisión.
La rutina básica es bastante sencilla y se basa en un modelo psicoacústico fijo
que parte de ciertas premisas sobre cómo se producen los procesos de enmascara­
miento auditivo. A partir de estas premisas, la predicción hacia delante hace un par
de modificaciones: por un lado, modifica los parámetros del modelo psicoacústico
y, por otro, las diferencias en el reparto de los bits que se producen al aplicar el
modelo actual. Así ciertos parámetros del modelo psico-acústico son explícita­
mente enviados al decodificador dentro de los paquetes codificados AC-3, de
manera que este pueda alterar algunos detalles del modelo psicoacústico predefi­
nido.
Con el sistema híbrido el codificador puede ensayar un reparto de bits basado
en cualquier modelo psicoacústico de cualquier complejidad y comparar los resul­
tados con el reparto que se obtendría utilizando la rutina básica contenida en el
decodificador. Si el codificador encuentra que se puede obtener una mejor iguala­
ción al reparto de bits ideal alterando algunos de los parametros de la rutina bási­
ca, lo hará y así lo comunicará al decodificador. Por otro lado, si encuentra que no
es posible una mejor aproximación al reparto de los bits mediante la alteración del
modelo psicoacústico, entonces enviará explícitamente información sobre cómo se
ha hecho el reparto de los bits al decodificador, es decir, enviará datos FABA simi­
lares, aunque en menor cantidad, a los que se envían en MPEG. Puesto que la ruti­
na básica está bastante optimizada, sólo serán necesarios unos cuantos datos FABA.
4.2.3. FABA vs BABA
En MPEG, donde se utiliza el sistema de adaptacion hacia delante (FABA), la
capa n, por ejemplo, genera casi 4 Kbits/s por canal para informar al decodificador
sobre el reparto de los bits de las subbandas, cuando se trabaja con una frecuencia
de muestreo de la fuente de 48 KHz, lo que equivale a una resolucion frecuencial
de 750 Hz y temporal de 24 ms. En presencia de transitorios puede ser convenien­
te aumentar la resolución temporal (para evitar el efecto pre-eco) de 24 ms a sólo
8 ms. Esto multiplica por tres los datos de control de adjudicación de bits que hay
que enviar, aunque, por otro lado, estas situaciones se producen raramente.
a:
O
Oatos PCM
I
O
«X ~Ud'O
Transformada W codificado
....J --.
tiempo­
o..frecuencia
5::JModelo
:2psicoacústico

adaptado

Figura 11.12.

Diagrama de bloques del codificador AC- 3 de Dolby.

El metodo adaptativo hacia atrás (BABA), por su lado, tiene la ventaja de que no
se desperdicia capacidad del canal en enviar datos sobre cómo se han repartido los bits
entre las subbandas, de manera que toda la capacidad de los paquetes es utilizada por
las muestras de audio. Pero este metodo tiene también desventajas. La información
que se envía al decodificador tiene una resolución limitada y, por tanto, contiene erro­
res. Además, puesto que el decodificador no puede ser muy caro, los cálculos han de
ser relativamente sencillos y el algoritmo de reparto de los bits se convierte en fijo
tan pronto como se pone el primer decodificador en el mercado.
La solución híbrida utilizada por AC-3 intenta aprovechar que la cantidad de
datos que hay que enviar al decodificador para cambiar la rutina básica que controla
el reparto de los bits es muy inferior a los que serían necesarios con un sistema
adaptatiVO hacia delante puro y, por otro lado, el modelo psicoacústico puede ser
actualizado dinámicamente.
4.2.4. Detalles del AC-3
Este sistema fue diseñado para aplicaciones multicanal y es capaz de codificar
cinco canales con total ancho de banda (izquierdo, derecho, central, izquierdo
surround y derecho SUTIOund) , más un canal de realce de bajas frecuencias de ancho
de banda reducido. Se ha podido comprobar (jue la demanda de bits en los siste­
mas multicanal crece, aproximadamente, proporcional a la raíz cuadrada del núme­
ro de canales, es decir, si con un sistema determinado de codificación un solo canal
requiere, por ejemplo, 128 Kbits/s, entonces 128 Kbits/s x /5,1 =290 Kbits/s.
Esto se debe a dos causas principales: la utilizacion de un "depósito general de bits"
y la "adaptación de alta frecuencia".
El depósito general permite al circuito repartidor de bits ubicar los bits de los
canales de audio donde se pueda en cada momento. Si uno o más canales están inac­
tivos en un momento determinado, se permitirá que a los canales restantes se les
adjudiquen más bits de los que normalmente les tocarían si todos los canales pre­
sentaran una alta demanda de bits, es decir, los bits se reparten de manera dinámi­
ca entre los canales que los necesiten, de forma que no queden huecos o zonas sin
utilizar en los paquetes codificados.
362 363
------
_______________________. . CQUl}J-.l~~.!úILQ~uiliQ
TI.C'( II (H;t. :l ru il PI TU 1: I.]p:,
La adaptación de alta frecuencia se utiliza para lograr una compresión extra de las
frecuencias más altas del espectro. En las altas frecuencias el oído no puede detectar
ciclos indi,·jduales de la forma ek onda de audio, sino que más bien responde solo a la
ell'oh-cnte de la sei1al en esta zona de frecuencias. La tecnica de la adaptacian reduce
las componentes de alta frecuencia de los canales correlacionados (que pertenecen a
un mismo programa )' tienen contenido similar), generando lID único canal-mezcla
para estas frecuencias, a la vez que genera un poco de informacian colateral que des­
cribe la envolvente especb'al específica de cada canal. De todas formas, esta tecniea
puede dar lugar a potenciales artificios, por lo que solo se emplea cuando se requie­
ren tasas binarias muy bajas.
En AC-3 la seilal de entrada cs filtrada para eliminar las componentes desde OC
hasta 3 Hz, dividida en hloques de 512 muestras, lo que equivale a 10,66 ms para la
frecuencia de muestreo de 48 KHz y separada a continuacian en 256 subbandas de
frecuencia, mediante filtrado MOCT, utilizando una b'ansformada de 512 puntos, de
manera que se produce un solapamiento del 50%. Esto proporciona una resolución
en frecuencia de 93,75 Hz para la frecuencia de muestTeo de 48 KHz (24.000
Hz/ 256). En presencia de b'ansitorios se conmuta a una resolución frecuencial menor,
al reducir el número de subbandas a la mitad. Esto mejora la resolución temporal, ya
que la duración de Jos bloques se reduce tambien a la mitad. Por ejemplo, los bloques
largos, que en el modo de 48 KHz duran 10,66 ms, pasan a durar 5,33 ms en el modo
de bloques cortos (véase tabla 11.6). As! se minimizan los efectos de los transitorios
sobre el bloque de muestras codificado.
Tabla 11.6 Datos más relevantes del sistema AC-3 de Dolby.

PARAMETRO FRECUENCIA DE MUESTREO DE LA FUENTE

Frecuencia de muestreo 32 KHz 44,1 KHz 48 KHz
Mínimo-máxímo bit-rate 32 Kbits/s-640 Kbits/s
Ancho de banda 15 KHz 20,5 KHz 22,5 Kl-fz
Longitud de los bloques
(largo - corto)
512-256 muestras
Duración de los bloques 16-8 ms 11,6-5,8 ms 10,66-5,33 ms
Número de subbandas 256/128
Anchura de las subbandas 62,5-125 Hz 86,133-172,26 Hz 93,75-187,5 Hz
Bit rate casi transparente
(un par estéreo)
192 Kbits/s
Bit rate casi transparente
(5.1 canales)
384 Kbits/s
Cada coeficiente de las subbandas es separado en exponente ymantisa. Las manti­
sas son a continuación cuantificadas con un número variable d(' bits, en función del
modelo de enmasca¡-amiento psicoacústico. Este reparto adaptativo de los bits entre
los coeficientes de las subbandas introduce una relación señal-a-ruido aceptable para
cada coeficiente OCT. Los exponentes son una representación de la envolvente espec­
tral que, junto con las mantisas cuantificadas correspondientes a seis bloques de audio,
forman un cuadro de sincronizacian AC-3. Por ob'o lado, se utiliza un algoritmo espe­
cial para extraer las similitudes enb-c canales y codificar una sola "ez la informacian
que se repite entTe ellos Oespues el decodificador "oh'Crá a reubicar la informacian
en los canales adecuados.
La información AC- 3 se estructura en cuadros que representan un interYalo de
tiempo constante, equi"alcnte a 1.536 muestras PCM, repartidas entre todos los
canales codificados. Cada cuadro tiene un tamailo en bytes fijo, que depende sólo
de la frecuencia de muestreo y del bit-rate que se pretenda lograr. AdemÁs cada
cuadro es una entidad independiente que no comparte datos con otros cuadros
anteriores o posteriores. La figura 11.13 muestra la estructura de los cuadros bási­
cos AC- 3. Los cuadros se inician con una palabl-a de sincronizacian fija y un paque­
te CRC para coneccian de errores. A continuación aparecen SI (Syne h1órmation)
y BSI (Bit Stream iriformation) , que describen la configuracian del tren binario,
incluyendo la frecuencia de muestreo, la frecuencia binaria de salida, el número de
canales codificados, etc.
En cada cuadro hay seis bloques de audio, cada uno de los cuales representa 256
muestras PCM de entrada. Cada bloque contiene, entre otros, las banderas de con­
mutacian de bloques, los exponentes, los parÁmetros de reparto de bits y las man­
tisas. La parte inferior de la figura 11.13 muestra los campos que constituyen cada
bloque. Al final del cuadro se dispone de un campo para datos auxiliares, reserva­
do para control o información de estado del sistema de transmisión y de otro
paquete CRe.
¡SINC.
CRC
S.I. B.S.I.
Bloque de Bloque de Bloque de Bloque de Bloque de Bloque de Datos CRC
(1) audio·Q audio-1 audio-2 audio-3 audio-4 audio-5 auxiliares (2)
--~-~--- ~ -~-._-
-~- -- -~- --­
ValoresBanderas IControl dell Decisiones IParámetros 1Estrategia
Valores dede conmut. rango de de sobre de los
las mantisasexponentesde bloque dinámico adaptación adaptación exponentes
Figura JI. 13.

Estructura del cuadro de sincronización AC-3 (arriba) y detalle de cada uno de los bloques

(abajo).

4.3. El sistemaATRAC de Sony
Este sistema de compresión de datos de audio nació para resolver el problema de
poder grabar en un rninidisc, aproximadamente la misma música que cabe en un CD de
audio. El minidisc almacena música en un disco óptico o magnetoóptico de
64 mm de diámetro y tiene una capacidad equivalente a 1/5 la del CD, por lo que, si se
quiere almacenar los 74 minutos del CO, habrÁ que aplicar una compresión en torno a
5: 1. Esto se logra mediante un algoritmo ATRAC (Adaptive Tran~Jórm Acoustie Codina o
codificación del sonido por transformación adaptativa). En este sistema la señal de
364 365
TI~ClJ()[ ()(;íA tCTlI-[ nr: TU,U'ISION
entrada se divide en tres subbandas, que son a continuación transformadas al dominio de
la frecuencia utilizando bloques de longitud variable. Los coeficientes de frecuencias
obtenidos en la transformación son agrupados en bandas no uniformes para adaptarse al
sistema de audición hW11ano.
4.3.1. Principios básicos del ATRAe
Al igual que los otros sistemas, el ATRAC funciona descomponiendo la señal de
entrada en unidades, cada una de las cuales corresponde a un intervalo de tiempo
y de frecuencia, pero, a diferencia de los otros sistemas, ATRAC utiliza las carac­
terísticas psicoacústicas humanas no sólo para la distribución de los bits entre estas
pequeñas unidades tempo-frecuenciales, sino también para la propia división en
unidades de tiempo y frecuencia. Mediante una combinación de división en sub­
bandas y técnicas de transformación, la señal de entrada es analizada en divisiones
de frecuencia no uniformes que enfatizan la importancia de las regiones de baja fre­
cuencia, es decir, la anchura de las subbandas cambia en función de la frecuencia.
Además la longitud de los bloques transformados se adapta a la señal de entrada.
Como puede verse en la figura 11.14, e! codificador ATRAC está formado por
tI'es hloques principales: el bloque de análisis de tiempo y frecuencia, el bloque de
toma de decisiones sobre la adjudicación de los bits y el bloque de cuantificación
de los componentes espectrales, además de! multiplexadar final que añade a los
coeficientes cuantificados información sobre cómo se ha hecho el reparto de los
bits entre las unidades tempo-frecuenciales. El bloque de análisis descompone la
señal en coeficientes espectrales formando "unidades variables". Este bloque es e!
que más diferencia al sistema ATRAC de los otros sistemas de compresión. El blo­
que ele "estrategia de reparto de los bits" adjudica los bits disponibles entre las dis­
tintas unidades variables, otorgando menos bits a las unidades menos sensibles. El
bloque de cuantificación cuantifica cada componente espectral con una palabra de
longitud variable.
Estrategia
de Reparto
Parámetros de.
Reparto de los bils
de los bits n::
O
O
~~alosUJ Codificados
Oalos
PCM
CoeflC.ltlnh!lli
Cuantificación de Esptlclrales
los componentes Cuanllflcados
-J
a...
!S
---...
espectrales ~
1 ­
Figura 11.14.

Diagrama de bloques del codificador ATRAe.

Comprc...¡ón efl Judío
4.3.2. Unidades tempoJrecuenciales
El bloque de análisis temporal genera las unidades 'ariables, equivalentes a los
cuadros/subbandas de los otros sistemas, en tres pasos. Para ello combina técnicas
de filtrado y de transformación. En primer lugar, la señal se divide en tres subban­
das: de Oa 5,5 MHz, de 5,5 a 11 MHz y de 11 a 22 MHz. A continuación cada sub­
banda es pasada al dominio de la frecuencia, produciendo un conjunto de coefi­
cientes espectrales. Finalmente, estos coeficientes se agrupan para formar unida­
des tempo-frecuenciales variables.
La primera descomposición en tres subbandas se logra mediante filtros como los
descritos en el apartado 3.1, es decir, mediante sobremuestreo ydiezmado. Este tipo
de filtros se conoce como QMF o Q!!adracure Mirror Filter. El primer tlIo'o QMF divi­
de el espectro en dos bandas de frecuencia de igual anchura (11 KHz cada una). A con­
tinuación un segundo filtro QMF divide la banda inferior otra vez en dos mitades de
5,5 KHz cada una. El bloque de retardo sirve para iguaJar los tiempos de propagación
de la banda superior con respecto a las otras dos.
Las muestras de cada una de las tres subbandas son a continuación transforma­
das al dominio de las frecuencias mediante una transformada en coseno discreto
modificado (MDCT) dividida en tres bloques de altas (MDCT-H), medias (MDCT­
M) y bajas frecuencias (MDCT-L). Esta transformada, utilizada también por la capa
III de MPEG y por el sistema AC-3 de Dolby, permite un 50% de solapamiento
entre las muestras que forman la "ventana de transformación", de manera que
todas las muestras son computadas dos veces: una como mitad inferior de una ven­
tana y otra como mitad superior de la ventana anterior. Este solapamiento mejora
la resolución en frecuencia, es decir, la precisión con que se obtienen los coefi,
cientes, mientras se mantiene el muestreo crítico. Esto último quiere decir que no
se ha de sobremuestrear la señal para ohtener ventanas de transformación más
anchas.
En lugar de trabajar con bloques transformados de longitud fija, el sistema
ATRAC elige la longitud temporal de los bloques de manera adaptativa, basándo­
se en las caracterlsticas de la señal en cada una de las bandas. Lo anterior se logra
utilizando dos modos de trabajo: uno largo de 11,6 ms y otro corto que dura 1,45
ms en las bandas de frecuencia más altas y 2,9 ms en las otras bandas.
Normalmente el modo largo se usa para proporcionar una buena resolución en fre­
cuencia. En presencia de transitorios y para evitar que el ruido producido por éstos
se esparza sobre todo el bloque de señal, con el consiguiente "efecto pre-eco", el
ATRAC conmuta al modo corto. En este caso, puesto que el segmento de ruido
antes de! transitorio es muy corto (ya que todo el bloque es muy corto), el ruido
será enmascarado por el pequeño efecto de enmascaramiento temporal hacia atrás.
Los coeficientes entregados por los bloques MDCT son cuantificados a conti­
nuación en e! bloque "cuantificación de los componentes espectrales" utilizando
dos parámetros: la "longitud de palabra" y e! "factor de escala". El factor de escala
define e! rango general de cuantificación, mientras que longitud de palabra define
la precisión dentro de la escala. Todos los datos de una unidad tempo-frecuencial
comparten un factor de escala y una longitud de palabra. El factor de escala se elige
366 367
entre una lista fija y reneja la magnitud general de los coeficientes espectrales de
las unidades tempo-frecuenciales. La longitud de la palabra la determina el bloque
estrategia de reparto de los bits". Resumiendo, para cada cuadro de sonido, com­
puesto por 512 muestras de análisis, el sistema genera la siguiente informacion:
•	 Modo de tamai'ío del bloque MDCT (largo o corto).
Datos sobre la longitud de palabra para cada bloque tempo-frecuencial.
• Cadigo de factor de escala para cada bloque tempo-frecuencial.
• Coeficientes espectrales cuantificados.
El bloque de estrategia de reparto de los bits clivide el espacio disponible entre
las unidacles tempo-frecuenciales. Las unidades a las que se haya otorgado muchos
bits presenta¡-án muy poco ruido de cuantificacion; aquellas con pocos o ningún bit
incorporaran cantidades importantes de ruido. La mejor calidad de soniclo se
obtiene cuando el repartidor de bits logra que las unidades críticas tengan sufi­
cientes bits y que el ruido de las unidades no criticas no sea porceptualmente sig­
nificativo.
ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino
que utiliza el principio adaptativo hacia delante (FABA), donde toclas las decisiones
se toman en el codificador y se comunican al decodificador. Esto permite que los
grabadores minidisc portátiles (que son la principal aplicacion de este sistema) uti­
licen, durante la codificacian, algoritmos relativamente sencillos, ya que estos
equipos necesitan ser pequeños y económicos, mientras que otros equipos estacio­
narios de mayor precio o la música pregrabada puede utilizar algoritmos mucho
más sofisticados, que serán igualmente entendidos por el reproductor portátil gra­
cias a la informacion de control FABA.
4.3.3. Variantes del sistema ATRAe
El sistema ATRAC nacio en 1993 para comprimir 5: 1 el audio digital de alta
calidad CD (44,1 KHz, 16 bits). Gracias a una serie de mejoras, la váriante
ATRAC-2 permite factOl-es de compresion más elevados, que llegan a 10: J
(73 Kbits/s y canal) e incluso 20: 1 (36 Kbits/s y canal). Para lograr estos factores
de compresion, ATRAC-2 mejora al ATRAC original en los siguientes aspectos:
• Dobla	el tamaño de la ventana utilizada por la transformada MDCT (1.024
muestras solapadas 50%), lo que equivale a 23,2 ms, en lugar de los
11,6 ms de las 512 muestras del ATRAC original.
• Identifica y codifica por separado los tonos correlacionados de las otras com­
ponentes espectrales.
• Divide la señal de entrada en cuatro bandas básicas, en lugar de las tres utili­
zadas por el ATRAC original.
• Amplificacion compensada de las señal de audio inmediatamente anterior a
un transitorio para evitar el efecto pre-eco.
• Aplica compresión entropica Huffman sobre los datos	 previamente compri­
midos con técnicas perceptuales.
Esta variante del sistema ATRAC no ha sido incorporada por Sony en ningún
producto comercial, aunque, al parecer, existe un formato, llamado ATRAC Data,
____________________________________-'c"--(~)J~n'j!prc.si011 en Judit.
utilizado por Son)' en la distribucion de música digital a travcs del senicio de saté­
lite SkyPerfectTV en Japon, que es basicamente un ATRAC-2.
La figura 11.15 resalta las diferencias más importantes de la variante ATRAC-2
con respecto al sistema básico ATRAe. Para empezar, se utiliza un banco de filtros
PQF (Poliphase Qyadrature Filter) que proporciona resultados similares al QMF
(Qyadrature Mirror Filter) empleado en el ATRAC, pero requiere menor potencia de
cómputo. Este filtro analiza la señal de entrada mediante un banco de 96 puntos,
dividiéndola en cuatro bandas de frecuencia de igual anchura (en ATRAC se utiliza­
ban solo tres bandas, teniendo la banda alta tanta anchura como las otras dos jun­
tas). Las componentes de cada banda son a continuacion sometidas a un modifica­
dor de ganancia, que actúa preamplificando la señal justo antes de que se produzca
un transitorio. Esta preamplificacion es compensada en el decodificador aplicando
la correspondiente atenuación. Puesto que los transitorios pueden prodUCir ellla­
mado efecto "pre-eco", el cual puede entenderse como una especie de ruido, el con­
junto amplificación-atenuación actúa de forma similar a los sistemas reduccion de
ruido analogicos. Hay que recordar que este problema era afrontado por el ATRAC
original variando adaptativamente el tamaño de la ventana de transformación.
U­
ao..
(f)
ü)
:J
.«
Z
«
W
o
oo:::
~
ü:
(f)
W
(f)--l
::í~
wO
01­
z(f)
-oW-1­
uz
uUJ«z
0:::0
1-0..
x¿
W
oU
Codificación
componentes
tonales
Codificación
componentes
espectrales
Figura 11. 15.

Análisis tiempo-frecuencia en el ATRAe-2.

En cada banda básica se separan las componentes tonales, que son aquellos gru­
pos de coeficientes espectrales consecutivos, o distribuidos de forma uniforme
sobre el espectro y que pueden ser descritos mediante parámetros tales como su
localizacion y su anchura (las notas de un piano o de una trompeta pueden produ­
cir este tipo de distribuciones espectrales). Se considera que el oído es muy sensi­
ble a los errores que puedan cometerse en la cuantificación estos componentes
tonales, por lo que son cuantificados con la máxima precision. Los componentes
espectrales, que son aquellos que se reparten de forma más o menos desordenada
369
368
I
TECf,'C 11 (ll.1 ' -CTllAt DI' TU rSh1t'):--J
por el espectro, no necesitan tanta precisión, por lo que el codificador les otorga
comparati'amente pocos bits. Tanto los componentes tonales como los espectrales
son a continuación sometidos a compresión entrópica mediante tablas de Huffman.
Como suele decirse, "no hay dos sin tres" y, por supuesto, existe un ATRAC-3. De
hecho, éste es el miembro más popular de la familia)' el que se utiliza en los repro­
ductores actuales, incluidos los de estado sólido, que graban la música directa­
mente en chips, ya sean internos o en tarjetas de memoria. Estos reproductores sin
disco se conocen como "MP3", lo cual es incorrecto para los que utilizan como
algoritmo de compresión alguna variante del sistema ATRAe.
ATRAC-3 vuelve a utilizar filtros QMF como módulo básico para la división en
bandas de frecuencia, en lugar de filtros PQF de la variante ATRAC-2. De esta
forma se facilita la compatibilidad con el sistema ATRAC original. Por lo demás,
ATRAC-3 es idéntico a ATRAC-2 y el sufijo "3" quizá sea más un recurso comer­
cial para aprovechar el tirón del archipopular MP3 que un cambio de formato.
Recientemente han aparecido las versiones 3.5, 4.O Y 4.5, que no son variantes
nuevas, ya que siguen utilizando la misma estructura de procesado que el ATRAC­
3. Lo que hacen es introducir mejoras en la precisión de los cálculos mediante nue­
vos chip-sets.
Existe también un ATRAC-3 plus que no se utiliza en el minidisc, pero sí en
reproductores CD-walkman. Esta variante utiliza ventanas de transformación más
anchas (4.096 muestras o 92 ms) y, además, divide la señal en 16 bandas antes de
aplicar la MDCT.
4.4. El sistema APT-X
El APT-X apareció a principios de los 90. Su principal interés está en que utili­
za unil filoso na de funcionamiento totalmente distinta a los otros sistemas expues­
tos aquÍ. El principio de funcionamiento del APT-X se conoce como ADP~M, es
decir, codificilción PCM diferencial con adaptación. Por tanto, en este sistema no
se procesan o transmiten coeficientes frecuenciales, sino datos PCM, pero codifi­
cados con menos bits que las muestras originales. La reducción del número de bits
por muestra se logra codificando valores diferencia en lugar de valores absolutos.
La meta de este sistema es lograr un factor de compresión fijo de 4: 1, con un nivel
de calidad transparente.
El funcionamiento detallado de este sistema puede seguirse con ayuda de la figura
11.16. La señal de entrada ha de estar formada por palabras de 16 bits; en otro caso se
procede a una recuantificación previa. El primer módulo divide la señal de entrada en
cuatro bandas de frecuencia de igual anchura: HF o altas frecuencias, MHF o frecuencias
medias-altas, MLF o frecuencias medias bajas yLF o bajas frecuencias. Cada una de estas
bandas de frecuencia se codificará con una resolución o, si se prefiere, con errores de
cuantificación diferentes. Así ~e aprovechan las diferencias de precisión que muestra el
sistema de audición hunlano. Esta es la única concesión que APT-X hace al fenómeno de
enmascaramiento psicoacústico.
A la salida de! banco de filtros las muestras de audio siguen estando codificadas
con 16 bits. La reducción de la tasa binaria se logra codificando el "error de pre-
Compresión en audio
Subbanda HF
a;: :~~25 D J (2 bUs/muest,a) I
_ _ _ o 9 ------1 Quantificador
I Predictor 1.Vl
Subtlanda MHF L rO
e
 (3 blts/rnueSlra)

16l>ils D n:::> oaF"O.25 '9o. ~ Quantificador I o...,.4 palaDras 1 palabra
<ide 16 bJls <O de 7+4-+3+2 =
><a Fs Q) 16 bits a Fsw'O 16 bUs Subbanda MlF I Predictor ~ •...J
LL a..~ Fs x O,25_D~ (4 bllslm~estraJ¿
~a y ---~ Quantiflcador 1-' __u _ ,
:::>
¿~
iL - n - ­ ~~banda;:-;- -1 Predictor ~
D16btts (7 blts/muestra
~FS'O:'.59
L__. I
Figura 11.16.

Diagrama simplificado del codificador ADPCM de APT-X.

dicción". El sistema funciona como sigue: a la salida del cuantificador, y basándose
en el historial de las muestras anteriores, el bloque denominado "predictor" elabo­
ra un valor de predicción, es decir, calcula el valor más probable de la muestra
siguiente. A continuacion compara este valor de predicción con el valor real de la
muestra actual y la diferencia, que es el error de predicción, es la que cuantifica
con un número reducido de bits.
El decodificador tendrá un predictor idéntico al de! codificador y, anali~ando las
muestras previas, podrá llegar a las mismas conclusiones que el codificador. Esta es la
filosofía de adaptación hacia atrás o FABA expuesta en apartados anteriores. Si al valor
de predicción obtenido en e! decodificador se le suma e! error de predicción enviado,
lo que se obtendrá será el valor original. La clave del sistema está en que el error de
predicción sea claramente inferior al valor absoluto de las muestras. El error de pre­
dicc:ión, por otro lado, será tan pequeño como bueno sea el predictor y, en general,
siempre es mucho menor que los valores absolutos.
En APT-X lo que se hace es que la precisión con que se codifica el error de pre­
dicción depende de la banda de frecuencia a que pertenezca la muestra en cues­
tión. En las frecuencias bajas (entre Oy 5,5 KHz) se dispone de siete bits para codi­
ficar el error de predicción, lo cual permite afinar mucho. En la banda más alta
(entre 16,5 y 22 KHz) el error de precisión se codifica grosso modo con sólo dos bits
por muestra, lo que significa que las muestras de esta banda de frecuencias incor­
poran un ruido de cuantificación elevado, pero, por otro lado, el sistema auditivo
humano es muy tolerante en frecuencias tan altas.
Las ventajas más notables del APT-X son su sencillez en comparación con los otros
sistemas de compresión, su baja latencia, que está en torno a 3 ms para una frecuen·
cia de muestreo de la fuente de 48 KHz, y su ausencia de artificios audibles. A conti­
nuación se resumen las principales caractensticas de este sistema:
• Compresión 4: 1 desde tiempo real hasta 16x.
370 371
T1.UOI.()(,I; :nu.l. Ill. lll[ ISIO,,'"""	 _
o Frecuencias de muestreo desde 16 a 48 KHz.
o Frecuencias binarias de salida desde 56 a 384 Kbits! s.
o	 Muy baja complejidad del hardware (un solo chip).
o Tiempo de codificación extremadamente corto.
o Frecuencia de muestreo hasta 48 KHz con ancho de banda hasta 22 KHz.
o Alta tolerancia a los errores aleatorios.
o Muy robusto en la codificación en cascada.
o Predicción hacia atrás sin gasto de bits de control del decodificador.
o Respuesta de fase totalmente lineal.
o Capacidad para insertar datos auxiliares (hasta 12 Kbis!s).
o Modos: mono, estereo o dual.
Existe una versión APTX mejorada, denominada "Enhanced APT-X", desarrolla­
da a finales de los 90, que permite elegir la longitud de las palabras de entrada
entre 16, 20 o 24 bits, y también una variante llamada APT-Q de tipo perceptual
que utiliza bancos de filtros MDCT, por lo que se parece mucho a los sistemas
MPEG, AC-3 o ATRAe.
Resumen
o	 La compresión en audio digital produce dos beneficios: por un lado, aumenta la
capacidad de almacenamiento de un soporte dado; por atTO, recluce la velocidad
de transmisión necesaria. Pero tiene también algunos inconvenientes: aumenta la
complejidad de los equipos y puede perjudicar a la calidad de la señal.
o	 La estrategia de la compresión de audio se basa en la eliminación de la redun­
dancia; ésta puede ser de dos tipos: la "redunclancia matemática" o "redun­
dancia entrópica", que es aquella que se puede eliminar sin pérdida real de
información, y la redundancia perceptual, siendo esta ultima aquella infor­
mación que si es eliminada en el codificador no podrá ser reconstruida de
forma perfecta en el decodificador, pero tampoco supondrá una merma de
calidad apreciable por parte del usuario.
o	 En el oído interno la membrana basilar se divide en 24 regiones. Estas regio­
nes, llamadas "bandas críticas", podrían tener una anchura de unos 100 Hz por
debajo de los sao Hz, mientras que por encima, su anchura iría aumentando
a medida que crece la frecuencia.
o	 Una vez que una frecuencia muy concreta ha hecho vibrar su región, el siste­
ma se comporta como un circuito sintonizado de alta selectividad. De esta
forma cada región vibra a una frecuencia determinada por el estimulo de
mayor amplitud, mientras que ignora cualquier otro estímulo de intensidad
menor. Este mecanismo de simplificación, denominado enmascaramiento
auditivo, proporciona, por sí solo, la herramienta de compresión más poten­
te en el tratamiento del audio digital. ¿Para qué codificar aquellos tonos que
en realidad no oímos?
o Al igual que sucede con otros procesos perceptivos, el enmascaramiento audi­
tivo no es lineal. Al contrario, el enmascaramiento es muy superior en el
extremo de las altas frecuencias.
COllllJl C~IÓIl en audio
o	 Existe otro efecto denominado "enmascaramiento temporal", y significa que
no somos capaces de oir sonidos que se produzcan un poco antes o un poco
después que otro sonido más intenso. El precnmascaramiento es muy corto,
mientras que el postenmascaramiento es más largo.
o	 Para sacar partido del efecto de enmascaramiento frecuencial, que muestra el
sistema de percepción auditiva, necesitamos dividir el espectro de la señal de
audio en bandas o regiones, de anchura igualo inferior a las bandas de la
membrana basilar. La división de la señal de audio en subbandas de frecuen­
cia no sólo adapta las características de la señal a la forma en que trabaja el sis­
tema de percepción auditiva, sino que prepara la información de audio para
ser tratada de manera mas eficiente. Esta división del espectro de la señal de
audio puede hacerse mediante bancos de filtros o por medio de transforma­
das similares a la DCT empleada en vídeo.
o Cuando se utilizan bancos de filtros, suelen usa¡"se 32 subbandas. Con las tec­
nicas basadas en el dominio transformado cs posible utilizar un número
mucho mayor de subbandas, el cual suele llegar hasta 1.024.
o	 Los filtros que tienen una alta resolución en frecuencia (los que dividen el
espectro en muchas subbandas) presentan mala resolución temporal, lo cual
afecta a la codificación de aquellos cuadros de muestras que contengan transi­
torios, de manera que el ruido de cuantificación generado por el tnnsitorio
puede repartirse por todo el cuadro de muestras. Esto sc denomina "efecto
pre-eco", ya que se nota, sobre todo, al inicio del cuadro de muestras como
consecuencia de la asimetría del enmascaramiento temporal.
o	 Para contrarrestar el efecto pre-eco algunos codificadores son capaces de ana­
lizar los cuadros y detectar transitorios. En caso de que encuentren algún
transitorio en el cuadro, conmutan a un modo de trabajo distinto, en el que
se utilizan menos subbandas por cuadro, es decir, reducen la resolución fre­
cuencial para mejorar la temporal.
o	 Las decisiones tomadas por el codificador deben ser conocidas por el decodi­
ficador. Para esto hay varias estrategias. Una sería que el codificador hiciera
todos los calculas y tomara todas las decisiones. Otra posibilidad es que codi­
ficador y decodificador realicen los mismos cálculos y lleguen a las mismas
conclusiones sin necesidad de enviar bits extras. Cabe incluso una solución
"híbrida", en la que los cálculos diflciles son realizados en el codificador y
comunicados al decodificador mediante unos pocos bits extras, mientras quc
los cálculos de complejidad moderada se realizan en los dos extremos. Cada
modalidad tiene sus ventajas y sus desventajas.
o El mundo de la compresión de audio se divide en dos grandes sistemas: por
un lado, esta la familia de normas MPEG y, por otro, el sistema AC-3 de
Dolby. Otros sistemas muy difundidos son el ATRAC de Sony y los sistemas
APT, utilizados estos ultimas para transmisión y para audio en CD.
o En MPEG la señal de audio de entrada es descompuesta en porciones tempo­
rales llamados "cuadros", todos ellos de igual tamaño. Así un cuadro esta com­
puesto por 384 muestras en la llamada "capa I" y por 1.152 muestras en las
capas Ir y III. Los cuadros de audio son a continuación descompuestos en sub­
372
373
bandas de frecuencia de igual anchura mediante filtros digitales o mediante
transformadas tipo DCT. MPEG ofrece toda una familia de sistemas de com­
presión de audio, basada en dos normas o subgru]Jos (MPEG-l y MPEG-2) Y
en tres "capas" o niveles de complejidad.
•	 En MPEG-l se definen tres capas (laym) , denominadas 1, JI YIJI. Hasta hace poco
la capa II era la más utilizada, aunque, dada la popularidad del formato MP3, ya
no se puede decir lo mismo. Las capas de audio son similares a los perfiles de!
vídeo. Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con
tres frecuencias de muestreo: 32 KHz, 44,1 KHz y 48 KHz.
• La capa 1, que es la más sencilla, contempla frecuencias binarias de salida desde
32 Kbits/s hasta 448 Kbits/s. En esta capa la señal digital es dividida en cua­
dros de 384 muestras, que se distribuyen en 32 subbandas de igual tamaño,
quedando 12 muestras por subbanda y cuadro (32 x 12 = 384). La capa 1
puede utilizarse tanto para sonido monofónico, dos canales, estéreo o estéreo
común y resulta apropiado para aplicaciones de consumo, aunque también
para aplicaciones de estudio.
En la capa II cada una de las subbandas se codifica con 36 muestras, por lo que el
cuadro completo se compone de 1.152 muestras. Por tanto, los cuadros tendrán
una longitud de 24 ms (e! tTiple que en la capa 1), para una frecuencia de mues­
treo de 48 KHz (1/48.000 x 1.152 =24 ms). La mejora de la calidad del soni­
do se nota, sobre todo, en las tasas binarias más bajas.
•	 La capa III es verdaderamente soflsticada y toma lo mejor del sistema ASPEC
para proporcionar la máxima calidad para una frecuencia dada o, si se prefie­
re, la mínima tasa binaria para una calidad predeterminada. Con la capa mse
pretende una calidad casi transparente a 64 Kbits/s y canal.
•	 MPEG AAC es el último miembro (por ahora) de la familia MPEG-2 y ha sido
diseñado para proporcionar alta calidad de audio a frecuencias binarias de 64
Kbits/s y canal para aplicaciones multicanal. El tren binario codificado puede
acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre­
cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos
auxiliares. El AAC es, aproximadamente, un 30% más eficaz que la capa m.
• AC-3 de Dolby es e! principal contrincante de la familia MPEG. En lo referente
a la toma de decisiones, el AC- 3 de Dolby es un sistema híbrido, que utiliza tanto
reparto adaptativo hacia delante como reparto adaptativo hacia atrás. La rutina
de compresión básica es bastante sencilla y se basa en un modelo psicoacústico
fijo, que parte de ciertas premisas sobre cómo se producen los procesos de
enmascaramiento auditivo. A partir de estas premisas la predicción hacia delante
hace un par de modificaciones: por un lado, modifica los parámetros del mode­
lo psicoacústico y, por otro, las diferencias en e! reparto de los bits que se pro­
ducen al aplicar el modelo actual.
• El AC-3 fue	 diseñado para aplicaciones multicanal y es capaz de codificar
cinco canales con total ancho de banda (izquierdo, derecho, central, izquier­
do surround y derecho surround) , más un canal de realce de bajas frecuencias,
de ancho de banda reducido. La señal de entrada es filtrada para eliminar las
componentes desde DC hasta 3 Hz, dividida en bloques de 512 muestras, lo
COlllPl"e.'>IOl1 C'11 Judio
que equivale a 10,66 ms para la frecuencia de muestreo de 48 KH7. Ysepara­
da a continuación en 256 subbandas de frecuencia, mediante filtrado MDCT.
•	 El sistema de compresión ATRAC de Sony nació para resolver el problema de
poder grabar en un minidisc aproximadamente la misma música que cabe en
un CD de audio. El minidisc almacena música en un disco óptiCO o magneto­
óptico de 64 mm de diámetro)' tiene una capacidad equi"alente a 1/5 la del
CO, por lo que, si se quiere almacenar los 74 minutos del CO, habrá que apli­
car una compresión en torno a 5: 1.
• En lugar de trabajar con bloques	 transformados de longitud fija, el sistema
ATRAC elige la longitud temporal de los bloques de manera adaptativa,
basándose en las características de la señal en cada una de las bandas.
• ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino
que utiliza e! principio adaptativo hacia delante, donde todas las decisiones se
toman en el codificador y se comunican al decodificador. Esto permite que los
grabadores minidisc portátiles (que son la principal aplicación de este sistema)
utilicen durante la coclificación algoritmos relativamente sencillos, ya que estos
equipos necesitan ser pequeños y económicos.
•	 El APT-X apareció a principios de los 90 y su principal interés está en que uti­
liza una filosofía de funcionamiento totalmente distinta a los otros sistemas
expuestos aquí. El principio de funcionamiento del APT-X se conoce como
ADPCM, es decir, codificación PCM diferencial con adaptación.
•	 Las ventajas más notables del APT-X son su sencillez, en comparación con los
otros sistemas de compresión, su baja latencia, que está en torno a 3 ms para
una frecuencia de muestreo de la fuente de 48 KHz, y su ausencia de artifi­
cios audibles.
374 375

Tecnología actual de tv parejo carrascal

  • 1.
    {JG P1 cr:1L'0A .:~I L ..,o r+ Tecnología actual de televisión EMILIO PAREJA CARRASCAL INSTITUTO OFICIAL DE RADIO Y TELEVISiÓN
  • 2.
    COLECCIÓN MANUALES PROFESIONALES Tecnologíaacrual de televisión. Emilio Pareja Carrascal. 200S Diseño de cubierta: RUBÉN SERNA SANTOS (O INSTITUTO OFICIAL DE RADIO YTELEVISIÓN. RTVE Carretera Dehesa de la Villa, s/n. 28040 Madrid, 2004 ISBN: 84--88788-60-6 Depósito legal: M. 15_ J 13-2005 Imprime: Neografis, S. L. ÍNDICE PóB- CAPiTULO 1: LA SEÑAL DE ViDEO 21 1. Un poco de historia . 21 2. Características de la visión humana 22 2.1. Anatomía del ojo 23 2.2. La acomodación .... 23 2.3. El iris . 24 2.4. La retina . 24 2.4.1. Funcionalidad de la retina 25 2.4.2. Percepcion cromática .. 26 2.5. Resolucion espacial lumínica y cromática 27 2.6. Agudeza visual ... 28 2.7. Persistencia visual ... 29 3. La señal de vídeo .... 30 3.1. Frecuencia de cuadro 30 3.2 Entrelazado de campos 31 3.2. 1. Parpadeo interlínea . 32 3.3. Frecuencia de línea . . . . . . ..... 33 3.4. Proporciones de la imagen 34 3.5. Duración de una línea . 34 3.6. Niveles de tensión ... 35 3.7. Duracion de un campo 37 3.8. Ancho de banda .,. 38 Resumen . . 40 CAPiTULO 2: EL COLOR .•.. . 43 1. Naturaleza del color .. _ __ __ ... 43 1. 1. Aspectos físicos del color . 43 1.2. Aspectos psicofísicos del color . 43 1.3. Mezcla auditiva 44 1.3. 1. Colores primarios luz .. 44 1.3.2. Las leyes de Grassmann 45 1.4. Mezcla sustractiva . 46 1.5. Igualación de colores . 47
  • 3.
    JlliJiITTECb'J)LOGJA ACTUAL DETFL[,I.'lIÓN P<íH"Pág. 1.6. Escalas normalizadas . 48 4.2. Digital 102 102 .6.1. El sistema Runge 48 5. Conversión A/D 103 .6.2. El sistema Munsell 49 5.1. El muestreo 106 .6.3. El sistema Ostwald 50 5.2. A]¡ossing 109 .6.4. El triángulo intemacional de colores 50 5.3. La cuantificación . 110 1.7. Crominancia de un color 53 5.3.1. El ruido de cuantificación 1J 12. Las componentes de color 59 5.4. El dither . . . . 112 2. l. La corrección de gamma 62 6. El filtro de reconstrucción .. . . 114 2.2. Multiplexado de las componentes 64­ 7. El diagrama del ojo . . . . . . . . . . 115 Resumen 65 8. Tipos de señales digitales de vídeo . 116 CAPiTULO 3: Los SISTEMAS DE TELEVISiÓN . 67 Resumen . 119 1. Introducción . . . . . . . . .. 67 CAPiTULO 5: LA NORMA 4:2:2 ... 119 2. El sistema NTSC . . . . .. 67 1. Introducción...... . .. 120 2.1. Atenuación de las componentes . .. . .... 68 2. La norma 4:2:2 . . . . . . . . . . .. 120 2.2. Modulación en cuadratura de fases ... 68 2. 1. Elección de la frecuencia de muestreo . 120 2.3. Formación de la señal compuesta 69 2.1 . l. Frecuencia de muestreo de la luminancia .... 122 2.4. Descripción matemática .... .. . . .. 71 2. 1.2. Frecuencia de muestreo de CH y CR •••••••• • •• 123 2.5. El vector de crominancia . . . .. . .. 71 2.2. Señales codificadas . . . . . . . . . . . . . ... 125 2.6. Suma de luminancia y crominancia 73 2.2.1. Convenciones sobre notación . . . . . .... 126 3. Un formato intermedio: Y/ C . . .. .., 73 2.3. La línea digital . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 128 4-. Un sistema PAL . 74 2.4. Los filtros . 130 4-. 1. Los errores de fase . . . . ., . 75 2.5. Familia de normas . 131 4-.2. Alternancia de la polaridad de "V" . . . . . . . . . 75 2.5.1. La norma 4:4:4 " . . . . . . . . . . . . . . . 132 4-.3. El codificador PAL . . . . . . . 77 2.5.2. Lanorma4x4 . . 132 4-.4-. El decoficador PAL . 78 2.5.3. Las normas 2:1:0,4:1:1 y4:2:0 . 133 5. El sistema SECAM . . . . . . . . . . . . . . . . . . . .... 79 2.6. Cálculo de las frecuencias binarias . 134 6. Elección de la frecuencia de la subportadora de color 80 2.7. Aplicaciones de las distintas normas . 135 7. La secuencia PAL de 8 campos . . . . . . . .. 81 3. Interfaces para 4: 2: 2 . 136 8. Tipos de señal de vídeo . . . . . . .. 82 3.1. El interfaz paralelo para señal 4: 2: 2 . . . . . . . . . . . . . .. . . 137 9. Espectro de la señal de vídeo. .,. 84 3.1.1. Nivel 4:2:2 . 138 9. l. Patrones visuales y frecuencias . 84 3.1.2. Nivel 4:4:4 y 4- x 4 .. . . 139 9.2. Espectro de las señales complejas .. . ., . 85 3.1.3. Disposición de las muestras en la línea digital 4: 2: 2 . 140 10. Listado de normas de televisión por países . 87 3.1.4. El borrado de campo digital . 140 10.1 Variantes de sistema PAL . . . . . . . . . 92 3.1.5. La referencia temporal . . 142 Resumen . . . . . . . 92 3.1.6. Características eléctricas del interfaz paralelo . 143 CAPITULO 4: LA DIGITALIZACiÓN . 95 3.2. El interfaz serie para señales 4: 2: 2 . . 144 l. Ventajas de los sistemas digitales . 95 3.2.1. El código de canal . 145 1.l. Ubicuidad de los sistemas digitales . . 96 3.2.2. Características eléctricas del interfaz serie para señales 4:2:2 . 145 2. Situación de la televisión digital .. . . 96 4. Datos auxiliares . 146 3. Señales de vídeo y anchos de banda . 97 4.1. Capacidad de almacenamiento . 147 4. Definición de analógico y digital . . . . . . . . . .. . . 100 4.2. Formato de los datos auxiliares . . . . . 148 4.1. Analógico . 100 Resumen 9
  • 4.
    TECNOLO(;IA ACTUAL DETEI EVISIÓN Indice Póo Póg CAPITULO 6: LA SEÑAL DIGITAL COMPUESTA. . . . . . . . . . . . . . .. . . 151 10. Todas las herramientas juntas . 203 1. Introducción . 151 11. El b'1Jer de salida . 205 2. Elección de la frecuencia de muestreo . . . . . . . . . . . . . 152 12. Compresión temporal . 206 2. l. Muestras por línea . . . . . . . . . . . . . . . . . . . .. . . 153 12.1. Redundancia temporal _ . 207 2.2. Fase de muestreo . 155 12.2. Compensación de movimiento . 208 3. Rango de amplitudes . . 157 13. Combinar espacial y temporal _ . 210 4. Numeración de las muestras . 160 14. Precompresión . . 211 5. Referencia temporal de identificación . 162 14. 1 El ruido . . . . . . . . . . . __. .' . 212 .6. El campo digital 164 14.2. Exceso de corrección de apertura . 212 7. Características de los interfaces . 167 14.3. Suavizado de imagen. . . . 213 Resumen . 167 14.4. Otros defectos de entrada . 213 CAPITULO 7: COMPRESIÓN EN VIDEO . . . • . • • . . • . • . • • . • • . . • • . . • . . • . . . . . . . 171 15. Artificios de la compresión . . 213 1. Introducción............................................ 171 Resumen . . 214 .2. ¿Para qué comprimir? 172 CAPITULO 8: Los SISTEMAS DE COMPRESiÓN ........•.••.••..........•.... 217 3. Teoría de la información . 173 1. Introducción .. _. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 3.1. Tipos de compresión . 174 2. El sistema JPEG . . 217 3.2. Entropla vs redundancia . 174 2.1. Aplicación de la codificación Huffman . 219 4. Redundancias y entropla en las imágenes de televisión . 176 2.2. Características del JPEG . 221 4. l. Redundancia estadlstica . 176 3. El M-JPEG . 222 4.2. Redundancia percentual . 176 3. J. Variantes M-JPEG '" . 223 4.3. Entropla de las imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 4. La familia MPEG . . . . . . . . . . . . . . . . . . . . 224 4.4. Redundancia en tres dimensiones . 177 4.1. El sistema MPEG-l . . 225 5. Técnicas de reducción de datos . 179 4.1.1. Compensación de movimiento . . 226 6. Técnicas de compresión sin pérdidas . 180 4. J.2. Imágenes 1, P, B . 226 6. 1. Supresión de borrados . 180 4.1.3. Diagrama de bloque del codificador MPEG-I 227 6.2. Codificación de secuencias 181 4.2. El sistema MPEG-2 . 228d. 6.3. Codificación de longitud variable . 182 4.2. J. Perflles y niveles en MPEG-2 . 229 6.3.1. El código HuIfman . 183 4.2.2. Escalabilidad en MPEG-2 . 231 6.3.2. La codificación aritmética . 184 4.2.3. Estrutura del múltiplex MPEG-2 . 232 6.4. Introducción a la DCT . 185 4.2.4. Notas sobre el múltiplex MPEG-2 . 233 7. Técnicas de compresión con pérdidas . 186 4.2.5. Reordenación de las imágenes . 236 7.1. Codificación diferencial (DPCM) . 186 4.2.6. El lanzamiento en MPEG-2 . 237 7.1.1. DPCM con predicción adaptativa . 187 4.2.7. Estimación y compensación de movimiento . 239 7.1.2. Combinar DPCM yVLC . 188 4.2.8. Predicción basada en cuadro y en campo . 241 7.2. El submuestreo . 190 4.2.9. MPEG-2 en entorno profesional . 244 8. Codificación pro transformación . 19] 4.2.10. Calidad de la imagen 4:2:2P@ML . 246 8.1. Transformada de Fourier . ]92 4.2. J1. Transporte de los datos en MPEG-2 . 248 8.2. Teoría de la DCT . 193 4.2.12. Corriente de transporte multiprograma . 251 8.2.1. Interpretación de la DCT . 195 4.2. 13. Cabeceras e identificadores . . . . . . . . . . . . . . . . 252 8.2.2. La DCT no comprime: ¡ayuda a comprimir! . 197 4.2.14. Control del reloj del sistema . 254 8.2.3. Lectura en "zigzag" . 199 4.3. El sistema MPEG-4 . 256 9. Recuantificación de los coeficientes . 201 4.3.1. MPEG-4 perfil estudio . 257 10 11
  • 5.
    TEC;-';OLOGIA ACTuAL DETEL[,lSIUN Pós pós· 4.4. El MPEG-7 . 258 2.1.1. Muestreo ideal y muestreo real . 298 4.5. El MPEG-21 . 259 2. I .2. Criterio de N)'quist . 299 4.6. Los miembros de la familia perdidos 259 2. 1.3. Frecuencias de muestreo en la práctica 301 s. El sistema DV 260 2.1.4. Aliasina en audio . 303 S. 1. Entrelazado de campos en DV 261 2.2. La cuantificación .. ' . 305 5.2. Bloques, macrobloques y superbloques. 262 2.2. 1. La relación señal a ruido de cuantificación 30& 5.3. Análisis previo a la DCT 263 2.2.2. Cuantificación diferencial y no lineal 310 Resumen 265 2.3. Códigos ponderados), no ponderados . 311 CAPíTULO 9: EL AUDIO ANAlÓGICO . 269 2.3.1. Complemento a dos . . 312 ¡ . Naturaleza del sonido . . .. . .. 269 2.4. El dither . . . . . . . . .. . . 314 1.1. Intensidad del sonido 269 3. Interfaces digitales para audio . . 315 1.2. Tono de un sonido . 270 3.1. ElinterfazAES/EBU .. . 316 1.3. Timbre del sonido .. . .... 270 3.2. Terminología.. . . 316 1.4. Nivel de presión sonora . 271 3.3. Estructura del interfaz. . . . . . . . . . . . 318 1.5. Nivcles de sonoridad . .. 272 3.3. I . Estructura dc la subtrama . 318 1.6. Rango dinámico audible . . 273 3.3.2. Estructura de la trama . 319 I.7. Resolución espcctral del sistema de audición . 274 3.3.3. Codificación del canal . 320 2. Caractedsticas e1ectricas del sonido 275 3.3.4. Los preámbulos . 321 2.1 . Medidas de nivel 275 3.4. Formato de los datos de estado del canal . 322 2.1.1. El dBm 275 3.5. El interfaz SPDlF . 323 2.1.2. EldBu 275 3.5. l. Diferencias y similitudes entre AES/EBU y FPDlF . 324 2.1.3. EldBV 276 3.6. El Interfaz MADI . 325 2.1.4. EldBW 276 Resumen 326 2.2. Líncas equilibradas y no equilibradas .... . ... 276 CAPITULO 11: COMPRESiÓN EN AUDIO ...........•.. 329 2.3. Señales de alto y bajo nivel. . . . . . . . . . . . . . . .. 278 l. Introducción . 329 2.3.1. Micrófonos: sensibilidad e impedancia . .. ..,. 278 1.1. Utilidad de la compresión en audio . 330 2.3.2. Nivel de linca: sensibilidad e impedancia . 280 1.2. Redundancia................... . . 331 2. Medición y monitorizado de nivel . . . . . . 282 2. Anatomía del oído . . . . . . . . . . . . . . . . . .. . " . 332 2.1. El vúmetro ... .... . . . . .. 282 2.1 . División funcional del oído . . 332 2.2. El picómetro . . . . . . . . . . . .. 283 2.1 .1 . El oído externo . 332 3. Ruidos y distorsiones . . . . . . . . . . . . . . 284 2. I .2. El oído medio . . 332 3.1. Ruido 285 2.1.3. El oído interno . 333 3.3.1. Ruido aleatorio . 286 2.2. Fenómenos de enmascaramiento .... 333 3.3.2 Ruido periódico 288 2.2.1 . Enmascaramiento frecuencial 334 3.4. Distorsiones lineales .. 288 2.2.2. Enmascaramiento temporal 337 3.5. Distorsiones no lineales . 288 3. División en subbandas . . .. . .. 338 3.6. Lloro y fluctuación .. 289 3.1 . División mediante filtros . . . . . . .. 338 Resumcn 289 3.2. Codificación de las subbandas . . . . . .... 340 CAPITULO 10: El AUDIO DIGITAL 293 3.3. División por transformación. 341 1. Conceptos generales . 293 3.3.1. El efecto de pre-eco 342 2. Conversión A/D .. 295 3.4. Toma de decisiones. .. . .. 343 2. 1. El muestreo . 296 4. Los sistemas de compresión . 343 J2 13
  • 6.
    T[CNOI OCiA ~mLDE TFI.EVISI()N Póo 4.1. Las normas MPEG de audio. 344 4.1.1. El MPEG-I . 345 4. J.2. Aspectos generales de MPEG·¡ . 356 4.1.3. Las nuevas normas MPEG·2 . 357 4.2. El sistema AC·3 de Dolby . 360 4.2. ¡ . Precedentes históricos . 360 4.2.2. Codificación AC-3 . 361 4.2.3. FABA vs BABA . 362 4.2.4. Detalles del AC-3 . 363 4.3. El sistema ATRAC de Sony . 365 4.3.1. Principios básicos del ATRAC . 366 4.3.2. Unidades tempo·frecuenciales . 367 4.3.3. Variantes del sistema ATRAC . 368 4.4. El sistema APT-X . 370 Resumen .... , " '" " . 372 A mi bijo Carlos 14
  • 7.
    Agradecimientos Mi primer ymás grande expresión de gratitud es para mi empresa, RTVE, porque aquí he aprendido la mayor parte de lo que sé sobre tecnología de tele­ visión, tanto en mi primera etapa como técnico en TVE, como después en el Instituto Oficial de Radio y Televisión. Creo que este libro no hubiera sido posi­ ble sin el aporte de quienes han asistido a mis clases, ya sea en los cursillos impar­ tidos en el IORTV o en otras instituciones. Ellos me han obligado a organizar y sistematizar los conocimientos y a encontrar mejores ejemplos y explicaciones. También debo dar las gracias a quienes me han facilitado información, desde compañeros de RTVE hasta colegas de empresas como Sony o Panasonic. POl­ último, sería injusto si no tuviera en consideración y agradeciera la paciencia mostrada por mi propia familia. Escribir un libro es algo muy gratificante, pero roba muchas horas de asueto. 17
  • 8.
    Presentación Los años treintadel siglo pasado vieron el nacimiento de la televisión, los sesen­ ta la llegada del color y ahora, con el nuevo milenio, se generaliza la televisión digi­ tal. Con la tercera ola de tecnología, se está produciendo una verdadera revolución en la forma de producir televisión. Esto es consecuencia no solo de la natural madurez de la técnica y la ingeniería, sino también de la confluencia de tres secto­ res clave, que hasta ahora evolucionaban por separado: las telecomunicaciones, la informática y la televisión. Estos tres campos se unen para crear algo nuevo: el mercado audiovisual digital. En la actualidad, están cambiando la forma en que se generan los contenidos, la forma en que se postproducen y sobre todo el modo en que se distribuyen. Muy pronto los c1ips de video y audio se moverán dentro y fuera de los centros de pro­ ducción en forma de archivos informáticos (AAF, MXF... ), por redes LAN o WAN (Ethernet, Fiber Channel ... ). Pero cuando un estudiante de imagen y sonido o un ingeniero de telecomunicaciones intentan comprender el último sistema de com­ presión de video o el más moderno interfaz para transmisión de datos audiovisua­ les, a menudo se encuentra con que les falta un conocimiento preciso de las seña­ les de video y audio. Para comprender los sistemas de compresión avanzados hay que conocer la señal digital sin comprimir. Para comprender la señal digital, hay que dominar primero la analógica. Para entender la señal analógica es necesario conocer los principios básicos de la colorimetría y la percepción visual y auditiva. El conocimiento siempre se asienta en otros conocimientos previos más básicos. En este libro se ha intentado estructurar los conocimientos sobre tecnología de televisión, desde los condicionantes de la percepción visual y auditiva humana, hasta los sistemas avanzados de compresión de video y audio digital. El co­ nocimiento sobre tecnología de televisión no termina, ni mucho menos con el últi­ mo capítulo de este libro. Más allá hay temas relacionados con el tratamiento matemático de la información digital, como códigos de canal y tratamiento de errores o sobre equipamiento digital profesional: cámaras, magnetoscopios, equi­ pos de postproducción ... o con la utilización de equipos informáticos en la pro­ ducción de televisión: discos duros y servidores de video/audio, sin olvidar la próxima revolución: Televisión en Alta Definición Digital y Cinematografía Elec­ trónica. 19
  • 9.
    Por tanto, estelibro trata sobre la tecnología convencional de televisión; la que actualmente se esta aplicando en la producción de programas. Se ha intentado actualizar al maximo los contenidos, de forma que abarquen cualquier conoci­ miento técnico actualmente aplicado en la generación, producción, post­ producción), distribución de los programas de televisión. El libro se inicia con tres capítulos dedicados a la señal analógica: un capítulo dedicado al sistema de percepción visual)' a la señal en blanco)' negro; un capítu­ lo donde se tratan los principios de la colorimetría), la formación de las señales de color en televisión y un capítulo dedicado a los tres sistemas básicos de televisión en color actuales: PAL, SECAM y NTSC. El capítulo cuatro es, probablemente, el más técnico y trata sobre la digitalización de las señales de video. Aunque es el de más contenido matemático hay pocas fórmulas ya que en general se han evitado en la medida de lo posible en todo el libro; el experto en matemáticas no las necesi­ ta y al que no las entiende solo le confunden. Los capítulos 5 y 6 se dedican a las dos normas actuales de televisión digital; La norma por componentes recogida en la Rec. 601 y conocida como 4:2:2 y la norma de video digital compuesto conocida como 4fsc. El capítulo 7 es lll10 de los más extensos y trata la teoría en que se fundamentan los sistemas de compresi6n de video. El capítulo 8, por su lado explica los sistemas reales de compresi6n de video, es decir la aplicación práctica de las explicaciones del capítulo 7, desde los sistemas MPEG hasta la compresi6n YCPRO. Los capítulos 9 al 11 están dedicados al audio y siguen la lógica progresi6n de: audio analógico, audio digital y compresión de audio. En este último capítulo se recogen los mas modernos sistemas de compresión: el MPEG-AAC, e! AC-3 de Dolby, el ATRAC de Sony, o las normas APT-X. El propósito de este libro es el de proporcionar, en un solo volumen los cono­ cimientos que toda aquella persona relacionada con la tecnología de television debería dominar. Si en alguna medida esto se consigue, el autor se considerará sufi­ cientemente compensado. CAPÍTULO 1 La señal de vídeo 1. Un poco de historia La television, tal y como la conocemos hoy en día, nació y se definió en los años 30, una época de rápidos avances tecnol6gicos. Aunque ya han pasado más de sesenta años, las normas y sistemas actuales de televisión sufren, en parte, las limi­ taciones tecnológicas de aquella época. Las soluciones adoptadas por los pioneros de la televisi6n no s6lo estaban limitadas por la tecnología existente, sino que debí­ an ser, además, econ6micamente aceptables, tanto para e! radiodifusor como para el espectador. Por otro lado, no todos los avances tecnol6gicos posteriores pudie­ ron ser aplicados, ya que cualquier innovación debía ser, además, compatible con los millones de receptores instalados en todo el mundo. La historia del desarrollo de la te!evisi6n ha sido, en esencia, la historia de la búsqueda de lll1 dispositivo adecuado para explorar imágenes. El primero fue e!lIa­ mado disco Nipkow, patentado por e! inventor alemán Paul Gottlieb Nipkow en 1884. Era un disco plano y circular, que estaba perforado por una serie de peque­ ños agujeros dispuestos en forma de espiral partiendo desde el centro. Al hacer girar el disco delante del objeto, e! agujero más alejado de! centro exploraba una franja en la parte más alta de la imagen y así sucesivamente, hasta explorar toda la imagen. Sin embargo, debido a su naturaleza mecánica, e! disco Nipkow no fun­ cionaba eficazmente con tamaños grandes y altas velocidades de giro, necesarios para conseguir una mejor definici6n y lll1a buena reproducci6n de! movimiento. Después de muchos experimentos poco satisfactorios con elementos mecáni­ cos, aparecieron, a mediados de los años 30, los primeros sistemas basados en la exploraci6n e1ectr6nica de la imagen. Estos sistemas, denominados entonces de "alta resoluci6n" iniciaron sus emisiones de forma casi simultánea en Inglaterra, Francia y Alemania. Las imágenes de aquella época tenían una resoluci6n vertical de lll1as 400 líneas (405 en Inglaterra y 441 en Francia y Alemania). En los Estados Unidos de América, después de experimentar con distintos sistemas e!ectronicos 20 21
  • 10.
    TECNOI'odA ACTUAL DETE:LlVIS¡ÓN de 300 a 400 líneas, se optó en 1941 por el sistema de la NationalTe!evision System Committee (NTSC) de 525 líneas, que, con pequeñas modificaciones, se ha man­ tenido hasta la actualidad. La relación de aspecto (relación entre la anchura y la altura de la pantalla) fue desde un principio, y en todos los casos, de 4: 3. Esta rela­ cion de aspecto se mantiene en los sistemas actuales convencionales. Después de la segunda guerra mundial, Inglaterra continuó con su sistema de 405 líneas y Francia con el suyo de 441 líneas. En 1948 Francia adopto un sistema de 819 líneas, que, al menos por el número de líneas de exploración, podría con­ siderane como el predecesor de la HDTY. Alemania y e! resto de Europa adopta­ ron el sistema de 625 líneas. Los Estados Unidos de América introdujeron el color en 1953 (sistema NTSC), mientras que en 1968 nació el sistema de color PAL, adoptado por la mayoría de los países europeos y de otros continentes. Francia diseñó su propio sistema de codificación de! color (SECAM), que también adoptaron muchos de los países del este de Europa y de! norte de África. Durante años no solamente había en Europa tres sistemas de exploración y dos métodos de codificación del color, sino que, además, convivían siete normas de transmisión incompatibles entre ellas. Esta situación se corrigió en parte durante los años 80, cuando Francia e Inglaterra abandonaron sus sistemas de 819 y 405 líneas, respectivamente, en favor del siste­ ma de 625 líneas. Esto demuestra lo difícil que es cambiar un sistema de televisión; los arcaicos sistemas de los años 30 tardaron cincuenta años en ser sustituidos. Actualmente en Europa sólo hay dos sistemas de televisión en color: e! PAL Y el SECAM, ambos con 625 líneas. Puede darse cuenta el lector de que todos los sistemas, actuales o no, utilizan un número impar de líneas. La explicación se verá un poco más adelante. 2. Características de la visión humana Es evidente que cualquier medio de reproducción de imágenes debe e~tar adapta­ do a las características y capacidades del sistema de percepción visual humano. En el caso de la televisión esto es especialmente cierto, ya que los limitados anchos de banda de grabaCión y transmisión obligan a optimizar, de forma muy cuidadosa, qué infor­ mación se capta, procesa y, finalmente, se envía al espectador. Por esto es especial­ mente importante e! conocimiento de! sistema visual humano. En ocasiones suele compararse el ojo con una cámara fotografica y, aunque se parecen en ciertos aspectos, difieren en muchos otros. En primer lugar, la cámara no esta "conectada" a un cerebro capaz de interpretar las imágenes. La cámara es imparcial, mientras que el ojo ve las imágenes de forma selectiva e inteligente. Otras diferencias importantes entre el ojo humano yla cámara fotografica se refie­ ren a la capacidad del primero a, por ejemplo, reconocer los colores con indepen­ dencia del tipo de luz que los ilumina, a la disposición de las terminaciones sensi­ tivas en la retina, que proporcionan una gran definición en el centro de la imagen, en torno al eje óptico, al hecho de que la película cinematografica integra la luz en el tiempo, etc. Pero todos estos aspectos serán comprendidos mejor analizando la anatomía y funcionalidad del ojo humano. La s~ñal de vídeo 2.1. Anatomía del ojo La figura 1.1 muestra las partes más importantes de! ojo humano. En primer lugar podemos apreciar la córnea, que junto con el cristalino forman el sistema de lentes de! ojo. Mientras que la córnea puede considerarse como una lente de lon­ gitud focal fija, el cristalino, gracias a su capacidad para variar de curvatura, ofre­ ce una longitud focal variable. En efecto, de forma automática e imperceptible, e! cristalino, gobernado por los músculos ciliares, adapta su curvatura para formar siempre una imagen nítida sobre e! fondo del ojo. Cuando miramos un objeto cer­ cano, el cristalino, que está formado por una serie de capas transparentes (como una cebolla), se redondea para acortar su longitud focal. En el caso contrario, es decir, cuando miramos algo lejano, la longitud focal aumenta, como consecuencia de que e! cristalino se aplana. El proceso de adaptación de la longitud focal, es decir, de la curvatura del cristalino, se denomina acomodacion. Cuando una per­ sona envejece, el cristalino pierde flexibilidad y disminuye su capacidad de aco­ modación. Entre la cornea y el cristalino se encuentra una zona llena de líquido vis­ coso denominado humor acuoso. De la misma forma, e! interior de! globo ocular, entre el cristalino y e! fondo del ojo, está ocupado por e! humor vítreo. 2.2. La acomodación Una persona joven puede enfocar sin dificultad desde unos 15 cm hasta infini­ to. A esta distancia de 15 cm se le llama "punto próximo", mientras que a unos CÓRNEA RETINA (Detalle de la capa pigmentaria en lomo 8 111 1'6vea) [l CONO ::~: BASTÓN o( ~'k ~ I ~ 11:o( ~" (Oetalle de la capa pigmentaria en la zona periférica) NERVIO OPTICO HUMOR ACUOSO Figura 1.1. Anatomla del ojo humano (izquierda) y detalle de organización funcional de la retina (derecha). 2322
  • 11.
    --- Lil ~l:Ú~L~Jc dU<;QTeCNOLOGíAACTUAL DE TELE'-''-''I'''SI"Ó'''N'--- _ SO m se encuentra el "punto remoto". fS!() significa que la extensión de la acomo­ dación varía entre 1S cm (c:uando el cristalino está mas redondeado y SO m (cuan­ :do eTcri;;:alino se encuentra más aplanado). La-ext~).ón de la acomodación se mide en dioptrías y es igual a: . ¡ l l Distancia al punto remoto (m) Distancia al punto próximo (m) La amplitud de acomodación expresada en dioptrías representa la potencia de la lente que sustituiría al mecanismo de acomodación. 2.3. El iris Bañado por el humor acuoso se encuentra el iris. Se trata de un mecanismo capaz de regular la cantidad de luz que pasa por el ojo, para permitirnos ver los objetos del mundo exterior en muy variadas condiciones de iluminación. Al igual que el diafragma de una camara, se cierra cuando las imágenes son muy brillantes y se abre en condiciones de escasa iluminación. Sin la ayuda del iris las imágenes a plena luz del Sol nos cegarían. Como sucede con e! cristalino, e! trabajo de adap­ tación del iris es automático e imperceptible. El diámetro mínimo de la apertura formada por el iris es unos 2 milímetros, cuando está totalmente cerrado, mientras que el diámetro máximo, cuando está totalmente abierto es de unos 8 mm. Ante un estímulo luminoso, el iris reacciona abriéndose o cerrándose. El tiempo necesario para que el iris se cierre al máximo es de unos 0,3 segundos, mientras que el tiempo para abrirse es aproximadamen­ te 1,2 segundos. Cuando un rayo de luz penetra en el ojo, pasa a través de la cór­ nea transparente, e! humor acuoso, el cristalino y e! humor vítreo, todo lo cual ayuda a enfocar la luz sobre la capa de terminaciones sensitivas en e! foqdo de! ojo, denominada retina. 2.4. La retina La retina es la superficie interior sensible del ojo humano. Se u-ata de un complejo sistema de terminaciones nerviosas, formada por dos clases de células sensitivas, llama­ das conos ybastoncillos, capaces de convertir la luz en impulsos eléctricos. Además de los conos y los bastoncillos, otros tipos de células retinianas, como las bipolares, horizontales, amacrinas y ganglionares, llevan a cabo una serie de pro­ cesos de tratamiento de la información, antes de enviarla a traves del nervio óptico al cerebro. Entre estos procesos destacan: la detección del movimiento y su direc­ ción, el realce de bordes, la intensificaci6n por contraste y la compresion o reduc­ ción de la cantidad ele información. Así, la retina, en lugar de sacar un mapa punti­ llista de la imagen que sobre ella se forma y enviar la información punto a punto al cerebro, extrae de dicha información todo lo importante, optimizando la vía de enlace con el cerebro, que es el nervio 6ptico. /~- PUNTO CIEGO 1 0:::« °w0...0::: 1I ICf).« Ww 11 0::: °0 0 f-«0... W_0 / OZ /W:J o::: --/" " Figura 1.2. 80 40 O 40 80 Disposición dc conos y bastuncs DESPLAZAMIENTO ANGULAR en la retina. La máxima densidad DE LA RETINA (EN GRADOS) dc fotorreceptores se concentra BASTONES en la fóvea, coincidiendo con el eje visual.- - - CONOS 2.4.1. Funcionalidad de la retina Como consecuencia de la especial disposición de conos y bastones en la retina, se obtiene una imagen totalmente nítida en una zona que abarca unos 2°, tomando como centro e! eje visual. A partir de 10° la imagen comienza a hacerse borrosa. En cuanto al color, aparece una cierta desaturación a partir de 2°, mientras que la imagen en la periferia es totalmente desaturada. El campo visual abarcado en el sentido horizontal es de unos 170°, de los cua­ les 110° corresponden alIado exterior y 60° alIado nasal. Girando e! ojo se puede abarcar un campo nítido de unos 75° sin mover la cabeza. Pero volvamos a los conos y los bastones. Dispone cada retina, en el hombre, de unos 7 millones de conos y 160 millones de bastones. Los conos están diseminados entre los bastones, pero se localizan, preferentemente, en el centro de la retina, coincidiendo con el eje óptico, en una zona denominada fóvea. Por su color amari­ llento también se suele llamar a esta zona mácula lutea o mancha amarilla. Tan s610 la fóvea es capaz de ver las cosas con detalle, es decir, perfectamente definidas y como esta zona abarca un ángulo, con respecto al centro de! cristalino, de aproxi­ madamente un grado o poco más, sólo los objetos situados en el eje 6ptico pueden analizarse con detalle. Colocados a un metro de una libreria, abarcamos con la visi6n unos dos metros de libros, sin necesidad de mover la cabeza ni e! globo ocu­ lar, pero únicamente podemos leer con claridad el título del libro que esta justo frente a nosotros. Ésta es una diferencia muy importante con respecto a la cámara, ya sea de fotografía, cine o televisión. En los tres casos la imagen presenta aproxi­ madamente la misma definici6n o nitidez en toda su superficie. Nosotros, en cam­ bio, vemos las cosas definidas de forma secuencial: primero una y luego otra. 2524
  • 12.
    TlCNOLOGIA ACTUAL DETELEVISIÓN A pesar de que cada retina contiene unos 170 millones de células sensitivas, entre conos y bastones, sólo dispone de un un millón de fibras para enviar la infor­ mación al cerebro. Así pues, la retina ha de comprimir la información antes de conectarla al nervio óptico. De esto se encargan las células bipolares, las cuales conectan varias células sensitivas a una sola fibra del nervio óptico. En e! centro de la retina, es decir, en la fóvea, cada célula sensitiva, sea ésta cono o bastón, está conectada a una fibra, mientras que e! número de células sensitivas conectadas a una misma fibra del nervio óptico aumenta a medida que nos acercamos a la peri­ feria. Las células amacrinas y horizontales trabajan transversalmente, sumando y res­ tando la información proporcionada por distintas células sensitivas, más o menos cercanas, para procesar la información, resaltando bordes o detectando movi­ miento. 2.4.2. Percepción cromática Como se ha dicho, hay en la retina dos clases de células sensitivas, conos y basto­ nes. Sin embargo, existen tres tipos de conos: los que presentan máxima sensibilidad a la luz de longitud de onda corta, es decir, a los azules; los que responden sobre todo a la luz de onda larga (rojos) y los sensibles a las longitudes medias (verdes). En pre­ sencia de un estímulo de luz roja, por ejemplo, e! grupo de conos "rojos" es e! que envía más potencial de impulsos al cerebro. Si la luz es amarilla, tanto los conos "rojos" como los "verdes" envían potenciales de acción al cerebro, mientras que los conos "azules" quedan prácticamente inhibidos. De esta forma, mediante proporciones variables de información "roja", "verde" y "azul", e! cerebro es capaz de reconocer millones de colores distintos. La visión en color es, pues, función de los conos, los cua­ les enviarán al cerebro distintas combinaciones de información roja, verde y azul para cada uno de los colores. Con niveles altos y medios de iluminación, los conos no tienen problemas para convertir la luz en impulsos eléctricos, pero cuando e! nivel de luz disminuye, como, por ejemplo, durante la noche, los conos son incapaces de trabajar. En esta situación entran en funcionamiento los bastones, los cuales son mucho más sensi­ bles que los conos. Se calcula que los bastones son capaces de convertir la energía luminosa de un solo fotón (la mínima cantidad de luz posible) en información útil para e! cerebro. Como sólo se dispone de un tipo de bastón y no de tres, como en e! caso de los conos, la visión nocturna carece de color y, como suele decirse, "de noche todos los gatos son pardos". Mientras que durante e! día, cuando trabajan los conos, la máxima sensación de brillo se obtiene para los colores medios del espectro (verdes y amarillos), duran­ te la noche ésta se desplaza hacia los azules. En el primer caso se habla de visión fotópica, mientras que en el segundo de visión escotópica. Con visión escotópica el ojo enfoca a unos 6° de! centro de la fóvea, para apro­ vecharse de la mayor densidad de bastones fuera del eje óptico, y adquiere "miopía nocturna" de 2 dioptrías, al no enfocar exactamente sobre la retina. Además aumentan las aberraciones geométricas al abrirse totalmente e! iris. 500 600 700 (NANÓMETROS) La señal de "ideo í SENSIBILIDAD ESCOTÓPICA « ' .. 2': 1,0 I //-....,/"'. SENSIBILIDAD ~ I I /, FOTÓPICA w 0,75 i / ' I a:: I I o I § 0'5 : " - I Q:l 035 I (J)' / Z / 1W , Figura 1. 3.(J) 0' , ------"c Curvas de sensibilidad fotópica )'400 escotópica. 2.5. Resolución espacial lumínica y cromática La resolución espacial lumínica se cifra en l' de grado. Esto significa que si dibu­ jamos sobre una pizarra blanca dos puntos negros, uno encima del otro, y nos ale­ jamos lo suficiente como para que los dos puntos formen con el centro del ojo un ángulo igualo inferior a l' de grado, comenzaremos a percibirlos como uno solo. Éste es el límite de resolución o "agudeza visual" de una persona normal. Esta capa­ cidad de resolución sólo se obtiene en la parte central de la retina (la fóvea), es decir, la zona correspondiente al punto donde centramos la mirada. A medida que nos alejamos del eje visual la resolución disminuye progresivamente, de la misma forma que disminuye el número de células. Esto es lo que se ha intentado repre­ sentar en la figura 1.4, donde puede verse que la parte central de! campo visual excita muchas más neuronas de! córtex visual que e! campo periférico. En otras palabras, la imagen neuronal está distorsionada; la mayoría de las células corticales procesan la información correspondiente al centro de! campo visual. En general, la resolución cromática es inferior a la resolución lumínica. Esto significa que e! sistema de percepción visual obtiene imágenes de muy alta resolu­ ción en lo relativo a detalles y texturas que presentan cambios de brillo, pero resuelve bastante peor cuando las imágenes sólo presentan cambios cromáticos (de matiz y/ o saturación). Para zonas visuales que abarquen ángulos de menos de 4' de grado no hay sensa­ ción cromática. Entre 4' y 12' de grado se obtiene sensación cromática sin precisión de! matiz. A partir de 12' es posible apreciar todos los matices, si bien después de 2° comienza una pequeña desaturación, la cual se hace total en la periferia de la retina. Podemos ver que la agudeza visual a la información de color es, en el mejor de los casos, cuatro veces menor que la agudeza a la información de blanco y negro. Éste es un hecho muy importante, de! que sacan partido todos los sistemas de TV Por último, la información proporcionada por las células sensitivas es llevada, a través de las células bipolares, a las ganglionares. Estas últimas son en realidad las terminaciones de las fibras del nervio óptico, e! cual tiene como misión transmitir las señales visuales, convertidas en impulsos eléctricos, al cerebro. 2726
  • 13.
    TLCNOLOGIA ACTUAL DETUL VISiÓN ___La sdl.-ªt<lk,Ihkº as fueron diseñados teniendo en cuenta esta agudeza visual de 1' Yasumiendo una dis­ tancia de visionado eCluivalente a seis veces la altura de la pantalla. La relación entre el ,r;,­ número de elementos de imagen que pueden resolverse, en función dc una altura de imagen y una distancia de visionado determinada, es: 'R' Nv =_1_ 011<,,-j J:~-JT" OJO DERECHOI "­ NERVIO OPTICO OJO IZQUIERDO .-- ~Jwt,.~J1,t .;;r QUIASMA. Opnco IMAGEN RETINIANA '-' -' CUERPO GENICUlADQ LATERAl (OERECHO) .. ' ...TU8~RCUlO ....SUPERIOR ¡;. ¡- '~:;."~~--:t...:)~~. "'C J ..CUERPO GENICUlAOO 1 LATERAl (IZQUIERDO) ~ +.'. ."'i ,t- ... ~r, '-..J RADIACIONES ÓPTICAS !~"".:>~~ V;l,.~J·t>~ ,Figura 1.4. Sendas visuales que conducen L ~¡::~";' '~. rk:~ .e7 ·u··~~::"r. CORTEX VISUAL . ÁREA"· ....~ • EXTRlADO . la información desde el ojo VISUAL ". ~--;- hasta el cerebro. Diversos nervios motores actúan sobre los músculos que regulan el movimien­ to del globo ocular y ele! parpado superior. El nervio óptico es un haz de finas fibras conectado a la parte posterior de la retina, en una mancha un tanto descentrada hacia la nariz, denominada punto ciego, ya que es insensible a la luz, por carecer de células sensitivas. Dibujando una cruz en el centro de la página de la izquierda de un cuaderno y un círculo negro en el centro de la pagina de la derecha es posi­ ble detectar la presencia del punto ciego. Basta con cerrar el ojo i~quierdo y, mirando la cruz, alejar y acercar e! cuaderno hasta que e! círculo desaparece, pues­ to que su imagen está cayendo justamente en el punto ciego del ojo derecho. Es sorprendente cómo el sistema de percepción visual se "inventa un trozo de imagen" para compensar e! efecto del punto ciego. 2.6. Agudeza visual La agudeza visual se mide como el ángulo que forman los límites del detalle más pequeño que puede discernirse con respecto al centro del ojo humano. En el caso de la televisión, esto equivaldría a la separación de dos líneas de exploración con­ secutivas. Los sistemas de televisión se han diseñado tomando como referencia para la agu­ deza visual 1 minuto de grado. En televisión, la medida de la resolución se expresa como el número de líneas alternativamente blancas y negras que puede resolverse (separarse visualmente) sobre la altura total de la imagen y se expresa como "líneas por altura de imagen" (Lines per Ficture Heiaht o LPH). Los sistemas de 525 y 625 line­ siendo Nv el número total de elementos que pueden resolverse en la dirección vertical. a= El angula mínimo discernible por el ojo (en radianes). n = D/H (distancia de visionado partido por altura de la imagen) Ahora si a =1 minuto de arco, o 2,91 x 10·4 radianes y n =6, entonces Nv = 1 ~ 570 [{neas (6 x 2,91 x 10-') 2.7. Persistencia visual Es la capacidad del sistema de percepción visual humano para retener las imá­ genes retinianas después de que ha cesado el estimulo. Esto significa que la sensa­ ción visual "persiste" durante un pequeño período después de que ha desaparecido la imagen óptica de la retina. En condiciones normales, este breve período es de aproximadamente una décima de segundo. Sin embargo, una frecuencia de exhibi­ ción de 10 imágenes por segundo (10 ips) sería insuficiente para reproducir ade­ cuadamente el movimiento. Por esto en cinc y televisión se utilizan frecuencias de exhibición de mas de 10 ips. Se define como "frecúencia crítica de parpadeo" la mínima frecuencia a la que se debe encender y apagar una fuente de proyección sin que la imagen parezca par­ padear. La perceptibilidad de! parpadeo depende en gran medida de las condicio­ nes de visionado. El umbral de parpadeo viene determinado, entre otros, por los siguientes factores: la luminancia de! área parpadeante, e! color del área, e! ángulo sólido subtendido por el ojo y e! area visual, e! tamaño absoluto del área parpade­ ante, la luminancia de! area que rodea a la imagen y la adaptación del observador a las condiciones de visionado. En televisión, la frecuencia de encendido-apagado o frecuencia de repetición viene determinada por la frecuencia de campo, que es de 50 Hz para las normas de 625 líneas y de 60 Hz para las normas de 525 líneas. Esto es así porque cada una de las 25 ó 30 imagenes (según la norma) que se proyectan cada segundo se divi­ de en dos "semiimagenes" o "campos", tal como se vera un poco mas adelante en este mismo capítulo. Como se ha visto, e! umbral de parpadeo depende del brillo de la imagen. Cuanto más brillante sea la imagen, más alta debera ser la frecuencia de refresco de la pantalla para que no se perciba el parpadeo. La tabla 1.1 muestra el umbral de parpadeo (la luminancia a la cual empieza a percibirse el parpadeo) para las fre­ cuencias de exhibición más utilizadas., 2928
  • 14.
    TECNOLOGJA ACTUAL ,,,Il,,,E--,".='E.c.Lc.E'-"'-=""'l'l"'N'---_ Tabla 1.1 Umbral de parpadeo en función de la frecuencia de exhibición. Frecuencia de Imágenes por Umbral de parpadeoTIpo de imagen Exhibición (Hz) segundo (cd/m') PELfCULAS 48 24 68 TELEVISiÓN (SO Hz) SO 2S 100 TELEVISiÓN (60 Hz) 60 30 600 Como puede verse en la tabla anterior, la baja frecuencia de encendido-apaga­ do de las imágenes de cine hace que pueda aparecer parpadeo incluso con brillos de imagen relativamente bajos (68 cd/m'). Sin embargo, el hecho de que las imá­ genes de cine se proyecten en ambientes oscuros ayuda a reducir la sensacion de parpadeo. También puede apreciarse el incremento exponencial del umbral de par­ padeo en funcion de la frecuencia de exhibición (se pasa de 100 a 600 cd/m' al incrementar en 10 Hz la frecuencia.de exhibicion). 3. La señal de vídeo Una imagen de television puede ser considerada como una informacion que fluye simultáneamente en tres direcciones: horizontal, vertical y temporal. Puesto que la señal de vídeo solo puede discurrir en una direccion (el tiempo), se hace necesario descomponer la imagen en dos de sus tres dimensiones. Desde los inicios de la televisión se opto por analizar el contenido de la imagen siguiendo un patrón de líneas, de izquierda a derecha y de arriba abajo. El proceso se realiza de forma similar a como los humanos leemos la información de una pági­ na impresa: comenzamos por la esquina superior izquierda y avanzamos hasta la parte derecha. A continuación volvemos la vista rápidamente a la izquierda y un poco más abajo para comenzar la línea siguiente y así sucesivamente hasta termi­ nar la página. A cada punto de la imagen le corresponde un valor de coniente eléc­ trica proporcional al brillo de ese punto si se trata de blanco y negro o tres valo­ res distintos si se trata de una imagen de color. Una vez terminada una imagen, se analiza la siguiente y así sucesivamente. 3. 1. Frecuencia de cuadro Para comenzar es necesario determinar cuántas imágenes se han de analizar en un segundo. De esto depende la suavidad y naturalidad con que será reproducido el movimiento. Como se ha visto en el apartado anterior, en cine profesional (que es anterior al naci­ miento de la television) se trabaja con 24 fotogramas por segundo (fPs), cadencia sufi­ ciente para una buena reproducción de las imágenes en movimiento. En televisión se opto por 25 imágenes por segundo (ips) en Europa y 30 en Estados Unidos. La razón de emplear una frecuencia de imagen (se suele llamar frecuencia de cuadro) de 25 ips es doble. En primer lugar, permite sincronizar la frecuencia de imagen con la frecuencia de la red eléctrica (50 Hz es justo el doble de 25 Hz), lo La señaI de vídeo que simplifica el diseño del receptor, al tiempo que, al ser la frecuencia de la red múltiplo exacto de la frecuencia de imagen, cualquier interferencia que, provenien­ te de la red, se produzca sobre la imagen se mostrará como estacionaria, lo cual es subjetivamente menos molesto que una interferencia movil. En segundo lugar, 25 ips está muy cerca de los 24 fotogramas que se emplean en cine, de manera que el material filmado se puede pasar directamente por televisión. 3.2. Entrelazado de campos Una desventaja de esta frecuencia relativamente baja es que produce parpadeo. En cine este problema se resuelve proyectando cada fotograma dos o tres veces, de manera que la frecuencia real de proyeccion es de 48 o 72 fps, lo cual resulta suficiente como para eliminar la sensacion de parpadeo de la imagen. Al proyec­ tar cada fotograma varias veces no se utiliza más película que en el caso de pro­ yectarlo una sola vez, con lo que el sistema resuelve el problema del parpadeo sin un coste adicional. Se podría pensar que la solución lógica en television consistiría en doblar el número de imágenes por segundo, trabajando con 50 ips en lugar de 2S. Sin embargo, esto presentaría un problema importante: se doblaría también el ancho de banda, y por tanto, la anchura del canal de transmision. Dicho de otra forma, harIa falta el equivalente a dos canales de TV para transmitir un solo programa. Puesto que los canales de transmisión y el espacio radioeléctrico en su conjunto son un recurso natural, hay que optimizarlo. CAMPO 1 CAMPO 2 CUADRO LINEA LINEAESCRITURA 313 ,~RITURA 2, ". 315 ~" 315 :E==El "'~ 31;~ 313 3 '. ", RETRAZADO RETRAZADO ====­ = -= == ==-;;; ~ .... Figura 1.5. Entrelazado de campos. La imagen de 625 líneas se divide en dos campos entrelazados de 312,S líneas cada uno. 30 31
  • 15.
    TE_eNOLOGÍA ICTUIL DE·II.:.LE'rS",16L.lN,-' _ Dado que la imagen de televisión está descompuesta en líneas, una solución inteli­ gente para resolver e! problema del parpadeo sin aumentar el ancho de banda podría ser ésta: en lugar de transmitir las líneas en su secuencia natural, es decir, primero la línea 1, después la 2, después la 3, etc., hasta terminar con la 625, se dÍ;de la imagen en dos partes llamadas "campos", cada uno de los cuales tiene 312,5 líneas. El primer campo contiene W1a de cada dos líneas, que se numeran en el orden en que son transmitidas y que van de la 1 a la 312, más la primera mitad de la 313. El segundo campo contiene las líneas intercaladas, no transmitidas en e! primero, comienza a la mitad de la línea 313 y termina al final de la 625. Así pues, tal como se ven en la pantalla de! TRC, a la línea 1 no le sigue la 2, sino la 314. Las líneas de los dos campos se transmiten intercaladas o entrelazadas. (Véase figura 1.5.) De esta forma se obtiene una frecuencia de repetición de 50 Hz (frecuencia de campo), sin incrementar e! número de imágenes totales, que sigue siendo de 25, y sin incrementar, por tanto, el ancho de banda. A este proceso se le denomina "entrelazado de campos". 3.2.1. Parpadeo interlínea Aunque e! entrelazado proporciona una frecuencia de refresco de pantalla sufi­ ciente como para que la imagen en su conjunto no parpadee, se produce en oca­ siones un cierto parpadeo local, denominado "parpadeo interlínea" (/nteline twit­ ter). Tal artificio aparece cuando la señal de vídeo contiene líneas de exploración cuyo nivel de luminosidad es muy distinto al de sus vecinas. Por ejemplo, si imagi­ namos una línea blanca sobre un fondo totalmente negro, tal línea parpadeará fuer­ temente, puesto que su ciclo de encendido-apagado será de 25 Hz (en e! sistema europeo) o de 30 Hz (en e! americano), lo cual está por debajo de! umbral de par­ padeo para frecuencias espaciales medias y altas, el cual se cifra en unos,40 Hz. Hay que entender que una línea concreta corresponde a un campo concreto (ya sea el par o e! impar) y que, por tanto, la frecuencia a la que tal línea aparece no es la fre­ cuencia de campo, sino la mitad. El parpadeo interlínea suele aparecer, sobre todo, en e! caso de imágenes sinté­ ticas como las generadas por ordenador para los "mapas de! tiempo". Cuando las líneas son más gruesas no se percibe tal artificio, ya que tan pronto como se "apaga" una línea se "encienden" las vecinas del otro campo. Este efecto es mucho más per­ ceptible en el caso de imágenes sintéticas que en e! caso de imágenes tomadas por cámara..Los receptores d~.tel~Yi,';jºnqlledupj¡canlínea§/campos eliminan o mini­ IQizan este a~!ifl~~__R.:~~0!aJ~~:es_a.I1-t~.q'!e este pro1?l~maera mucho menos g~ave al inicio de la televisióI1.$!~_actualm.m!~-, .Yi! que las cámaras y, sobre todo! lasp~n­ tallas de los receptores no tenían sufici_<o.~t.e.~~s.2luc:ióncomo para confinar una fina línea horiz2J1..!.~L<I}!nª--ILneª,.de-c.:xplor..ación.. En..el caso de las imágenes i:omadaspor cám~~~.f~c:19_~~_r~..?ll.~eno!_abl~;tE~I1!e~()_J110consecuencia del filtrado espacial illtrPQ.ucici.Q...por.eL ob.je.t~ve '/' ·en-especial,por el solapamiento del perfil del ~az explorador del tubo de cámar~ o d~e! filtro ópticopaso-bajode la cámara CCO. 3.3. Frecuencia de línea Un parámetro muy importante a determinar es el número de líneas con que se ha de formar una imagen. Cuantas más líneas se empleen, mayor defmición o resolución tendrá la imagen. Por otro lado, cuantas más líneas, mayor será e! ancho de banda necesario. Se ha de encontrar, por tanto, una solución de compromiso. Un punto de partida en la elección del número de líneas es la "agudeza visual" de! espectador, es decir, la capacidad de éste para discernir o separar pequeños detalles que se encuentran en proximidad. Esta agudeza visual se cifra en un minu­ to de grado para un espectador medio, tal como se ha explicado en e! apartado de ''AgiRIezaviSual" de este mismo capítulo. --Xla distancia normal de visionado (unas 6 veces la altura de la pantalla) son sufi­ cien'tes unas 5'70 Iíneaspara que dos líneas consecutivas formen un ángulo igualo infe­ ¡i";¡:-irae grado con respecto al centro del ojo del espectador (figura 1.6). « ~~t,-­ Figura 1.6. La agudeza visual humana se cifra en l' de grado. En Europa se ha optado por 625 líneas por las siguientes razones: • Debe ser un número impar para asegurar el entrelazado de campos. En efecto, para que los dos campos se entrelacen y no se solapen, es necesario que el pri­ mero comience en la esquina superior izquierda y termine a la mitad de la parte baja de la pantalla. El siguiente campo no puede comenzar también en la esqui­ na superior izquierda, ya que ambos campos se solaparían. En lugar de esto el segundo campo comienza a la mitad de la parte alta de la pantalla y termina en la esquina inferior derecha, tal como puede verse en la figura 1.5. Por tanto, ambos campos contienen un número entero de líneas, más media. Podemos, por tanto, escribir, que un cuadro o imagen contiene: 2(n+ 1/2) líneas. Cualquier valor que se le dé a "n", el resultado será un número impar. Ésta es la raz6n por la cual todos los sistemas de televisión, actuales u obsoletos, tienen un Diímero impar de líneas. De las 625 líneas, no todas serán visibles en la pantalla, ya que se necesitan algunas (25 en cada campo o 50 en total) para e! retorno vertical del haz de electrones desde la parte baja hasta la parte alta de la pantalla. Por tanto, en el mejor de los casos dispondremos de 575 líneas útiles, lo cual está ligera­ mente por encima de! mínimo teórico de 570 líneas. 32 33
  • 16.
    ,Tf:CNOLOGIA ACrUAl [)ll"l:lI:VIS¡ÓNLa señal de yidco • Existe "na relacjón-s'ellcilla-~e1 numero de líneas.pru:.imagen-*--elnúmcro de imágenes e9r s~do (625 =2~)-.tl~q!!~ simplifica el "istema. ~~o que-un<:l.-~~gt':1l.~~c.:-;~p;~de6_2SIineas.}'Ullcuadm-(-Goseampos}.se-pw­ ¿lucecaaaT72~egun~~afr~~~_~c.:i.a:_geJ!I}_e.ª~cr.Lfí2.S._?<_25:.::::.15,625Bz. _ 3.4. Proporciones de la imagen /. Cf-/:JíAI-To _~ rela.ci?l1_de imagen normalizada ell.la televisión actuales. de4! 3, es derir,.la_pan­ --!.alla aertelevisor es un.Jl"1d4il:::: J ,33)más411Cha.que.alta,_Es.ta relación de aspec­ to debe mantenerse desde la cámara hasta la pantalla del televisor si se quiere respetar la compatibilidad. En la actualidad se está revisando el tema de la relación de aspecto, ya que el público muestra preferencia por formatos más apaisados. 3.5. Duración de una línea ..En..~_n~!.'!!.1a ~1u:~de625--líneas·y50eampos -Iafrecuenda de línea-es de l5.625Hz. Esto significa que cada línea durará 1115.625 s. o, lo queeslo.mismo, 64 microsegundos (~s) De.es.tQs..Q:t us, 52 Se_lltiljzan para analizar la~ge i~guierda a derecha (período activo de línea) y los 12¡Jsrestantes para vQlveJ: de ~cha a izquierda _(~_()xLª-doosupresión4le línea).Véase figura L 7. E"i1Tanorm-a-;;'mericana de 525 líneas y 60 campos la frecuencia de línea es de 15.734 Hz y el período de línea 1/15.734 =63.556 ¡JS. La línea activa americana NIVEL DE BlANCO (100%) ~ PÓRTICO ANTERIOR ________o....!!." NIVEL DE NEGROS (30%] .....'J'Io ..-QdV. T[~l. "~ : FONDO DE I ISINCRONISMOS (0%) BORRADO O PERIÓDO ACTIVO SUPRESiÓN DE LINEA DE LINEA Figura 1.7. Oscilograma mostrando una línea de televisión, con los valores de tensión y tiempo más importantes (norma 625/50). dura un poco más que la europea (52,856 )1s), mientras que el borrado de línea en la norma americana es de 10,7 ¡JS. Dentro del borrado de líneaE9_?~mos distinguir: los pórticos anteriol:J'_posterior, los cuales están al nivel de borrado (OY), el sincronismo deJllleiid'1l.l.l.r.s.L..o..~~ color", el cual sólo estaráE~s=-r:t:._c:~~c:.::_~~a seña~ de co!~r. 3.6. Niveles de tensión La parte de la imagen (período activo de línea) queda ubicada entre dos niveles de tensión eléctrica, correspondientes al pico de blanco (0,7V en 625/50 y 0,714 Ven 525/60) y al nivel de negro (OVen 625/50 Y0,0535 Ven 525/60). La señal de vídeo de blanco y negro se mantendrá siempre en estos niveles. La señal de color puede variar ligeramente como consecuencia de la presencia de la subporta­ dora de color. Los sincronismos se extienden desde Oa -0,3V en 625/50 Ydesde Oa -0,285V en 525/60, con lo que la amplitud total de la señal de vídeo (contando la infor­ mación de imagen y los sincronismos) es de 1V entre extremos de la señal, tanto para la norma americana como para la europea. Suele emplearse la expresión "1 voltio pico a pico" o 1V (p-p). Nivel de blanco O.7V~ 90% (J (~90% f 0, B=PERloDO DE BORRADO DE LINEA 12 ± 0.3 us C=PDRTICO F= 0.3%;0,11-15 "'----"" 1,5iO.31.15 ANTERIOR E:::PÓRTlCO • 10,5 ¡JS POSTERIOR 5.8 ¡JS ... ) ".__ ~ F= 0,3;,1:0,1 ¡.I:l 10% )10% OV__ ~ r--------....J~~~,1t;-.-:. F y G .. Ilempo de formación Nivel de D=IMPUlSO DE de los nancos IInlro el borrado > DS~~f:E~~~~~~~s toO ) 10 Yel 90% ~ G=O.2:l0.1 IJS f G=O.2:l0.1 IJs ~ ''---'O -O.3V____ 1~-=-_~ __X()~~E.~"~ln_Cr()rliSmOS Figura 1.8. Detalle del borrado de línea (para una señal de blanco ynegro, en la norma 625/50). Cualquier medida temporal sobre la línea de televisión se realiza con respecto al instante OH, el cual se defi­ ne como el punto de media amplitud del flanco anterior del impulso de sincronización horizontal. Comparando las figuras 1.8 Y1.9, así como analizando la tabla 1.2 puede verse que la señal de vídeo de la norma americana de 525 líneas y 60 campos presenta algunas diferencias notables con respecto a la norma europea de 625 líneas y 50 campos. No sólo las duraciones son distintas. Además los niveles de tensión del pico de blanco y del 34 35
  • 17.
    __ TCCNOLOGI., ACTUAL DETELCV1Slór; Nivel de Blanco 0,71~ 1 90%6 ~O% 0" A=PEAIODO DE BORRADO DE UNEA 10,7uS C",PORTICO B-9.2+0,2. -0,1 ¡.lS ~ ANTERIOR. ~ I F.O.14 F..o,14 1.5±O.1~S E-PORTICO POSTERIOR ~ ±O.02~S±O,02IJS ~ •.5~S ~ "-----" 10% . sg¡mv1·-· _'m _t-JIV.el.d.e.~egr()S'lmmmmm __rº~fr;~gg F Y G =tiempo de lormaci6n D.IMPULSO DE de los flancos entre el 10 y el 90%.SINCRONIZACiÓN loÓ DE LINEA •.7±O.1~S G"'O.14±~ 1~·14±O,02IJS .O,285Y I Fondo de Sincronismos t Figura 1.9. Detalle del borrado de linea (para una señal de blanco y negro, en la norma 525/60). Cualquier medida temporal sobre la linea de television se realiza con respecto al instante OH, el cual se define como el punto de media amplitud del nanco anterior del impulso de sincTO­ nizacion horizontal. Tabla 1.3 Parámetros de la señal de vídeo en torno al sincronismo de línea. Algunos parámetros no tienen tolerancia, puesto que son derivados de otros más bási­ cos. S{MBOLO PARAMETRO NORMA 525/60 NORMA 625/50 H Período de línea, ).1s 63,556 64 A Intervalo de borrado de línea, ms 10,7 12.± 0,30 B Desde OH hasta el final del borrado de línea, ).1s 9,2 + 0,2/-0,1 10,5 e Pórtico anterior, ).1s 1,5 ± 0,1 1,Si 0,3 D Impulso de sincronización horizontal, ).1s 4,7 ± 0,1 4,7±0,1 E Pórtico posterior, ).1s 4,5 5,8 F Tiempo de formación de la señal, ).1S 140 ± 20 300 ± 100 G Tiempo de formación de los sincronismos, ).1S 140 ± 20 300 ± 100 fondo de sincronismos son también diferentes. Otra diferencia importante se refiere al llamado "pedestal", que no existe como tal en la norma europea. El pedestal no es otra cosa que una ligera separación del nivel de negros con respecto al nivel de borrado o supresión. En la norma americana esta separación equivale aI7,5% de la señal de video, desde el nivel de supresión al nivel de blancos, lo que, traducido en niveles de tensión, son 53,5 mV En la norma europea el nivel de negros es exactamente el mismo que el nivel de supresión, es decir, OV La scil.l! de 'ídC:Q Tabla 1.4 Niveles de tensión de la señal de vídeo en blanco y negro para las normas 525/60 y 625/50. PARAMETRO NORMA 525/60 NORMA 625/50 Nivel de blanco 100 IRE (714,3 mV) 700 mV Nivel de negro (pedestal) 7,5 IRE (53,5 mV) OV Nivel de borrado O IRE (O V) OV Fondo de sincronismos --40 IRE (-285,7 mV) -300 mV Adem~s__cl~_bS-'Qltios y los milivoltios, su.de I,Itilizarse en la medida deaJTIpli. _tucl.de l¿¡señal de vídeo una unidad denominada "IRE", que son las iniciales d~l ins­ tituto que las nonnalizó(/rlStituteq[ Radio En8ineers). Este tipo de unidades. se uti­ ll;.a sobretodOen-l~norma americana 525/60. Básicamente se divide la scñal de ~'ídeo~cresde'élfó[;'do dcsincronismosnasta el pico de blanco en 140 unidacl~~IR~. P'U'eStOque¡;l~~f¡~rde vídeo en su conjunto tiene una amplitud de lvoltio p-p, UI1<i u-;;TaaofRE corresponde a 1V/140 = 7,14 m V El valor "cero IRE" se hace coinci· dJ~..con el nivel de supresión o borrado. 3.7. Duración de un campo En la norma europea de 625 líneas y 50 campos, un campo dura exactamen­ te 1/50 de segundo o, lo que es lo mismo, 20 milisegundos (20 ms). De este ~ieÍnpo;'aproximadamente 1,6 ms corresponden al borrado vertical, es decir, a la~-Iírieas--que necesita el haz para retornar de la parte baja a la parte alta de §iinta:1fa (L'5"X'b4~s--= t ,6 ms). Dentro de estos 1,6 ms se encuentra el sin­ cromsmocreéampo'ü"slñcronis'ino verticáI, élcuá! dura el tiempoequivalcnt~ a ~<.:~- de.!~ _es d~~ir, 160 ).1s. El impulso de sincronización de campo :,stá ~~~qlle.ado por otros dos trenes de impulsos: el de preigualación y el de pC!.sti­ guaJ.a¡;¡ón. En total se emplean para propósitos de sincronización vertical 7,5 lí.!1e.as de TV La mayor parte <id_res~hª.stacompletar..@~25JiTlº~Lcie_borrado vertical,puede emple.¡¡.rsep_arª_-ªplj<::<IcioI)_e..s_e._~ialcs,como, por ejemplo, t~, señales test Cs.tl.e_per:mitcD .cyalll.a,r objetivall1ef.lte_l~ ..c:¡¡li~;¡i~.e~!a ima­ gen) o..<::?3ígOdetiemp2..sJtll1-,u~tilidad muy importante .en la po.spmduccÜ2D_de 1ª-.s,JI1!.ágenes_d~ tV1·__ El período activo de campo durará, por tanto, 20-1,6 ms = 18,4 ms. En la práctica, el borrado vertical incluye, además de las 25 lineas, un borrado de línea extra, con lo que el período activo de campo durará un poco menos. Véa~e figura 1.10. En la norma americana de 525 líneas y 60 campos la duración de un campo es de16,683 ms. En esta norma el borrado vertical utiliza 20 líneas, lo que corres­ ponde a 1,272 ms, dejando 15,411 ms para el período activo de campo. Al igual que sucede en la norma europea, el sincronismo de campo se estructura en tTes trenes de impulsos: preigualación, disparo y postigualación, e igualmente se trata de pulsos cortados a ritmo de H / 2, sólo que en este caso se utilizan seis impulsos para cada uno de los trenes en lugar de cinco. 36 37
  • 18.
    TECNOLOGIA ACTUAL DETELEVISiÓN f, __-----.f>.E~Jººº-º~f_A~~q~_?º __n~~__¡...-­ i 160 1Jf> (2.5 LINEAS) ~ .~~ r---------------;o SINCRONISMO DE CAMPO O 1SINCRONISMO VERTICAL 1 PERIoDO ACTIVO DE CAMPO .. BORRADO DE CAMPO 1.6 I --j."ÚlTIMA LINEA ACTIVA PRIMERA LINEAACTJVA . DEL CAMPO ANTERIOR DEl CAMPO SIGUIENTE, 1°,7V.2,5 H 2,5 H 2,5 H ----'Xn nn'~T~nn~~"""r' ~i j uuuuu~ ~ ~ ~ ~ ~ ~ ~ ~. ~ ~ l. _lO,3V - 80~fu_º.Q...Qf__º&tt>.P~§1:L!__.JlllL~------- --~J 3.8. Ancho de banda Figura 1.10. Datos de la norma 625/50, El período de campo (20 ms) incluye el borrado de campo (1,6 ms) y éste a su vez el sin, cronismo de campo (160 flS). En la parte baja de la figura se muestra más detallado el borrado de campo. El ancho de banda de la señal de vídeo, en la mayoría de los países europeos, es de 5,5 MHz. Esto significa que la señal de vídeo puede cambiar su estado eléctrico, como máximo, hasta 5,5 millones de veces por segundo. Como veremos, el ancho d~ baI'!da e~roporcional al número de lineas.,.alaLesolución.horiwn.talddese~.alardªGi.QrL _~e aspect~~,J..lJÍmero_de.im.ªgl;ne_sp-ºLSegundo. '-­ Como sabemos, en..ili~ceg!.orc!~ televisión sól2.i75.de las º2SJí.J1(~!1_Ss9_n. vi~i­ ~s. Las 50 líneas "perdidas"..s2.!:.r~.s.pQ!1.den.¡¡ljnt~ry.ak.ci~borradoy.erÍ:ic¡l ant~s G~~o. Porta.nto, la resolllc:iól1 xerttcª! teÓrit.:as~rªck.FS!ín~s. SBifll:>~.gQ.,g.resoluciónvertical efectiva es algo menor que la teórica. Esto es cO['lsecuencia de queelgrosQ.r.~eL~~~e~J:l(:~<l.ªt?~_d_e.!.!..u_~_~_~_c:~IIl<lr~,al igu!} <Lue sucede con el gro~L4el ha~t:__e.!.e~!~9..n_~.~~L!~~()_C!e_!".aJ_o.~S.2:t9QiººLCI!tC)..., 4eL t~l~visor, es algo may()r que el espacio. que s~para dos líneas. COrls~c:.lltivas.,~e televisión. Ademásel perfil de energía del haz electrónico dista mucho de ser rec­ tangular, pareciéndose más a la curva de Gauss o gausiana, especialmente_cuando se trabaja con un sistema entrelazado, donde el solapamiento entre línea~.vedl)..as (que corresponden a distintos campos) debe ser mayor que en un sistema~ec:u.en­ cial puro (figura 1.11). , Para calcular la resolución v~~tical efectiva ~~e m~.tiplicar el número de lmeas por unfactor 9.e cor,re.C:ClOn, menor que la urlR1aCt, ~'L:OTIuce-como "Factor de Kell", en honor de R: D. KelI, ciulerílbc1toacl?lí(jcen~nlo~añ2s_}0. Atmque este factor depende del tipo de dispositivo que se emplee en la~mara (tubo o sensor CCD), la respuesta de la óptica, el ajuste del haz de electrones del TRC, etc. en la práctica se ha normalizado aO,75.Por tanto, 0,75 x 575 =430 líneas ---------_._--~-,,~-_.- ,. La señal de vÍdeo Figura 1.11 . El perfil de energía del haz de electrones tiene forma de "gausiana" y limita la resolu­ ción vertical efectiva. de resolución vertical. Puesto que el ojo humano presenta, aproximadamente, la misma agudeza en la dirección horizontal que en la vertical, una resolución equi. valente en el sentido horizontal requeriría 430 x 4/3 =574"líneas". 4/3 es la rela­ ción de aspecto, es decir, la relación entre la anchura y la altura de la imagen nor' malizada. ~rior signiJlca gue podemos "meter" como máxi~o 287 líneas blancas y 287 ~~~a-pacteizquierdaa.1a p;uJe9cerec:h¡¡de la imagen. Así pues, 52 ~ p¡¡fesddil)eas =O,1 ~1!11Uhsponi~1fé:s_p¡¡Ea cadapaLbJ¡¡.~co~negro~ .-----,,- ,­ PQde.mos c:onsiderar cada par blanco,negrQ C:9.J!l..2 uni:l'Io=~,kTI1t:ntal, y si éste _dura O, 181 J:i~,en uns~gu_fldohabrán:---- - ----­ U) 6~0 tia z 'ºü 300 :3 200 o ~ 100 lY o LINEAS DEL CAMPO 1 __ PERFIL DE ENERGIA DE LAS ./ LINEAS DEL CAMPO 1 - :} -- -- -- -- - - - -- - ­ I "r ...... 1 __ - _ }. - --~'-~ - - - -- - - -- - -- -­ ",", PERFIL DE ENERGIA DE LAS ~ LINEAS DEL CAMPO 2 .......~~ LINEAS DEL CAMPO 2 1 "" 5,5MHz 0,181 J.1S ./ V // V V / v 1/ Figura 1.12. Relaci6n entre líneas de resoluci6n y ancho de banda, Para pasar de una a otra 12345678 medida, multiplicar o dividir por 80, ANCHO DE BANDA EN MHz 38 39
  • 19.
    TeCNOLOGíA KTUAl DEHlEI'ISION Así pues, tenemos un sistema con una resolución horizontal cfectiya dc 574 '----'- . . . . --- ---- -- -_. ­. líneas, uñili:esO!üCi6n yertical dc 430 líncas y un ancho dc banda dc 5,5MHz, Por tanto: 1/2 x 3/4 Z"[R1 A" = 52 I1S dü;-de: Z"IRT =Kx575, K =factor de Kell =0,75 A" =ancho de Banda en MHz Tabla 1,5 Parámetros más importantes de las normas de televisión de 525 y 625 lineas PARAMETRO Número líneas por cuadro Número líneas por campo Relación de aspecto (H:V) Número cuadros / segundo Número campos / segundo Frecuencia de exploración horizontal (fHl Hz Duración del borrado de campo (líneas) Duración del borrado de cuadro (líneas) Número de líneas activas por cuadro Resolución vertical (Nv) en LPH Duración de la línea total (lJs) Duración del borrado horizontal (lJs) Duración de la línea activa Pixel horizontales para igual resolución HN(2) Duración de un ciclo en horizontal (T) IJs Ancho de banda para igual resolución HN (MHz) Factor de resolución horizontal Qineas!MHz) (3) Resolución horizontal real (NH) LPH Relación de resolución HN NORMA 525/60 525 262,5 4:3 29,97 (1) 59,94 (1) 525 x 29,97 =15,734,25 20 40 485 485 x 0,75 =360 63,556 10,07 ± 0,1 52,856 360 x 4/3 = 480 52,85 / 240 = 0,22 1fT =4,5 360/4,5 = 80 336 (para un ancho de banda del canal =4,2 MHz) 0,933 NORMA 625/50 625 312,5 4:3 25 50 625 x 25 =15,625 25 50 575 575 x 0,75 =430 64 12 ± 0,3 52 430 x 4/3 = 574 52/287 = 0,181 5,5 430/5,5 = 78 390 (pará un ancho de banda del canal = 5 MHz) 0,907 (1) En el sistema americano (normas M) la frecuencia de campo para blanco y negro era de 60 Hz, A par­ ;' tir de la -introducciÓn del color en el sistema americano NTSC en 1953, la frecuencia de campo pasó a ser,de 59,97002996 (y más decimales], Este cambio se hizo con la intención de que 11LnUElya,pQ[tadQra de color no interfiríerac:onlaportadora ét~ sonido: ' - .• ! (2) Dato teórico no normalizado, a partir del cual se puede calcuiar el ancho de banda (3) Es frecuente hacer una traslación entre líneas de resolución y ancho de banda, Dividiendo las líneas de resoiución por 80 se obtiene el ancho de banda en MHz, Igualmente, si conocemos el ancho de banda de un canal, podremos saber qué resolución horizontai puede proporcionar multiplicando el ancho de banda expresado en MHz por el factor fijo 80, Puede verse Que esto es válido tanto para el sistema 525/60 como para el 625/50, Resumen • La televisión nació y se definió en los años 30, Muchas de las características y limitaciones de los sistemas actuales son consecuencia de la necesidad de compatibilidad con aquellos sistemas pioneros. LJ_~cJl~!.1.h.lJ.t,kº • Los tres sistemas de televisión actuales son: NTSC (EE.UU" Sudamérica )' países del Pacífico), SECAM (Francia, Europa del este)' norte de África) )' PAL en el resto del mundo. PAL y SECAM utilizan 625 líneas)' 50 campos; NTSC utiliza 525 Hneas )' 60 campos. • Para entender los parametros en que se basa la televisión es necesario cono­ cer las características de la visión humana, en especial la anatomía y funciona­ lidad de la retina. La resolución espacial lumínica se cifra, para un espectador medio, en un minuto de grado. Esta resolución sólo se obtiene en el centro de la retina, en una zona denominada fóvea, Otra característica visual muy importante es la persistencia visual, la cual se cifra, en condiciones normales de observación, en l/lOs. Sin embargo, para obtener una reproducción suave de! movimiento es necesario trabajar con una frecuencia de imagen por encima de 20 ips. En cinl" se optó por 24 ips, mien­ tras que en televisión se eligió una frecuencia de imagen de 2S ips en la norma europea y de 30 ips en la americana, • Aunque 2S ips (30 ips en e! sistema americano) es suficiente para reproduci¡' el movimiento de forma suave, a esta frecuencia de exhibición se produce un fuer­ te parpadeo de la imagen. La solución adoptada en televisión es el "intercalado de campos". De esta forma se evita el parpadeo sin aumentar el ancho de banda. Así, la frecuencia de refresco de la pantalla =a la frecuencia de campo =50 Hz en la norma europea y 60 Hz en la americana. El entrelazado de campos fue una buena solución en su momento, aunque, por otro lado, introduce sus propios defectos y artificios. Los futuros sistemas de televisión digital para multiprogramación y HDTV utilizarán, seguramen­ te, exploración no entrelazada, tamhién llamada "progresiva". • En la norma europea se emplean 625 líneas por imagen (312,5 líneas por campo), mientras que en la norma americana se utilizan 525 (262,5 por campo). En cada campo de la norma europea se utilizan 25 líneas para el borrado vertical, de forma que el número de líneas activas por imagen es de 575. En la norma americana se utilizan 20 líneas POl- campo para el bOlTado vertical, siendo el número de líneas activas por imagen de 485. • La resolución vertical efectiva es menor que el número de líneas activas, ya que se ve afectada por el factor de Kell, quedando en 430 líneas en la norma europea y 360 en la americana. Teniendo en cuenta la relación dI" aspecto, una resolución horizontal equivalente daría 574 líneas por anchura de imagen en la norma europea y 480 en la americana. (, ~"? '." -:-- l - .­ • La frecuencia de línea se deduce multiplicando la frecuencia de imagen por el número de líneas que componen cada imagen y es de 15,625 Hz en la nOl'ma europea y de 15.734 Hz en la americana. En todas las normas de televisión convencional se utiliza una relación de aspecto de 4: 3, • La duración de una línea es de 1/15.625 =64 IJS (en 625/50) y de 1/15.734 = 63,55 I1S (en 525/60). El borrado de línea en la norma europea es de 12 mS, lo que deja 52 I1S para la línea activa. En la norma americana el borrado de línea dural0,07 IJS y la línea activa 52,85 I1S. • Los niveles de amplitud de la señal de vídeo en blanco y negro se extien­ 4140 ~
  • 20.
    TrcNOLOclA AnUAL DETHEVISION den desde OY para el negro hasta O,7Y para el pico de blanco. Entre O y -0,3Y se encuentran los sincronismos. En total la señal de televisión ocupa una extensión, desde el fondo de sincronismos hasta el pico de blancos, de 0,7+0,3 = lV o El ancho de banda es proporcional al numero de líneas, a la resolución hori­ zontal deseada, a la relación de aspecto y al numero de imágenes por segun­ do y es de 5 ó 5,5 MHz en los sistemas europeos (puede ser más elevado en SECAM) y de 4,2 MHz en el sistema americano. i I f~ I¡ i, ¡ ¡ CAPÍTULO 2 El color t 1. Naturaleza del color 1.1. Aspectos físicos del color Por definición, el color comprende todos los aspectos de la luz, excepto las variaciones en tiempo y espacio. El color es un aspecto de nuestra experiencia visual y, desde el punto de vista físico, depende de las longitudes de onda de la radiación que ilumina e! objeto, de las longitudes de onda que reneja dicho obje­ to, de! color de los objetos circundantes y de la absorción o renexián de las sus­ tancias que se interponen en la trayectoria de la luz. ~+-Qesde u~a ó-Eli.fa c:i~n tífica,podemos reconocer un co!qr por la longitud de-Ondadominante ql!e em.ite o reneja, a la cuaLañadiremos.sumonocrornaticidad..o..pureza.La luz del láser, por ejemplo, puede ser roja (en el láser de rubi) o de otros colores, pero siempre es monocromática, porque está formada por una unica longitud de onda. En este caso basta con decir de qué longitud se tI-ata (por ejemplo, 700 nm) para identificar, sin lugar a dudas, e! color de dicha luz. Cuando no se trata de luces o colores monocromáticos, además de la longitud de onda dominante es necesario conocer en qué medida dicho color está contaminado de luz blanca. 1.2. Aspectos psicofísicos del color Son tres: matiz, saturación y brillo, ninguno susceptible de ser medido directa­ mente. 42 , ¡ 1 1 o Por matiz entendemos la sensación de color por la cual distinguimos las par­ tes del espectro: rojo, azul verde, amarillo, etc. El equivalente f1sico del matiz es la longitud de onda dominante de la luz para cada color. o Saturación es e! grado de pureza de un color, es decir, la medida en que está 43
  • 21.
    TlC;,'OLOGí., ACTUAL DETELErJSIÓN contaminado de blanco, gris o negro. Un "rosa" difiere de un rojo puro en su saturación. Se dice que el "carmín o escarlata" es un rojo saturado al 100%, mientras que el "rosa" es un rojo saturado, por ejemplo, al 50%. Cuanto mas pálido sea un color, menor sera su saturación y viceversa . • El brillo es la sensación de luminosidad de un color. Esta asociado con la canti­ dad de luz y la sensación visual. Un gris y un blanco, por ejemplo, difieren sólo en el brillo (el segundo es mas brillante). Si mezclamos al 50% pintura roja y pin­ tura blanca obtendremos un rosa o, lo que es lo mismo, un rojo saturado al 50% y de un cierto brillo. Pero si en lugar de pintura blanca utilizamos pintura negra para mezclarla con el rojo, tendremos también un rojo saturado al 50%, aunque ahora con menor brillo que antes. Es posible encontrar en otros textos denominaciones distintas a las usadas aquÍ. Podemos establecer la siguiente equivalencia aproximada: Matiz =tinte =tono Saturación =pureza =c¡-oma Brillo =luminosidad = valor 1.3. Mezcla aditiva Siempre que trabajamos con luces (como en el caso de la televisión) se dice que estamos empicando mezcla aditiva de colores. En efecto, si sobre una pantalla blanca de una habitación a oscuras proyectamos un haz de luz roja, tendremos una cierta cantidad de luz. Si a continuación hacemos converger sobre la mancha de luz roja otra de luz verde, obtendremos la suma de la luz de ambos proyectores (la pantalla refleja la luz roja y también la luz verde). Cada vez que añadimos luz, el color resultante es mas luminoso. 1.3.1. Colores primarios luz La designación de ciertos colores como primarios es un hecho arbitrario que, sin embargo, está basado en algunas consideraciones. Por ejemplo, sabemos que los conos de la retina se dividen en tres grupos, los cuales presentan maxima sensibi­ lidad, cada uno de ellos, a las luces roja, verde y azul. Ademas rojo y azul quedan en los respectivos extremos del espectro de luz visible, mientras que el verde cae justamente en el medio. Por estas razones se han elegido como primarios luz los colores rojo, verde y azul. Con estos tres colores es posible, mezclandolos en las proporciones adecuadas, obtener cualquier color, ya sea éste natural (se encuentra en la naturaleza) o artificial. La figura 2. 1 muestra los tres colores primarios luz, así como los secundarios. Por secundarios se entiende los colores que se forman al mezclar dos primarios en canti­ dades iguales. Por ejemplo, con rojo y verde se obtiene amarillo; con verde y azul tenemos el cian o cianino, que es un azul turquesa; con rojo y azul logramos el magen­ ta, que es una especie de granate algo violáceo. La mezcla de los tres primarios, rojo, verde y azul, en la misma proporción da el blanco; la ausencia de los tres, el negro. Figura 2. J. Mezcla aditiva. Se dice que dos colores son complementarios cuando entre los dos pueden producir el blanco si se mezclan en la misma proporción. Por ejemplo, amari­ llo y azul son complementarios, ya que el amarillo está formado por rojo y verde y al mezclarlo con azul lo que realmente estamos haciendo es mezclar rojo, verde y azul. Dos colores complementarios presentan el máximo contras­ te cromatico. El complementario del rafa es el cián; el del verde, el magenta, y el del azul, el amarillo. 1.3.2. Las leyes de Grassmann Como sabemos, es posible obtener cualquier color mediante la mezcla aditiva de tres fuentes de luz primaria Fl, F2 YF3, siempre que estos primarios hayan sido adecuadamente seleccionados. Fue precisamente Grassmann uno de los primeros en demostrar la afirmación anterior. Además enunció una serie de leyes sobre tri­ cromía que son de gran interés: • Dos radiaciones cromaticamente equivalentes a una tercera son equivalentes entre sÍ. • Si sobre el ojo actúan varias radiaciones simultáneamente, es posible sustituir una o varias de estas radiaciones por radiaciones cromáticamente equivalen­ tes. • Si dos áreas visuales producen la misma sensación de color, ésta no cambia si en ambas se disminuye la luminosidad o brillo sin cambiar el matiz ni la satu­ ración. • La luminancia de un color es igual a la suma de las luminancias de sus com­ ponentes espectrales. Basándonos en las leyes anteriores, hagamos el siguiente experimento. Colo- j 44 45
  • 22.
    , TECNOLOGJA ACTUAl. DETELEVISiÓN El color f ¡ quemas tres proyectores, uno rojo, otro verde y otro azul de igual potencia, a la izquierda de una cartulina blanca doblada, tal como muestra la figura 2.2. A la derecha de la cartulina colocamos un proyector de luz blanca. Ahora ajustemos mediafl!.~~.spQSitivorcOmO,_POfejemplQ) un filtro Q un reóstato) la intensi­ dad l.':1~i':.i~a d~c~~a_E!,_o+~!ou;l~hU.zquierda hasta que la sensación visu¡ll perci­ bi9_ª.JtQLdQbservª!lQI sea idél!!ica.~n..amb.as_caras de.lacartulina. Suponiendo que lall~.c,lt:Lpr-º'yegQr.sle.Jaderecha. se-a per-fe€tameflteblanca (c0!!1~Ja~l11itidapor.el Sol), 10sproye~tQre5.-deJaizquierda habrán sido ajustados aJ_~sig.uie.I1!~s__p.o~iciQnes: v ROJO tVERDE I t, ¡ t t [ tt ~ ~I LUZ AZUL -BLANCA i, I ~ / ,~ f , i ~ ',' Figura 2.2.""~--' OBSERVADOR Igualación del blanco mediante proyectores R, G YB. Proyector rojo = 30% Pr.°l~c:.t?r.~~rd.t:=j2%._ ! Proyector azul =11 % El expe¡'imeD.lo ant~Ijm:_g~mu~~tLa_qg~.la..I1!~.Qlªn<;:ª_~.tªLQrm.ada,..s.obrUºº.o, por luz verde (59%), algo de radiación roja (30%) y muy poca azul (lIr ) o 1.4. Mezcla sustractiva Supongamos una cartulina blanca que refleja el 80% de la luz que recibe. Es blanca porque refleja en la misma proporción todas las componentes de la luz. Si sobre dicha cartulina aplicamos un trazo de pintura roja) los pigmentos de que está compuesta la pintura absorberán parte de la luz (todas las componentes excepto las rojas) que antes se reflejaba. El resultado será menos luz. Si mezclamos la pin­ tUfa roja con otra verde) el nuevo color absorberá más luz que las pinturas indivi­ duales. Realmente habremos obtenido un marrón oscuro) bastante menos lumino­ so que el rojo o el verde originales. ¡46 ! ..1 Figura 2.3. Mezcla sustractiva. La conclusión es que cada vez que añadimos un nuevo color pigmento estamos qui­ tando luz. Por tante;.í este tipo de mezcla de colores se denomina mezcla sustractiva. Los colores cián, magenta y amarillo, que son secundarios en mezcla aditiva, pasan a ser primarios en mezcla sustractiva. Si queremos pintar un cuadro a todo color con sólo tres tubos de pintura, serán precisamente cián, magenta y amarillo los que debe· remos elegir. José María Parramón, un excelente pintor dedicado a la enseñanza, recomienda el amarillo de cadmio, el carmín de Garanza oscuro y el azul de Prusia para aquellos que quieran hacer la prueba de pintar un cuadro con sólo tres tubos de color. Si se trata de pintura al óleo, por ser pigmentos opacos, deberá emplearse, ade­ más, pintura blanca para rebajar o mermar la saturación de los colores. Los tres colo­ res de pintura de Parramón son los más parecidos, dentro de los catálogos de fabri­ cante de tubos de óleo, a cián, magenta y amarillo. Lo importante es no confundir los colores luz (mezcla aditiva) con los colores pigmento (mezcla sustractiva). 1.5. Igualación de colores Son procedimientos físicos que consisten en lograr una mezcla de colores que visualmente se parezca a otra muestra dada. Sea por mezcla aditiva, mediante luces, o por mezcla sustractiva, utilizando pigmentos, la igualación puede lograr­ se. Cualquier color puede obtenerse sumando luz espeQ1gL1!l91lQgomátic-ª-X-Iuz Ma~01.:..S!Il_emb.,!rg(»l()s.,p~rpuras no pu,edep Oº!~lJ,crs~_de.es:ta.m.anexLE9J:.aello h.aceJ~l~ ~uIl1ar dos lu~es ~spe.ctr'!le.s..)_9.Qncre);'!I!:lgI!!e.lª§.<:.Qrn:sp.Qll.dimt~s_ª-.LQ1> .~JS.tr.emos del espectro (rQjo y violeta). A estos colores se les conoce también como ~ no espectra~s:.Pordefini9§IlL~n.colorn()espectral no pertel1ec:.e~_~.E..ec­ ~, por tanto,~"'p.:::,ª~~del1.~ifi<:~rse'porsu longitud de.Qoda dominante. En l~ga.r~eestose indica la longitud de onda del¡:olor complem~ntari().J"a luz de este color com...El~.!!l..e.Il.t~~i~E1.e~cl~~acon la del purpúreo en cuestión da blanco. 47
  • 23.
    Tr.CNOLOG1, tC fU:1!JI TllE ISlÓN 1.6. Escalas normalizadas Se utilizan para garantizar que las pruebas de percepción del color se realizan en condiciones objetivas. Un factor muy importante es la iluminación, ya que los resultados son distintos según sea el tipo de aquélla (natmal, artificial, incandes· cente, etc.). Dos muestras de color que aparecen igualadas con una iluminación A pueden parecer distintas con la iluminación B. Para evitar cualquier duda en la iluminación de las muestras se utilizan fuentes de luz normalizadas. Aunque en tales condicio­ nes tampoco se asegura que todos los observadores apreciarán el mismo efecto, sacando el promedio estadístico de las apreciaciones de muchos individuos se obtiene el observador normalizado, quien verá siempre las cosas del mismo modo. Los primeros intentos serios de sistematización del color aparecen en el siglo XVI!, con el desarrollo de las ciencias exactas. Sin embargo, habrá que esperar hasta finales del siglo XVIII para encontrar un moelelo que siga unas pautas cientí­ ficas. El primer modelo lógico, que proporciona una imagen clara de lo que podrí­ amos llamar el "espacio de los colores", se debe a Philipp atto Runge, pintor de la escuela romántica alemana. 1.6.1. El sistema Runge El modelo de Runge tiene la forma de una esfera, tal como si se tratara del globo terráqueo. En este modelo, al polo norte le corresponde el color blanco, mientras que el polo sm representa el negro (véase figura 2.4). ClAN (TURQUESA) NARANJA V!."RDE AMARilLO ROJO MAGENTA EJE: OEL GRIS (b) VERDE MAGENTA Figura 2.4. Representacion de los colores en (e) el espacio de atto Runge. El círculo ecuatorial posee los colores en tintes puros (saturados), variando del rojo al naranja, al amarillo, al verde, al cián, etc., de manera que viajando a lo largo del ccuador iríamos "ariando el matiz. Los dos polos están conectados por meri­ dianos, que cruzan el ecuador y los paralelos. Puesto que se trata de un objeto sólido, podemos definir tres ejes, los cuales se relacionarán con Jos tres aspectos psicofísicos del color: el eje que conecta los dos polos es el eje del brillo (o luminancia), de mancra que los colores se van hacien­ do más oscuros a medida que nos movemos hacia el polo sur. La saturación varía desde el centro de la csfera hacia la periferia, de forma que en el núcleo encontraríamos tonos grises, mientras que los colores saturados puros habria que buscarlos en la periferia. En realidad, tales colores puros sólo estarían presentes en el circulo ecuatorial, ya que se desaturarÍan hacia blanco si nos move­ mos por la superficie hacia el polo norte y hacia negro si lo hacemos hacia el polo sur. Las variaciones de matiz las vamos a encontrar moviéndonos radialmente a lo largo de un mismo paralelo. Las figuras 2.4 (a) y 2.4 (b) representan dos vistas de la esfera de Runge; una pone al descubierto el polo norte y la otra el polo sur. La figura 2.4 (c) es un corte de la esfera a lo largo de un meridiano, de manera que vemos aumentar el brillo del sur al norte. La figura 2.4 (d) ¡'epresenta un corte a lo largo del ecuador, mos­ trando que, para una altitud determinada, deberíamos encontrar niveles de gris unifonne La ventaja del modelo de Runge está en su atractivo visual y en su simplicidad. Sin embargo, adolece de varios defectos: 1. Si se observan todos los eampos de color se verá que en algunas regiones los matices cambian muy rápidamente, mientras que en otras parece haber zonas demasiado grandes de color constante. 2. Aunque en este sistema el brillo crece de sur a norte, si nos movemos por un paralelo determinado no encontramos los mismos niveles ele gris, ya que en los matices amarillos, por ejemplo, el brillo es muy superior al corres­ pondiente a los azulcs. 3. Situados en el ecuador y a una cierta distancia del centro de la esfera debe­ ríamos encontrar los mismos grados de sensación de pureza o saturación. Sin embargo, el rojo aparece como más saturado y puro <¡ue su complementario el cián. 1.6.2. El sistema Munsell Fue ideado por Albert H. Munsell, pintor y profesor de arte, y consiste en una serie de muestras de color dispuestas ordenadamente. Partió del sistema de Runge, como idea general, pero no se basó en la forma de la esfera. El modelo de Munsell se parece más a un árbol y de hecho así lo denominó el propio autor. , Munsell utiliza tres características del color: matiz, croma o intensiclad y valor. Estos son aproximadamente equivalentes a los aspectos psicofísicos estudiados (matiz, saturación y brillo). Los matices se disponen en orden espectral alrededor de un círculo, cuyo eje es una escala de diez valores de brillo, desde el O para el ¡ 1 49
  • 24.
    TECNOLOGIA ACTUAL DET[.[VISIÓN r tVALOR O ,BRILLO f,, UNA PÁGINA DEL ¡~,~~SATURACION ~-" I CATÁLOGO DE MUNSELL ¡ TONO oc~9D O sDD"~ COLOR CLARO ~ 7DUD o 6 bhll:iEl~[ill g 5• • • • ii 4 • • • • al¡3•••• 2• • /~' COLOR OSCURO -~SATURACIÓN f// // I ¡ />' " / / ' '''-~---- Figura 2.5. El árbol de Munsell. •l inegro en la base hasta 9 para e! blanco en la parte superior. Así pues, e! árbol de ¡ Munsell aumenta de brillo a medida que crece. La saturación varía a lo largo de! f radio, desde mínima en e! eje hasta máxima en e! perímetro. En la práctica, e! sistema Munsell es un atlas de 100 páginas de papel, cada una í de las cuales muestra una serie de colores, dispuestas en forma de árbol alrededor ~ i de un eje vertical. Todas las muestras de una página tienen el mismo matiz, pero tvarían su saturación de izquierda a derecha y su brillo de abajo arriba. Las diferen­ f cias entre fichas contiguas se han elegido de modo que psicológicamente presen­ ten intervalos iguales. La ventaja del sistema Munsell con respecto al sólido de Runge, está en que cada "rama" o "página" de! árbol puede tener una forma distinta e incluir más o menos muestras de color. 1.6.3. El sistema Ostwald Utiliza una serie de muestras de color similares a las de! Munsell y, como éste, adolece de las deficiencias propias de los colores impresos, que no pueden repro­ ducir por completo todos los posibles colores. Este sistema utiliza las variantes físicas de! color: longitud de onda, pureza y luminosidad, en lugar de las psicofísicas de! Munse!l. Este sistema suele ser prefe­ rido por los artistas. 1.6.4. El triánBulo internacional de colores , Se le conoce también como sistema CIE (Comission lnternationale de l'Éclai­ í i rage) y aprovecha ciertos detalles de los sistemas Ostwald y Munsell, de modo que ! so j El color es posible pasar de uno a otro. Mediante e! sistema CIE es posible describir un color en términos matemáticos)' representar la longitud de onda dominante (rela­ cionada con e! matiz) y la pureza o saturación de una muestra. La única variante de la que no informa e! sistema CIE es e! brillo o luminosidad de los colores. A la suma de las informaciones de matiz y saturación se denomina cromaticidad, que pasa a llamarse crominancia en televisión. El hecho de que el sistema CIE no informe del brillo no es muy importante en televisión, ya que este parámetro suele tratarse por separado de la crominancia. Hay que recordar que la televisión nació en blanco )' negro, lo que significa que la señal de vídeo sólo contenía información de brillo. A esta información de brillo se le añadió después una nueva: la crominancia. Como hemos visto, tanto e! sistema Runge como e! MunselJ o el de Ostwall representan e! color en función de tres variables, lo que genera necesariamente un espacio tridimensional sólido. Igualmente podríamos imaginar un sistema de representación basado en tres variables, pero en este caso no serían las de matiz, saturación y brillo, sino las can­ tidades de rojo, verde y azul (figura 2.6). VERDE AMARILLO ,-", -.' A CIÁN ,BLANCO EJE MONOCRO­ MÁTICO NEGRO ROJO Figura 2.6. El cubo de color RGB, -, AZUL Obtendríamos así un cubo cuyos ocho vértices representarían los tres colores primarios: rojo, verde y azul; los tres colores complementarios: cian, magenta y amarillo; así como el blanco y e! negro. Sin embargo, resulta mas conveniente, a efectos de su representación sobre el papel o sobre un instrumento de medida, disponer de un sistema de representa­ ción plano, basado en dos coordenadas. Si prescindimos de la luminancia, tal siste­ ma podría consistir en e! hexagono que se forma al mirar e! cubo de la figura 2.6, haciendo coincidir el punto del blanco y el de! negro. Los seis vértices de este hexagono corresponderían a los tres colores primarios y a los tres colores com­ plementarios, mientras que su centro geométrico representaría el blanco (figura 2.7). Este tipo de representación, que suele verse en algunos tratados sobre el color, presenta una desventaja, ya que las coordenadas "x" e "y" de! plano no corres­ ponden a ninguno de los colores primarios. SI MAGENTA
  • 25.
    _______________ Ll colorTEq''¡OLOGíA..,el UAl DE -r [UVJ~ró~ FUENTE. DE..LUZ _ c::=(])=t~ BLANCO ~_. __ .--. --.( "' ~ _ - Figura 2.7. Proyección del cubo de color RGB. Un sistema similar al anterior, pero más sencillo y adecuado, podría basarse en una representacion triangular, como se muestra en la figura 2.8. AqUÍ e! eje "x" corresponde al eje del rojo y el eje "y" al del verde, mientras que el azul se encuen­ tra en el origen. Nótese que este sistema representa sólo los parámetros de matiz y saturacion, pero no informa sobre el brillo de los colores. En efecto, si nos movemos alrededor de! trián­ gulo y por su periferia, estaremos variando e! matiz, mientras que si nos movemos de la periferia hacia el centro, o al revés, iremos variando la saturacion. Si quisiéramos ver cómo varía la luminancia, tendríamos que imaginar este triángulo como un solido, de manera que debajo de él habría otro igual, pero un poco más oscuro y más abajo otro más oscuro, etc. .EJE "y" I .~--VERDE Figura 2.8. f.MARILLO ClAN ,.,// ../ / .". BLANCO RruO I J .~ ~ET Sistema de representación basado en AZUL MAGENTA coordenadas U x"u y". 1.7. Crominancia de un color Se define como la diferencia entre los valores triestÍmulo de un color dado (representados por las cantidades de rojo Er, verde Eg y azul Eb) Ylos valores tries­ tÍmulo de un blanco de referencia de la misma luminancia (para el cual Eg =Er =Eb = Ey), es decir, de un gris, cuyo nivel de brillo iguale al de! color m~edido. Los valores de crominancia de una señal sedn, por tanto: Er-Ey ; Eg-Ey j Eb-Ey Para poder especificar un color con independencia de su luminancia se definen unas coordenadas de cromaticidad ur", ug" y "b", donde: R G B r~ ; g= j b=---- (1) R+G+B R+G+B R+G+B Notese que si la luminancia de un color cambia en un factor "a" (por ejemplo, se reduce a la mitad), entonces, por la ley de Grassman, R, G Y B deben cambiar en el mismo factor y, por tanto, r, g y b permanecen inalteradas, ya que el nume­ rador y el denominador cambiarían en la misma magnitud (en este caso se reduci­ rían a la mitad). También de la ecuacion (1) se deduce (por ejemplo, sumando las ecuaciones) que r + g + b = 1, de forma que si se conocen dos de las tres coordenadas de cro­ maticidad se puede deducir la tercera. Si conocemos, por ejemplo, los valores de "r" y "g", podemos obtener el valor de ub" restándole a la unidad los valores de ur" y "g" sumados. Esto nos permite representar la cromaticidad en un diagrama bidi­ mensional (figura 2.9). El sistema de la figura 2.9 nos permite representar la crominancia de cualquier color mediante tres parámetros (Ur", ug" y "b") Yello a pesar de ser un sistema de representacion plano. Por ejemplo, e! blanco está formado por 0,33 de "r", 0,33 de "g" (ambos medidos en el triángulo) y 0,33 de ub" (deducido). EJE 0.1jJ~UL .. B 0- I I i I I I I I 0,7-­ 0,6­ 05-1 ..· 0,4­ 0,3­ 0,2- ~ ROJO Figura 2.9. Representación basada en coordenadas . . 'EJE'" «r"~ u g", "bU.O 0,1 0,2 0,3 0,4 0,5 0.6 0,7 0.8 0,9 1 r' 5352 I
  • 26.
    :; ~..-J 1,0 0,8 06' I ---+-t-V I =tW o:: 0,4 ~(j) 0,2 w =>a.. °(j) w o:: -0,2 -0,4 380 420 460 500 540 580 620 660 700 TECNOLOGíA ACTUAL DE TELEVISlc)N f 1Un problema que presenta el sistema de la figura 2.9 es que hay ciertos colores que no pueden ser igualados con los tres primarios de referencia ur", ug" y ub". Por ejemplo, supongamos que deseamos obtener un cierto color cián sumando luces verde (g) y azul (b) Yque no encontramos ninguna combinación de cantielades ele verde y azul que lo logren. Entonces deberiamos escribir: e = g + b - kr Siendo uc" el color que se quiere igualar. Ahora bien, resulta que si, por ejemplo, le sumamos una cierta cantidael de rojo al color que queremos igualar, tal iguala­ ción sí es posible, ele elonde: c .. g+b Siendo "la" una cierta cantidad de rojo. Igualmente poelemos escribir: e + kr = g + b La ecuación anterior significa que para poder igualar cualquier color puede ser necesario sumar cantidades positivas y negativas ele los primarios "1''', "g" y "b". Hay que notar que se trata de un truco matemático, ya que desde el punto de vista f1sico no tiene sentido sumar luces negativas. Sin embargo, en matemá­ ticas no presenta ningún problema trabajar con cantidades negativas y, en reali­ dad, el sistema de representación basado en coorelenadas cartesianas lo permite perfectamente. Volviendo al experimento de igualación de colores (figura 2.10), el obsetvador mira un pequeño campo circular de luz. El campo está dividido en dos mitaeles, de manera que el color que se desea igualar (e) ocupa una ele ellas, mientras que una mezcla regu­ lable de primarios ur","g" y"b" ocupa la otra mitad. Estos primarios pueden ser cualquier conjunto, siempre que ninguno ele ellos pueela obtenerse por suma ele los otros elos. El experimentaelor ajusta las cantielaeles de los tres primarios hasta que logra igualar (a jui­ cio del observador) e! color ele prueba (c). Para ciertos colores de prueba resulta imposible lograr la igualación' con cantida­ des positivas ele primarios, así que se ha ele rediseñar el experimento de forma que uno o más ele los primarios puedan ser sumados al color de prueba. En este caso la cantidad de! primario sumado al color en prueba se entiende como una cantidad nega­ tiva de tal primario necesaria pa¡'a igualar el color de prueba. COLOR DE PRUEBA Figura 2. IO. Igualación de colores. ¡ ¡ ¡ i 1 Si se realiza este experimento utilizanelo como colores de prueba Jos colores espectrales totalmente saturados (colores monocromáticos puros), se obtiene un conjunto de funciones o valores ele igualación del color, es decir, las cantielades de primarios necesarias para igualar los colores espectrales. La figura 2.11 muestTa un conjunto ele funciones de igualación RGB. AZUL VERDE ROJO Figura 2. I 1. Cantidades relativas de primarios necesarios para generar todos los colores del espectro. Las funciones ele igualación de la figura anterior muestran cantidades negativas para los tres primarios, indicando que muchos colores espectrales caen fuera de! rango de colores obtenido mediante mezcla positiva de los tres primarios. Si qui­ siéramos dibujar un triángulo como e! de la figura 2.9, pero teniendo en cuenta estas cantidades negativas, obtendríamos la representación de la figura 2.12. Colocando en este gráfico todos los colores espectrales se nos formaría un espacio en forma de herradura. Otra característica interesante de las leyes de Grassman es el concepto de que cualqUier conjunto de primarios puede ser igualado mediante otro conjunto dife­ rente, esto es, que cualquier conjunto de primarios es una transformación lineal de cualquier otro. Supongamos que definimos un nuevo conjunto de primarios que denominamos XYZ. Ahora podemos escribir una ecuación matricial que relacione este nuevo conjunto con el conjunto original RGB. LONGITUD DE ONDA EN NANÓMETROS donde Xr Xgx y Yr Yg :H~]Z Zr Zg x = XrR + XgG + XbB... , etc. 5554
  • 27.
    T[CNOLOGí: AC-rU,'L DlfELEYISll)7'l +g ... 2.0 - 1.8520 510 r--.:."----. 1.6 "----.530 t 1.4 1,2 500 540~1 ~ ~ :"'" 550 I0.8~560 1 06 ~570 490 '~ i' '" 580 , 0.4 "'- 600 480" I 0,2 , _ _ "'" 700 47L~I-º-~ -¡-~ +r -r... -¡' -, L 8 ~ ,----,-0.4-'~~-, t ,02 0.4 0,6 0.81__ ~ -0.6 -0,2 ¡ 1,0 -1.2 -1,0 -. _g Figura 2,12. Localización del espectro (espectrus Jocus) basaelo en coordenadas rgb posi­ tivas y negativas. En 1930, cuando se estableció el sistema CIE, se optó por un nuevo conjunto de primarios denominados XYZ, que son transformaciones lineales de RGB, pero que tienen la ventaja de no presentar valores negativos, lo que simplifica los cálculos. Esta tTansformación supone que los nuevos primarios CIE son "primarios no reales", es decir, primarios que caen fuera del espectrus locus.También se suele decir que son pri­ marios ficticios o supersaturados. El primario X (rojo) tiene valores de x = 1, Y= O. El primarioY (verde) tiene valores de x = O, Y= 1, mientras que el primario Z (azul) tiene valores de x =0, y =o. La figura 2.13 muestra las funciones de igualación de color del observador normalizado CIE. • El sistema CIE de igualación de colores incluye procedimientos de cálculo y z x Figura 2, 13, Funciones ele igualación del color normalizadas CIE. El color representación gráfica normalizada de los datos. Las cantidades de primarios elE necesarias para una igualación se del)ominan "valores triestímulo" )' se denotan mediante los símbolos XYZ. En 1931, el CIE normalizó una representación gráfica, denominada "diagrama de eromaticidad", que es una proyección bidimensional del espacio de color XYZ. Esta rep¡-esentación utiliza las coordenadas "x" e "y". La coordenada "z" queda sobreentendida, ya que en todo momento x + y + z = 1. El diagrama de cromaticidad desarrollado por la CIE sirve para representar cualquier color, mediante dos coordenadas (x e y), del diagrama, más una cifra que determina el brillo. La figura 2.14 muestra el diagrama de color normalizado. Algunas de las carac­ terísticas más relevantes son: todos los colores del espectro, tal como pueden verse en el arco iris, están representados, con sus correspondientes longitudes de onda a y P""535 FUlll1te A .. 520 " "0,4476 O8, -, --,- V '-r,"- ,--- '" " y =OA074 I "", 530 FU9nte B • l(" 0,3485I (0.7 ~, - 1--- ~~.O y=0.J517 ' ' ' ' '510 Gc - I1, 550 Fue"teJI; " 0.3101e 1 1. '1=0.3163 °6505 /- l' 1',' I Fuen'. o (6500 K) , ~ "~60 '=3127 ': I yo 329 0'_ _ : . _ 57~ Fuente E o,51500 , : ~' ,eO.3333 , I ' 680 yo 0.3333 1 I "30ooK , ­ 041 [' '~a'-' '-'-~""590, l' 495 i'. i 2.000 K -hOO O 5,600 K I , - ,-, 1000 K' lo" 630 °, 31 ' 10 000 K' le, Re"'" r '9~ 20000 K '/ ! i I "~i) ,700 0,21 I rf>{ ~" l., ./"'C R~ i 4851 Be~ 0,11 , ! i 1180 'f~4 70 ¡ I I 450, i : XFigura 2.14. 1" ._.. I ..° 0, ]'0.2 0,3 0,4 0,5 0,6 0.7 0,8Diagrama de cromaticidad CIE- J931. 400 lo largo de la curva exterior. Las coordenadas "x" e "y" son magnitudes dimensio­ nales, a partir de las cuales puede determinarse tanto el tono o matiz como la satu­ ración de cualquier color. En la recta que sirve de base al triángulo se representan los colores no espectrales (los púrpuras). El brillo o luminancia (suele represen­ tarse por la letra "Y") no está representado en el triángulo. Los puntos situados sobre la curva exterior corresponden a colores saturados, mientras los puntos inte­ riores representan colores no saturados (contaminados de blanco). El punto "E" es el centro del triángulo de color (x == 0,33; Y=0,33) Yrepresenta un blanco ideal, es decir, un blanco para el que todos los colores del espectro aportan igual canti­ dad de energía (blanco equienergético). Si nos fijamos (figura 2.14) en la línea PE, P (x =0,195; Y=0,78) representa un color verde totalmente saturado (longitud de onda = 535 nm). El punto Gc 57 56
  • 28.
    TECNOLOGIA ACTUAL DETELEVISiÓN representa e! mismo color, pero menos saturado. La saturación en este caso queda definida por: E Gc =-- X 100% =85% PE Siendo E e! punto que representa el blanco. La curva Rc - A - Z representa los colores emitidos por e! cuerpo negro ideal cuando es calentado. Las diferentes temperaturas de color están representadas en esta curva en grados Kelvin. Una lampara incandescente que tenga una tempera­ tura de color de 2.800° K emitira una luz igual a la señalada en e! punto A. El punto B representa la luz solar al mediodía; el O, el promedio de luz diurna, etc. Los colores utilizados en televisión como basicos (rojo, verde y azul), que sue­ len representarse por sus iniciales en ingles R, G YB, pueden encontrarse en e! tr¡angulo de color con las indicaciones Rc, Gc y Bc. La situación de estos puntos demuestra que sólo Rc es un color totalmente saturado. Las figuras 2.15, 2.16 Y 2.17 muestran algunas de las utilidades de "triangulo internacional de colores". En la figura 2.15 puede verse que cualquier color situa­ do en la recta O-E puede obtenerse mezclando cantidades proporcionales de los colores definidos por O y E. También es posible determinar e! grado de saturación o pureza de cualquier color contenido dentro de! triangulo. Por ejemplo, para saber cual es e! grado de saturación de! color "G" basta con dividir la distancia de este color al punto blanco por la distancia al color de! mismo matiz situado en la periferia. yCUALQUIER MEZCLA ENTRE D Y E SE SITÚA ENDE ............-: ~ LA LONGITUD DE ONDA DOMINANTE DE "L" ES "N" PUREZA DEL _ LD COLOR "L" - DJ "O" Y "P" SON COMPLE· MENTARIOS. PUESTO QUE O+P = BlANCO ~K Figura 2.15. Mezcla de colores en el "triangulo inter· COLORES NO ESPECTRALES nacional". (PÚRPURAS O MAGENTAS) ------~ X Colores no espectrales. Figura 2.16. :f 1 Figura 2.17. ...........- - - ---.---------., XPrimarios empleados enTY. En la figura 2.16 se muestran resaltados los colores no espectrales, es decir, aquellos que no pueden obtenerse por suma de una sola luz monocromatica y blan­ co. Estos colores se inscriben en el pequeño triángulo formado por E-D-K. Puesto que no son colores espectrales, no se les puede, en principio, identificar por su lon­ gitud de onda dominante. Lo que se hace es dar la longitud de onda del color com­ plementario, pero negada (poniendo una rayita encima de la cifra). Por ejemplo, la longitud de onda de! color "J" es de 540 nm. Para calcular la pureza de los colo­ res no espectrales se procede como en el caso de los colores espectrales, es decir, expresando la distancia relativa al punto blanco. También puede verse en esta figu­ ra que la mezcla de dos colores complementarios en las proporciones adecuadas proporciona el blanco. La figura 2.17 muestra los colores utilizados como primarios en televisión: Rc para el rojo, Gc para el verde y Bc para el azul. Tan sólo el rojo es un color real­ mente saturado. En principio los colores reproducibles en un sistema de televisión quedan limitados al triángulo definido por los primarios utilizados, de manera que la televisión (igual que otros medios graficos) es incapaz de reproducir todos los colores. ¡¡ 2" Las componentes de color ! !( Se sabe que, en teoría, cualquier color puede ser obtenido mediante la mezcla aditiva de tres colores primarios en las proporciones adecuadas. Como colores pri­ ¡ marios han sido elegidos el rojo, el verde y el azul (normalmente nos referiremos t a ellos mediante sus iniciales en inglés R, G, B), debido a varias consideraciones. l ¡ Una de ellas es que los colores no deben estar situados en el espectro uno cerca de otro, ya que en este caso sería necesario sumar cantidades negativas de algunos de ! los primarios para obtener ciertos colores, y otra razón es que los primarios ele­ ¡ gidos deberán corresponder, preferiblemente, a los fósforos disponibles en los 1 J 5958
  • 29.
    TECNOLOGíA ACTUAL DETELEVISiÓN tubos del televisor. Además los conos de la retina humana, que son responsables de la visión en color, están divididos en tres grupos, cada uno de los cuales presenta su máxima sensibilidad en el rojo, el verde yel azul, respectivamente. En una cámara de televisión en color la imagen es dividida, mediante el prisma o espejo dicroico, según el caso, en estos tres colores primarios y enviada a tres sensores CCO de la cámara (uno para cada color). Estos tres sensores determinan la intensidad de cada color y suministran las señales R, G YB. A comienzo de los años 50 el Comité Federal de Comunicaciones de los Estados Unidos de Norteamérica encargó a un grupo de expertos la creación de un siste­ ma de televisión en color. El Comité Federal impuso al grupo de expertos dos pre­ misas: 1. Compatibilidad directa e inversa. La señal de color debería poder ser vista en los receptores de blanco y negro, aunque, por supuesto, en blanco y negro. Además las emisiones que se siguieran haciendo en blanco y negro deberían poder ser mostradas por el televisor de color, aunque, como es lógico, en blanco y negro. 2. El sistema de televisión en color nuevo no debería ocupar más ancho de banda que el viejo sistema de blanco y negro. Esto significa que para la tele­ visión en color se seguirían utilizando los mismos canales de radiodifusión que habían sido otorgados a la televisión en blanco y negro. De las premisas anteriores se deduce que la nueva señal de color debería ser una "seudoseñal de blanco y negro", en el sentido de que al televisor de blanco y negro le siguiera pareciendo una señal de blanco y negro y que las nuevas informaciones le pasaran inadvertidas. El televisor de color, por su parte, sería capaz de separar la información de blanco y negro de la información nueva y, procesándolas, obtener los valores de R, G YB. En cierto sentido se puede decir que en los sistemas actua­ les de televisión la información de color está "escondida" o "disfrazada" en la infor­ mación de blanco y negro. Como sabemos, la luz blanca (por ejemplo, la que nos llega del Sol) no es otra cosa que la suma de luces de muchos colores. Es posible comprobar esto último descomponiendo la luz blanca mediante un prisma u observando el arco iris. Parecería lógico que si queremos obtener luz blanca a partir de tres primarios R, G YB, deberíamos mezclar estos a partes iguales, es decir, 33% R + 33% G + 33% B. Sin embargo, si nos fijamos en la distribución espectral de la luz blanca veremos que está formada por mucha más radiación verde que roja y por muy poca radia­ ción azul. Si queremos obtener una señal de blanco y negro (y la necesitamos para cum­ plir con la compatibilidad) a partir de las señales R, G Y B proporcionadas por la cámara de color, deberemos sumar éstas en las proporciones: 30% R + 59% G + 11 % B (véase experimento del la figura 2.2). La señal así obtenida (prácticamente idéntica a la que proporcionaría una cámara de blanco y negro) se denomina "Iumi­ nancia" y se abrevia como "Y" (figura 2. 18). Por tanto: Y = 0,3 R + 0,59 G + 0,11 B (2) La señal de luminancia "Y" sería suficiente para el televisor de blanco y negro, [J loL~r pero el televisor de color necesita saber cuánto rojo, cuánto verde y cuánto azul contiene cada punto de la escena. A la señal de luminancia hay que añadir, por tanto, una información adicional que permita al televisor de color conocer los valores de R, G YB. Esta señal adicional se llama "crominancia". Puesto que la señal "Y" se obtiene sumando, aunque de forma ponderada, las seña­ les R, G YB Ypuesto que tenemos que enviar forzosamente la señal "Y" para cumplir con la compatibilidad, será suficiente enviar, además, dos de los tres sumandos. El ter­ cero podrá ser deducido en el televisor restando de "Y" la suma de los otros dos. SEPARADOR CROMATICO .,---SENSOR CCD ~ ROJOff --- "-,- ~ O~ 30% O~ VERDE LUMINANCIA "Y" 59% I O~I~ '" I I Figura 2.18. Obtención de la señal de luminancia a partir de los primarios RGB. La señal G es la que más contribuye al valor deY (59%). Por tanto, podríamos enviar como información adicional R y B. Sin embargo, resulta más apropiado enviar "R - Y" Y"B - Y", es decir, e! valor de! "rojo-menos-luminancia" y el valor de! azul-menos-Iuminancia. En e! televisor será suficiente volver a sumar "Y" para obtener "R" y"B". Por otro lado, restando "R" + "B" de "Y" (respetando las ponde­ raciones) obtendríamos e! valor de "G". En e! fondo, Y, R - Y Y B - Y no son más que otra forma de expresar R, G YB. Matemáticamente: Y =0,3 R + 0,59 G + 0,11 B; R -Y =0,70 R - 0,59 G - 0,11 B; B -Y =-0,3 R - 0,59 G + 0,89 B Igualmente: R =Y + (R - y); G =Y-O,509 (R - Y) - 0, 194 (B - y); B = Y -- (B -Y) Lo anterior puede representarse también mediante las siguientes matrices (aquÍ los coeficientes se han expresado con precisión de tres decimales): [ 1 ~ =[MJIX[R~Y =[: - 0,509 - o~941]X[R ~y] B B-Y 1 O 1 B-Y 60 61
  • 30.
    TECNOLDCIA ACTUAl DETI:I.[VISI()N El color r La elección de R -y YB- Y como señales de crominancia se basa en los siguien­ tes postulados: 1. Cualquier señal monocroma (en blanco y negro) dará valores nulos tanto para R - Y como para B - Y, es decir, valdrán O. 2. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener en cuenta el signo, resultarán proporcionales a la saturación o pureza de los colores. En efecto, cualquier señal monocromática proporcionará a la salida de los CCO iguales valores de R, G YB. La luminancia, en este caso, valdrá lo mismo que R, que G o que B. Por tanto, R -y =°y B - Y =O. Por ejemplo, un gris medio dará: R = G = B = 0,5; su luminancia será: 0,30 x 0,5 + 0,59 x 0,5 + 0,11 x 0,5 = 0,5; R -y = 0,5 - 0,5 =0; B -y = 0,5 - 0,5 = O. El sistema es coherente; puesto que R - Y YB - Y, que representan la cromi­ nancia, es lógico que valgan cero cuando se trata de señales en blanco y negro (que por definición no tienen crominancia). Igualmente es lógico que los valores de la crominancia sean proporcionales a la cromaticidad o pureza del color que repre­ sentan. Tanto R - Y como B - Y pueden presentar valores positivos y negativos. Por ejemplo, supongamos que mostramos a la cámara una cartulina de un color ama­ rillo saturado al 100%. Tanto el tubo rojo como el tubo verde darán el máximo (que normalizamos, por simplificación, a 1). El tubo azul dará O, puesto que el amarillo no contiene azul. La luminancia valdrá 0,3 (de! rojo) + 0,59 (del verde) = 0,89. Puesto que R = 1, R - Y = 1 - 0,89 = 0,11. Ahora, puesto que B = 0, B -y = 0- 0,89 = -0,89. Al conjunto "Y", "R - Y" Y"8 - Y" se le conoce como: componentes de vídeo y son las señales con las que trabajan los magnetoscopios denominados "Por componen­ tes", como el Betacam y el MIl, si nos referimos a los analógicos, o el 01 Y05, si nos referimos a los digitales. Además todos los formatos modernos que utilizan compresión se basan también en el uso de las componentes de color. Las señales R - Y YB - Y presentan valores extremos, que resultan, en general, muy grandes. En la mayoría de las aplicaciones estos valores son atenuados, multi­ plicándolos por algun coeficiente menor que la unidad. Así pues, las componentes de vídeo constan de tres señales simultáneas: la lumi­ nancia (Y) y dos señales diferencia de color (R - Y YB - Y). 2. 1. La corrección de gamma Uno de los primeros pasos que sufre la señal de vídeo, ya sea en blanco y,negro o en color, es una "predistorsión" conocida como "corrección de gamma". Esta es consecuencia de las características de transferencia electro-óptica del TRC (tubo de rayos catódicos) del televisor; el brillo proporcionado por la pantalla no es line­ almente proporcional a la tensión suministrada al tubo (la señal de vídeo). Para conseguir una transferencia global lineal, es decir, para que los incrementos de bri­ llo de la escena se traduzcan en incrementos iguales en la pantalla del televisor es necesario introducir en el sistema una compensación no lineal. I Aunque la falta de linealidad se produce en e! televisor, históricamente la com­ pensación de gamma se ha realizado en la cámara y así está definido en los sistemas de televisión. Así pues, las señales R, G Y8 son predistorsionadas en la cámara para compensar la falta de linealidad del TRC. Hay dos razones para realizar la correc­ 1 ción de gamma en la cámara, en lugar de hacerlo en e! televisor. Por un lado, resul­ ! ta más económico realizar la corrección de gamma una sola vez en la cámara que hacerlo millones de veces en cada uno de los televisores. Por otro lado, esta pre­ distorsión de la señal ayuda a disimular el ruido que se añade a la señal durante la transmisión. Para que los resultados finales sean correctos es necesario definir unas caracte­ rísticas electro-ópticas normalizadas para el TRC y sus métodos de compensación. Aunque la corriente del haz de electrones deITRC (y, por tanto, el brillo de la pan­ talla) es proporcional a, aproximadamente, el cubo de la tensión aplicada a la reja de control (la señal de vídeo), en televisión se trabaja como si dicha relación fuera y = Xl." siendo "y" el brillo o luminosidad del TRC y "x" el voltaje que controla dicho TRC. Este "trucaje" de la gamma del sistema se hizo para compensar la rela­ tivamente baja relación de contraste que podía afrontarse en las imágenes de tele­ visión y, aunque este aspecto ha mejorado notablemente, el "valor de gamma del TRC = 2,2" se mantiene (otra herencia de los inicios de la televisión. Si se asume una gamma del TRC de 2,2, será necesario, para compensarla, pre­ distorsionar la señal de vídeo en la cámara, aplicando una gamma de 1/2,2 = 0,45. La figura 2.19 muestra que el efecto sumado de la precorrección de gamma de la cámara y la distorsión introducida por el TRC logran una gamma o respuesta final lineal. Las señales que han sido corregidas en gamma se denotan mediante una comilla del tipo R' , G' , B' , oY' , que se lee "R-prima, G-prima, etc. Así la fórmula (2) debería escribirse como: Y' = 0,30 R' + 0,59 G' + 0,11 B' Puesto que se trata de tensiones eléctricas, es frecuente encontrar la fórmula anterior como: u ~ ~ (§ « ~ a:: 1­ z UJ ~ ...J °v......-----== I 11­ Y -l-----¡I l y=xo,.. o,a/ ~g~~~~~~~_I LL. _ 0,6 0,4'­ 0,2, 0,2 0,4 0,6 0,8 TEN810N DE CONTROL DEL TRC (SEÑAL DE ViDEO) E'Y = 0,30 E'R + 0,59 E'G + 0,11 E'B Figura 2.19. Las curvas de gamma de cámara ydel TRC se compensan mutuamente. La corrección de gamma en la cámara equivale a "estirar los negros" y ! X. "comprimir los blancos", En el receptor de televisión se produce el efecto complementario. 62 63
  • 31.
    TlC~OLCJG¡' :ClLJAI rH:TE1JV1SIÓN 2.2. Multiplexado de las componentes En todos los sistemas convencionales de televisión las señales primarias RGB suministradas por la cámara son procesadas para producir una señal de video ana­ lógica compuesta, ya sea NTSC, SECAM o PAL. Los principales componentes de estos sistemas son: una señal de banda ancha (Y) y dos señales diferencia de color de banda estrecha (R - Y YB- Y). Cada una de estas dos señales de banda estrecha modlllan una portadora de alta frecuencia. La forma en que las señales de cromi­ nancia modulan a la portadora de alta frecuencia varia de un sistema a otro. La fre­ cuencia de la portadora se hace lo más alta posible, porque de esta forma se redu­ ce su visibilidad en la pantalla, y es de 3,58 MHz en el sistema americano NTSC y de 4,43 MHz en el europeo PAL. En SECAM las dos señales diferencia de color modulan en frecuencia sendas portadoras situadas en 4,25 y 4,406 MHz. E'yE' RETARDO I • SALIDA ViDEO COMPUESTO E' ~ SUMADOR~ MATRIZ E' ~ LPF = FILTRO 1 -1 E'R_Y I LPF I I .1 PASO-BAJO GENERADOR DE SUBPORTADORA Figura 2.20. Diagrama de bloques simplificado del codificador de la señal de color compuesta. Las señales de luminancia y crominancia son multiplexadas por "división en fre­ cuencia", para obtener una señal de vídeo única (que puede encaminarse por un solo cable), adecuada al canal de transmisión de que se trate. La figura 2.20 muestra el dia­ grama de bloques de un codificador genériCO. La matriz sirve para obtener la señal de luminancia y las señales diferencia de color a partir de los primarios RGB. Internamente esta matriz está formada por swnadores, restadores y amplificadores lineales. La linea de retardo introducida en el camino de la luminancia sirve para com­ pensar el mayor retardo de las señales diferencia de color al pasar por los filtros paso­ bajo. Las señales producidas por los filtros paso-bajo son enviadas a sendos modula­ dores. Las dos señales moduladas son sumadas a continuacion a la señal de luminan­ cia, para obtener una señal compuesta única. El diagrama de la figura 2.20 es una ver­ sión simplificada, que puede servir para los tres sistemas de televisión en color. La figura 2.21 muestra el diagrama de bloques simplificado del decodificador del receptor. Puesto que se trata de volver a obtener los primarios RGB, básica- E' E' 2- ...----[RETA3OOJ-.-_l'.J DEMODULADOR VIDEO s·y COMPUESTO FILTRO E'B-YI I l lE'.. ~ ..MATRIZ~ DEMODULADOR R:::Y T~~ E'R_Y~ lE'__B .. Figura 2.21. Diagrama de bloc¡ues simplificado del decodificador de la señal de color compuesta. mente se realizan los procesos inversos a los obtenidos en el codificador. En pri­ mer lugar, la señal compuesta tiene que ser separada, mediante filtrado, en lumi­ nancia y crominancia. La componente de crominancia es posteriormente demodu­ lada de una forma especial, que varía según el sistema de televisión en color, para obtener las señales diferencia de color R - Y YB - Y. Por su parte, la señal de lumi­ nancia (Y) es retardada, para igualar en el tiempo a las señales diferencia de color. Estas tres señales (la luminancia y las dos señales diferencia de color) son enviadas a una matriz activa para proporcionar los primarios RGB. Resumen • Tres son los atributos psicofisicos del color: matiz, saturación y brillo. Por matiz entendemos la sensación de color por la cual distinguimos las partes del espectro: rojo, azul verde, amarillo, etc. Saturación es el grado de pureza de un color, es decir, la medida en que está contaminado de blanco, gris o negro. El brillo es la sensación de luminosidad de un color. Está asociado con la can­ tidad de luz y la sensación visual. • La mezcla aditiva se basa en sumar luces. Cada vez que se añade un nuevo color el resultado es una mezcla más luminosa. Los colores primarios en mez­ cla aditiva son el rojo, el verde y el azul. • Las leyes de Grasmann rigen los principios básicos de la mezcla de colores: dos radiaciones cromáticamente equivalentes a una tercera son equivalentes entre sí. Si sobre el ojo actúan varias radiaciones simultáneamente, es posible sustituir una o varias de estas radiaciones por radiaciones cromáticamente eqUivalentes. Si dos áreas visuales producen la misma sensación de color, esta no cambia si en ambas se disminuye la luminosidad o brillo sin cambiar el matiz ni la saturación. La luminancia de un color es igual a la suma de las lumi­ nancias de sus componentes espectrales. En mezcla sustractiva se utilizan pigmentos. Los colores primarios en mezcla sustractiva son: cián, magenta y amarillo. 65 64
  • 32.
    TECNOLOGI.I¡, ACrUAL DETHEVI~16N o Las escalas normalizadas se utilizan para garantizar que las pruebas de per­ cepción de! color se realizan en condiciones objetivas. Un factor muy impor­ tante es la iluminación, ya que los resultados son distintos, según sea e! tipo de aquélla (natural, artificial, incandescente, etc.). o Entre los sistemas históricamente más importantes de normalización de! color destacan: el sistema Runge, e! Munsell y e! Ostwald. Todos ellos se basan, con pequeñas diferencias, en la ordenación de los tres parámetros psi­ cofísicos de! color (matiz, saturación y brillo). o En televisión es de especial importancia e! sistema de! CIE conocido como "triángulo internacional de colores". Este sistema sólo informa de dos de los tres atributos de! color: matiz y saturación. El brillo se trata por separado y esto es perfectamente consistente con la forma en que trabaja la televisión. o Las componentes de color se basan en la utilización de tres señales separadas: una señal de luminancia "Y" y dos señales diferencia de color "R - Y" Y"B -Y". Esto tiene sus orígenes en los inicios de la televisión en color, cuando uno de los requisitos más importantes era e! de la compatibilidad entre la señal en blanco y negro y la señal en color. o La señal de luminancia "Y" se obtiene sumando los primarios rojo, verde y azul en las siguientes proporciones:Y =0,3 R + 0,59 G + 0,11 B. Puesto que la señal "Y" se obtiene sumando, aunque de forma ponderada, las señales R, G Y B Ypuesto que tenemos que enviar forzosamente la señal "Y" para cum­ plir con la compatibilidad, será suficiente enviar, además, dos de los tres sumandos. o B - Y representa la cantidad de azul menos su propia luminancia y lo mismo sucede con R - Y. La elección de R - Y YB - Y como señales de crominancia se basa en los siguientes postulados: cualquier señal monocroma (en blanco y negro) dará valores nulos tanto para R -y como para B - Y, es decir, valdrán O. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener en cuenta e! signo, resultarán proporcionales a la saturación o purez3<de los colores. o La corrección de gamma sirve para compensar la falta de linealidad del TRC y consiste en predistorsionar la señal de vídeo de forma complementaria a como lo hace el tubo de! televisor. La gamma de! TRC se ha normalizado a 2,2 y, por tanto, la gamma de cámara será de 0,45. o En los sistemas de televisión compuestos las componentes de color son mul­ tiplexadas en frecuencia (de una forma distinta en cada sistema), para formar una única señal de vídeo que se graba o se transmite por un único canal. En el múltiplex la señal de luminancia se transmite con todo su ancho de banda, mientras que las señales diferencia de color se transmiten o se graban con un ancho de banda reducido. CAPÍTULO 3 Los sistemas de televisión 1. Introducción Aunque estamos ya de lleno dentro de la era digital, con canales de televisión que se producen y distribuyen en forma de bits, ya sea por vías terrenas, de cable, de satélite, y aunque la publicidad nos hable de pantalla ancha, home cinema, alta definición, cinematografía electrónica, etc., la realidad es que seguimos recibien­ do en nuestras antenas la misma señal (en nuestro caso, PAL) que nos trajo el color hace casi cuarenta años. Probablemente dentro de una década el sistema PAL (al igual que e! NTSC y el SECAM) habrá desaparecido. De hecho, existe un informe de la Comisión Nacional de Comunicaciones que propone el "5witch-c:JJ" del PAL para el 2012, aunque seguramente se demorará algo más. Incluso así es necesario conocer la forma en que se estructura la señal PAL, no solamente porque una déca­ da es mucho tiempo, sino también porque en tecnología nada muere del todo. Los sistemas más avanzados no dejan de ser variaciones más o menos afortuna­ das de ingenios pretéritos. En un mundo ideal debería haber una única norma de televisión en color. En e! mundo real hay tres: PAL, SECAM y NTSC, más algunas variantes menores. Si un inglés se va de vacaciones a un camping de Francia con su caravana o si alguien se compra un reproductor de vídeo en EE.UU. y se lo trae a Europa, se dará cuenta de los problemas que supone la falta de una norma única. 2. El sistema NTSC NTSC son las siglas de dos grupos de normalización americanos (National Television Standards Commitee y National Television 5ystem Committee) , e! primero de los cuales estableció (en 194-0) el sistema de 525 líneas y 60 campos, mientras que el segundo diseño y normalizó (en 1953) e! sistema de color que lleva su nombre. 66 67
  • 33.
    TLCNOIOGI, ACTU ..l!lE TELE'J),~I(",N,-' _ El NTSC se emplea como sistema de television en color en los Estados Unidos de América, en Canada, en Méjico)' en todo Centroamérica (excepto en las peque­ ñas islas francesas de Saint Pierrc y Miquelon). También es el sistema usado en la mayor parte del Caribe, Sudamérica, Asia y el Pacífico. Barbados fue el único país en el mundo que transmitió color NTSC con un sistema "no-525/60", aunque muy pronto se paso a las 525 líneas/60 campos (norma "M" del CCIR). Por otro lado, el único país que actualmente emite 525 líneas/60 campos, pero sin codificación NTSC del color, es Brasil, que emplea el llamado PAL-M. Con el NTSC se sentaron las bases de la televisión en color. La mayoría de los procesos y principios que se siguen en la codificacion de! color en otros sistemas fueron ya definidos en 1953 por el NTSC. Las señales diferencia de color, la modu­ lacion en cuadratura, el burst, etc., existen desde la aparicion del NTSC. Es impor­ tante conocer como funciona el NTSC, no sólo porque lo utiliza una buena parte de la poblacion mundial, sino también porque el sistema PAL, que es e! que utili­ zamos en Europa, no es mas que una adaptación revisada del sistema NTSC. Por esta razon algunas cuestiones se explicaran de forma simultanea, con datos para NTSC y para PAL. 2.1. Atenuación de las componentes Como vimos en el capítulo anterior, el primer paso consiste en lograr una única señal de crominancia a partir de R - Y YB - Y, la cual se sumara posteriormente a la luminancia "Y". Los valores de R -y YB - Y resultan excesivos, ya que la señal de crominancia obtenida a partir de ellos produciría, al sumarse a la luminancia, una señal compuesta cuya amplitud saturaría los equipos de transmision, grabacion, etc., pensados para señales monocromas y, por tanto, para amplitudes de 1Y p-p. Cuando se diseñó e! sistema NTSC en EE. UU., se pensó que los equipos po­ drían soportar, con ligeras modificaciones, señales que excedieran un 3il% los valores del pico de blanco y de! nivel de negros de la señal monocromatica. Basandose en esto, se establecieron unos coeficientes de ponderación que son: 0,49 para B - Y Y0,88 para R - Y. Estos coeficientes se utilizan tanto en el sis­ tema americano de 525 líneas y 60 campos como en el europeo de 625 líneas y 50 campos. B-y YR - Y atenuadas pasan a llamarse "1" y"Q" en el sistema americano NTSC y "U" Y"Y" en e! sistema europeo PAL. I YQ modulan, por separado, dos subportadoras de color. Ambas subportado­ ras son idénticas en amplitud y frecuencia (3,58 MHz en el sistema NTSC), pero difieren en fase: estan desfasadas 90 grados. Las dos subportadoras moduladas por R - Y YB - Y ponderadas son sumadas a continuación. 2.2. Modulación en cuadratura de fases Gracias a que ambas subportadoras estaban desfasadas 90 grados, se cumple que si en un instante determinado una de ellas pasaba por un máximo, la otra estaba, Los sistema:- (le- lelcQsión S-Y R-Y ORIGINAL SUSPORTADORA ORIGINAL MUESTREAR AQU! PARA S-Y (R-Y = O) /)/- MUESTREAR AQul PARA R-Y (S-Y = O) Figura 3.1. Gracias a estar desfasadas 90 grados, B - Y vale cero cuando R - Y vale máximo y viccversa. en ese mismo instante, en cero (figura 3.1). Esto se conoce como "modulacion en cuadratura de fases". Midiendo, o muestreando, la subportadora de color (que es la suma de dos senoides desfasadas 90 grados) en los momentos adecuados, el receptor puede recomponer los valores individuales de R -- Y Y B - Y a partir de la señal de cro­ minancia. A este proceso se le denomina "demodulacion sincrónica". Para que el proceso de demodulacion funcione correctamente, el receptor necesita conocer en que momentos debe muestrear la señal de crominancia. Esta información la proporciona el "bUTst". El receptor de TY dispone de un oscilador local que trabaja, aproximadamente, a la misma frecuencia que el oscilador que genera la subportadora de la cámara. Cada 64 flS en PAL o cada 63,5 flS en NTSC, es decir, una vez por cada línea de TV, el bUTst resincroniza en frecuencia y en fase el oscilador local del televisor. 2.3. Formación de la señal compuesta El bUTst está formado por nueve ciclos de subportadora sin modular en NTSC y por diez ciclos en PAL, los cuales van colocados en el portico posterior del borra­ do de línea (figura 3.2). Para ver cómo se obtiene la señal compuesta podemos utilizar el ejemplo de las barras de color normalizadas (figura 3.3). Estas barras siguen la secuencia: blan­ co, amarillo, cián, verde, magenta, rojo, azul y negro (de izquierda a derec:la). En la parte superior puede verse la señal de luminancia, es decir, la señal en terminas de blanco y negro. Se aprecia claramente una escalera de luminancia o brillo decre­ 68 69
  • 34.
    TH'NOLOGIA ACTUAL DETELEVISIÓN NTSC PAL BURST (S ciclos de subportadora) ..>! >'El E: 81gL ­ ¡¡~~ M' Y l2.51 IJS (S.1/3,58 Mhz) , i ~3,3S IJSJ ¡,,-­ (10.1/4.43 Mhz) Figura 3.2, El bum sirve para resincronizar e! oscilador local de subportadora de color de! televisor. El bum sólo está presente en las señales de vídeo de color. Compárese la figura 3.2 con la 1,8, ciente. Ciertamente, si a un televisor que esté reproduciendo las barras de color le reducimos e! control de color a mínimo, lo que veremos será una escala de grises, desde el blanco, a la izquierda, hasta el negro, a la derecha. En la parte central izquierda de esta misma figura se ha representado la crominan­ cia, la cual se sumará a la luminancia, para formar la señal compuesta. Nótese que el valor medio de la señal compuesta sigue siendo la señal de luminancia, mientras que las desviaciones, con respecto a este valor medio, vienen a representar la crominancia. La separación de las señales de luminancia y crominancia en e! receptor, es decir, la separación entre e! nivel medio y las desviaciones con respecto a este nive! medio se realizan mediante filtros-pasa-banda. SEÑAL DE UCROMINANGIA SEÑAL DE~ I '--+ Figura 3.3. Formación en el codificador y descomposición en e! receptor de la señal compuesta de vídeo, Los sistemas cle tele'isión 2.4. Descripción matemática Veamos cómo se obtiene la señal de erominancia. Básicamente se trata de sumar las dos señales diferencia de color. Tomemos como ejemplo el sistema PAL, donde: U =0,49(B - y); V =0,87(R - Y) Puesto que la señal B - Y atenuada o "U" ha modulado una senoide, podemos escribir: sen 2:rt fe modulado con U = Usen2:rtfc (U= 0,49 x R - Y) Ypuesto que R - Y atenuada °"V" ha modulado la misma senoide, pero desfasada 90 grados: eos 2:rt fc modulado con V = Veos2:rtfe. (V =0,87 x R - Y) "fe" es la subportadora de color (de frecuencia 3,58 MHz en el sistema NTSC y de 4,43 MHz en PAL). U YV representan a B -y YR -y atenuados. Se trata, por tanto, de dos portadoras desfasadas 90 grados y moduladas, que podemos representar. mediante un diagrama polar. El eje horizontal representará los valores de U, mien­ tras que el eje vertical nos dará los valores de V. La suma vectorial de U yV nos pro­ porcionará una representación gráfica de los vectores de crominancia obtenidos. 2.5. El vector de crominancia La figura 3.4 muestra el diagrama polar en el caso de las barras de color satu­ radas al ¡00%, indicando sus ángulos y longitudes. Como puede verse, el ángulo de! vector resultante es función del matiz, mien­ tras que la longitud nos indica su saturación. ROJO +V (1°1°), l " MAGENTA (61°) /) 0,59 1- 0,44 , ~ - U - - - - - - - - - - - ­ ~) AZUL (347°) i / 0,59 VERDE Figura 3.4. (241°) ,. u Representación vectorial de las barras de color normalizadas.-V 70 71
  • 35.
    TECNOLOGír rCTU:'~L-,[)"L,-,'¡-,[~LE"-',-,'I",S1",,6,,N _ Portanto, cualquier error en la amplitud del vector de crominancia se tradu­ cirá en un error de saturación, mientras que los errores de fase del vector supon­ drán un giro en el matiz del color. Estos ultimos son muy fáciles de detectar por parte del sistema de percepci6n visual humano. El sistema NTSC es propenso a presentar errores de matiz, que son consecuencia de errores diferenciales de fase, entre la subportadora de color y la referencia de croma (el burst), Por esto una interprC'taci6n jocosa del acr6nimo NTSC, muy difundida en EE. UU. es "Ncl'er J¡vice Sarne Color" (Nunca tienes similar color). Matemáticamente la longitud del vector (K) puede calcularse como: K=.JU~+V~ Igualmente es posible calcular el angulo (eL) U a =arctg- V En e! sistema NTSC no se utilizan las componentes de color "U" y "V", sino que en su lugar se transmiten las componentes ''1'' y "Q". Estas coordenadas "Y" y "Q" se obtienen girando 33 grados U yY en sentido antihorario. La intenci6n de este giro de los ejes "U" y "Y" es la de optimizar el ancho de banda de la crominancia. El eje ''I'' coincide con la máxima resoluci6n del ojo humano al color, en términos de discernimiento o separaci6n de matices cercanos y, como puede verse en la figura 3.5, se situa en el eje rojo-cian. Por el contrario, el eje "Q" coincide con la mínima resoluci6n cromatica de! sistema visual humano en e! eje verde-magenta. Podemos escribir las siguientes equivalencias: 1 = Y x cos33° ~ U x sen33° Q =Y x sen33° + U x cos33° j Rojo V Magenta Amarillo u-,o Azul Verde Figura 3,5. Los ejes ''1'' y "Q" del sistema NTSC estan girados 33 grados con respecto a los ejes "U" y "V". ___Los ::¡istcmas dc_t..clC'lSiQn En el sistema NTSC los anchos de banda utilizados para la transmisi6n de ambas señales diferencia de color son distintos: Señal 1 = J ,3 MHz Señal Q = 0,5 MHz 2.6. Suma de luminancia y crominancia Hasta aqui hemos conseguido formar una unica señal de crominancia "C", que, sin embargo, transporta informaci6n de R - Y YB -y Yque puede ser descompuesta de nuevo en el receptor. No s610 estamos en el buen camino de lograr una unica señal de transmisi6n, sino que, además, disponemos de una señal "c" que representa la croma­ ticidad de la imagen, es decir, los atributos psicofísicos de matiz y saturaci6n. El último paso consiste en sumar la subportadora de color a la señal de lumi­ nancia, para obtener as] la señal compuesta. La figura 3.6 muestra el diagrama de bloques del codificador NTSC. La señal compuesta, denominada CYBS (Color­ Video, Blanking and Syncs) se obtiene sumando la luminancia y la crominancia. A su vez, la crominancia se logra sumando las componentes "1" y "Q" moduladas. " ' 1 IRETARDO: ,- - - ~~~>, 1 ~s r- i _ 1 ¡ 1 IV.! ',FILTRO', I -1 I MODU-¡ • 1 ; PASO! .IRETARDO:....J LADOR _, G MATRIZ " 0 BAJO :-" Ó 1 I 0,6 ~s I I I B 1 1 1,3 MHz: I I [------ --,,---~-- ¡ --- ..' ., CVBS 1 t fFsc= 123'.. I (SUMADOR! >SUMADOR! NTSCo " _ ¿ ' I 1-'A. "... I, FILTRO ! MODU. I 33+90 I I,', PASO ¡ J LADOR 1=123' -o, BAJO '----¿~~' : 0.5 MHz ! Q _ _;{_~__ ---.J I II 33' ¡. fFsc=33' fFSC=O'¡ , i I,GÉ,NE,AA,D,O,R,J ií DEL BURST r- I I "'1 IOSCILADOR I GENERADOR ¡' I 1DE SUBPOR-', ,.. DE BORRADOS , ,J LT~88~R~E ¡ lY~IN_CRONIS_f<1<:S! Figura 3.6. Diagrama de bloques del codificadO!' NTSC. 3. Un formato intermedio: Yle Aunque nunca se ha considerado como un tipo de señal de vídeo profesional, el formatoy/e está cobrando cada vez mas importancia, especialmente con la popu­ larizacion de los sistemas multimedia basados en ordenador. Por esto puede resul­ tar util dedicarle aquí unas lineas. 72 73
  • 36.
    TECNOLJ>GiA ACTUAL UETElf"IS1ÚN Los sistema~ de tc!c'isión 'r i El formato YIC se basa en la generación, enrutamiento, manipulación)' grabación de la señal de vídeo de color mediante dos componentes separadas: la luminancia y la crominancia. Así, la "Y" representa la luminancia y "c" la crominancia. Este tipo de señal de vídeo podría considerarse como un estado intermedio entre las componentes de color y la señal compuesta, tanto en lo que se refiere al nUmero de etapas de pro­ cesado que sufre la señal de vídeo como en cuanto a la caüdad que ofrece la imagen. Este formato nació en 1988 con la introducción, por parte de JVC, de los mag­ netoscopios S-VHS, por lo que también se conoce precisamente así: S-VHS. Igualmente se utiliza la nomenclatura "S-Video". La figura 3.7 muestra un diagra­ ma de bloques conceptual de la codificación de las señales por componentes, YI C y compuesto. Puede verse que realmente la señal YI C se sitúa a medio camino entre la señal por componentes y la señal compuesta. Cámara Magnetoscopio Receptor o::y y8 R y O RYü o <í N :5Ü o: G ;i' LUZ~ /LUzi ill1- o:: ü: f-O D C/) eL O '.tB z z O :::E B ~üw wC/) o ~I , YUV JBetacam Mil Figura 3.7. El formato yI e puede considerarse como un estado intermedio entre "componentes" y "com­ puesto". Como puede verse en la figura 3.7, el formato YI C se basa en la utilización de dos cables o vías de comunicación separadas. Esto aporta una serie de ventajas con respecto a la señal de vídeo compuesta, en la que las señales de luminancia y cro­ minancia se multiplexan en frecuencia para formar una señal única: • No se merma la resolución de luminancia por filtrado. • Se aumenta en un 50% la resolución de crominancia con respecto a la señal compuesta. • No se producen efectos de intermodulación entre la luminancia y la cromi­ nancia, como el famoso cross-colour. 4. El sistema PAL En 1962 la UER formó un grupo de trabajo cuya misión era escoger el que debería ser el sistema europeo de televisión en color. Para entonces Francia ya tenía desarrollado su propio sistema: el SECAM. Un año más tarde, Walter Bruch, de la empresa alemana AEG-Telefunken, complicó la elección al proponer el siste­ ma PAL. Finalmente en la conferencia plenaria de! CCIR de 1966 en Oslo se pro­ dujo la ruptura: Francia, la antigua URSS y los países socialistas escogieron e! SECAM, mientras que Alemania, Inglaterra, Holanda y Bélgica optaron por e! sis­ tema PAL. El resto de los paises europeos fueron decidiéndose mas tarde, mayori­ tariamente por el PAL. 4. 1. Los errores de fase El PAL no es mas que una variante mejorada del sistema NTSC. Hay un pro­ blema que debemos considerar: la precisión del color. Una variación de 5 grados en la fase del vector de crominancia produce errores claramente visibles. Los erro­ res de fase se producen con facilidad, especialmente en las altas frecuencias (que es e! caso de la señal de color, como se vera mas adelante) y se traducen en errores de "matiz" o "tinte". Este tipo de errores son muy fáciles de detectar por parte del ojo humano y resultan muy molestos. Desde luego, si el burst esta afectado del mismo error de fase que e! vector de crominancia "K", el angula "u" del vector de crominancia demodulado no cambia­ rá, de forma que el receptor reproducirá el color apropiado. Sin embargo, cuando se altera la diferencia de fase entre e! burst y "K", en algún punto de la vía de transmisión, se producirán errores de matiz en el color. Para corregir los errores de fase de la subportadora de color, que se traduciri­ an en errores de matiz en la pantalla del televisor, e! sistema PAL invierte la pola­ ridad de! vector "V", línea a línea, es decir, durante una línea se envía R - Y nor­ malmente, en la siguiente con el signo cambiado, en la siguiente normal, etc. Vamos a ver cÓmo se consigue esto: para simplificar, supongamos quc no se ha alte­ rado la fase de! burst, pero que el vector de crominancia ha girado lOgrados en sen­ tido horario. Para corregir este error el sistema PAL no transmite el vector "K" de forma ininterrumpida, sino que alterna entre K = Usen2Jtfct +Vcos2Jtfct, duran­ te una línea y K* = Usen2Jtfct - Vcos2Jtfct durante la linea siguiente, es decir, durante una línea se transmite el vector "K" normalmente y durante la línea sigUiente con la componente "V" invertida. Como consecuencia de esta complicación será necesario invertir la componen­ te "V" en e! receptor cada vez que se reciba un vector K*, de forma que se obten­ ga de nuevo: Usen2Jtfct + Vcos2Jtfct 4.2. Alternancia de la polaridad de "V" ¿Cuál es la razÓn de esta alternancia de fase a ritmo de línea, que da nombre al sistema PAL (Phase Alternation on Lines)7 Supongamos que estamos transmitiendo un color rojo (a = 76,6°). Esto significa que la cámara estara proporcionando un vector K con un angula u de 76,6° para una línea y K* con U *= -76,7° para la siguiente (se toma como referencia la fase de -U, 7S74
  • 37.
    TEC¡,:OlO(.;iA ACTU:L !JI:TU.l'ISIÓi que es justamente la fase media de! bum, es decir, 180 grados). Al llegar al televisor, ex' de K valdrá 76,6°+10° = 86,6°, mientras que ex*' de K* valdrá -76,6°+10" = -66,6°. El receptor cambiará la polaridad de la componente V correspondiente a los vectores K*, de manera que lo que obtendrá serán vectores con angulas de 66,6° y 86,6°, que se alternarán a frecuencia de linea. Vease figura 3.8. De esta manera, si todas las líneas pares (n) de una imagen determinada tienen un ex' que excede en + 10" Ytodas las líneas impares (n + 1) tienen un ex*' que no llega a a por - 10", e! resultado será que el color ele las líneas pares será ligera­ mente morado, mientras que el de las líneas impares aparecera ligeramente ama­ rillento. Si un observaelor situado a suficiente distancia observa un conjunto de líneas que tira ligeramente a morado, intercalado con otro conjunto que tira a amari­ llento, lo que realmente observará será e! color rojo puro. Este proceso no es perfecto, ya que produce, por un lado, perdida de resolución c¡'omática vertical, al basarse en el promediado de líneas, lo cual es perfectamente asumible, y, por otro, ligeras desaturaciones del color, pero éstas son mucho menos molestas que los errores de matiz. Es necesario que el receptor sepa qué líneas le están llegando con un vector K y qué otras con K*. También de esto se encarga el burst. En lugar de enviar siem­ pre el burst con fase 180°, como en NTSC (se mide con respecto a U), en PAL se ANTES DE LA DESPUES DE LA DESPUES DE LA TRANSMISiÓN TRANSMISiÓN INVERSiÓN K Vector deco­ dificado en K 86.6',r linea "n' K8~6'6'VI 666"~o. ~- ~ V~clor deco- . . u dlficado en a *. . I .':~ -u Burst ' linea "n+1" 4_LU,_ ------ U 8ursl : Bursl .. iI . . Bur~ ,,' _K~~:_lInean ~I K( w INVERSOR DE (Óa = 10°) SIGNO DE OV" ~-:l ~ I~-~f~ ,I , I / , . -7¡~66' V 6' -.11_ V86 V • K • Bursl __ _ _ U 16.6" ~ Burs~ - U 4~.Á I _ }¡.Vec'nop<o' .! f ~.~med,ado . __ U o' 10' '. I B~'st~ I RESULTADO -76.6" ; .6~f" I FINALK' Figura 3.8. Eliminación automatica de los errores de fase en el sistema PAL. Los angulas están medidos con respecto a -U, es decir, en función de la fase del burst. "w" es el elemento (por ejemplo la vía de propagación) que introduce el retardo diferencial entre la subportadora y el burst. 76 , Lus si;¡lCmas d_~~~~.G2 envía e! burst con fase 180° - 45° = 135° en aquellas lineas en que el vector que transportan "K" (componente "V" normal) y con fase 180° + 45° = 225° en aque­ llas que transportan K* (componente V invertida). 4.3. El codificador PAL La figura 3.9 muestra un diagrama de bloques del codificador PAL. La "matriz Y" proporciona la señal de luminancia mediante sumas y restas de los primarios RGB. Invirtiendo la señal de Juminaneia y sumandosela a R y B se obtienen las señales diferencia de color R - Y YB -Y. Ambas señales diferencia de color son fiI· tradas a 1,3 MHz. La linea de retardo de 0,4 ps sirve para compensar e! tiempo de propagación necesario para atravesar los filtros de 1,3 MHz. El siguiente paso consiste en atenuar las señales diferencia de color (0,49 x B - Y =U Y0,87 x R - Y =V). Las dos señales diferencia de color, filtra­ das y atenuadas, modulan sendas subportadoras. La señal "U" modula una porta­ dora de 4,43 MHz, cuya fase se toma como referencia y se etiqueta como O°. La señal "V" modula la misma portadora de 4',43 MHz, pero desfasada 90° con res­ pecto a la portadora de "U" en una línea, 270° en la siguiente, 900 en la siguiente, etc. A continuación las dos subportadoras moduladas son sumadas, para ohtener así la señal de crominancia. Para que el receptor sepa en qué líneas "V" está modulada R SALIDA 5ENAL COMPUESTA ~ SINCRONISMOS ...J BANDERA ~ ¡DEL BURST PUERTA (K) BURST ~ - MODULADOR CON SUBPOR, TADORA SUPRIMIDA " I G B P-----¡ I 180' -1-::0 'C:::.. H~ p~dO de "P" = 2H = 7.8 KHz Figura 3.9. Diagrama de bloques del codificador PAL. 77
  • 38.
    Tl:CNOloc;jA ACTUAl. DET([.EVlSIÓN 0 con [ase 90 yen qué otras con 270°, se alterna la fase del bum entre J80 _ 450 Y '¡ 'f 180 + 45 0 ASÍ, la fase media del burst sigue siendo de 1800 , lo que permite utili­ i • zar el bum para medir la fase de la subportadora de color. Por otro lado, las varia­ ciones con respecto a la fase media sirven para detectar la polaridad del vector de color "V". Puede verse, en la vía del burst, un bloque etiquetado como "puerta del burst". Se trata de una "puerta" que se cierra durante unas pocas líneas del borrado vertical (concretamente 9 por campo). Las líneas concretas que no contienen burst varían de un campo a otro, formando una secuencia de cuatro campos. Esto se hace para simplificar e! trabajo del receptor, ya que así la primera línea que contiene burst en cada campo presenta siempre la misma polaridad de "V". 4.4. El decodificador PAL En la figura 3.10 puede verse el trabajo del decodificador PAL. La señal com­ puesta de entrada es separada mediante filtros en luminancia y crominancia. El "fil­ tro trampa" deja pasar todas las frecuencias, excepto una banda muy concreta (la que corresponde a las frecuencias de crominancia). El retardo de lH (64 )1s) "suma" la crominancia de dos líneas consecutivas, para compensar así los errores de fase que pudieran producirse durante la transmisión. Lo anterior supone reducir la resolución vertical de crominancia, aunque esto es perfectamente tolerable por parte del sistema visual humano; si aceptamos mermar la resolución horizontal de croma, ¿por qué no hacer lo mismo con la vertical? La señal de crominancia se envía a los demoduladores, así como al separador del bum. Este último está gobernado por una puerta temporal denominada "puerta del burst" derivada de los sincronismos horizontales. Su salida se utiliza para sincroni- SEÑAl DE ViDEO COMPUESTA SEPARADOR DE SINCROS GENERADOR DE LA PUERTA DEL BURST DEL 1 P,LL (resincroniza el oscilador local) OSCILADOR J LOCAL ,f--l---------." A4,43 MHz ~ Figura 3.10. Diagrama de blogues del decodificador PAL. Ei'RE'y FILTRO PASO· BANDA SEPARADORl I Los sist~mas de tcJerisián zar un generador de subportadora controlado por cristal de cuarzo, mediante un PLL (lazo enganchado en fase). La fase del bum varía línea a línea y se encuentra alternativamente a ±135 grados con respecto al vector de referencia "U". La alta constante de tiempo de! PLL integra las variaciones de voltaje resultantes, de manera que la subportadora reconstruida a partir del burst presenta una fase esta­ ble de +180 grados con respecto a la referencia "U". Como se ha dicho, la salida del filtro paso-banda se envía a una línea de retardo de 64 flS, así como a un suma­ dor y a un restador. La señal a la salida del sumador está formada por las bandas laterales de "U", mientras que la salida del restador contiene alternativamente las bandas laterales de "±V". Las dos señales se envían a sus correspondientes demo­ duladores sincrónicos. La fase de la subportadora que controla el demodulador "U" es constante, mientras que la fase de la subportadora que controla e! demodulador "V" alterna ±90 grados línea a línea (a frecuencia de 7,8125 KHz) con respecto a la que controla el demodulador de "U". Las dos señales diferencia de color demo­ duladas y la señal de luminancia, adecuadamente retardada, se envían a una matriz que reconstruye las señales primarias originales. Para reducir la visibilidad de los restos de portadora que pudieran quedar se utiliza un filtro notch en la vía de la luminancia. 5. El sistema SECAM En Francia, en 1959, a partir de los resultados y de las experiencias de Henry France, se puso en marcha el sistema de televisión en color denominado SECAM. Al igual que e! PAL, el sistema SECAM fue creado después que el NTSC y supone una mejora, con respecto a éste, en lo referente a los errores de fase. También, igual que el PAL, e! SECAM se basa en la presunción de que la crominancia de dos líneas consecutivas no cambia mucho y, si lo hace, el ojo humano no es capaz de apreciarlo. Así, en e! sistema SECAM las dos señales diferencia de color no se trans­ miten simultáneamente. Por el contrario, ambas señales se alternan línea a línea, es decir, durante una línea sólo se transmite información de R - Y, durante la siguiente B - Y, luego R - Y, etc. En e! receptor se necesita una memoria de una línea, ya que es necesario sumar ambas componentes para obtener el color correc­ to de la escena. Transmitiendo las componentes por separado se elimina la posibi­ lidad de errores de fase, ya que en realidad no existe un factor de color, sino dos señales separadas, que en todo caso serán afectadas de igual forma durante la transmisión. Las dos señales diferencia de color modulan en frecuencia y por sepa­ rado sendas portadoras. Véase figura 3. 11. SECAM es e! acrónimo de "Sequentiel Avec Memom" (color secuencial basado en memorias). Aunque el sistema SECAM es muy bueno en condiciones de transmi­ sión de trayectoria múltiple, no puede procesarse como consecuencia de la modu­ lación en frecuencia (FM) de la croma, es decir, no es posible 0, por lo menos, no resulta práctico posproducir en SECAM. La idiosincrasia del sistema SECAM ha llevado a la interpretación alternativa de su acrónimo: "Sistema Esencialmente Contra los Americanos". 78 79
  • 39.
    TES---NOlOGtA ICTUAL DETEkLftc:cl'/.2!SI!,!Ói:N _ Lo~ ;;;iSlCllliJ5 <lud-cü<;JOI1 R-Y S-Y MATRIZ x-J­ MODULADOR =r:~S~~~~FM SUMADOR ----­ ------.---- rfH/2 fF Borrados y sincros }F - ~~~Ui~- ~B-Y FB_~ :1 { - ­l] B Y i I FR_Y MODULA- I-.. R-Y L,D4~S ~-~'I~, DORFM Figura 3.11. Diagrama simplificado del codificador SECAM (arriba) y del decodificador (abajo). 6. Elección de la frecuencia de la subportadora de color La frecuencia de la subportadora de color, en NTSC, es de 3,579545 MHz, aun­ que normalmente se simplifica a 3,58 MHz. La elección de esta frecuencia se basa en varias consideraciones: J. Debe ser lo más alta posible, a efectos de producir un patrón de puntos sobre el receptor de blanco y negro lo más fino posible. 2. La subportadora y sus bandas laterales deben ubicarse en el espectro de la señal de vídeo (4,2 MHz en el caso americano). 3. La frecuencia exacta de la subportadol-a debe asegurar el intercalado de los espectros de luminancia y crominancia. Para cumplir con los puntos anteriores se determinó que la frecuencia de la subportadora de color NTSC fuera: fse '~,r = 455 fL = 455x15.734,264 =3,579545 MHz ",.. 2 2 Donde fl. es la frecuencia de líneas. De esta forma cada línea completa de TV está formada por un número entero de ciclos más medio (227,5 ciclos/línea), Jo cual minimiza la visibilidad del patrón interferente de puntos y asegura el intercalado de espectros. Esto se conoce como "offset o desplazamiento de media línea". Como consecuencia de la alternancia línea a línea de la polaridad de "V" en el sis­ tema PAL, no es posible trabajar con un número entero de ciclos de subportadora fH/2 más medio por línea completa; se obtendría un patrón interferente muy molesto (en forma de barras) en e! receptor de blanco y negro yno se ase,6TUraría el interca· lado de espectros. La solución en PAL fue escoger como frecuencia de la subportadora de color un múltiplo de la frecuencia de líneas más un cuarto (desplazamiento horizontal de 1/4 de ciclo). Para optimizar aún más esta frecuencia se sumó un ?1Jset o desplaza­ miento vertical de un ciclo por imagen o, lo que es lo mismo, 1/2 ciclo por campo. Así pues, la frecuencia de la subportadora PAL queda como sigue: fSC PAL = 1.135fL + ~v =4,43361875MHz 7. La secuencia PAL de 8 campos En e! sistema PAL cada línea incluye exactamente 283,7516 ciclos de subpor­ tadora. Para simplificar, olvidaremos los 0,0016 ciclos por línea que son resultado de! desplazamiento vertical y que no tienen consecuencias en el estudio de la secuencia PAL. Tenemos entonces 283 ciclos por línea más 3/4 de ciclo, es decir, más 270°. Ahora si numeramos un cierto cuadro como "cuadro 1" Ysi su línea 1 comien­ za con la subportadora de color a 0°, esta línea 1 terminará a 270°. La línea 2 comenzará a 270° y terminará a 180°. La 3 comenzará a 180° y terminara a 90°. La 4 comenzará a 90° y terminará a O°. La línea 5 comenzará a 0° igual que la prime­ ra, la 6 comenzará a 270°, etc. Vemos que se forman paquetes de cuatro líneas, en lo que se refiere a la fase de subportadora con que tales líneas comienzan. Por otro lado, estamos trabajando con un sistema de 625 líneas. Si dividimos 625 por 4, el resultado será 156 y nos sobra una línea, es decir, podemos conside­ rar las 625 líneas como 156 paquetes de 4 líneas más una línea adicional. Esto sig­ nifka que la línea 625 es como la línea 1: comenzará con fase 0° y terminará con fase 270°. Por tanto, la línea J ele la imagen 2 (que sigue a la línea 625 de la ima­ gen J) comenzará con 270° y terminará con J80°. Dicho de otra forma, la línea J de la imagen 2 es como la línea 2 de la imagen J. De igual forma, la línea 1 de la imagen 3 es como la 3 de la imagen J y la línea J de la imagen 4 es como la 4 de la imagen 1. Ahora la línea J ele la imagen 5 es como la línea 5 de la imagen J y, por tanto, como la línea J de la imagen 1, es decir, comienza con O°. Hemos tardado 4 imá­ genes completas, es decir, 8 campos, hasta volver a encontrar una línea J que comenzara con O°. En realidad, excepto la línea J del campo 1, ninguna de las 2.500 lineas que conforman los 8 campos comienza con 0°, como consecuencia de! pequeño des­ plazamiento vertical de medio ciclo por campo. Hay otra forma de descubrir la secuencia PAL de 8 campos: Siendo fSC PAL = l.l3.5f L + ~ = 4,43361875MHz 80 81
  • 40.
    TECNOI OCiA ACTUALDE TELE"ISU)N el número de ciclos de subportadora por cuadro será: fscm = 177.334,75 25 Dos cuadros deTV contendrán: 177.334,75 x 2 = 354.669,5 ciclos de sub­ portadora. Tres cuadros deTV contendrán: 177.334,75 x 3 = 532.004,25 ciclos de subportadora. Cuatro cuadros deTV contendrán: 177.334,75 x 4 = 709.339 ciclos de subportadora. Solo después de cuatro cuadros (ocho campos) se obtiene un número entero de ciclos al terminar un cuadro de te!evision. Esta secuencia de fases se mide con respecto al punto de media amplitud del flanco anterior del sin­ cronismo de línea y se conoce como "colourframina", o "secuencia de color" y es de ocho campos en PAL y de cuatro en NTSC. También se conoce como "relacion Sc/H". Resumiendo, para poder resolver los posibles errores de matiz que se produ­ cirían como consecuencias de errores diferenciales de fase entre la subportado­ ra de color y la referencia estable (e! burst), el sistema PAL introduce la alter­ nancia de la polaridad del vector "V" línea a línea. Como consecuencia de esta alternancia, y para asegurar una correcta cance!acion del patron interferente de puntos (cruce de luminancia), se establece una relacion compleja entre la fre­ cuencia de la subportadora de color y la frecuencia de líneas: fsc =(1. 135fl/4) + fv12. Esta relacion de frecuencias es la culpable de la aparicion de la llamada "secuencia PAL de 8 campos", que tanto complica la edicion electronica. Por esto una traduccion jocosa de! acronimo PAL podría ser: Problems Appear Later (los problemas aparecen luego). La secuencia PAL de ocho campos supone un problema a la hora de "montar" o "editar" una cinta vídeo. Si se empalman dos segmentos de material grabado, pero de tal forma que e! número de imágenes cortadas no es múltiplo de cuatro, la secuencia se rompe. En el punto de empalme aparece un burst cuya fase está gira­ da 90, 180 Ó 2700 con respecto al que llegaría si se hubiera respetado la se~uencia. El receptor tarda unos instantes en reajustarse a la nueva fase, suficiente como para mostrar pequeños saltos o indecisiones de color. 8. Tipos de señal de vídeo La forma más inmediata de señal de vídeo es e! formato RGB. Se dice entonces que se trabaja con primarios o con componentes primarios. Mientras las cámaras de vídeo sigan trabajando con tres sensores CCD separados, e! formato RGB exis­ tirá en algún lugar de la cadena de cámara, incluso aunque no llegue a utilizarse exteriormente. En este formato los tres canales R, G Y B presentan un ancho de banda total, lo que puede ser útil en determinadas circunstancias. Suele usarse para obtener imágenes fijas de la máxima calidad, cuando se traL..;d, por ejemplo, en grafismo o en CAD. Es frecuente encaminar las señales RGB de la cámara hacia el mezclador, el cual las utilizará para incrustaciones de croma (cToma-key). No existe ningún formato de grabación basado en los primarios R,G y B, aunque se utilizó en modelos experimentales. Los sistemas de telc'¡sión Otra posibilidad es trabajar "por componentes". Este formato se basa en Ul)a señal de luminancia de ancho de banda total, más dos señales "diferencia de color", R - Y Y B - Y, de ancho de banda menor. En las instalaciones modernas es típico que las señales diferencia de color presenten un ancho de banda igual a la mitad del ancho de banda de la luminancia por ejemplo, la luminancia tendría 5,75 MHz y las señales R - Y YB - Y 2,875 MHz cada una. En la figura 3.12 puede observarse la presencia de! bloque "LPF" (filtro paso-bajo) en la vía de las señales diferencia de color. UNIDAD DE CONTROL DE CÁMARA CABEZA DE CÁMARA H.r~¡r-'i-~--···i-··· I,l z ' I?~ fi ~ ~~y 1 ~ ....,'.B~ ~;¡ I .f0rMDD..u. LA +"i .' I'n"¡-~ ::;3 ! ~ 1 DOR DE.~. 1 1, .. . I I CROMI· I , i'I '--$-~ 1° NANCiAI I~ 1¡ ~~ ,.R'YJ LPF J .. ~1 r ii ~ IB./'= JI I' )--,~ !--- LPF "llt,[! l" ¡IeM'~III III !h ,- - SENAl RGB COMPONENTES COMPUESTA Figura 3.12. La cámara envía los primarios R, G Y B a la estación de procesado, donde pueden utilizarse directamente, convertirse en componentesY, R ~Y YB ~Y, o codificarse como una señal com­ puesta PAL, SECAM o NTSC. La reducción del ancho de banda de las señales diferencia de color supone que la resolucion de croma será inferior a la de luminancia, pero esto no debe preocu­ par, ya que e! sistema de percepción visual humano presenta muy poca capacidad para resolver o separar pequeños detalles que sólo difieren en su cromaticidad. Dicho de otra forma, la resolucion visual cromática es mucho menor que la lumí­ nica. Los magnetoscopios "Betacam", "MIl", "D-l", "O-S", "Betacam Digital", "DVC-PRO", "DVCAM", "DIGITAL-S", "BETACAM-SX" Y"MPEG-IMX" graban por separado las señales de componentes "Y", "R - Y" Y"B - y". Un último formato (hasta ahora e! más utilizado) lo constituye la señal de "vídeo compuesto". A diferencia de los dos formatos anteriores, que necesitan dc tres cables o vías, e! formato compuesto se procesa y encamina a traves dc una única vía. Se trata de la señal codificada PAL o NTSC, donde las señales de luminancia y crominancia se multiplexan en frecuencia, presentando la luminancia un ancho de banda total (o casi total) y, las señales diferencia de color anchos de banda muy reducidos (1 ó 1,3 MHz). Este es el tipo de señal que utilizan los formatos llama­ dos "compuestos", como los "Pulgada-B", "Pulgada-C", "U-matic", "D-2" y "D-3". También es, hoy por hoy, el formato obligado en las emisiones analógicas conven­ cionales. 82 83
  • 41.
    ••• ••• ••• TlCNOLOGJA ACTUAL DET[l['ISIOt'-' 9. Espectro de la señal de vídeo Como sabemos, la imagen de televisión se transforma en señal de ddeo, des­ componiéndola en campos y líneas. Esto significa que la imagen es "muestreada", de manera que sólo existe infor­ mación de la imagen en los momentos en que se toman las muestras. Por ejemplo, no tenemos información de la imagen durante el intervalo de borrado vertical (1 1 6 de cada 20 ms). Tampoco tenemos información durante los borrados horizontales (12 de cada 64 ¡Js). La señal de vídeo es, por tanto, discontinua o discreta en el tiempo. El período básico de muestreo de la señal de vídeo es el período línea (64 J.ls) y, por tanto, la frecuencia básica de muestreo 15.625 Hz. Toda señal mues­ treada presenta un espectro cuya energía tiende a agruparse a frecuencias múltiplo de la frecuencia de muestreo. 9.1. Patrones visuales y frecuencias La figura 3.13a está formada exclusivamente por patrones visuales de orienta­ ción horizontal. Si la imagen de más arriba de esta figura fuera analizada por una cámara de televisión, el nivel de vídeo de la primera mitad de las líneas de cada (a) (b) (e) Figura 3.13. Análisis, mediante líneas de TV, de distintos patrones visuales. Lo~ s¡~tcmas d(' tcIcÜ~;¡úlJ campo correspondería al nivel de negros. La segunda mitad daría nivel de blancos. Prescindiendo de los impulsos de sincronización (que de todas formas se repiten a ritmo de lineas), la señal de vídeo de esta imagen seria una onda ¡'ectangular a fre­ cuencia de campo (50 Hz). La imagen central de la figura 3.13 (a) mUestra dos franjas negras intercaladas con dos franjas blancas. Su oscilograma sería una onda ,rectangular de dos veces la frecuencia de campo. Igualmente en la imagen ele más abajo de la figura 3.13 (a) obtendríamos una señal de vídeo cuya frecuencia sería 4 veces la frecuencia de campo. Si la imagen estuviera formada 312,5 lineas negras intercaladas con 312,5 líne­ as blancas (estamos olvidando el horrado vertical a propósito), lo cual sería un caso límite, la señal obtenida sería una ancla rectangular que cambiaría a mitad de la fre­ cuencia de líneas (7.812,5 Hz). Por tanto, los detalles de orientación horizontal producen frecuencias que están por debajo de la mitad de la frecuencia de línea y que son múltiplos de la frecuen­ cia de campo. Sin entrar en mayores detalles, existen frecuencias que están por debajo de 50 Hz y que son producto del movimiento de la imagen. La figura 3.13 (b) esta com­ puesta exclusivamente por detalles de orientación vertical. En la imagen de más arriba obtendríamos, al analizarla por líneas, un oscilograma rectangular que nos darla media línea negro y media línea blanco, es decir, un ciclo alto-bajo por cada línea. Su frecuencia sería, por tanto, la frecuencia de líneas (15.625 Hz). La fre­ cuencia de la imagen central seria 2 fL = 31.250 Hz y la de más abajo 4 fL = 62.500 Hz. Cualquier imagen compuesta exclusivamente por detalles de orientación verti­ cal proporcionaría frecuencias que serian múltiplo de la frecuencia de líneas. Puesto que nuestro sistema deTV está limitado a 5,5 MHz, el número máximo de pares de lineas blanco-negro que podemos "meter" es de 352 (352 fL =5,5 MHz). Es cierto que se trata, en estos ejemplos, de ondas o funciones rectangulares y que deben ser analizadas ydescompuestas para ver cuál es su contenido real de fre­ cuencias, pero, como sabemos, la descomposición de una onda rectangular nos da contribuciones senoidales que son múltiplo de la frecuencia fundamental, es decir, de la frecuencia de línea. 9.2. Espectro de las señales complejas Por supuesto, las imágenes reales no estan formadas tan solo por detalles de orientación horizontal y vertical. La figura 3.1 3c muestra detalles de orientación diagonal. Si analizamos la imagen de más arriba mediante líneas de TV, veremos que tardamos algo menos de una línea (64 J.ls) en pasar de negro a blanco y de nuevo a negro; el período es un poco más corto y la frecuencia algo más alta. Algo similar sucedería en caso de movimiento: si la rejilla se mueve hacia la izquierda, la frecuencia aumenta, y si se mueve hacia la derecha, disminuye. La presencia de distintas orientaciones diagonales y de movimiento hace que apa­ rezcan en el espectro de la señal de vídeo frecuencias que no son exactamente múlti­ 84 85
  • 42.
    TECNOLOGIA ACTUAL DETHEVIS/ON plo de la frecuencia de líneas, pero que están próximas a ella. Dicho de otra forma, la energía de la señal de vídeo tiende a agruparse en torno a múltiplos de la frecuencia de línea. Se trata de un hecho estadístico que depende del contenido de la imagen. La figura 3.14a muestra el espectro correspondiente al movimiento (más a la izquierda) y a los detalles de orientación horizontal. En la figura 3.14b se aprecia la forma en que la energía tiende a agruparse en torno a múltiplos de la frecuen­ cia de líneas. La figura 3.14 (c) muestra el espectro completo, desde Oa 5,5 MHz de la señal de blanco y negro. El análisis del espectro de la señal compuesta es algo más complicado. Esencialmente se trata de los espectros de la luminancia y la crominancia entrela­ zados, o intercalados, uno con otro. En NTSC la frecuencia de la subportadora es igual a 227,5 veces la frecuencia de líneas (figura 3.1 S (a». Puesto que la subportadora de color está modulada en amplitud por el vector de crominancia, se producen bandas laterales a la izquierda y a la derecha de la frecuencia de la subportadora de color. Gracias a los vacíos existentes en el espectro de la señal de luminancia es posible ubicar en él la señal de crominancia, de forma que después puedan separarse en el receptor. "illH~I~I~~IIJ¡'__~llllill~~~.__ (a) 50 Hz 100 Hz 150 Hz 200 Hz IIII~ ~ (b) 111111. fl 2 fl 3fl 4 fl LUMINANCIA (e) ot~~ ~.~ AjjuL!iA AAflAA .AA.3~~ =5,5 Mhz I R-Y lllli!)ljulli~) I S-y o~JUlLil)ll!~~;) Figura 3.14. Espectro de la señal de luminancia (arriba) y de las señales diferencia de color (abajo). Los sistemas de televisión (a) I I (bl o f L 2 fL 3 fL 4 fL ... .,.'.'.'0. • v.u.u.u . .ka1 . Figura 3.1 S. Espectro de la señal NTSC (a) y de la señal PAL (b). La figura 3.1 S (b) muestra el espectro de la señal PAL. El] este sistema la fre­ cuencia de la subportadora de color es de 283,7516 veces la frecuencia de líneas. Como consecuencia de la inversión de R -y línea a línea, se dividen en dos las fre- / cuencias espectrales; en una línea R - Y produce un espectro similar al de B - Y Y en la línea siguiente desplazado media línea, es decir, como el <;le "Y". Por esta razón no es posible utilizar un cjJset o desplazamiento de 112 ciclo por línea como en NTSC. En cambio, el desplazamiento de 3/4 de ciclo permite e! entrelazado de los espectros de la luminancia y la crominancia. 10. Listado de normas de televisión por países En la lista que sigue a continuación la columna denominada "Banda IIlll" se refiere a la norma que un determinado país utiliza en las bandas normalmente conocidas como "VHF", mientras que la columna denominada "IVIV" se refiere a las bandas de emisión normalmente conocidas como "UHF". Estas especificaciones corresponden a las definidas en la conferencia ordinaria de! CCIR publicada en Ginebra en 1990 (anexo al volumen 11, parte 1). La primera letTa (a veces una letra seguida de un número) que define el siste­ ma se refiere a los parámetros eléctricos de la señal de vídeo, con independencia de la forma en que se codifica el color. Estos parámetros incluyen e! número de imágenes por segundo, e! factor de entrelazado, e! número de líneas por campo y cuadro, la frecuencia de líneas, las duraciones de los períodos activos y de borra­ do, los anchos de banda ytiempo de formación de señales, etc. A continuación apa­ rece una barra (/) y después e! sistema de codificación de! color empleado (PAl, SECAM o NTSC). SegUn este tipo de nomenclatura, España utiliza e! sistema B/PAl en las emisiones en VHF y el G/PAL en las emisiones en UHF. 86 87
  • 43.
    LOl; si.stnlli~~!::1c,:SI()Il TECNOlOGIA ACrUAl D[ TEllVISIÓN Tabla 3.1 Listado de normas de televisión por países (continuación).Tabla 3.1 Listado de normas de televisión por paises. PAIs BANDA 1/11I BANDA IV/V PAIs BANDA 1/11I BANDA IV/V Afganistán Argelia Alemania (Rep Federal) Angola Antillas Neerlandesas O/SECAM B/PAL B/PAL IIPAL M G/PAL G/PAL I/PAL - I Guinea-Bissau Guinea Ecuatorial Hong Kong Hungría India I/PAL B/PAL O/SECAM B/PAL I/PAL G/PAL I/PAL K/SECAM Arabia Saudita Argentina Australia Austria Baherein (Estado de) Bangladesh Bélgica Benin (Rep. Pop.) Bermudas Birmania (Rep. Soc.) Bolivia Botswana Brasil Brunei (Darussalam) Bulgaria Burkina Faso Burundi Camerún Canadá Cabo Verde Centroafricana (Rep.) Chile China (Rep. Pop.) Chipre Colombia Comoras (Rep. Islám.) Congo Corea Costa Rica Cote d'lvoire Cuba Dinamarca! B/SECAM, PAL N/PAL B/PAL B/PAL B/PAL B/PAL B/PAL K1/SECAM M/NTSC M/NTSC M/NTSC I/PAL M/PAL /PAL D/SECAM K1/SECAM K1/SECAM B/PAL M/NTSC K1/SECAM K1/SECAM M/NTSG D/PAL B/SECAM M/NTSC K1/SECAM K1/SECAM M/NTSC M/NTSC K1/SECAM M/NTSC G/SECAM N/PAL B/PAL G/PAL G/PAL - H/PAL K1/SECAM - - M/NTSC IIPAL M/PAL - K/SECAM K1/SECAM K1/SECAM G/PAL M/NTSC K1/SECAM K1/SECAM M/NTSC O/PAL G/SECAM M K1/SECAM K1/SECAM M/NTSC M/NTSC K1/SECAM M/NTSC I Indonesia Irak (Rep. Islámica) Irán (Rep. Islámica) Irlanda Islandia Israel Italia Jamaica Japón Jordania Kenya Kuwait Lesotho Libería Libia Luxemburgo Madagascar Malasia Malawi Maldivas Mali Malta Marruecos Mauricio Mauritania México Mónaco Mongolia Montserrat Mozambique Namibia Niger B/PAL B/SECAM B,G/SECAM I/PAL B/PAL B/PAL B/PAL N M/NTSC B B/PAL B/PAL l/PAL B/PAL B,G/PAL B/PAL K1 B/PAL B/PAL B/PAL B/SECAM B/PAL B,G/SECAM B,G/SECAM B/SECAM M/NTSC USECAM D/SECAM M/NTSC G/PAL I/PAL K1/SECAM G/SECAM G/SECAM IIPAL G G/PAL G/PAL M/NTSC G B,G/PAL G/PAL IIPAL G/PAL B,G/PAL G/PAL, USECAM K1/SECAM G/PAL I/PAL G/SECAM G/SECAM B,G/SECAM B/SECAM M/NTSC G/PAL, G/SECAM G/PAL I/PAL K1/SECAM Groenlandia! Nigeria B/PAL I/PAL Islas Feroe Djibouti Egipto El Salvador Emiratos Árabes España Estados Unidos Amér. Etiopía Finlandia Francia Gabonesa (Rep.) Gambia Ghana Gibraltar Grecia Guinea B/PAL B/SECAM B/SECAM M/NTSC B/PAL B/PAL M/NTSC B,G/PAL B/PAL USECAM K1/SECAM I/PAL B/PAL B/PAL B/SECAM K1/SECAM, PAL G/PAL - G/SECAM - G/PAL G/PAL M/NTSC G/PAL G/PAL USECAM K1/SECAM I/PAL B/PAL G/PAL G/SECAM K1/PAL Noruega Nueva Zelanda Omán (Sultanía) Uganda Pakistán Panamá Países Bajos Papúa Nueva Guinea Perú Polonia Portugal Qatar Rep. Árabe de Siria Rep. Democ. Alemana Rep. Popular Corea Rumania B/PAL B/PAL B/PAL B/PAL B/PAL M/NTSC B/PAL B/PAL M/NTSC D/SECAM B/PAL B/PAL B/PAL B/SECAM D/PAL O/PAL G/PAL G/PAL G/PAL G/PAL M/NTSC GIPAL G/PAL M/NTSC K/SECAM G/PAL G/PAL G/PAL G/SECAM K/PAL K/PAL 88 89
  • 44.
    TtCNOLocfA ACTlIAI DETELF.VISrÓN 1 Los sistemas de tele'isióni Tabla 3.1 Listado de normas de televisión por países (continuación). PA!S BANDA 11/11 BANDA IVIV Reino Unidol Irlanda del Norte ­ I/PAL Ruanda K1/SECAM K1/SECAM San Cristóbal y Nieves M/NTSC Santo Tomé y Príncipe B/PAL Senegal K1/SECAM K1/SECAM Seychelles B/PAL Sierra Leona B/PAL G/PAL Singapur B/PAL G/PAL Somalia B/PAL G/PAL Sudán B/PAL G/PAL Sri Lanka (Rep. Soc.) B Sudafricana (Rep.) I/PAL I/PAL Suecia B/PAL G/PAL Suiza B/PAL G/PAL Suriname (Rep.) M/NTSC Tanzania I/PAL I/PAL Chad (Rep.) K1/SECAM K1/SECAM Checoslovaca (Rep.) D/SECAM KlSECAM Tailandia B/PAL G/PAL Togolesa (Rep.) K1/SECAM K1/SECAM Túnez B/SECAM, PAL GlSECAM, PAL Turquía B/PAL G/PAL URSS (Rusia y otros excomponentes) D/SECAM KlSECAM Uruguay N/PAL Venezuela M/NTSC Vietnam D/SECAM KlSECAM Vírgenes (Brit. Islas) M/NTSC Yemen (Rep. Árabe) B/PAL G/PAL Yemen (Rep Dem. Pop.) B/PAL Yugoslavia B/PAL G/PAL Zaire K1/SECAM KlSECAM Zambia GlPAL G/PAL Zimbabwe G/PAL G/PAL a OH b~ d.­ Figura 3.16. Detalle de los parámetros más importantes en torno al borrado de línea, en relación a la tabla 3.2. Tabla 3.2 Parámetros más importantes de las normas B, G, H, 1, D, K, K1, L, M Y N (véanse figuras 3.16 y 3.17) Símbolo Características M (1) N (2) B, G, H,I, D,K,Kl,L h Período nominal de linea (¡.¡s) 63,492 (63,5555) 64 64 a Duración de la señal de supresión 10,2 a 11,4 10,24 a 12 ± 0,3 de línea (¡.¡s) (10,9 ± 0,2) 11,52 (12 ± 0,3) b Intervalo entre la referencia de tiempos 8,9 a 10,3 8,96 a 10,24 10,5 (OH) Yel borde posterior del impulso de (9,2 a 10,3) (10,5) supresión de línea (¡.¡s) c Pórtico anterior (¡.¡s) ( 1,27 a 2,54 1,27 a 2,22) 1,28 a 2,56 (1,5 ± 0,3) 1,5 ± 0,3 d Impulso de sincronización (¡.¡s) 4,19 a 5,71 (4,7 ± 0,1) 4,22 a 5,76 (4,70,2) 4,70,2 v Periodo de campo (ms) 16,667(2) (16,6833) 20 20 j Intervalo de supresión de campo (19 a 21 H)+a (19 a 25 H)+ 25 H + a a (25 H + a) I Duración de la primera secuencia de 3H 3H 2,5 H impulsos de igualación (2,5 H) m Duración de la secuencia de impulsos 3H 3H 2,5 H de sincronismo (2,5 H) n Duración de la segunda secuencia de 3H 3H 2,5 H impulsos de igualación (2,5 H) (1) Los valores que figuran entre paréntesis en esta columna se aplican a los sistemas M/NTSC. (2) Los valores entre paréntesis en esta columna se apiican al sistema N/PAL utilizado en Argentina y Uruguay. J ID n ~I ""--',....--""'"1,....--""'"1"""''''''' ,..j r--"" r--"" 1"'"'""" r--"" r--"1 r-------" r--------. r-------" r7h .------, ~ LJLJLJLJL Figura 3.17. Detalle de los parámetros más importantes en torno al borrado de campo, en relación a la tabla 3.2. 90
  • 45.
    T(:C.NOU)(jIA ACTUAL DETElE'ISIÓ;': 10.1. Variantes de sistema PAL El sistema de televisión en color PAl se desarrolló de forma que fuera compa­ tible con la televisión monocroma de 625 Hneas y 50 campos utilizada en Europa ytransmitida por canales de RF de 7 u 8 MHz, con un ancho de banda para la señal de vídeo de 5 ó 5,5 MHz. Dcpendiendo del método de transmisión utilizado, los sistemas PAL se identi· fican como B-PAl, D-PAl, G-PAl, H-PAl e I-PAL. las principales diferencias entre las distintas versiones de PAl son los anchos de banda de la señal de lumi­ nancia y de la banda superior de la crominancia transmitida. En general, sólo hay una versión de PAL en Jo que al trabajo en el estudio se refiere. Además de estas versiones de PAl, que son compatibles entre ellas, existen dos versiones especia­ les e incompatibles de PAl, denominadas M-PAl (525 líncas y 60 campos con codificación de! color PAl, utilizada en Brasil) y N-PAl (una versión de banda estrecha de 625 líneas y 50 campos, utilizada en Argentina y Uruguay). En los dos casos (M-PAl y N·PAl) la señal se limita en su ancho de banda para ser transmiti­ da por canales de RF de 6 MHz. En la producción de programas en el estudio se trabaja con "NTSe normal" en Brasil y "PAL-Europeo" en Argentina y Uruguay y se transcodifica a "PAL·local" antes de su emisión. Resumen • El primer paso para convertir las componentes en señal compuesta consiste en atenuar B - Y al 49% y R - Y al 88%. las señales diferencia de color, así atenuadas, pasan a llamarse U y V en e! sistema PAl e I y Q en e! sistema NTSC. Esto se hace para que, cuando finalmente se sumen a la luminancia, la señal compuesta no supere el 33% el pico de blanco ni quede por debajo de! 33% del nivel de negro. • En e! sistema NTSC, I y Q modulan, por separado, dos subportadoras de color. Ambas subportadoras son idénticas en amplitud y frecuencia (3,58 MHz en e! sistema NTSC), pero difieren en fase: están desfasadas 90 grados. Las dos sub· portadoras moduladas por R -y YB-y ponderadas son sumadas a continuación. • Midiendo, o muestreando, la subportadora de color en los momentos ade· cuados, e! receptor puede recomponer los valores individuales de R - Y Y B .- Y a partir de la señal de crominancia. A este proceso se le denomina "demodulación sincrónica". El receptor conoce cuales son estos momentos adecuados gracias al burst. • Puesto que B-y YR -y han modulado dos portadoras en cuadratura de fases, la suma de ambas genera un vector, cuya amplitud puede calcularse como: K =YU1 +¡tl.'Igualmente es posible calcular e! angulo o fase de dicho vector: a = areta JL V • En NTSC los ejes B - Y YR - Y son rotados 33 grados en sentido antihorario, para optimizar el ancho de banda de la crominancia y adaptarlo mejor al sis­ tema de percepción visual humano. Los sistemas Je tcle I~ión • El último paso consiste en sumar la subportadora de color a la señal de lumi· nancia, para obtener así la señal compuesta. Esta señal, denominada eVBS (Color- Video, Blankina and S)'nes), se obtiene sumando la luminancia y la cro­ minancia. A su vez la crominancia se logra sumando las componentes I y Q o U)' V, según el caso, previamente moduladas. • Existe un formato intermedio entre las componentes y los sistemas como puestos: e! y / e, S-Vídeo o S,VHS. Este tipo de señal de vídeo podría consi­ derarse como un estado intermedio entre las componentes de color y la señal compuesta, tanto en lo que se refiere al número de etapas de procesado que sufre la señal de vídeo como en cuanto a la calidad que ofrece la imagen. • El sistema PAL, que nació doce años después que el NTSC, resuelve automa· ticamente los errores de matiz que pudieran producirse por giros de la fase de la subportadora de color con respecto al bum, durante la transmisión. • Para corregir los errores de fase de la subportadora de color, que se traduci­ rían en errores de matiz en la pantalla de! televisor, el sistema PAL invierte la polaridad del vector V línea a línea, es decir, durante una línea se envla R -y normalmente; en la siguiente, con e! signo cambiado; en la siguiente, normal, etc. El proceso anterior no es perfecto, ya que produce, por un lado, pérdida de resolución cromatica vertical, lo cual es perfectamente asumible, y, por otro, ligeras desaturaciones del color, las cuales son mucho menos molestas que los errores de matiz. El bUTSt se encarga de decirle al receptor qué líneas están afectadas por la inversión de! eje R - Y. • Al igual que el PAl, e! sistema SEeAM fue creado después que e! NTSe y supone una mejora, con respecto a éste, en lo referente a los errores de fase. También, igual que el PAL, el SEeAM se basa en la presunción de que la cro­ minancia de dos líneas consecutivas no cambia mucho y, si lo hace, el ojo humano no es capaz de apreciarlo. • En SECAM las dos señales diferencia de color se envían alternadas, es decir, en una línea R - Y, en la siguiente B - Y, luego R - Y, etc. En este sistema se utiliza la modulación en frecuencia en lugar de la modulación en amplitud que utilizan los sistemas PAl y NTSC. • la elección de la frecuencia de la subportadora de color es un factor crítico en los sistemas compuestos: debe ser lo más alta posible, a efectos de produ­ cir un patrón de puntos sobre e! receptor de blanco y negro lo más fino posi­ ble. Además la subportadora y sus bandas laterales deben ubicarse en el espec­ tro de la señal de vídeo (4,2 MHz en e! caso americano y 5 ó 5,5 MHz en el europeo). En concreto, se ha elegido una frecuencia de 3,58 MHz para NTSe y de 4,43 MHz para e! PAL. • la relación matemática entre la frecuencia de la subportadora y la frecuencia de líneas genera la conocida "secuencia de color", o "colouTjraminB", que es de cuatro campos en NTSe y de 8 campos en PAL. Esta secuencia de color puede imponer ciertas limitaciones en el trabajo del montador de vídeo. • El hecho de que la imagen de vídeo se descomponga en campos y líneas supo­ ne que la información espacio-temporal está muestreada (descompuesta). Por 92 93
  • 46.
    Tf:t~NOl ocL" ACTUALDE TELEVISiÓN esta razón su espectro es discontinuo, de manera que la energía tiende a agru­ parse a múltiplos de la frecuencia básica de muestreo, que es la frecuencia de líneas. • Gracias a lo anterior se crean huecos, que son aprovechados por los sistemas de color, para ubicar la información de crominancia. El espectro de la señal PAL es más complejo que el de la señal NTSC, como consecuencia de la mayor complejidad de la relación entre la frecuencia de la subportadora de color y la frecuencia de líneas. Esto, a su vez, es consecuencia de la inversión de polaridad de R - Y línea a línea. 1 ¡ I I ! CAPÍTULO 4 La digitalización 1. Ventajas de los sistemas digitales El cambio de la televisión analógica a la televisión digital no se produce porque esta última sea más novedosa o más sofisticada. Se produce porque la televisión digital aporta ventajas notables con respecto a la televisión analógica: TEcNICAS • Multigeneración sin degradación (1). • Fácil multiplexado de varias fuentes. • Predecible, reproducible y de calidad constante. • Tratamiento digital de errores. • Fácil almacenamiento, retardo y manipulación. • Integración en el entorno de ordenador. • Mejor utilización del canal (2). • Compresión de datos (3). • Posibilidad de autodiagnosis. ECONÓMICAS • El precio de los componentes digitales se reduce cada año. (1) Mientras que las degradaciones de la señal de vldeo anal6gica (ruido, distorsión, intermoduladÓn, errores de tiempo, etc.) son acumulativas y dificiles de distinguir de la propia señal, la posibilidad de regenerar el tren de pulsos digitales hace que la. señal digi­ ta.l sea virtualmente inmune a taJes defectos. Una. señal binaria sólo puede presentar dos valores posibles, de forma que cualquier otro valor de ilmplitud puede ser considerado como una degradación producida por el canal de transmisión o grabación. Esto hace que, a diferencia de 10 que sucede con ta. señal Ulalógica, las alteraciones de la amplitud de la señal sean separables de la infor­ mación origInal. Por la misma razón es posible separar el ruido de la información útiL Puesto que el cambio de estado de la señal binaria sólo puede ocurrir en determinados momentos, también IOIi errores de tiempo (}Juer) son separables de la propia señal. En definitiva, ¡un bit es un bit con independenCia de su forma! (2) Es posible "modelar" el espectro del canal de grabadon o de transmisión mediante el procesado de los datos (aleatori2.a­ dón). Esto supone una utilización óptima del canal digital. (3) La compresión de datos se basa. en la eliminadán de la redwl<ianda, la cual es mucho más fici.l de detectar en el dominio digital. 94 95
  • 47.
    TECNOlOGlt AC1U¡L DlrlLEV)SIÓ¡;:",--' _ • No necesita ajustcs. • Sinergia informática (4). 1.1. Ubicuidad de los sistemas digitales Poco a poco los sistemas digitales se han ido haciendo más presentes en la trans­ misión de información. En la actualidad es posible transmitir cualquier tipo de información mediante bits. Esta polivalencia de lo digital es, quiza, su mayor ven­ taja. En el pasado, cuando se empleaban medios analógicos de grabación 'j transmi­ sión, cada tipo de información precisaba de su propio 'j difcrente canal. El canal tenía que estar adaptado a las características de la información. Así los canales de voz eran distintos de los de radio y éstos, a su vez, de los de televisión. Una vez que una información ha sido digitalizada, sólo tcnemos bits. No importa de donde pro­ cedan o lo que signifiquen; sólo son bits y se pueden transmitir por un mismo canal. Un canal digital permite transmitir (o en su caso grabar) imágenes, sonidos, voz, texto, gráficos y cualqUier otro tipo de información, de la misma forma que un disco de ordenador puede contener sonidos, imágenes, textos, etc. En la tabla que sigue se muestra la evolución en la transmisión de la infor­ mación, mediante canales electromagnéticos, durante los últimos ochenta años. Tabla 4.1 Evolución "de analógico a digital" durante el siglo Xx. Tipo de IMAGEN IMAGEN Información VOZ MÚSICA TEXTO DATOS FIJA MÓVIL Frecuencias Código Frecuenc~s Frecuenc~s Código Código Frecuencias yisuales natural acústicas acústicas alfabético numérico visuales espacio- temporales 1920 Analógico Analógico 1940 Analógico Analógico -­ -- Analógico Analógico 1950 Analógico Analógico Digital Digital Analógico Analógico 1970 Digital Digital Digital Digital Digital Analógico 1990 Digital Digital Digital Digital Digital Digital 2. Situación de la televisión digital La situación actual de desarrollo de la televisión digital varia dependiendo de la fase de aplicación: muy desarrollada en produccion/posproduccion, bastante des­ arrollada en transmisión e iniciándose en emisión: (4) Los equipos basados en "pe" resultan mucho más económic05 que Jos "dedicados", Muy pronto veremos un pe 3.!>ocia. do a prácticamente cualquie:T proceso de producción o posproducción de televisión La digitª-lj/.J.ch'm PRODUCCIÓN • Muy aJ'Gnzado: Existe todo tipo de equipos y normas digitales: En la actuali­ dad existe todo tipo de equipos de producción de televisión en formato digi­ tal, desde cámaras hasta mezcladores, telecines, OVE, tituladoras, paletas gráficas, magnetoscopios, conmutadores, matrices, codificadores, etc. Igual­ mente existen normas de producción de televisión digital, tanto para vídeo compuesto como para componentes. Las normas digitales compuestas han sido prácticamente abandonadas a favor de las normas por componentes. TRANSMISIÓN • Medianamente OI'anzado : El CCIT recomienda los niveles "L3" (34 Mb / s) )' "L4" (140 Mb/s) en Europa, 44 Mb/s en América y 32 Mb/s en Japón. Para la transmisión pW1tO a punto se puede comprimir el tren binario desde los 216 Ó 270 Mb / s a 34, 69 ó 140 Mb/s, sin pérdida subjetiva de calidad, lo que supondría ocupar un U, dos U o un L4 de la jerarquía del ISDN. En gene­ ral, estos sistemas utilizan factores de compresión muy bajos (4: 1 ó 5: 1 como máximo), con lo que la imagen descomprimida se puede editar y procesar, aunque no es recomendable la multigeneraci6n, sobrc todo si se emplean dis­ tintos algoritmos de compresión. EMISIÓN • Poco avanzado: S610 algunas propuestas y sistemas en fase de inicio: ATSC en EE. UU. y OVB en Europa. La emisi6n digital supone un cambio de normas de emisión y una renovación del parque de receptores (o la compra de adap­ tadores externos), por lo que su desarrollo resulta más lento. En la actualidad existen varias normas de emisión digital, orientadas todas ellas a la alta de!l­ nici6n, así como a los servicios multimedia. De todas, la más avanzada es la conocida como "Grand Al!iance" (y actualmente como ATSC) de los EE.UU. También se está muy avanzando en un conjunto de normas de emisi6n digital de televisión en Europa, conocido como OVB, el cual contempla variantes para satélite, cable 'j difusión terrena. Los algoritmos de compresión permi­ ten que el canal de emisión digital sea incluso más económico (desde el punto de vista del ancho de banda) que el canal analógico. 3. Señales de vídeo y anchos de banda En televisión se pueden encontrar diferentes tipos de señales, cada uno de los cuales tiene sus propias características, limitaciones y aplicaciones. La figura siguiente muestra como partiendo de una señal RGB se obtienen señales en com­ ponentes y en vídeo compuesto. Para una norma de 625 lineas, rclacion de aspecto 4:3 y 50 campos por segun­ do, con un factor de entrelazado de 2: 1, el ancho de banda de la señal RGB se eleva por encima de los 1.5 MHz, ya que cada uno de los primarios debe tratarse con total ancho de banda. En la práctica, cuando se trabaja en RGB el ancho de banda suele ser aún mayor, ya que se utilizan los primarios tal como los proporciona la 97 96
  • 48.
    "J ECNOl-oclA ACfUAlDE TELEVISI/)N "R"[ ["8" ~ I I la1 , 1, ~ INVERSOR ~ Filtro paso bajo :}~TODAS CON ANCHO DE BANDA TOTAL (MAS DE 15 MHz) SEÑALES DIFERENCIA DE COLOR CON ANCHO DE BANDA REDUCIDO (MAS D~}1~:'HZ) "B·Y" "R-Y" MODULADOR EN CUADRATURA (PALO NTSC) SEÑAL COMPUESTA NTSC O PAL SUBPORTADORA T (ENTRE 4,2 Y 5.5 MHz) + SINCRDS Figura 4-.1. Anchos de banda en funci6n del tipo de señal de vídeo. cámara, es decir, sin filtrar. Esto supone unos 8 MHz por primario. Para una señal por componentes "Y", R - Y, B -Y, el ancho de banda estaría en torno a los 10 MHz como mínimo (5 MHz para la luminancia y la mitad para cada una de las señales diferencia de color). Una señal compuesta PAL ocupa s610 5 6 5,5 MHz. En la actualidad la tendencia es tomar imágenes en RGB, procesarlas y grabar­ las en componentes y emitirlas en compuesto. De esta manera se obtiene la máxi­ ma calidad en los procesos de producción y posproducción y el mayor ahorro de ancho de banda en la emisión. Los futuros métodos de compresión permitirán la emisión digital por componentes. La conversión a componentes es una forma de reducción de la información, basada en la limitada resolución cromática del sistema de percepción visual huma­ no. Dicho de otra manera, las componentes digitales son una forma de compresión analógica. Reduciendo aún más la información de crominancia e intercalando los espectros de luminancia y crominancia, se obtienen los sistemas compuestos. Estos sistemas se basan en la compatibilidad con la señal de blanco y negro y, aunque fueron una buena solución en su momento, en la actualidad tienden a desaparecer. De todas formas, aún pueden subsistir durante un período que puede llegar a los 10 años. Vamos a ver, como ejemplo, las barras de color en formato RGB, componentes y compuesto: Las ocho barras de color pueden entenderse como combinaciones binarias de los tres primarios RGB: En la tabla siguiente, un "1" en una columna determinada La dipitah'laci6n PRIMARIOS RGB COMPONENTES COMPUESTO • 1,33­ JUL ~'.~.. ~- l'' 1.. t ROJO OOZW<O-'O (j..J-4:ot-...,:::>o:: 1 .Z=!ljOCZo!:;!C!J +T.7·-­ ~~ ~~Ci ~ "':> '" '" :> JL ,,0 VERDE -0.7-- o +O#89~_- B-Y •O -O89AZUL . Figura 4-,2. Las barras de color normalizadas en formato RGB, componentes y compuesto. significa que ese primario está presente en el color de la columna correspondien­ te. Un "O" significa que el primario de esa columna no contribuye a la formación del color. Como puede verse, la tabla de la Tabla 4.2. Formación de las barras de color a izquierda genera los tres colores pri­ partir de Jos primarios RGB marias, los tres colores complemen­ tarios, el blanco y el negro. Las ecuaciones que permiten pasar de los primarios RGB a las señales com­ ponentes son: R G B BLANCO 1 1 1 AMARILLO 1 1 O ClAN O 1 1 VERDE O 1 O MAGENTA 1 O 1 ROJO 1 O O AZUL O O 1 NEGRO O O O y = 0,30R+0,59G+0, 11B R -y = O,70R-0,59G-0, 11B B - Y = -0,30R-O,59G+O,89B R, G Y B contribuyen con distinto peso al valor de la luminancia, en función de la diferente sensibilidad del ojo a estos colores (figura 4.3) La señal compuesta se obtiene suman­ do a la luminancia la ilúormacion de color. Así se logra la máxima compacta­ ción de la señal y el máximo ahorro del ancho de banda, lo cual es muy importante a la hora de emitir la señal. 98 99
  • 49.
    TI.:C¡-:OLOG!A ACTUAL D[1 [L[·ISIÓ~ o G--, O --l W O O <t: -.J c::o , (1) Z W (1) , O o Figura 4.3. LONGITUD DE ONDA Sensibilidad relativa a los primarios RGB. 4. Definición de analógico y digital 4.1. Analógico Analógico y digital son términos utilizados muy frecuentemente, aunque no siempre se entiende bien su significado. Se definen como analógicos aquellos procesos y sistemas que resultan ser una analogía del hecho físico que repre­ sentan. En la grabación de audio la corriente eléctrica generada por el micrófono es una analogía de las variaciones de presión que inciden sobre su membrana. zAUDIO ~~[1 TIEMPO ~1m- a l 11//1 VíDEO l ! . . . . ::-:----..~J 1/' V , ., . ~!1()' ::"'" .. - rI rr/~r~~h.....,,/.~ 'c. -~. 0''­ ri''V ~~ ... ,~x-0 / _TlEM~º__... Figura 4.4. Ejemplo de proceso analógico. 100 La dlfltJJiza.C'Íón Igualmente los patrones de intensidad y dirección magnctica grabados en la cinta son análogos a la corriente elcctrica aplicada a la cabeza de grabación. Durante la reproducción el flujo magnético captado por la cabeza es converti­ do de nuevo en una corriente eléctrica, la cual vuelve a ser una analogía de la información original. A la salida del magnetófono obtenemos otra vez variacio­ nes de presión en función del tiempo (figura 4.4). La analogía se mantiene durante todo el proceso. En vídeo la analogía es menos evidente, pero existe tambicn. Puesto que la información de vídeo varía en tres dimensiones (horizontal, vertical y temporal), es necesario descomponer dos de ellas para poder representarla mediante una señal eléctrica, que sólo varía en una dirección (el tiempo). La dirección vertical se descompone en líneas, mientras que la temporal se descompone en campos. Esto hace que la analogía sólo se mantenga en la dirección horizontal, por lo que, en cierto sentido, se puede decir que la señal de vídeo analógica se descompone o discretiza en las direcciones vertical y temporal. Los sistemas muestreados o discretizados son siempre más robustos que los ana­ lógicos puros (continuos). Por ejemplo, la degradación que se produce al grabar una señal de vídeo en una cinta VHS afecta mucho más a la resolución horizontal que a la vertical o a la temporal. Esto se debe a que estas dos últimas dimensiones están discretizadas, muestreadas y en cierto sentido digitalizadas. La fotografía es una información analógica, ya que resulta ser una analogía directa del hecho físico que representa. Al menos en un caso ideal, la fotografía está formada por un número infinito de puntos y a cada punto le puede corresponder uno entre infinitos valores de gris (Figura 4.5). La primera emisión de televi­ sión a partir de material graba­ do en un magnetoscopio tuvo lugar en los estudios de la ces de Nueva York el 30 de noviembre de 1956. Tres horas más tarde el mismo programa (Douglas Edward and the News) fue emitido desde los estudios de la ces en Hollywood, para los especta­ dores de la costa oeste (foto de la izquierda). En los meses siguientes otras emisoras im­ portantes de EE. Uu. siguieron el ejemplo de la ces. 101 Figura 4.5. Ejemplo de información analógica (a la izquierda) y digital (a la derecha).
  • 50.
    Tl:CN( lLOGIA hCflVLl)E"JEt E'1~16N 4.2. Digital El texto, en cambio, es una información digital, ya que está representada mediante un código. En el texto sólo hay información allí donde existe una letra (si consideramos la dirección horizontal) o allí donde existe una línea (si conside­ ramos la dirección vertical). Además cada letra sólo puede tomar uno entre 25 valores permitidos, ue manera que la información digital es discreta o discontinua, tanto en el tiempo (que en este caso corresponde al espacio) como en las amplitu­ des (que corresponden al alfabeto en el ejemplo del texto). El texto es una información codificada. Responde a un código bien definido y perfectamente conocido por el emisor y el receptor, exactamente igual que el vídeo o el audio digital. A menudo es interesante pensar en las características, ven­ tajas y problemas de la comunicación oral o escrita para entender mejor las seña­ les digitales. Si fotocopiamos repetidamente la fotografia y el texto nos encontraremos con que al cabo de pocas generaciones la fotografia se habrá convertido en una mancha borro­ sa, mientras que el texto (que también habn degenerado) sigue teniendo el mismo significado. Fotografiar la fotocopia de la fotografia no sirve de nada, mientras que el texto se puede volver a rescrihir en cada nueva generación. Siempre que se hace una copia "de digital a digital" la información se regenera totalmente. Esto es lo que hacen los magnetoscopios digitales cuando se realiza una copia o una edición e!ectrórúca: en lugar de copiar directamente los bits que le entrega el reproductor, la máquina graba­ dora genera bits nuevos, a partir de los antiguos, antes de grabarlos en cinta. S. Conversión A/D La mayoría de las imágenes son en su origen analógicas, por lo que se necesita convertirlas a digital, en un proceso denominado "conversión AjD", "digi~aliza­ ción" y, en ocasiones, "codificación": El proceso de conversión AjO se logra en dos pasos: • El muestreo. • La cuantificación. El muestreo discretiza (convierte en muestras instantáneas) la dimensión tem­ poral de la señal anal6gica de entrada, mientras que la cuantificación discretiza e! rango de voltajes. El proceso completo puede entenderse como si alguien midiera la amplitud de la señal de entrada a intervalos regulares de tiempo y expresara el resultado con un número limitado de dígitos. Por tanto, hay que tomar dos decisiones: • ¿Cuántas muestras por segundo? • ¿Cuántos bits por muestra? El número de muestras por segundo, es decir, la frecuencia de muestreo, está relacionado con el "ancho de banda", mientras que el número de bits por muestra depende de! rango dinámico de la señal a codificar. En la figura 4.6 puede verse una forma de onda que es muestreada o medida a intervalos regulares. A continuación cada muestra se convierte en un código binario. La digitalización 15 14 __ • 13 12. . 11 . 10 9 8 r~ 6 5 W 4-­ :;(1 3 ~. 2 0 1 >! 0--1,¡ 11 11 11 1I 11 11 11 11 11 11 11 11 II II II l' " . T1 T2 T3 T4 T5 T6 T7 re T9 TlO T11 T12 T13 T14 T15 T16 T17 n8 3-...t1. .L J .. .l rfi. ,§~ ~ .L .1-...i.-l ~- ,LQ .11 -.1Q. JL .L0101011001110111011'0110010'0100001101110100 01111001 10111011 1011 1010 1000 TIEMPO --------., Figura 4.6. El proceso de conversión se inicia tomando muestras a intervalos regulares. 5.1. El muestreo El proceso de muestreo puede entenderse como la multiplicación de la señal de entrada por una señal impulsiva (la señal muestreante), que vale cero en todo momento, excepto en los instantes de muestreo, en que vale uno (figura 4.7). O, :> SEÑALl­ :J DE ENTRADA lL ::¡ « TIEMPO x SEÑAL MUESTREANTE IJJ_UJ._LL1JllJJ-~TIEMPO - RESULTADO DEL MUESTREO TIEMPO Figura 4-.7. Arriba se muestra la señal de entrada, mientras que en el centro puede verse la señal mues­ treante, consistente en un tren de impulsos. Si ambas señales se multiplican, el resultado es un tren de impulsos modulados (Pulse Amplirude Modulation). 103 102
  • 51.
    TCCNOLOGIA ACTLJ:'L DETn"I~:J;'JSl!'IC~)N~' _ ~!J:~til.il(JQU Como consecuencia, la señal muestreada valdrá cero en todo momento, excep­ to en los instantes de muestreo, en los cuales su valor corresponderá al de la sei'íal analógica de entrada. Puesto que se trata de multiplicar la señal de entrada por unos pulsos instantáneos, se obtiene un tren de pulsos modulados en altura, es decir, en amplitud. Lo anterior eqUivale a la modulación en amplitud de los impulsos de la señal muestreante por la señal de entrada. Por esta razón a la señal muestreada se la conoce también como "señal PAM" (Pulse Amplirude Modulation o modulación de impulsos en amplitud). De la misma forma que en la AM de radio se producen bandas laterales por encima y por debajo de la portadora, también en el proceso PAM se producen bandas laterales, sólo que en este caso la fi'ecuencia portadora es la frecuencia de muestreo. Para enten­ der el efecto de las bandas laterales es necesario conocer los espectros de la señal de muestreo y de la señal de entrada. El.espectro de la señal de entrada es el de la propia sei'íal de vídeo y su comprensión no suele plantear problemas. El espectro de la sei'íal de muestreo es algo más complicado, como consecuencia de que dicha sei'íal es disconti­ nua, lo que supone que su espectro será igualmente discontinuo Una función periódica temporal f(t), como la señal muestreante, se puede des­ componer en una serie de Fourier: FACTOR REAL f(t) = aol2 + a, coswt + a, cos 2wt + alcos 3úJt.....a,cos nWt +-­b, senWt + b, sen 2úJt + bl sen 3wt.. ...b, sen nWt ...... .­~ FACTOR IMAGINARIO Un impulso rectangular puede considerarse como una funci6n par (simétrica), en la que f(t) = f( -t), de forma que los coeficientes bn son cero, quedando sólo los términos en coseno (factor real). ; t(t) r,I1 fl ~I I;l Figura 4.8. -IL_Ji_JI La señal impulsiva muestreante puede entenderse como una, T funci6n par. /JJJ LJ JJ:-+lllJllJ llL_. ~2.-.J 2T 3T 4T 5T 6T 7T O 2Fo 3Fo 4Fo 5Fo 6Fo 7Fo 8Fo 9Fo Figura 4.9. Representaci6n temporal y frecuencial de la señal impulsiva. Cuando la duración del impulso tiende a cero, todas las componentes adquieren el mismo valor, de manera que el espectro se compondrá de una serie infinita de líneas espectrales situadas en los armónicos de la frecuencia de muestreo fa =1/1', todas ellas de la misma amplitud. Puesto que los impulsos rectangulares no poseen valores negativos, aparecerá una componente continua en el espectro, de frecuencia cero. La teoría de los párrafos anteriores puede entenderse mejor con ayuda de la figura 4.10. A la izquierda puede verse, a modo de ejemplo, -la formación de una onda cuadrada, a partir de cosenoides de frecuencia creciente. Eneste caso la onda cuadrada se obtiene sumando una cosenoide de la misma frecuencia y aml;m:ud que la onda cuadrada, más el tercer armónico con un poco menos de amplitud, más el quinto armónico con amplitud aún menor... Cualquier señal periódica se puede descomponer en señales senoidales o cosenoidales puras ONDA CUADRADA ~ JVI.INVVV'+ .Jf.I.NI.NVV ~ I_L l_l LL L.LL F, 3F, 5F, 7F, 9F, 11F,13F,15F, FRECUENCIA Figura 4.10. ONDA IMPULSIVA + + ! + / .! i " :' , : ' " i : . / ¡ "o / . : . / .... + + + + (J(:Irl!VI/'JI)If11(VMff'iIIf I!IfIifVl/I/ + f!/N((I/I{fff!IIWífV{ViVW.J/IIiVI/VVlf1I!1 + !lVWVIMlM!IVIMflINI!f!lr,~NWJWIfI!WiJlfVii + :Wi'vW,Mnl¡JI!rJfIJIJIWi!VIV'I'n!l!vWVVM~,f,IIMi1 + MrVIMNVfI!WJfIf,Ij¡r1,íWII'WvWIMIWiílf',WJWV'IIM/VI =llll 11.J_JJ.JJ ..IIJ._ F, 2F, 3F, 4F, 5F, 6F, 7F, 8F, 9F, FRECUENCIA Descomposici6n de ondas complejas en series senoidales. A la derecha de la figura 4.10 se muestra como obtener una señal impulsiva (que es la que nos interesa) a partir de sei'íales eosenoidales. Aquí, además de la cosenoide fim­ damental, intervienen todos los arm6nicos y todas ellas eon igual amplitud. Si una sei'íal impulsiva se obtiene sumando todas las cosenoides, puede deducirse que tal onda impulsiva puede descomponerse en eosenoides. En nuestro caso, la onda impul­ siva es la señal muestreante que multiplica a la sei'íal anal6gica de entrada. En la figura 4.11 (a) puede verse el espectro de la señal de muestreo, el cual está formado por rayas espectrales de igual amplitud, que se suceden a múltiplos de la fre­ cuencia de muestreo. En 4.11 (b) se muestra el espectro de la señal de vídeo, la cual, una vez muestreada, presenta el espectro de 4.11 (e), donde aparecen "copias" de la lOS 104
  • 52.
    T[eNOl Ol;IA AntlAL DL: TE! EV1SIÓN La dipitalización (a) r .. L __.L L L_~~PE~;~~~:T~~EÑALo Fo 2Fo 3Fo "Fa" J. FRECUENCIA (b) .. ESPECTRO DE LA SEÑALO ' '.REcUENCIA ~DE ViDEO O 5.S MHz FILTRO DE PASO BAJO ALIAS (C) htntfjbl~-----cn------..ESPE~~~~~R~~¡EÑAL O ti Fo t ' 2Fo ... •'. JFo .Fo 5.5 MHz I Fo+5,5 MHl. '. 2Fo+S,5 MHz ", Fo-5,5 MHz 2Fo-5,5 Mttl: 3Fo-5.5 Mkz .. SI LA FRECUENCIA DE (d) MUESTREO ES INFERIOR AL DOBLE DEL ANCHO DE BANDA DE LA SEÑAL A MUESTREAR, SE PRODUCE SOLAPAMIENTO ENTRE LAS COMPONENTES (e) DE ALIAS, EL CUAL SE DENOMINA AllASSING Figura 4.11. Razones por las que puede producirse a]¡asin8 durante el muestreo. señal de vídeo de banda base por encima y por debajo de las rayas espectrales de la señal de muestreo. Estas "copias" se denominan "alias". Si la frecuencia de muestreo es superior al doble de! ancho de banda de la señal muestreada, las copias o alias no se solaparán entre ellas, ni tampoco con la señal de banda base, que vuelve a aparecer en el espectro de la señal muestreada. Durante la conversión digital-analógico se hace pasar la señal digital por un fil­ tro paso-bajo como el mostrado en 4.11 (c). Este filtro permite individuali'lar la señal de banda base, eliminando las alias. Puesto que no es posible o, al menos, no es fácil construir filtros de corte abrupto, conviene dejar algo de espacio entre la señal de banda base y la banda lateral inferior de FO. Si se mantiene e! ancho de banda de la señal de vídeo, pero se reduce la frecuencia de muestreo, la señal de banda base y la banda lateral inferior de FO, al igual gue las bandas laterales supe­ riores e inferiores de los distintos múltiplos de la frecuencia de muestreo se sola­ paran entre ellos. Este solapamiento se conoce como aliassina (figura 4. l1-d) Yda lugar a la aparición de "bajas frecuencias fantasma", que se Suman a la imagen. Un diseño inadecuado del filtro paso-bajo de reconstrucción puede igualmente gene­ rar aliassing (figura 4 .11-e). 5.2. Aliassing El aliassina se produce siempre por una frecuencia de muestreo insuficiente. La figura 4.12(a) muestra un ejemplo de aliassing espacial. En (a1) podemos ver una ima­ gen que contiene altas frecuencias en todas las orientaciones radiales, mientras que ALlASSING ESPACIAL ALlASSING TEMPORAL GIRO APARENTE (a1 ) 15' 30'-~J "1_ -"1 45° ~-...-- "(b1L~I~I~]-~1 (a2) GIRO ...@ .30'r­ ('3) • (b2)1§f.¿1~1!]~1 Figura 4.12, Ejemplos de a]iassin8 espacial y temporal. (a2) nos muestra una estructura de muestreo similar a la producida en televisian, como consecuencia de la exploración por líneas. Cuando (al) y (a2) se unen, como sucede en (a3), el resultado son productos de a]iassina, que se muestran como moarés de bajas frecuencias. Una vez que a una señal útil se ha sumado aliassina, como en (a3), resulta imposible separar la señal indeseable de a]iassina de la señal útil sin mermar la cantidad de información (resolucian) de la señal útil. Es frecuente ver en las "películas del Oeste" cama las ruedas de los carrua­ jes parecen girar muy despacio, detenerse e incluso girar al revés. Este efec­ to es consecuencia de que la imagen ha sido muestreada en el tiempo a 24 ips. Si se muestran al espectador los cuatro fotogramas de la figura (b 1) en rápida sucesión, tiende a percibirse la rueda como girando en sentido horario a 15 grados por fotograma, Para estar seguros del sentido de giro, pintamos uno de los radios de negro. Ahora podemos ver que estos cuatro fotogramas son en realidad consecuencia, de que la rueda ha girado 30 grados en sentido antiho­ rario (b2). En este caso se ha producido "aliassina temporal". De la misma forma que un malhechor utiliza varios nombres (alias) para escon­ der su identidad y engañar a la justicia, una señal muestreada produce falsas seña­ les (alias), las cuales pueden, si no se toman las precauciones adecuadas, enmasca­ rar la informacian útil, generando aliassina. El aliassina es siempre un problema de incertidumbre. Imaginemos que el con­ versor digital-analógico recibe un tren de pulsos como el mostrado en la figura 4.13 (a), a partir del cual debe generar una forma de onda que pase por los PWltoS de muestreo. La solución más lógica e inmediata puede ser la mostrada en la figura 4.13 (b), donde la frecuencia de la señal reconstruida (f,N) resulta ser 1/4 de la frecuencia 07 106
  • 53.
    -: I:C;'ULO(;i" :CTUAL¡)E TElE'I"¡ÓN _____liLili,gll~JllilciQ.B (a) " ~ I: UNIDAD ARBITRARIA DE TIEMPO • , ~ 2. ~ 6 8 tl'QWti":JIZ;>"'ifi2llXll1~36lUO~2.u"43 l. r, FRECUENCIA / 1 / / ) ) / 1) (b) ¡ i I 1 ,1" ¡ r T UNIDAD ARBITRARIA DE TIEMPO . T • 2. ~ r; '!"'l?'I4'1'i'fl1l121tifi2ll)O:R;UlLJ1140414HIHIJ FRECUENCIA '. 1, I (C) . L. ..LJ__L__~ lJly.~ .UNIDAD ARBITRARIA DE TIEMPO 2. 4 6 e ()t'1oII1l'e1021}421i2B.103234)f;JII'IHH4(64~ FRECUENCIA ~A!~tA~1A~~A )1!f/ MI/¡r/¡IJYIM._1.Iij~'~/ ~(d) J..... ,1.UNIDAD ARBITRARIA DE TIEMPO 2..6 e 1)t2'W1U3]oD}42{;:M:~m,}4lEiJIHO~¡.u~6Cl FRECUENCIA Figura 4.13. Diferentes frecucncias de origen pueden gcnerar los mismos trenes de impulsos de salida si no se toman las precauciones adecuadas. de muestreo (Fs). Sin embargo, también la frecuencia (c) pasa por los puntos de muestreo y sería, en principio, una solución válida. Una forma de deshacer esta incertidumbre consiste en asegurar que antes del proceso de muestreo ninguna señal contenga frecuencias superiores a la mitad de la frecuencia de muestreo. Dicho de otra forma: asegurar que'cada ciclo de la señal de entrada esté representado por, al menos, dos muestras. Si esto es así, durante el proceso de reconstrucción de la señal (conversión digi­ tal-analógico) sólo existirá una forma de onda senoidal capaz de pasar por los puntos de muestreo representados por los valores digitales. Si queremos representar adecuadamente la forma de onda (c), deberemos aumentar la fre­ cuencia de muestreo, tal como se hace en la figura 4. 13 (d). Resulta interesante analizar la relación entre la frecuencia de la señal de entrada y las frecuencias de alias que pueden producirse. Además de la propia señal de entrada, cada tren de impulsos es capaz de generar dos señales "fantasma" o de "alias": una de frecuencia igual a la frecuencia de muestreo menos la frecuencia de la señal de entra. da y otra de frecuencia igual a la frecuencia de muestreo más la frecuencia de la señal de entrada. En realidad encontraríamos infinitas señales de alias como las anteriores. Concretamente, si llamamos "S" a la frecuencia de muestreo, "F" a la frecuencia de entrada, "N" a cualquier número entero y "Fa" a la nueva frecuencia de alias, entonces encontraremos Fa = NS ± F. En el ejemplo de la figura 4.14 se ha utilizado una frecuencia de muestreo FRECUENCIA DE MUESTREO = 1 KHz (perlodo"r = 1 msl (a)llllliUilili 10,5 1 1,5 FRECUENCIA (KHz) 0,75 KHz F... Fs (T=1,33 ms) A (b) i I0,5 1 1,5 FRECUENCIA (KHz) , , ¡ , 1.. 0,25 KHz F" F. Fs /1:' f',:, 'V' ,¡Y,'" " ' " , ,", '1 (T=4ms) ¡ "'1 "', ", ¡, I " " ' (C)",~,¡ !''I""' "",;,'1 ~LJJ .I " '1 j Ji ,',' j" 'j', ,y 0,75 KHz 0,5 1 1,5 1;..'/ ' : ',¡ ,', ,: (T=1,33ms) FRECUENCIA (KHz) I ¡ " I I : I 1 II i ' ' 1 , I 1,",": ,! 1, I ,', !, 1,'·, ' ~75 KHz F" F. Fs F" :" ~':'~"'~''~:~'I'~'I,,(TO,57ms) i il i(d)!:, "';,', ";",,,j,. i:',,,. ,i .,. 1 KHz ~ " , !' I ' I 0 . 7 5 , _ --" ,.. ... "1 " '! 1 I , ,; ' " , ," ! (T=1 33 ms) 0,5 1 1,5 2 I , 1 i":' 1 ' ' ' 1 I I • FRECUENCIA (KHz) 1 Figura 4,14, Relación entre la frecuencia de la señal de entrada y las frecuencias de alias. de 1 KHz. Una señal de entrada de 0,75 KHz (la cual está por encima dellími­ te de Nyquist) generará los puntos de muestreo, indicados mediante pequeños círculos en (b). El problema es que una señal de 0,25 KHz (c) generaría tam­ bién los mismos valores en los instantes de muestreo, de manera que sería imposible saber si tales valores corresponden a la señal (b) o a la (c) La frecuencia de la señal (c) es igual a la frecuencia de muestreo menos la fre­ cuencia de la señal de entrada (1 KHz - 0,75 KHz =0,25 KHz). Si la señal de entrada es menor que la mitad de la frecuencia de muestreo, la resta siempre será mayor que la señal de entrada, de manera que un filtro paso-bajo podrá separar la señal de entrada de la señal de alias. Además se produce otra señal de alias en Fs + F'N = 1KHz + 0,75 KHz = 1,75 KHz, pero ésta es menos importante, ya que su frecuencia está por encima de la de la señal de entrada, con lo que se puede sepa­ rar fácilmente. 5,3, La cuantificación Una vez muestreada la señal, es necesario expresar el valor de cada muestra mediante un código (normalmente una palabra binaria) de longitud limitada. De la misma forma que el muestreo representa la dimensión temporal, la cuantifica­ ción sirve para preservar las amplitudes. Puesto que se utilizan palabras de longi­ tud limitada, la precisión será también limitada, por lo que la cuantificación no puede ser nunca exacta; en el mejor de los casos, será una buena aproximación al valor analógico. 109 108
  • 54.
    - - --- TI::CNOI-OGIA ACTUAl DE TI:! EVISIÓN Una señal analógica presenta un número infinito de posibles valores, entre un mínimo y un máximo, mientras que la señal digital sólo puede representar un número limitado de valores, de manera que será necesario redondear el valor de la señal analógica al valor digital más cercano. En la figura 4.15 se han utilizado cuatro bits para representar cada mues­ tra, de forma que pueden codificarse hasta 16 valores distintos (del O al 15). Cualquier muestra que esté por encima del umbral de decisión se redondea al valor inmediatamente superior, cometiéndase un error por exceso. En caso contrario, se redondea al valor inferior y el error será por defecto. Si llamamos "q" al valor de un intervalo de cuantificación, el error máximo cometido será de ±1/ 2q, ya que siempre usaremos el valor digital más cercano. "Ji-­ 15_ ,- 14 I • 13 z ! U)12 8f1j------ - - - -- -­ I ~10 - -- 'ºU) ! ~ 9 w--~-----I a-: 8 O I ~ T --------- 7 w~-= ~ ~~-- o U) W W! ~ l-~I~ - I ---- ----/--.-1---1--- ;? O ...J ¡-..: ...J - - 0 ­ ...J) ~:1 - - - ­ ;tI O 3 - - - - --- - ---­ (l) ::E~I :> ¿ -- - ~ --= =- - ---= -= ::-= == =I-I~-.- ;:) .. . -----. .. ...ERROR DE CUANTIFICACiÓN TI T2 T3 T4 T5 T6 T7 TB T9 T1D Tl1 T12 T13 T14 T15 T16 T17 T1B L~LLL~5~~~4~~a~~LL01010110 0111 0111 0111 ol1oói01 01000011 01116100 01111001 10101010101010011000 t1¡;MP-.O --_.-_.- -~- ----~ Figura 4.) 5. La cuantificación es el redondeo de los valores de las muestras al valor admitido más cercano. 5.3.1. El ruido de cuantificación En la figura 4. J6(a) se han utilizado dos bits para representar el valor de la señal analógica, con lo que el peldaño de ouantificación "q" es igual a 1/4 del valor de la señal "S". El error de cuantificación será ±J/8S. En 4.16 (b) se emplean tres bits, lo que da ocho valores posibles, siendo el error de cuantificación de ±1/ 16S. Con cuatro bits (4. J6-c), el error de cuantificación se reduce a ±1/32S. Por tanto, cada vez que se añade un bit se reduce a la mitad el error de cuantificación. Podemos entender el error de cuantificación como una señal indeseada que se suma a la señal útil y que estará presente incluso después de la conversión digital­ analógico. Se habla, por tanto, de "ruido de cuantificación".~oderdeterminar I JO La dipitalización (a) (b) (e) 2 BITS 3 BITS 4 BITS :+F: ·1'q l±j-:--'-:-"-, o.I±-+~::l:: il~lt-c1­ Ill~ 6ftETIEMPO TIEMPO TIEMPO ~ ~~<~~q~~~~~~q~~~jI'>.JI'>.0"<J'JI'>.,¡,'f'0" ERROR DE CUANTIFICACiÓN ERROR DE CUANTIFICACiÓN ERROR DE CUANTIFICACiÓN Figura 4.16. El error de cuantificación decrece a medida que se aumenta el número de bits con que se representa cada muestra. ~l núElero ~~_bit~Il_~.e~~ri9:" h~y_que saber_c:l,l;ÍI~§...~L val<~L4~I!1j49_Rer@i tidg_,en una señal de vídeo de calidad profesional. En televisión se acepta como "buena" una seílaícUyare1aci6n S/N esté por encima de los 55 dB. La fórmula que permite conocer la S/N en televisión es: Vs S/N=20Iog­ Vr La fórmula anterior significa que-taSIN deúna señal de vídeo es igual a 20 veces el logaritmo de la relación, entre el valor de la señal pico-a-pico (Vs) y el valor del efectivo del ruido (Vr). Puesto que con cada bit de cuantificación el error se reduce a la mitad, la S/N mejorará 6 dB por bit utilizado (20 X l?g 2 "" 6). El hecho de contemplar el valor eficaz del ruido, y no su valor pico-a pico, supone tener que sumar a la S/N una constante de 10,8 dB. Por tanto, siendo "n" eLnúmero de bits ~pteados, el valor definiti;:fu;~d;~.-~-- _ 1 S/N =6n + 10,8 dB ' Si deseamos una S/N por·· encima de SS dB, necesitamos utilizar ocho bits/muestra (6 x 8 + 10,8 dB = 58,8 dB). En algunas aplicaciones, como, por ejemplo, en los telecines, mezcladores digitales, etc., se necesita una S/N más alta, por lo que la tendencia actual es utilizar diez bits/muestra en lugar de ocho. 5.4. El dither~---,-------- El dicher es una señal de bajo nivel, tipicamente ruido blanco con una amplitud de un nivel de cuantificación pico-a-pico, que en algunas ocasiones se suma a la señal analógica antes de ser muestreada. El diCher asegura que incluso la señal más pequeña cruzará, al menos, un nivel de cuantificación, de manera que los períodos adyacentes corresponderán a niveles de cuantificación diferentes (figura 4.17) 111
  • 55.
    .1,._~_shp~117_~C~Úl! -~-,--.,- .~..!..!~~ -~- SINDITHER .~-- ---------­ -"­ En el proceso de conversión digital-analógico se comienza por generar una señal PAM a partir de los valores binarios de las muestras. En cste punto la señal reconstruida presenta una apariencia escalonada, con transiciones bruscas entre los w-Q .~ '" _ _ . _.. _.. .. >~8_. ::<0 -l-=/ ::>w0vf "'z o JL LrCUANDO LA SEÑAL NO PRESENTA SUFICIENTE AMPLITUD COMO PARA PROOUCIRSE UNA MODULACiÓN "PAM", EL DlTHER PERMITE UNA MODULACiÓN DE ANCHURA DE IMPULSOS (PW'" Figura 4. 17. Aunque parezca extraño, un poco de ruido bicn calculado puede mejorar el proceso de digi­ talización. Cuando la señal de vídeo presenta altos niveles, el error de cuantilicacion es peque­ ¡io y puede entenderse realmente como ruido. A medida que la señal se hace mas peque­ ña, el error de cuantificación se hace más importante y comienza a correlacionarse con la señal, es decir, el error deja de ser aleatorio y pasa a ser una funcion de la señal, lo que significa que el ruido de cuantificacion se convierte en distorsión. Cuando la señal de 1deo presenta muy baja amplitud se produce un efecto de contorneado o pasterizaci6n de las imagenes, como consecuencia de que se utilizan pocos niveles de cuantifis:acion, en areas relativamente grandes. Si de alguna forma el crror de cuantificación puede descolTelacionarse de la señal de entrada, la señal cuantificada sera una función lineal de la señal de entra­ da. Esta funcian de descorrelación la realiza el dither, sumando un pequeño pedes­ tal de ruido a la señal de entrada antes de ser digitalizada. La pequeña cantidad de ruido sumada a la señal hace que la respuesta del cuantificador sea imprevisible, lo cuallinealiza la funcion de transferencia. Por el contrario, se produce una peque­ ña pérdida en la rclacion señal a ruido, la cual resulta mucho mas tolerable que los efectos de contorneado que se produciría sin dither. 6. El filtro de reconstrucción Una duda que suele presentarse en lo referente al proceso de muestreo es: ¿qué pasa con la información de la señal original, en los puntos comprendidos entre los instantes de muestreo? ¿Como es posible saber, durante la conversión digital-ana­ logico, cual era el valor original de estos puntos no muestreados? diferentes valores de amplitud. Estas transiciones rápidas suponen la existencia de coeficientes de alta frecuencia, que no estaban presentes en la señal original. Por tanto, debemos hacer algo para "suavizar" la apariencia quebrada de la señal recons­ truida. De esto se encarga el filtro paso-bajo de salida, el cual eliminara todas las componentes de frecuencia que excedan la frecuencia de Nyquist. En ocasiones este filtro se denomina "filtro suavizador". El proceso de suavizado podda entenderse como si intentáramos conectar los puntos de amplitud representados por la señal PAM mediante una curva lo más suave posible (en términos matemáticos, la ecuación de menor grado posible), de forma que empleáramos el menor número de puntos de inflexión y que todos ellos fueran suaves Ysimétricos (figura 4.18-c). Si en el proceso de muestreo se respe­ tó el criterio dc Nyquist, esta operación de suavizado recompondrá la forma de onda origina1. Cualquier desviación de la forma de onda suavizada (por ejemplo, variaciones rápidas de nivel entre dos valores PAM) provendría de frecuencias por encima del criterio de Nyquist La labor de suavizado de la señal escalonada se realiza mediante un filtro paso-bajo, cuya respuesta ideal es de tipo rectangular, con un corte abrupto a la mitad de la fre­ cuencia de muestreo. La repuesta impulsiva de este tipo de filtros es una función sen x/x, lo que significa que si a la entrada de este tipo de filtros inyectamos un pulso ~C-..'. ... <C'S-L--F.ORMA.. DEONDA__ I~_' -- ., ORIGINAL -L . ' ' l . [ , FORMA DE ONDA J--'­(a) M"'""''''''' TENSORES .-cc=---- PUNTOS DE ASIMéTRICOS ·c-·. ( ('.tJ INFLEXiÓN e,' ~<1':~~.' )) t ~ -/ 1ENSGl-'ES ' . < ,·1»' "Y: MAL..... ' ..····:NODOS INNECESARIOS ,.­ j"> },.(b) · 'r' ,.,' .­«".~"'-"IIr-.... ~ i ->' r-. --.--T" BIEN ~ f(e) ~~ 1 1 I I , I I Figura 4.18. Efecto de "suavizado" del filtro de reconstruccion. 113 112
  • 56.
    TreNOlOGfA ....CTUAL DETHf.=VISJ()N (/igw'a 4.19-a), a la salida obtendremos una señal de tipo senoidal cuya amplitud irá decayendo paulatinamente (figura 4.19-b). Una característica especialmente intere­ sante de esta señal sen x/x es que vale cero en todos los puntos de muestreo, excep­ to en el correspondiente al del pulso que la ha provocado, en el cual su valor es justa­ mente el de dicho pulso. De esta forma la suma de todas las funciones sen x/x recom­ pondrá la forma de onda original, ya que en cada instante de muestreo la única fun­ ción sen x/x que aportará su valor es la del impulso correspondiente, mientras que en los tiempos intermedios serán las otras funciones sen x/x las que proporcionarán el suavizado necesario. Dicho de otra forma, cuando se eliminan de la señal escalona­ da las altas frecuencias, lo que se obtiene es la señal suavizada original (figura 4. 19-c). En la práctica este filtro paso-bajo de reconstrucción no presenta un corte abrupto a la mitad de la frecuencia de muestreo. Por el contrario, se caracteriza por una pendiente de atenuación relativamente suave, lo que obliga a que las fre­ cuencias más altas permitidas en la señal de entrada sean algo inferiores a la mitad de la frecuencia de muestreo. 7. El diagrama del ojo El diagrama de ojo es una forma sencilla y clara de medir la calidad de una señal digital. Como en la mayoría de las mediciones electrónicas, el eje horizontal repre­ senta el tiempo, mientras que el vertical representa las amplitudes o voltajes. (a) ~ __~ILI _ I ~~--~~-----.j ·t L-.! LPF ¡-./ SEÑAL "sen x / x" (b) -/--~--~-;- - - ; - - - -....-- ----'¡ ¡'-"¡ ¡ r-/¡ ¡ --·t CRUCES POR CERO ESPACIADOS A 1 I Fs SUMA DE TODAS LAS SEÑALES ·sen xlx· (e) Figura 4.19. Un impulso rectangular pasado por el filtro paso-bajo se convierte en una función del tipo sen x/x. La di¡:Jitali~acjón -1 " '" -; " .. _" " ~ 001000100 + 001001000 110111011 + + 110110111 - - ­ + 000100100~~ COMBINACION DE TODAS LAS POSIBLES TRANSICIONES •'--- FORMA DE OJO LOS ERRORES DE AMPLITUD CIERRAN EL OJO EN LA DIRECCION VERTICAL LOS ERRORES DE ~ TIEMPO CIERRAN EL OJO EN LA DJRECCION HORIZONTAL EFECTO COMBINA, D~~;J:L~~~~S:>Mi ** * »« * k K:y DE TIEMPO Figura 4.20. La suma de señales rectangulares filtradas genera una especie de "forma de ojo" que permite analizar la calidad de la señal recibida. El diagrama de ojo no es más que la superposición continua de las transiciones de los datos del nivel bajo al alto y viceversa. Si inyectamos el tren de datos recibido en un osciloscopio, el cual es disparado por una señal de reloj estable, las variaciones de amplitud y el ruido cerrarán el ojo en la dirección vertical, mientras que las inestabi­ lidades y errores de tiempo lo cerrarán en la dirección horizontal. Mientras que el "ojo" presente una apertura suficiente, el receptor podrá inter­ pretar correctamente los estados binarios de la señal digital. Puesto que lo que importa es la apertura del ojo, es posible tolerar más inestabilidades temporales si los errores de amplitud y el ruido son pequeños y viceversa. De todas formas, en las aplicaciones reales suele especificarse un tiempo mlnimo y una amplitud míni­ ma. Estos dos parametros forman una especie de rectángulo que se inscribe den­ tro del diagrama de ojo. 8. Tipos de señales digitales de vídeo RGB: Sólo se utiliza en el interior de algunos equipos digitales, como paletas gráficas, CAD, etc. COMPUESTO: Buena solución a corto plazo: - SMPTE-244M. 114 115
  • 57.
    T::CNOLOGI" ACTUAL DI.TELL"I:,r"Ó~N,-' _ COMPONENTES: La mejor solución a medio y largo plazo:' ITU-R BT. 601 (CCIR 601). Encoding parameters of digital television for stuclios. EBU Techn. 3267E. - Interfaces for 625·line digital video signals, SMPTE 125M. - Bit·parallel digital interface video signal 4:2:2. La codificación de la señal compuesta propone el muestreo y la cuantificación de una única señal de vídeo (PAL, SECAM o NTSC). Tiene la ve;taja de que se pucde intercalar directamente en un entorno analógico compuesto. Además los equipos compuestos son más sencillos y económicos que los equipos por componentes, Una ~ig!!:Ap.?r:a C0.!J1¡>l!.estoªm~más 'lllcotra digital pªrªcomponentes...Em~.fQ!!­ tra, no resuelv~~.!.2roble!!!iLe;kUl!t.eI~;I,mbio-.de._tllllgr.am.ª.~,}~siqu!er¡¡~~se empleara una fre<::t.J.~_ncia .de. rnu~.treQ y un;¡ cQdificaciónidenticªs~_Además en el montaje de programas digitalizados se producen los mismos problemas que en el caso de la señal analógica compuesta: efectos de intermodulación luminancia-cromi­ nancia y secuencia de 8 y 4 campos para PAL y NTSC, respectivamente. Aunque este tipo de señal digital tuvo su momento de gloria a finales de los 80 y principios de los 90, actualmente está cayendo en desuso, ya que en el trabajo en estudio se prefieren las componentes digitales. De todas formas, aún quedan equipos en producción, por lo que es útil conocer dicha señal digital compuesta. En la codificación de la señal por componentes se muestrean y cuantifican tres señales, es decir, Y, R - Y YB - Y. ~º-mo t:.9~,QSJJ)ssistemªs deteleyisión parten de estas tres señales, se logra un método mutuamente compatible. Además la calidad deJa señal digital por componentes es superior a la de la señal digital compuesta, tanto en lo referente al ancho de banda de las señales diferencia de color como en C:l:l.anto3rruíd6dé cuantificación. gn la seilal digital por componentes desayarecen los efectos de intermodulación luminancia-crominancia', asrcomo fa-secuerÍdá'4 u .8 cá;;p;;~: Algunos equipos digitalcs, como los g~neradores -de efectos, correcto­ res de COloL)'_Sg!!:,.e;,~?Te~.genor,-mas,deben trabajar necesariamente por compp­ ne~tes, ya que procesan por separado la luminancia y la crominancia. Los principales organismos con competencias en la regulación de normas de TV digital son: European Broadcastin Union (EBU o UER), Society ?!Motion Picture and Televisión EnBineers (SMPTE) y Telecommunication Standarization sector ?! the InternationaI Telecommunications Unían (ITU·R). Este último hace las labores que hasta 1993 venía realizando el CCIR (Comité Consultivo Internacional para la Radiodifusión) . Resumen • Los sistemas digitales presentan ventajas, tanto económicas como técnicas, con respecto a los sistemas analógicos. • Actualmente todos los tipos de información pueden convertirse a formato digital, compartiendo así los mismos canales de grabación y transmisión. • La televisión digital está muy desarrollada en las fases de producción y trans­ ________________________________________~L2~lí.gi1!111L¡¡..vi2!.! misión punto a punto, mientras que se encuentra en fase de inicio en cuanto a la emisión al espectador. • Al igual que en analógico, podemos encontrar señales digitales de tC'levisión en formatos RGB, componentes)' compuesto, De ellos el más empleado es el de componentes digitales. El digital compuesto se utiliza cada vez menos y el formato RGB digital sólo se usa en grafismo. Se entiende por analógica aquella forma de representar la información que es una analogía del hecho físico que representa, es decir, se mantiene una simi­ litud física entre el hecho y su representación. • Digital es toda forma de representar la información mediante códigos numé­ ricos preestablecidos. Estos códigos deben ser conocidos tanto por el emisor como por el receptor. Ademas deben estar bien adaptados al canal de trans­ misión. • Una de las principales ventajas de la televisión digital es su capacidad de mul­ tigeneración sin pérdidas. Cada vez que S,.e. hace lJDª- cQPÉ-'::q~C!igi~ªu digi§.l" .k..s-cijg.l.déctricase regenera totalmente, eLdccjr. ~iC::l11.pre vQjven}Os il"g~ne­ l:,ªciQn~cero" . • La mayoría de las imágenes son en origen analógicas, por lo que se tienen que digitalizar. Las dos fases de la digitalización son: el muestreo y la cuantificación. • El muestreo consiste en tomar muestras de la señal analógica a intervalos regulares. El número de muestras por segundo o frecuencia de muestreo tiene que ser, al menos, el doble del ancho de banda de la señal a muestrear. • Si no se respeta el criterio de Nyquist, se producirá aliassinB, que no es otra cosa que la aparición de frecuencias fantasma, que se producen por interac­ ción entre una señal de muestreo de frecuencia insuficiente y la señal analó­ gica muestreada. La cuantificaci<in~(,msis.te-el1e.()difkar-lasIllUCStras ..collun número limitado d.~_.bits__Lt;;g.~ncra errores de redondeo, que se conocen como "ruido .de .cuantificación". • fualQrdelruido _de cuantificación disminuye 6 dB can cada bit extra utiliza· d.9 par_a cuantificar las muestras. En aplicaciones profesionales es deseable una t.dªº-~lruid.o...decuantificacióu..de.al mcnos.55 dE.- EstOllOS conduce <tlJtjli?ar como mínimo 8 bits por muestra. • Para mejorar ciertos procesos, especialmente los que utilizan operaciones no lineales, es más adecuado utilizar 10 bits por muestra. • ~l dither es unaseñald~Jui,<lo de bajo nivel que se suma a la señal analógi<.:a a~eTa(fígitálizaéi6n_y.s!..e-.~~g¡¿r~ 9..l.l<:_~I1.cI~~º-Ja~~i}<lL 1l}MpC::.<.IIJe..ña_cru­ zará ª-L!ll.enos':!..J:t.Ili.y.~Lde c.ull!1t !fl5,;ación. El filtro de reconstrucción "s~a_vJ~:_~~0_~PA_M rectangular. É.ste filtr~e­ ~t:!!<Lt!n.a¡:~sp.tteg<lJ!~~lsiv~sL~..~jp-Q Y-= sg!!E/~ • El diagrama de ojo se utili~aramedir la ca~idad_de_~~ii;~l__~!g!!a!~_~~nto .!!lás "abieI~.e~!.~eL()io_'.m.ás fác:iJ~~r~§epªt:ar los n:ros.dc los UllOS. • Existen normas que especifican los parámetros de las señales digitales com­ puestas y por componentes. Los organismos reguladores más importantes son: EBU, SMPTE e ITU-R 116 117
  • 58.
    r I I CAPÍTULO 5 La norma4:2:2 1. Introducción Al igual que sucede en el mundo analógico, también en digital hay dos formas básicas de codificar la señal de televisión: "en compuesto" y "por componentes". Históricamente, la primera en normalizarse fue la señal de vídeo digital por com­ ponentes y será la primera que veremos aquí. En un sistema analogico por componentes la informacion de la imagen viene representada mediante infinitas variaciones de las amplitudes de los primarios RGB o, más comúnmente, de las componentes Y, R -Y, B - Y, dentro de los lími­ tes fijados para cada señal. Es una característica propia de los sistemas analogicos que la degradacion de la señal a la salida es igual a la suma de todas las degrada­ ciones introducidas por cada una de las etapas que tiene que atravesar. Esto supo­ ne un límite en el número de etapas que cada componente puede atravesar, antes de que la calidad se deteriore tanto, que resulte inservible. Tres son los tipos de distorsion que pueden empeorar la calidad de la señal ana­ logica: distorsiones lineales, distorsiones no lineales y ruido. A éstas habría que añadir las inestabilidades de tiempo. En ambos casos una buena práctica técnica puede disminuir los efectos negativos sobre la señal de vídeo, pero nunca elimi­ narlos completamente. Por otro lado, la utilización de las componentes en el estudio, durante la pro­ duccion y posproducción, puede eliminar o disminuir algunos de los efectos inde­ seables de la distorsiones, asociados a la señal compuesta. El precio que hay que pagar es una mayor complejidad y coste en los equipos, en comparacion con los basados en la señal compuesta. Trabajando en digital, los defectos introducidos en la cadena de produccion pueden limitarse a los generados por los procesos de conversión AID y DIA, suponiendo que la señal es procesada, grabada y distribuida en formato digital y 119
  • 59.
    TreNOl..oGi.". AcrU.'l DE-¡ lL[V!S¡O:-: que la codificación a señal compuesta analógica se realiza una sola vez, justo ~ntes de atacar al emisor de UHE En un sistema digital bien diseñado las conversJOnes A/D y D/A (que son las que pueden introducir distorsiones) pueden limitarse ~n solo paso, es decir, convertir a digital, hacer todo el trabajo en digital y convertir, finalmente, a analógico. La alternativa a la digitalización de las componentes es la "señal digital com­ puesta", que se verá más adelante en el próximo capitulo. Esta alternativa pudo resultar atractiva en otro tiempo, como sistema económico para evolucionar hacia las componentes digitales. Actualmente el eqUipamiento en componentes digitales es cada vez más completo y asequible. Además hay una tendencia hacia la distribu­ ción e incluso la emisión en componentes digitales, ya sea con o sin compresión. 2. La norma 4:2:2 A principios de los SO la UER (Unión Europea de Radiodifusión) y la SMPTE (su equivalente americano) se unieron para redactar una norma de televisión digi. tal común para todo el mundo, en un esfuerzo de unificación sin precedentes. El resultado fue una norma digital por componentes, conocida como 4:2:2, a partir de la cual se derivan otras normas de la misma familia, tal como se verá más ade­ lante en este mismo capítulo. La norma 4:2:2 fue sometida a la aprobación del CCIR (Comité Consultivo Internacional para la Radiodifusión) y publicada por este organismo en 1982 con el título: Recomendación 601: Parámetros de codificación de televisión diBital para estudios. Por esta razón la norma 4:2:2 se conoce también como "Rec 601" o "CCIR-601". En 1993 se disolvió el CCIR y sus funciones fueron asumidas por otro organismo ya existente: la "ITU- R", de manera que también es posible encontrar esta norma bajo el epígrafe "ITU-R 601" (sobre todo en las publicaciones más recientes). También suele emplearse la abreviatura DI, aunque esto es un tanto incorr~cto,ya que DI corresponde a un formato de magnetoscopio digital. En el documento inicial se recomendaba una resolución de 8 bits por mues: tra, aunque en la actualidad la tendencia es a utilizar 10 bits/muestra de forma casi universal. Puesto que todavía hay (y se sigue fabricando) mucho equipa­ miento que utiliza S bits/muestra, en este libro se mostrarán ambos casos. 2. 1. Elección de la frecuencia de muestreo El primer parámetro que tuvo que decidir el comité conjunto SMPTE/EBU (y tal vez el que más trabajo le dio) es la frecuencia de muestreo de las componentes Y,R-Y,B-Y. 2.1.1. Frecuencia de muestreo de la luminancia Para la selección de la frecuencia de muestreo de la luminancia en la señal por componentes hay que respetar tres principios o criterios: La n~)rm;:¡_.:Ll~.( *"1' RESPETAR EL CRITERIO DE NYQUIST pIXEL *"2' MUESTREO ORTOGONAL l' e~: __J .' ._! . 1- -- .~:~ ~ ~ ¡~- . / ...• -J <{ u '?-v¡:::: 0«-' .o:: UJ J:I =-~ ,- I ¡ "'<v~<:(> f--­ -' :.1 :..1.1 ~j U ,. :·JLJ_~i-:,U [I.C: i~ L. L :: l'.'1-'- r i I 11 :. ,r 1, I f l' : - , ....1 _1 ~ l_ .__-" l. J '-------' ,-----' 1_ L_ _ ~ 'el :".1 [1 :': [1 U II e; L' ... HORIZONTAL -*3' FRECUENCIA DE MUESTREO UNIVERSAL Figura 5.1. La frecuencia de muestreo elegida debe proporcionar una parrilla de muestras que se alineen ortogonalmente, tanto en el espacio eomo en el tiempo, y esto para las dos normas basicas de televisión: 525/60 y 625/50. l. La frecuencia de muestreo dcbe ser, por lo menos, igual al doble del ancho de banda de la señal a muestrear (critcrio dc Nyquist). Puesto que hay nor­ mas de televisión en que la luminancia alcanza los 6 MHz (L/SECAM y ](/SECAM), se necesita que la frecuencia de muestreo sea al mcnos de12 MHz. 2. Para facilitar el procesado en generadores de efectos, conversores de nor­ mas, etc., es conveniente que las muestras se alineen formando parrillas de filas y columnas (muestreo ortogonal). Esto significa que la frecuencia de muestreo debe ser un múltiplo entero de la frecuencia de línea. Dicho de otra forma, la frecuencia de muestreo debe ser tal que una línea contenga un número exacto de períodos de muestreo. 3.Par¡¡..Qbtener .una frecuencia de 1ll.~~§jTt;Q®.ivf:!:§¡¡J.._~§l.il.d!:.bg.s.e.r.m.ú.ltiplv detodas-las-frecucncias de línea exi¡;tente.LeILelUlJ.ln<:IQ. _En la actualidad existen dos normas básicas: una con 525 líneas y 29,97 cuadros/s y otra con 625 líneas y 25 cuadros/s, lo que corresponde a frecuencias de línea de 15.734,26573 y 15.625 Hz, respectivamente. NOTA: En el sistema americano de blanco y negro la frecuencia de línea era exactamente de 15.750 Hz (30 x 525). Cuando se introdujo el sistema NTSC se hizo de forma que la frecuencia de la 5ubportadora de color fuera un múltiplo impar de la mitad de la frecuencia de línea (455 X fL/2) y, además, que la portadora de sonido se situara en un múltiplo de l. mit.d de l. frecuencia de lineas por encima de l. ,ubport.dor. de color f,onido '" fcolor + 117 fl/2 '" 4,5 MHz. Debido a la segunda condicion, la frecuencia de lincas no pudo mantenerse y se retoco a 15.734,26573 Hz, garantizán dose aSl la compatibilidad. La cifra anterior está expresada con un error inferior a 10-7 %. Para poder generar una parrilla de píxel ortogonal, tanto en la norma america­ na como en la europea, hay que encontrar un múltiplo común de las dos frecuen­ cias de línea. E~ común múl!!.¡?J~ui~J.h711.L(ji?LLll,62.u-t3.s~ 120 121
  • 60.
    TECNOLOGJA AC1UAI. CH'THf"'SIÓN 1a norma 4:2:2 MHz, que está m~~!:._<!(óbai~_~el.l:!i~~rio de l'1Y~1.!is!:J:lmínimo común múlti­ ¡;loque, ªdem.á~,.se_s.itúal?Qr.SD_cin:E!_d~J..LMHz-es 6.X2,2S.Mfu. :::::13,5 MHz. .Esta es l<ÚI:ecu.mt;:iªdt:..~1!estreo adoptada para la sl'iiitldelmninanci.a,JiWto_con la norma de 525 líneas como en la de 625 líneas. -~ta frecuencia de r!1U~stre()._~<:-p-[Q.ducen858 muestraspodíne.ª-<;:QI!lple­ i .!~~~~a norma de 525 líneas y 864 mll~stra~P9r .línea c0:r:!pJ~t<i.en la norma de 625 líneas.Veasefigura5. 2. [m.c.m. de 15.734,26573 y 15.625 Hz =2,25 MHz) *6 x 2,25 MHz = 13,5 MHz "*13,5 MHz = 6 x 143 fLINTSC) = 858 fL(NTSC) "*13,5 MHz = 6 x 144 fl(PALJ = 864 fL(PAL) '"""''''''''''" 11 L--429 MUESTRAS (~~-~··_--~------r864 MUESTRAS (625) 432 MUESTRAS (625) [f3~5:6-:?5~5j....[§:iMPLIF-lcANooJ.... ••..,. Figura S.2. El mínimo común múltiplo de la frecuencia de líneas europea y de la americana es 2,25 MHz y el m.c.m. que está, además, por encima del criterio de Nyquist es 13,5 MHz. 2.1.2. Frecuencia de muestreo de C )' C]{B Igual que sucede con las señales analógicas, se acepta que las señales diferencia de color tengan un ancho de banda limitado, por lo que se muestrean a la mitad que la señal de luminancia, es decir, a 6,75 MHz. Con esta frecuencia de muestreo se producen 429 muestras por línea total en la norma de 525 líneas y 432 mues­ tras por línea total en la norma de 625 líneas. Esta estructura de muestreo se repi­ te a cada campo y cuadro. Puesto que se produce el doble de muestras de lumi­ nancia que de cada una de las señales diferencia de color, las últimas se toman coin­ cidiendo con las muestras impares de la luminancia, o sea a la vez que la primera, tercera, quinta, etc. NOTA: Las frecuencias de mUestreo atadas están pensadas para pantaJJas 4:3. Con la introducción del formato 16:9 se ha propuesto que la frecuencia de muestreo se lleve en la misma proporción en que se incrementa la relación de aspec­ to. Esto conduce a I 3,5 MHz )( 1,3 J =lB MHz (Iuminancia) y 6.75 xl, 33 =9 MHz (crominanci.). 1,33 es la relación que hay entre 16:9 y 4:4, es decir, 16:914:3 = 1,33. 122 @X@)X@)X@X@)X @X@)X@X@X@X @)X@)X@)X@)X@X @)X@X@)X@X@X x LUMINANCIA @)X@)X@X@)X@)X O S-Y @X@X@X@X@X O R-Y Figura 5.3. Disposición de las muestras de luminancia y diferencia de color, en la norma 4:2 2. Aunque la abreviatura 4: 2: 2 hace referencia a las frecuencias de muestreo de Y, CB y CR, también podría entenderse como "por cada 4 muestras de Y, 2 de CB y 2 de CR" (véase figura 5.3). Por tanto, esta norma se caracteriza por presentar el doble de resolución horizontal de luminancia que de crominancia, mientras que la resolución vertical es la misma en ambos casos (CB y CR están en todas las filas, pero sólo en una de cada dos columnas). 2.2 . Señales codificadas Como hemos visto, se trata de codificar las señales componentes, es decir, la luminancia E'y y las dos señales diferencia de color (E'R-E'y) y (E'B-E'y). El primer problema que hay que resolver es normalizar la amplitud de las com­ ponentes de vídeo analógicas antes de su digitalización. Puesto que las compo­ nentes analógicas de vídeo son un formato de producción y no de emisión, están muy poco normalizadas, de forma que distintos equipos utilizan diferen­ tes normas. En Europa el formato más utilizado es el llamado EBU-l O, en ,el ~EJ:llminanc:~_~~_e.J{tie_nd~ <1e.0~OYp,:ra el negr<:¡h'!SJª Q,7V para el niv.el de blanco. l,.'!§.!il':t:iªl~s.dift:!~n.:ciªele c:QIQr tienen ¡Pl1plitudes máximas ds: ±350 mV. Estos son los .Ei~!!.~s_~Iizad~~.0?0r.ejen:!l?JQ.Ll2-Q.r.JQL!P~n~~~-ºpi-ºs_ Betaca~~~f~!!J¡¡l1orm<l de 62 5 lín~as)'.s_º.C:':lllpos(~~~~.dig..![ª-H). ~~Il"l~~rg(),_'pa~a normalizar las amplitudes en televisión cligital se asume que se -p.art~~lus.--primarjQ~RG.BJjj.adQs..IY. Así la señal E'Y v'lriará entre O ~§.'~=-~'Y_!~I1.slrá como valores extremos +0,70 L'LY-0,70 LV. para los colores[Qjo y cián saturados al 100%, respec:tivamente. E'B-E'Y se elevará para.el azul y el amarillo saturados al 100% a 1t-0,886V y -0,886V, respecti­ vamente. Para reducir estos valores extremos a 1V, es decir, a ±O,S V, se uti­ lizan unos coeficientes de ponderación sobre la señal analógica antes de la codifica~LQn: KR = 0,5/0,701 = 0,713; KB = 0,5/0,886 = 0,564 123
  • 61.
    TECNOLOGIA ACTUAL DETEL['JSJO~'N~'_~ _ lOO_m' S-y R-Y 3~0__r:nV OV -350 mV Figura 5.4. Niveles de amplitud de las señales analógicas por componentes, correspondientes a las barras de color normalizadas del 100% de amplitud, según la norma EBU-! O, utilizada, por ejem­ plo, por el Betacam-SP (625/50). De esta forma las señales diferencia de color se transforman en: CR = 0,564 (B -Y); C. = 0,713 (R _Y) Una vez atenuadas, ~Ypas.í).3Jlª[D~Y_~_~-,mielltr.a~S¡tl~_8_--=l-..2~derJOmina_ -eR. En alglOQs_!f:.~till.....de.origen.americ<Ul.Q_se_1Itilizala nomenclatura PB yPR, ~ ambas son_lotalrllente--equivalcntes,yaqueJos -coeficientes de ¡¡tenuaciQn S~<l~tamente los mismos para ambas normas. Como muestra la figura 5.5, sc obtienen 120 niveles de cuantificación para la luminancia, dando al nivel de negros el valor 16 y al pico de blanco e! valor 235. Se deja un pequeño margen de aproximadamente un 10% para eventuales sobre­ modulaciones. En las señales diferencia de color se utilizan 225 niveles, de mane­ ra que el valor analógico cero corresponde al valor digital 128. La máxima y mÍni- DECIMAL HEXADECIMAL BINARIO 255 FF 11111111 23S -E8 8LANCO- 11101011 ~~~« ~~ ~ «~LUMINANCIA .y" ::>'"u::> w~ 0:, g~ 16 - 10 NEGRO - 0001 0000 ~n. a a 00000000 Z _255 FF 11111111 ",:$ MAxIMO - 11110000 '2 ~ C.~ 240-FO uw ~~ú 10,5643 x (B-Y) ~~<f CERO - 1000 0000 ~ a~9, r~'~~""'¡.;""~ 1[-,"-00 I f!J:3 o -- 16-10 MINIMO - 0000 1000j ~~O O - - - - - 0000 0000 n. Figura 5.5. Niveles de cuantificación de las señales de luminancia y diferencia de color, en el caso de las barras normalizadas, expresadas con 8 bits por muestra. Se muestran los valores en notación decimal, hexadecimal (base 16) y en binario. La n(Jnlla ..~L2_....2 ma modulación corresponden a los valores 240 y 16, respectivamente. También aquí se deja un margen de tolerancia. 2.2.1. Convenciones sobre notación Es frecuente encontrar distintos tipos de notación en la representación de los valores de amplitud de las muestras: binaria, decimal y hexadecimal. Además los valores pueden estar representados en forma entera o mediante decimales. En las figuras 5.6, 5.7 Y5.8 pucde verse, que representando los valores de las pala­ bras de 10 bits mediante decimales, sc mantiene la compatibilidad con las pala­ bras de 8 bits, ya que en ambos casos el valor entero es el mismo para igual valor de amplitud. En el caso de la representación hcxadccimal se empIcan dos sím­ bolos (de! O a la E) cuando se trata de mucstras dc 8 bits, ya que cada símbolo hexadecimal puede representar cuatro bits. Cuando se trata de representar hexadecimalmente muestras de 10 bits, se necesitan tres símbolos hexadecima­ les; el de más a la izquicrda sirve para representar dos bits más significativos mientras los otros dos reprcsentan cuatro bits cada uno. NOTA: En la especificación técnica las palabras digitalc~ se expresan rn hase 10Y en forma decimal (conelos decimales), lo quc facilita su interpretación, con independencia de que las muestras est¿'n representadas con 8 o con 10 hits. En cualquier caso, los 8 hits mas significativos se consideran la parte cntera, mientras que los dos bits adicionales (si están presentes) repre­ sentan la parte fraccional. Por ejemplo, la secuencia binari41 1111000 se expresa como 240, mientras que la scrucncvia 1111000001 se expresa corno 240,25. Cuando no se muestra parte fraccional, se asume que su valor binario es OO. NIVELES DIGITALES NIVEL _y I __TQ~ERANCIA I O--­ DE NEGRO -47.9-NIVEL MINIMO '--i--+-R¡_NG.o1:l~51'RVMQ_B'Rt.§.INCRQ!'ijZAGlÓ!,iT -48,7 PERMITIDO - - ­ oo­ --·51.1 ) lJ BITS ) ( Expresado de (, forma entera Figura 5.6. Detalle de la relación entre la señal analÓgica de luminancia (Y), correspondiente a las barras de color normalizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexade­ cimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits y 000, 001,002,003, 3FC, 3FD, 3FE Y3FFj en el caso de 10 bits, no están permitidos para la representación de las muestras_ 124 125
  • 62.
    Ti:-CN(}l OCiA AenlAlIH: TL:I.EVI"I{)N NIVELES DIGITALES NIVELES ANALÓGICOS (ENmV) i~~'! ,- - Ri>.j¡llQB~@ji,,º,,-PARÁSI!:'CRDNliACíQN ~ :~:~.~ . I . ' . • NIVEL MAXIMO ~~~,V --==---i6i:ffiANC¡;¡;- r C;~g:~ PERMITIDO I NiVEL MÁXIMO DE CROMA S-y 128 80 128.00 512 200 0.0 ._.... NIVEL CERO DE CROMA ,--'-'. NIVEL MINIMO DE CROMA ... _.lQLEAA'".N".C'"IA".-.--.-_.--_-._.-r-¡ :~~~t.NlVEL MINIMO ---~-_._--~._--~ ----~--- -3977 PERMITIDO , vu 0001_ DI oQ011 ~(iQ.Rl'-.~~-llliIZA~ -400:0fu_".! , figura 5.7. Detalle de la relación entre la señal analógica de CB' correspondiente a las barras de color nor­ malizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexadecimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 001,002,003, 3FC, 3FD, 3FE Y 3FF; en el caso de 10 bits, no están permitidos para la representación de las muestras. NIVELES DIGITALES R-Y 128 80 128.00 512 200 0.0 _ NIVEL CERO DE CROMA , . NIVEL MINIMO [-16Tl0' i600 '64l040 -. -----..u= DE CROMA'.350.0 l' 01 1;00 4 0041 -L-.--... -.-..--.--.-.IQC..ij¿W;!~-.----L396.9.N~~~M~6~o ¡o (001~.7~ ~ :3: [-!W!~()B~i'BVf,JlQJ>;W;StNcilQÑ~ _~ ~~~:~¡Oaci Hexa Decimal Hexa l_.8_BIT~J_1QI3IJ~= Figura 5.8. Detalle de la relación entre la señal analógica de CR , correspondiente a las barras de color nor­ malizadas del 100% Ysu representación con 8 y 10 bits, en notación decimal y hexadecimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 00,002,003, 3FC, 3FD, 3FE Y3FF; en el caso de 10 bits, no están permitidos para la representación de las muestras. 2.3. La línea digital La línea digital se inicia 12 períodos de reloj (16 en la norma americana) antes que la linea ana16gica, es decir, antes que el instante OH. A continuacion aparecen 132 (122 en la norma americana) períodos de muestreo, durante los 126 La norma 4:2:2 cuales no se toman muestras, ya que esta parte de la señal se puede reconstruir electrónicamente. La línea activa digital se inicia un poco antes que la línea acti­ va analógica y dura exactamente 720 periodos de reloj de 13,5 MHz. Para faci­ litar el intercambio y la conversión, el número de muestras por línea activa en la norma americana es también de 720. Puesto que el período de muestreo tiene una duración de 0,074074 flS (1/13,5 MHz), la linea activa durara 0,074074 flS x 720 = 53,3 IJS. Este valor es un poco superior al de la señal ana­ lógica (52 flS en la norma 625/50), pero esto no supone ningún problema, ya que en la reconstrucción DI A se borraran las muestras necesarias para devol­ ver a la línea analógica su valor nominal. Veanse figuras 5.9 y 5.10. Tomando como referencia el punto OH, el muestreo de la linea activa digital se inicia después de 0,074074 flS x 132 == 9,778 flS (0,074074 x 122 = 9,037 flS en 525/60). En la norma americana de 525 lineas y 60 campos hay también 720 muestras por línea activa, pero el numero de muestras no activas 858 -720 = 138 se divide en 122 antes de la linca activa y 16 detras de las muestras activas, de manera que la diferencia en el número de muestras por línea total entre ambas nor­ mas queda confinada al periodo de borrado, lo que permite mantener la compati­ bilidad. o Hr--~~~~~-------1 ~~",-- F -l I 12,0 S r-r'l ~J.20,9 fl ...- PERíODOS DE MUESTREO ....-----" 7~Q+r!-:I32--1~---.~-720_. 0,9 fls 9,8 fls I 53,3 fls -.-. ~_._--_.-.-- ..--. ­_._---_... _--- .._.---­ 64 TIEMPO LOS PERiODOS DE MUESTREO ESTÁN EN IJs EXPRESADOS CON REFERENCIA A UN RELOJ DE 13,5MHz Figura 5.9. Representación de la Enea digital para las normas de 625 Hneas y 50 campos. Los periodos de muestreo están representados en función de un reloj de I 3,5 MHz, es decir, en base a la señal de luminancia. 127
  • 63.
    ~J LC¡.,rOlOGIA .,",CTUALDE rI:LE'J.J()N OH 63,55 ¡.¡~~ _. __ _._~....-- - - ----~- ~- - ­ ~.s ...~"""C~-~ I, 11: Ji 720,-----­ PER~~DOS ILJ I MUESTREO I ! 1 --o :16 122--~~----------- 1,18~ti.-I~O~2--"~__~ 53,3 ¡As O,g:¡s_ .......... r 63,55 ¡AS / fe----··--­ TIEMPO EN ~S LOS PERioDOS DE MUESTREO ESTÁN EXPRESADOS CON REFERENCIA A UN RELOJ DE 13,5 MHz Figura 5. IO. Representación de la linea digital para las normas de 525 líneas y 60 campos, Los períodos de muestreo están representados en función de un reloj de 13,5 MHz, es decir, en base a la señal de luminancia. 2.4. Los filtros La señal de luminancia (Y) muestreada a 13,5 MHz es filtrada, tal como se muestra en la figura 5.11. Como puede verse, hay muy poca separación 'entre la frecuencia máxima de la luminancia en banda base (5,75 MHz) y la frecuencia de Nyquist (6,75 MHz). Por esto se han especificado unos filtros antialisin8 y de reconstrucción muy precisos. Las señales diferencia de color se obtienen dividiendo la frecuencia de muestreo de la luminancia por dos. En figura 5,11 se muestran los filtros correspondientes. Por e! momento, la VER continua la investigación sobre el empeoramiento de la calidad de la imagen, en función de la sobreoscilación y e! aliassin8, para dife­ rentes tipos de imagen y antes y después de! tratamiento. Con carácter general se recomienda lo siguiente: Ancho de banda para la luminancia • Plano por lo menos hasta 5,5 MHz, • A 6,75 MHz (Fsl2): -12 dB mínimo. • A 8 MHz: --40 dB mínimo. El filtro analógico, anterior a la conversión analógico a digital de la señal de luminancia, exige una atenuación de más de 40 dB a la frecuencia de 8 MHz, f La nornJ.1 ,t:2:2 Tabla 5.1 Parámetros más destacados de la Rec-601-Norma 4:2:2. Es importante resaltar que el número de muestras por /(nea activa, tanto de luminancia como de ca y CR, es el mismo para las dos normas de televisión, lo que facilita la conversión de normas, ya que una "línea americana" 4:2:2 es igual que otra "europea" de la misma norma 3. Estructura de muestreo 4. Frecuencia de muestreo - Luminancia - Cada señal diferencia de color 5. Codificación 6. Número de muestras activas por línea digital - Luminancia - Cada señal diferencia de color 7. Correspondencia entre los niveles de vídeo y de cuantificación - Luminancia - Cada señal diferencia de color PARÁMETROS SISTEMA 525 LfNEAS/60 CAMPOS 625 LfNEAS/50 CAMPOS 1. Señales codificadas Y, (R-Y), (B-Y) 2. Número de muestras por línea completa 858 864 - Luminancia - Cada señal diferencia de color. 429 132 Ortogonal, idéntica para todos los campos y cuadros. Las señales (R - Y) y (B - Y) se muestrean a la vez que las muestras impares de la luminancia. (primera, tercera, quinta, etc.) 13,5 MHz 6,75 MHz Cuantificación lineal de 8 bits (opcional 10 bits), para la luminancia y para cada señal diferencia de color 720 360 220 niveles de cuantificación. El nivel de negro corresponde al número digital 16 y el nivel de blanco al número digital 235 225 niveles de cuantificación. El nivel cero corresponde al número digital 128 DURACiÓN DE UNA LINEA DIGITAL SISTEMA 525 LfNEAS/6D I 625 LINEAS/50 CAMPOS/MUESTRAS//ls CAMPOS/MUESTRAS//ls Duración del intervalo entre el origen de tiempo OH y el principio de la línea activa Duración de la línea activa digital Duración del rellano activo Total 122/9,037 720/53,33 16/1,185 858/63,555 132/9,778 720/53,33 12/0,889 864/64 Ancho de banda de las señales diferencia de color • Plano por lo menos hasta 2,75 MHz. • A 3,375 MHz (Fsl2) -12 dB mínimo. • A 4 MHz: --40 dB mínimo. 128 129
  • 64.
    I T¡':CNOlOGIA ACTUAL DElH EVISIÓN La norma 4:2:2 ·12 dB·· - I • ! ~ , MH, ¡--'.. !'""~-. -40 da'.-- - _-=-:iJ=~ -: :- - --- '67SMHz S.S MHz '(fSl21 J I V IU-~RETARDO~ I""~~ .IR-vl 1O.7~ÚJ ."']- ¡'"", t "-40 d l' . _ e __ 1 I - - .1'- S MHz 2.75 MHz 3'~~sI2l B-vl-u1O.5~43¡ "O ·::~-Jr 2,7~~~Z-)':3.~~~HZ I MUESTREO A 6,75 MHz. - ~rlMUESTREO A 13,5 MHz. - -- - ­ Figura 5. I J• Diagrama de bloques del codificador 4:2:2, resaltando la respuesta de los filtros previos a la digitalización. El filtro analógico, anterior a la conversión analógico a digital de las señales dife­ rencia de color, exige una atenuación de más de 40 dB a la frecuencia de 4 Hz. El ancho de banda de la luminancia y de las señales diferencia de color, tal como vienen determinados por la frecuencia de muestreo y de los filtros paso-bajo, es adecuado para la digitalización de un solo paso. Por el contrario, la digitalización múltiple, como sucede cundo se conectan en cascada muchos conversores A/D­ DIA, genera importantes distorsiones lineales que alteran la amplitud en función de la frecuencia. 2.5. Familia de normas Haciendo un poco de historia, en 1979 la UER decidió investigar la codificación de señales por componentes, eligiendo una frecuencia de muestreo para la lumi­ nancia de 12 MHz, mientras que las señales diferencia de color se muestreaban a 4 MHz, naciendo la notación 12:4:4. Posteriormente se aumentó la frecuencia de muestreo de las señales diferencia de color a 6 MHz, para permitir mejores croma­ keys digitales. Esto conduce a una notación del tipo 12:6:6. Mientras tanto la SMPTE propuso un sistema de codificación de las componentes del tipo 14:7:7. Finalmente se llegó, como hemos visto, a una solución de compromiso con las fre­ cuencias de muestreo 13,5:6,75:6,75 MHz. Esta solución fue apoyada por la UER, la SMPTE y la OIRT y se presentó al CCIR para su normalización. Puesto que 13,5 :6,75 :6,75 resulta muy largo, se escogió la expresión 4: 2:2 para simplificar. 2.5.1. La norma 4:4:4 La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul­ tiplicando o dividiendo las frecuencias de muestreo básicas. Así, por ejemplo, cuan­ do se desea hacer un croma-key digital, la resolución de la crominancia de la norma 4: 2: 2 resulta insuficiente, por lo que sería más conveniente utilizar una señal del tipo 4:4:4. El efecto de eroma-key se basa en combinar una imagen de primer plano tomada por cámara con otra imagen sintética o natural de fondo. El personaje de primer plano se coloca sobre un fondo de color uniforme, denominado "de croma­ key". El incrustador sustituye, en la imagen de primer plano, las zonas del color de croma-key (por ejemplo, azul saturado) por la parte correspondiente de la imagen de fondo. Para esto el incrustador genera una "máscara" o perfil de recorte. La clave para una buena incrustación está en la calidad de la máscara. Ésta la genera el mezclador de vídeo (o un equipo como el Ultimatte) separando todo lo que es azul saturado del resto. Cuanto más rica sea la información de color, más precisa será la máscara. La norma 4:4:4 (figura 5.12) proporciona el máximo de información de crominancia, ya que en esta norma todos los píxe!es disponen de toda la información, es decir, cada píxel está representa­ do por tres valores digitales, uno para la luminancia "Y" otro para la señal dife­ rencia de color "R - Y" Yotro para la señal "B - Y", por lo que genera croma­ keys de calidad excelente. A partir de un código 4:4:4 se puede obtener una señal de! tipo 4: 2: 2 mediante la eliminación de una de cada dos muestras de 4:4:4 (405 Mb/s) 4x4 (540 Mb/s) @)([:jI)(@J@@@@@@l©) ®®®®®®®®®® ®®®®®®®®®® @@@@@@@@@@ ®®®®®®®®®® @@@@@@@@@@ ®®®®®®®®®® @@@@@@@@@@ ®®®®®®®®®® @@@@@@@@@@ ®®®®®®®®®® II@@@@@@@@@@ 4:2:2 (270 Mb/s) ®x®x®x®x®x ®x®x®x®x®x ®x®x®x®x®x ®x®x®x®x®x x LUMINANCIA ®x®x®x®x®x o S-yNOTA: LA FRECUENCIA o R-YBINARIA SE HA CAlCULADO EN BASE A '0 BITS ®x®x®x®x®x o TRANSPARENCIAPOR MUESTRA Figura 5. 12. Normas ''hacia arriba" derivadas de la 4:2:2. 130 131
  • 65.
    TECNOL{)GIA ICTlI:L Ulr.E~L=E~·~IS~IO~· _~~' las señales diferencia de color, aunque es necesario filtrar previamente dichas seilales para evitar la aparición de a!iassing. 2.5.2. La norma 4 X 4 En los generadores de efectos y paletas gráficas puede ser necesario que cada píxel esté representado mediante una palabra para Y, otra para R _ Y, otra B _ Y Y una cuarta como valor de llave o de transparencia (valor K), de manera que se pue­ dan mezclar distintas imágenes, pero de forma que la imagen de fondo "se vea" a través de la imagen de primer plano. Es frecuente ver este efecto en los marcado­ res de los programas deportivos. Puesto que en este caso cada píxcl está definido por cuatro valores (Y, CB, CR y K), esta norma se conoce como 4:4:4:4 o, abreviadamente, 4 x 4. El último valor es una variable, que puede ir desde O(totalmente opaco) hasta 255 (totalmente transparente). En ocasiones el valor de transparencia se conoce como "canal alfa". 2.5.3. Lasnormas2:1:0,4:1:1 y 4:2:0 Cuando se desea reducir el tren binario (como, por ejemplo, en aplicaciones ENG o para la transmisión digital de señales) se puede recurrir a distintas estrate­ gias de submuestreo, tales como 2:1:1,4:1:1 ó 4:2:0/4:0:2 (figura 5.13). Esta última consiste en submuestrear las señales diferencia de color, pero en la direc­ ción vertical, de forma que en una línea no se toman muestras de B - Y, mientras 4:1:1 (202,5 Mb/s) 2:1:1 (135 Mb/s) @xxx@XXX@X II @ x @ x @ @XXX@xxx@x @ x @ x @ @xXX@XXX@X @ x @ x @ @xxx@xxx@x @ x @ x @ I @xxx@XXX@X!I@ x @ x @ @xxx@xxx®xj® x x® @ I 4:2:0/4:0:2 (202,5 Mb/s) ~x~x~x~x~x @x@x@x@x@x ~x~x~x~x~x @x@x@x@x@x x lUMINANCIA ~X~X~x~X~X OB-Y o R-Y@x@x@x@x@x o TRANSPARENCIA Figura 5.13. Familia de normas "hacia abajo" derivadas de la 4:2: 2. _ J,-ª---.!LuXl! 1-.L1,;f_2 que en la línea siguiente se omiten las muestras correspondientes a R -- Y Todas estas variantes de calidad inferior pueden obtenerse submuestreando una señal 4: 2: 2. El problema es que, cuando haya frecuencias de vídeo, por encima de la mitad de la nueva frecuencia de muestreo, se producirá aliassing. La solución con­ siste en filtrar digitalmente la señal de vídeo antes del submuestreo. Igualmente es posible la conversión hacia arriba. Por ejemplo, pasar de una señal 2: 1: 1 a otra 4: 2: 2, inventando nuevas muestTas por simple duplicación o por promediado, aun­ que en este caso la calidad dc la imagen sigue siendo la de la norma original. 2.6. Cálculo de las frecuencias binarias Las figuras 5.11 Y5. I 2 muestran la disposición ele las muestras en las distintas normas derivadas de la 4:2:2. Además en la parte alta de cada parrilla se muestra la frecuencia binaria correspondiente a cada norma. Esta frecuencia binaria se obtiene sumando la frecuencia de muestreo de la luminancia y de las dos señales diferencia de color y multiplicando el resultado por el número de bits quc se uti­ liza en la codificación de cada muestra. ASÍ, por ejemplo, en el caso de la norma 4:2:2 tendríamos: 13,5 MHz + 6,75 MHz + 6,75 MHz =27 MHz x 10 bits = 270 Mbits/s. Éstas son las frecuencias binarias a las que necesitan comunicarse los interfaces de tipo serie. Otra cosa distinta es la cantidad de datos que es realmente necesario grabar ° procesar. En efecto, no es necesario grabar o procesar los períodos de borrado horizontal y vertical, de manera que es posible ahorrar un buen número de bits. En este caso el cálculo se haría como sigue: Para la norma 4:2:2 • Una línea ocupa: 720 muestras de Y + 360 de CH + 360 de CR = 1.440 muestras. Una imagen ocupa 1.440 muestras x 576 líneas =829.440 muestras • Un segundo ocupa 829.440 muestras X 25 imágenes = 20.736.000 muestras. • En la norma básica una muestra se codifica con un byte (8 bits), por tanto: • Un segundo ocupa 20.736.000 x 8 bits = 165.888.000 bits, o aproximada­ mente 166 Mbits/s. • En la actualidad la tendencia es a utilizar 10 bits por muestra, lo que mejora las capacidades de posproducción. En este caso tendríamos: • Un segundo ocupa 20.736.000 x 10 bits = 207.360.000 bits, o aprox. 208 Mbits/s. Para las normas 4:1:1y 4:2:0 • En 4: 1:1 una línea ocupa 720 muestras de Y + 180 de CB + 180 de CR = 1.080 muestras. • Una imagen ocupa 1.080 muestras X 576 líneas =622.080 muestras. • Un segundo ocupa 622.080 muestras x 25 imágenes = 15.552 .000 muestras. • Representando cada muestra con 8 bits: • Un segundo ocupa 15.552.000 x 8 bits = 124.416.000 bits, o aproximada­ mente 125 Mbits/s. 133 132
  • 66.
    Tl.CNOLOGIA In"UAI DFTi;U::VISIÓN • 4: 1: 1 ahorra un 30% de bits con respecto a 4:2:2. • En 4: 2:0 la cantidad total de datos es la misma que en 4: 1: 1 (125 Mbits/s), pero las muestras se distribuyen de otra forma. Puesto cjue estas normas tratan de "ahorrar" bits, no es normal utilizar 10 bits en la codificación de las muestras. Para la norma 4:4:4 • Una línea =720 (Y) + 720 (CB) + 720 (CR) =2.160 muestras/línea. • X 576 líneas = 1.244.160 muestras/imagen. • X 25 imag/s = 31.104.000 muestras. • X 8 bits/muestra =250 Mbits/s. • O bien, X 10 bits/muestra = 311 Mbits/s. Para la norma 4 x 4 • Una línea =720 (Y) + 720 (CB) + 720 (CR) + 720 (K) =2.880 mues­ tras/línea. • X 576 =1.658.880 muestraslimagen. • X 25 imágenes/s =41.472.000 muestras/seg. • X 8 bits/muestra = 331.776.000 bits/s o aprox. 332 Mbits/s (el doble que la 4:2:2). • O bien, X 10 bits/muestra =415 Mbits/s. 2.7. Aplicaciones de las distintas normas 4: 2: 2 es la norma básica de producción profesional y es la que emplean la mayo­ ría de los equipos que trabajan con componentes digitales, tales como magnetos­ copios, mezcladores o generadores de efectos. Se puede decir que el mundo pro­ fesional no acepta ninguna norma por debajo deI4:2:2, excepto en el caso de algu­ nos magnetoscopios utilizados principalmente en informativos. Los formatos de vídeo que utilizan la norma 4:2:2 son: SIN COMPRESIÓN D-1 D-5 CON COMPRESiÓN Betacam-Digital DVCPRO-50 Betacam-SX DIGITAL-S MPEG-IMX Cuando se desea obtener un factor de compresión elevado es mejor submuestrear previamente alguna de las señales componentes. Por ejemplo, se obtienen mejores resultados haciendo una compresión 5: 1 a partir de una señal de tipo 4: 2:0 que com­ primiendo 7: 1 a partir de una señal 4:2:2, y ello a pesar de que el resultado fmal es el mismo (25 Mbits/s en este caso). A continuación se muestran los formatos de vídeo que utilizan estructuras de muestreo 4: 1: 1 y 4:2:0: FORMATO/NORMA 625-50 525/60 OV 4:2:0 4:1 :1DVCAM 4:2:0 4:1 :1OVCPRO-25 4:1 :1 4:1 :1 La norma 4-:2:2 Como puede verse en la tabla anterior, el DVCPRO-25 (un formato muy pen­ sado para informativos) utiliza una estructura de muestreo 4: 1: 1. En el caso de DV y DVCAM la estructura de muestreo es 4: 1: 1 en América (525/60) y 4:2:0 en Europa (625/50). Hay que reconocer que la estructura 4:2:0 es, cuando menos, más elegante que la 4: 1: 1 (están mejor igualadas las resoluciones horizontal y vertical de croma). Por esto la 4: 2:0 es preferida cuando no se ha de convertir de digital a señal compues­ ta (PAL o NTSC) para su emisión. Algunos sistemas que utilizan 4:2:0 como esquema básico de muestreo son: DVD (Digital Versatil Disk), el sistema de compresión MPEG-2 y DVB (Digital Video Bradeasting) . Sería difícil, incluso para un experto, notar la diferencia entre una imagen 4:2 :2, otra 4: 1: 1 y otra 4:2:0; la calidad visual aparente es prácticamente la misma. La diferencia está en la capacidad para ser posproducida: La norma 4:2:2 dispone de croma en todas las líneas yde suficiente calidad de color como para hacer croma­ keys correctos, aunque no ideales. En 4: 1: 1 la resolución horizontal de croma no permite hacer eroma-keJs aceptables. La 4:2:0 no tiene crominancia en todas las líneas, lo que dificulta el procesado en mezcladores, generadores de efectos, etc. 3. Interfaces para 4: 2:2 Una de las ventajas más importantes de la televisión digital es la perfección de la multigeneración en la posproducción. Trabajando en digital se puede hacer cualquier número de generaciones sin que se produzca degradación. Para que esto sea posible es necesario normalizar la conexión digital-a-digital entre los equipos. De esto se Tabla 5.2 Documentos donde se recogen las principales normas sobre interfaces para señales de vídeo digital. VER COMPONENTES 1983/1985 1) EBU paralfel interface for 625-line digital video signals - Techn 3246-E. 2) EBU serial interface for 625-line digital video signals - Techn 3247-E. COMPONENTES 1991 1) EBU interfaces for 625-line digital video signals al the 4:2:2Ievel of CCIR Recomendation 601. Tech 3267-E. 2) EBU interfaces for 625-line digital video signals al the 4:4:4 level of CCIR Rec. 601. Tech 3268-E. SMPTE COMPONENTES Component Video SignaI4:2:2. Bit para/lel Digital Interface SMPTE-125M. Component Video Signal 4:2:2. Bit serial Digital Interface SMPTE-259M. COMPUESTO 1) NTSC Composite Video Signals. Bit para/lel Digital Interface SMPTE-244M. 134 135
  • 67.
    TECNOlO<.;IA ACTUAL D(TELEVI.sIÚ~ encargan los interfaces de comunicación digital. Teniendo en cuenta que se puede tra­ bajar con sei'íales compuestas o por componentes y que la conexión puede ser del tipo serie o paralelo, aparecen, en principio, cuatro tipos de posibles interfaces. A conti­ nuación se muestran las principales normas relacionadas con los interfaces para seña­ les digitales de televisión. Ventajas), desventajas de la conexión digital serie La mayoría de las maquinas trabajan internamente en formato paralelo, lo cual parece un buen argumento a favor ele! interfaz paralelo. Sin embargo, cuando las dis­ tancias son largas este tipo de interfaz presenta dos desventajas importantes: • l. El cable multicore es caro y los conectores demasiado grandes. • 2. Es clifícil lograr un buen apantallamiento de un cable multicore sin que se torne demasiado rígido y, ademas, existen problemas electrónicos aso­ ciados con cste tipo de cables. Por ejemplo, la velocidad de propagación dc los pulsos en el interior de cada cable debe ser exactamente la misma. Tambien se pucde producir intermodulación entre los conductores. La solución a estos problemas es la conexión serie, en la cual todos los bits que reprcsentan las muestras de vídeo son colocados uno detras de otro formando una señal eIectrica que debe ser, ademas, autosincronizable. Aunque la frecuencia de bits del interfaz serie es muy alta (mas de 200 Mb/s), es posible transmitir la información digital serie por un cable coaxial como los que se emplean para la señal analógica. Aunque el ahorro en e! cable es obvio, la complejidad de la electrónica asociada es muy superior, ya que se nccesitan registros de desplazamiento y multiplexores de alta velocidad, tanto en el equipo emisor como en el receptor. Sin embargo, en la actuali­ dad existen conjuntos de chips especializados en la serialización-deserialización de señales digitales de video, por lo que en la mayoría de las situaciones tiende a utilizar­ se el interfaz serie. Una desventaja potencial de! interfaz serie es que los tiempos adjudicados a cada bit de vídeo, identificación, etc. deben ser claramente definidos y, una vez normalizados, resulta muy dificil incrementar el número de bits por muestra o cualquier otra caracte­ rística. En el caso de! interfaz paralelo, esto puede lograrse manteniendo el protocolo de comunicación y aumentando e! número de hilos del cable multicore. 3.1. El interfaz paralelo para señal 4:2:2 El interfaz paralelo utiliza los mismos conectores, patillaje y niveles e1ectricos para la norma americana y para la norma europea y tanto para señales compuestas como para señales por componentes (la señal digital compuesta se vera en el pró­ ximo capítulo). El interfaz paralelo de la UER para señales por componentes digitales se corres­ ponde con otra norma del SMPTE (ANSI/SMPTE 125M-1992). La UER especifi­ ca además dos hilos para la transmisión de los datos auxiliares. Este interfaz esta previsto para conectar sólo dos equipos, puesto que no presenta estructura de bus. Los datos transmitidos por el interfaz corresponden a: • Las señales de vídeo (Y, R - Y, B - Y). • Las señales de referencia temporal. • Los datos auxiliares. • Las señales dc identificación. Estas señales se multiplexan en el tiempo y se transmiten como señales NRZ. Los valores 00 y FF (en hexadecimal) estan prohibidos para la representación de las muestras, ya que se reservan como prdmbulos de sincronización. Este interfaz emplea un conector de 25 pins, cuya asignación se muestra en la figura 5.14. Si sólo se utilizan 8 bits, los dos menos significativos se ponen a cero. Los 2 bits opcionales se denominan DATO-l y DATO-2 Yse refieren a la potencia de dos que representan, es decir, 2 I Y 2-'. De esta forma se mantiene la compati­ bilidad entre la notaciónes de 8 y 10 bits. FUNCiÓN PIN N° FUNCiÓNPIN N° 1 2 3 4 5 6 7 8 9 10 11 12 13 RELOJ + TIERRA DATO 7 (MSB)+ DATO 6+ DATO 5+ DATO 4+ DATO 3+ DATO 2+ DATO 1+ DATO 0+ DATO -1+ } SÚLOEN DATO -2+ SISTEMAS MALLA DE 10 BITS 14 15 16 17 18 19 20 21 22 23 24 25 RELOJ - TIERRA DATO 7 (MSB)­ DATO 6­ DATO 5­ DATO 4­ DATO 3­ DATO 2­ DATO 1­ DATO 0­ JSÚLOEN DATO -1­ SISTEMAS DATO -2 DE '0 BITS Figura 5.14-. Disposición de las patillas en el conector del interfaz paralelo. 3.1.1. Nive14:2:2 El interfaz 4: 2: 2 consiste en una conexión unidireccional entre dos equipos, formado por 11 pares de hilos (10 de datos mas 1 de reloj). Formato de los datos de vídeo Los datos de vídeo son codificados de acuerdo con e! nivel 4: 2: 2 de la REC 60 del CCrR. Se trata, por tanto, de las señales de luminancia y diferencia de color, previamente sometidas a corrección de gamma. 136 1
  • 68.
    TFCNOLOGIA ACTUAL DETHE'ISJÓN Durante los intervalos de borrado de línea y de campo se transmite el nivel de negros y el nivel de modulación cero, es decir, alternativamente 80 HEX, 10 HEX, 80 HEX, 10 HEX, etc., o, en notación decimal, 128, 16, 128, 16. El multiplexado Los datos de video se multiplexan con una frecuencia de reloj de 27 MHz (13,5 + 6,75 MHz + 6,75 MHz) en el orden siguiente: CIlO , Yo, CRO' Y" C." Y" CR" Y" C"" Y., CR.,Y, ... Las tres primeras palabras (C..,Yo, CRO) corresponden a muestras cosituadas, es decir, pertenecen al mismo pixel en la imagen. Luego viene una palabra del píxel siguiente (Y,), del cual sólo se codifica la luminancia, luego otra tripleta cosituada y asi hasta terminar la línea. Es necesario adarar que en la definición de la norma se dice: "Puesto que se produ­ ce el doble de muestras de luminancia que de cada una de las señales diferencia de color, las últimas se toman coincidiendo con las muestras impares de la luminancia, o sea a la vez que la primera, tercera, quinta, etc." Por otro lado, en el caso del interfaz, tal como ha sido normalizado por los organismos reguladores, el primer píxel recibe el número "cero", de forma que son los píxeles numerados pares y no los impares, los que forman tripletas. En cualquier caso, lo importante es entender que en el primer píxel de la línea activa de la norma 4:2:2 se codifican la luminancia y las dos señales diferencia de color, en el siguiente sólo la luminancia, luego los tres, etc. 3.1.2. Nivel 4:4:4y 4 X 4 En la norma 4:4:4 todos los pixeles tienen un valor para la luminancia, otro para C. y otro para CR. En la norma 4:4:4:4 (ó 4 x 4), los pixeles tienen, además, un valor de incrustación o transparencia "K". --'-_. - - ~ - - ~ . ~ --==:...----=-==:.:.=---==---=:=====----=- I --=~--=2-lll1--L I r oXOxoxOxoxOxoxO • ¡ 1 I¡ C'VC'VC'VC'VC'VC'VC'VC'lJ ¡:::@X®X@x@x@x J @lx@lx(@Jx(@Jx(@Jx DO 01 ® X® x ® x ® x @l x F:02---03 (@Jx(@Jx(@Jx(@x@lx D4 @l x (@J x ® x ® x (@J x ® x ® x iIQh X ili5lI X ili5lI X lIeV lIeV I!'?!! ~g¿ 07 0·1 T- 1/27 MHz _ 37 ns 4:2:2 ~;LOJ~ Figura 5. 15. Multiplexado de los datos de vídeo en el interfaz paralelo de la norma 4:2:2. La norma 4:2:2 La conexión unidireccional en estos niveles comprende dos cables como los uti­ lizados en la norma 4: 2: 2, de manera que la mitad de los datos circulará por una conexión paralelo estándar, mientras que la otra mitad lo hará por una conexión paralelo extra. Opcionalmente se pueden transportar las señales primarias R, G, B, en lugar de Y, CR , C•. Los datos de vídeo se multiplexan a una frecuencia de 27 MHz y en el orden siguiente: • Conexión A: C.o,Yo, CRO,Y" C""Y" C."Y" CR"Y., C""Y,... • Conexión B: C,," Ko, C. K" C,," K" CRH K" C,," K., CR" K,... "Como puede verse en la figura 5.16, la conexión B transporta la señal de trans­ parencia o llave "K", asi como las muestras correspondientes a las seí'iales diferen­ cia de color que faltan en la conexión A. Si se utiliza este interfaz para encaminar seí'iales primarias RGB, la disposición de las muestras se obtiene cambiando G por Y, R por CRy B por CR. Si el valor "K" no se emplea (como en el caso de una señal 4:4:4), este se pondrá a cero. 3.1.3. Disposición de las muestras en la línea digital 4:2:2 La figura 5.17 muestra la relación temporal entre las señales analógica y digital en la norma de 625 líneas. La línea completa comprende 864 periodos (de 13,5 MHz), de los cuales 720 corresponden a la línea activa. Puede verse que la línea digital empieza 24 periodos de reloj (con frecuencia de 27 MHz) antes que la referencia temporal analógica OH' A continuación aparecen cuatro palabras que transportan la señal de referencia temporal (TRS) y después un grupo de 280 palabras con datos de identificación y auxiliares, seguidas otra vez por cuatro palabras de referencia temporal. Finalmente vienen los datos de video, los cuales terminan, naturalmente, 24 periodos de reloj antes de O". El hecho de que la línea digital se inicie 24 periodos de reloj antes que la línea analógica implica que el campo digital comenzará tambien 24 palabras antes que el campo analógico NIVELES 4:4:4 Y 4 X 4 COMPONENTES Y. C,. C. PRIMARIOS R, G. B N" DE NaDE MUESTRA O 2 3 4 5 MUESTRA O 2 3 4 5 CONEXiÓN 8 CONEXiÓN 8 Figura 5.16. Con dos interfaces paralelo 4: 2: 2 se obtiene un interfaz paralelo 4 x 4. 138 139
  • 69.
    TrCN(JLOGIA AC rU.'1[H TlLE'J.S1Ó¡,,¡ RELACiÓN ENTRE LA liNEA ANALÓGICA y LA DIGITAL TIEMPO DE REFERENCIA PARA EL ANAlISIS DE UNA LINEA .rOH 24 i _L1r-¡E~NIIL()G_'.C_A --- -~' 24 BYTES ... ~ PRIMER OCTETO JBYTES SEÑAL DE ACTIVO -~ REFERENCIA SEÑAL DEjTEMPORAL REFERENCIA 264 BYTES t - lA4(j -BY!ErlJS~_---TEMPORAL , . ;~i, ~ ¡..4BYTES .: 4 BYTES l"" INICIO DE i ! I {FIN DE LA ~1¿'ll~Et ~~?~~~?_DE _Lt~EA D.I~~A~ k __~~EA DI~~_ ~CTlVA __ D~~~:l ! -___ _L!NEA DIGITAL TOTAL.. .. _,"C ._. _ _ • Figura 5.17. Relación temporal entre la línea analógica y la digital en la norma 4:2:2. 3.1 A. El borrado de campo digital Para evitar tener gue utilizar medias líneas, la supresión de campo digital empeza­ rá y terminará, respectivamente, al principio y al final de una supresión de línea digi­ tal. De esta forma el borrado del campo digi,tal 1 durará 24 líneas, mientras que el borrado del campo digital 2 durará 25 líneas. Esta es la razón por la que el número de líneas activas por imagen en la norma digital es de 576, en lugar de las 575 a gue'esta­ mas acostumbrados en el caso de la señal analógica. El segundo campo analógico empieza a la mitad de la línea 313. A fin de evitar también aquí el tratamíento de medias líneas, se hace comenzar el segundo campo con el principio de la línea 313. Por esto el segundo campo comprende 313 líne­ as, mientras que el primero incluye 312. Esto no supone ningún problema, ya gue, después de la conversión digital-analógico, la señal se transforma en una señal de vídeo normalizada. 3.1.5. La riferencia temporal La señal de referencia temporal en el interfaz digital hace el mismo trabajo que los sincronismos en el caso de la señal analógica. Puesto que en el caso de las seña­ les digitales no se puede establecer la diferencia entre los datos de vídeo y los sin­ cronismos en función del nivel (sólo hay dos niveles y se corresponden con los ceros y unos), tal diferenciación se hace prohibiendo ciertas secuencias binarias La 119il1hl..1.,1_1 PRIMER CAMPO • eo~AAOO DE.CAMPO_ANAL~~~O E:i~~E,A.S ~ B~O~~OO O~_ ~~~E!1__ f10RR.&.DQ O[lINUo OIGlT"l .--- [, , 11 l ' i__ • .J __;,J. '_..J --'---I _ J .L1II J fljl'---v------' '---v------' OAfOSOE V!g:6~~~"l L.."RI~EACAMI'OOlGITAl vlOEOOtGlTAl -_._------ _.­------~------ F 11 11 11 00 00 00 00 00 00 DO 00 00 00 00 00 00 OQ 00 00 V 00 11 11 11 11 11 H 11 11 11 11 11 11 11 11 " 11 00 00 ti _~o__----..!.o_ ~o _10 ~~__~o 10 '0 10 10. 10 10 l~ _10_ '_~ .. !~ __~?_ '_0_ .10 SEGUNDO CAMPO ~o~_~~ f?~ ~~po ~AL~~~~5 ~~EA? ~ ,B_~~? ~_l~N~_~ , 00 00 00 11 11 "v 00 11 11 " " " " " " 11" 11 " 11" " "H 10 10__'_o_!'!."___!!I"____lO"__J.~"___"~º_.__lO" "10 10". ,'0 10 '0" 10 .~1º " ll?_" Figura 5.18. Relación temporal entre al borrado de campo analógico y el borrado de campo digital en la norma 4:2:2, para la norma de 625 lineas y50 campos. Nótese la forma en cambiar la secuen­ cia de ceros y unos que representan los valores de F, V YH. para la representación de las muestras activas, de forma que cuando tales secuen­ cias binarias aparezcan, el equipo sabrá gue se está iniciando una secuencia de sin­ cronización. En los interfaces digitales estas secuencias se conocen como Time Riference SiBnals o TRS. Existen dos señales de referencia temporal por cada línea digital. La pri­ mera se localiza al inicio de la línea digital y se denomina EAV (End eifActive Video). La segunda se localiza al inicio de la parte activa de la línea digital y se denomina SAV (Start eifActive Video). Ambas se encuentran, por tanto, en el borrado de la línea digital y ambas están formadas por cuatro palabras, gue podrán ser de ocho o diez bíts. El espacio comprendido entre EAV y SAV puede usarse para datos auxiliares, tales como audio digital, datos de identifi­ cación de equipos o sistemas de comprobación de errores. Si se emplean 10 140 141
  • 70.
    TECNOLoc;IA ACTuAL DE-, H[VISIÓN 1 La norma 4:2:2 bits, los dos menos significativos no se tienen en cuenta. Las cuatro palabras de referencia temporal tienen los valores hexadecimales siguientes: FF 00 00 XY, donde las tres primeras palabras forman un preámbulo fijo, mientras que la última es una variable, en la que el primer bit es un" 1" fijo. A continuación aparecen los bits "F", "V" Y"H", los cuales tienen el siguiente significado: • F =O durante el primer campo. • V = 1 durante el borrado de campo. • H = 1 al inicio del borrado de línea. Por tanto, trabajando con 8 bits la secuencia completa sería: 1111 11110000000000000000 IFVH P, P, P, Po Los bits P, a Po son bits de protección de F, V YH, que, mediante un código de Hamming, permiten la corrección de errores sencillos y la detección de errores dobles. De todas formas, puesto que la información de F, V YH se repite cada cua­ dm, se puede proceder tambi<~na una detección/corrección de errores por mayoría. o 1~-+--. F DURANTE EL DURANTE EL PRIMER CAMPO SEGUNDO CAMPO- - - -------._-- ------------~-~- IV DURANTE PERIODO DURANTE BORRADO ACTIVO DE CAMPO DE CAMPO._. -_._--_._-._-- -_._---------- H AL FINAL DEL AL INICIO DEL BORRADO DE LINEA BORRADO DE LINEA TRs (EAV)VTRS (SAV) 4 PALABRAS" 4 PALABRAS --~"" / - - ­ rr 280 Bms -o ~ f'------. ... ------------' ~ ~ FFOO OOn / ~ " 't 1 F V H P3 P2 P1 Po '--v--J BITS DE PARIDAD PARA COMPROBACiÓN DE ERRORES Figura 5.19. Señales de referencia temporal en la norma 4:2:2. 3.1.6. Características eléctricas del inteifaz paralelo EL EMISOR: Impedancía.-La impedancia de salida es de 110 ohms. El voltaje de continua en los bornes (DC offset) es de -1,29V ±15% medido con respecto a tierra. La amplitud de la señal debe estar entre 0,8 y 2V.p.p. medidos sobre una resis­ tencia de 110 ohms conectada a los terminales de salida, sin línea de transmisión. El tiempo de subida y bajada, entre los puntos del 20% Yel 80% de amplitud, no será mayor que 5 ns y no variará más de 2 ns. EL RECEPTOR Impedancia.-La impedancia de entrada es de 110 ohms. Entrada máxima.-El receptor deberá interpretar los datos binarios correcta­ 142 ¡ I mente cuando se conecte de forma directa a una salida cuyos voltajes extremos correspondan a los del emisor. Entrada mínima.-El receptor deberá interpretar correctamente datos que apa­ I rezcan aleatoriamente y que produzcan las condiciones representadas en el diagra­ ma de ojo de la figura 5.20. M:E~~C'r~ ~~R'~~-~_:~:::~}NIVELALTO ÁT~AAA t ,o: • -: ~ ",~'~~:"-', '." :...::~:~:~: ____~ }NIVEL BAJO - -1.79V. .RELOJ DE 0.8 MEDIDO I A2V ENTRE POLOS '­ ti.+­ ': ..-u,1>n. DATOS ' DE08 MEDIDO A2 V ENTRE POLOS IllOIDlI-j~-- L_T,J:t 11 os DURACiÓN DEL FASE DE lOS DIAGRAMA DE OJO ... _Tmin ~ 1< 13 ¡ S" -2 I . ¡.._oo¡ Tmln = 22 ns Vmin = 100 mV Td =Tmin/2 =11 ns T= 11(1728 FI) = 37 ns IMPULSO DE RELOJ DATOS DE SALIDA = 18,5 ns td = 18,5 ns ±3 ns Figura 5.20. Características eléctricas del interfaz paralelo para señales 4:2:2. RELOJ Retardo diferencial reloj-datos.-El receptor deberá interpretar correctamente los datos cuando el retardo diferencial reloj-datos sea de ± 11 ns. Anchura y ptter del reloj.-La anchura del pulso de reloj será de 18,5 ±3 ns. Las variaciones de tiempo, de los flancos de elevación individuales, de los impulsos de reloj, no superarán los ± 3 ns, promediando la medida sobre los flancos de eleva­ ción, de al menos un campo completo. 3.2. El interfaz serie para señales 4:2:2 Todos los parámetros del interfaz serie (las señales de vídeo, las señales de refe­ rencia temporal, los datos auxiliares y las señales de sincronización) coinciden con los del interfaz paralelo. La única diferencia es la forma en que se transmiten los datos y las características eléctricas. Este interfaz consiste en una conexión unidi­ reccional entre dos equipos, en la que las palabras de 10 bits (si se parte de palabras de 8 bits los dos bits menos significativos se ponen acero), se transmiten formando un único tren binario, por un cable coaxial de un sólo conductor. La velocidad bina­ ria del interfaz serie será: 27 Mpalabras/s x 10 bits = 270 Mbits/s. El bit de menor peso de cada palabra es el que se transmite primero. Esto puede verse en la figura 5.21, donde MSB significa "Most Significant Bit" y LSB "Least Significant Bit". 143
  • 71.
    j :~..-JIUl(~~IA AL"I U('-!:.J2LL.lli~ ~ • T T é0:0 ;O?ü ; ó--;?Q ; 0;;0 • • ,. • • .,. el! y el! y C'l y el! y e", y ~8 ~ C y CIl @x@Jx@Jx@Jx@x' R @x@x@Jx@x@Jx @x@x@lx@x@x @x@x@x@x@x @x@x@x@x@x @lX@lx@x@¡x@x DATOS SERIF (NRZ G' {x) :::: l + x' + 1 G2 (x) =x' + 1 6~ B~ 33 ~~ 0'" Figura 5.21. Multiplexado y código de canal en el interfaz serie para señales 4:2:2. 3.2.1. El códi80 de canal Para evitar largas secuencias de ccros o de unos, que presentadan problemas de propagación por el cable coaxial, se aplica a la señal digital serie ID] barajado seudoa­ 1eatOl'io, mediante e! registro de desplazamiento mostrado en la figura 5.22. Esta fun­ ción pucde entenderse como la SUma de una secuencia de bits aleatoria a los datos de entrada. Si uno de los sumandos presenta Una pauta aleatoria (en realidad seudoalea­ toria, para que pueda ser reversible), también la suma presentará pautas aleatorias. La función seudoaleatoria la produce el polinomio generador G1(x). A continuación el polinomio G2(x) genera un código de canal NRZI (Non Retur to Zero lnverted), a efec­ tos de lograr que la interpretación de los datos no dependa del nivel de la señal, sino de la presencia o ausencia de transiciones. Los datos entran en formato paralelo en el registro de desplazamiento a una veloci­ dad de 27 Mpalabrasls y salen en serie a una cadencia de 270 Mbls. El circuito aleatorizador suma los datos de entrada, con una secuencia aleatoria, pero predecible de ceros y unos. La salida de! aleatorizador se hace pasar por un circuito, mediante el cual los unos se convierten en transiciones)' los ceros en no transiciones. A la salida dcl cir­ cuito aleatorizador la señal serie presenta las siguientes caraeteristicas: a) La componente continua es cero o muy cercana a cero, ya que la señal se encuentra en estado alto aproximadamente el mismo número de veces que en bajo. NOTA: En l. primera definición del interfaz serie. cuando se trabajaba exciu.,;"amente con 8 bits, se especific6 un c6digo de can.1 de conversión directa "8-9 bits". Con la ap.rición de los interf.ces para 10 bits en 1991 se .bandonó el código de canal de conversión directa en favor del código de canal aleatorizador. ___________~ngLill.<L1:2: 4 b) No contiene bajas frecuencias, puesto que no hay largas cadenas de ceros () unos. c) Es autosincronizable, ya que se asegura la presencia de flancos o transiciones cada pocos períodos de bit. d) Puesto que e! estado lógico de los bits se basa en la detección de flancos )' no de nive!es, este interfaz es insensible a los cambios de polaridad, es decir, la información leída es la misma, con independencia de que se cambie la polaridad de los cables. 3.2.2. Características eléctricas del inte1az serie para señales 4:2:2 La salida del emisor es asimétrica)' con una impedancia de la fuente de 75 ohms. Ell'alor de cresta a cresta debe estar entre 400 y 700 m V El vahaje conti­ nuo a media amplitud de la señal digital dehe situarse entre +V Y--Y Los tiem pos de sul)ida 'j ba)acla (entre ellO 'j el ~O% de amplitud) se situaran entre O,7S 'j 1,5 ns. La inestabilidad de los flancos será inferior a ±O,l ns. Los conectores utilizados deberán ser de tipo ENe y serán capaces de tratar fre­ cuencias de hasta 500 MHz. NO CONTIENE BAJAS FRECUENCIAS Y ES 1 o AUTOSINCRONIZABlE l o o o oo , 10000010110001111101 110001001000110100 l1000OOlOClQll10100o 1 o , 11 o , U1fLJlf LJUUUl lflSlILJ1 o, , -. ~ NRZIREGISTRO DE NRZ N~2(X)=X+1DESPLAZAMIENTO G1(X) =x+x+1 ~ • DATOS DECONVfRS()l1 ALfAr()l1IZNJ011 CQNVfRSOII NMLFUWCOPARALELO-SERIE SALIDA SERIE A 270 Mbls RELOJ A 270 MHz ¡/UJUUI ¡J RELOJ A 27 MHz Figura 5.22. Ejemplo de conversion de palabras de vídeo en paralelo en datos de canal serie en la norma 4:2:2. 4. Datos auxiliares Se definen como datos auxiliares todos aquellos que pueden ser ubicados en un interfaz de vídeo y que no representan información de la imagen activa o de sin­ cronización-identificación de vídeo. El número de aplicaciones que se puede dar a los datos auxiliares es ilimitado. Por el momento, se han definido y normalizado cuatro aplicaciones: audio insertado en vídeo, SDTI (una ampliación de! SDl para 144 145
  • 72.
    ---- TErNOI (l<;JA ACTUAlDE Tel.EVISION La norma 4:2:2 señales comprimidas), EDH (detección y tratamiento de errores) y código de Mbits/s, lo que supone un 21 % o, si se prefiere, una quinta parte del total de datos tiempo. Otras aplicaciones se encuentran en estudio, como información de identi­ del SOl. Esto permitiría hasta i36 canales de audio digital insertado! o 18 pares ficación de la fuente e información del tipo de plano. Todas estas aplicaciones se AES/EBU, aunque nadie utiliza tal capacidad. basan en el aprovechamiento de parte del espacio dejado sin utilizar en los borra­ dos horizontal y vertical. 4.2. Formato de los datos auxiliares BORRADO DATOS _~ DATOS AUXILIARES o ~ HORlznNTAl .~ AUXILIARES ----) ~g{.-= .1/ iiiiiii' ') c' "''''~ g~ C/) l' VANC e « (b) ViDEO ACTIVO VANC ViDEO ACTIVO C/) (a) ww C/) VfDEO oc f­:J a.. Q?~ O ZACTIVO a.. w<t: <t: ¡~ a. :J j. ...J ZoO « Ozox~Ü 'Z a..O:J , w ~:I:...J <t:<t: « C/)C/) C/) O w 01­ 'z :JO Ü C/) Z« ViDEO o ACTIVO ,E , SAVPÓRTICO >.. ANTERIQ~/ ¡l-'..-óATOS- PÓRTICO EAV =FINAl VIDEO ACTIVO TRS-ID,) ,AUXILIARES POSTERIOR SAV= INICIO ViDEO ACTIVO VANC:¡: OATOS AUX. EN BORRADO VERT. HANC =DATOS AUX. EN BORRADO HoRIZ. Figura 5.23. Capacidad para transportar datos auxiliares en las señales digitales compuesta y por compo­ nentes. 4. 1. Capacidad de almacenamiento , SEÑAL COMPUESTA.-En el caso de la señal compuesta (PAlo NTSC) los datos auxiliares se ubican en los pulsos de sincronización horizontal y vertical. Nótese en la figura (a) que no se utiliza todo el espacio dejado por los borrados, sino sólo los sincronismos en sí mismos. En cada sincronismo de línea se pueden ubicar hasta 64 palabras (de 8 ó 10 bits). En cada impulso de sincronización vertical cabe un máxi­ mo de 932 palabras y en los impulsos de preigualación y postigualación hasta 46 palabras. Si se hace un cálculo de la capacidad total obtendremos unos 10 mega­ bits/s, en los cuales se debe incluir la información de identificación, numeración de bloques y paridad para comprobación de errores. Estos 10 megabits/s permi­ ten incluir en el interfaz de vídeo hasta 4 canales de audio digital (2 pares AES/EBU). SEÑAL POR COMPONENTES.-En este caso los datos auxiliares (HANC) se ubi­ can entre las señales de referencia temporal EAV y SAV, ocupando la práctica tota­ los datos auxiliares se organizan en paquetes antes de ser insertados en el inter­ faz de vídeo. Cada bloque de datos puede contener hasta 255 palabras de usuario (datos útiles para las aplicaciones), a las que acompañan cinco palabras (compues­ to) o siete palabras (componentes) de referencia. En el interfaz compuesto sólo del sincronismo vertical tiene capacidad para 255 palabras. El sincronismo horizontal queda limitado a 55 palabras en total (NTSC) o 64 (PAl) , aunque esto no es un problema, ya que el sistema es flexible y los paquetes pueden tener cualquier longitud. Cada paquete de datos se inicia con una bandera de datos auxiliares (AOF), cuyo valor está prohibido para la representación de las muestras de vídeo. A continuación aparece un identificador (DIO), que indica el tipo de datos que contiene el paquete (audio digital, EOH, etc.). El número de bloque (OBN) es una palabra opcional, que puede usarse para proporcionar un conteo secuencial a los paquetes, lo que permiti­ ría al receptor determinar si se ha perdido algún paquete. Por ejemplo, durante la conmutación de dos fuentes de vídeo puede perderse algún paquete de los que van incluidos en el intervalo vertical. En este caso el receptor procesaría los datos de audio para evitar el "clic" audible que se produciría en este tipo de transición. la siguiente palabra es el contador de datos, el cual indica el número de palabras que forman los datos útiles. A continuación vienen los datos de usuario, que es la información útil para BANDERA DE DATOS SUMA DE IDENTIFICADOR (1 PALABRA) COMPROBACiÓN N0 DE BLOQUE (1 PALABRA) (1 PALABRA) j j 1 fUENTA DE DATOS (1 PALABRA) 1 ADF DID DBN DCN DATOS DE USUARIO (255 PALABRAS MÁXIMO) CHS lL{AUDIO DIGITAL: FFH EDH: F4H CÓDIGO DE TIEMPO: 60H COMPUESTO (1 PALABRA) -3FC­ COMPONENTES (3 PALABRAS) -000 3FF 3FF­ lidad del borrado horizontal, como muestra la figura 5.23. También la mayor parte Figura 5.24. del borrado vertical es ocupado por los datos auxiliares, que en este caso se deno­ Los datos auxiliares se estructuran en paquetes, formados por una cabecera, una zona de carga minan VANC. Así la capacidad total, sumando HANC yVANC, se eleva a unos 56 y una palabra de comprobación. 146 147
  • 73.
    T[CNOLOGI: ACTUAL DlnU:'ISJÓN aplicaciones que puede colocarse en e! paquete y que permite un máximo de 255 palabras de 10 bits. La última palabra de! paquete es una palabra especial (Check Sum), que se obtiene mediante una sun1a ponderada, definida por un polinomio, de los datos del paquete y que permite la comprobadón de eventuales errores ele transmisión. Resumen o Trabajando en digital, los defectos introducidos en la cadena ele producción pueden limitarse a los generados por los procesos de conversión A/D y D / A, suponiendo que la señal es procesada, grabada y distribuida en formato digi­ tal y que la codificación a sei'íal compuesta analógica se realiza una sola vez, justo antes de atacar al emisor de UHE o La norma básica de producción digital en televisión se conoce como 4:2:2. La frecuencia de muestreo de la luminancia en esta norma es de 13,5 MHz. Esta frecuencia respeta e! criterio de Nyquist genera un numero entero de mues­ tras por línea (muestreo ortogonal) y es comun a las dos norma básicas de televisión. o Las señales diferencia de color se muestrean a la mitad que la señal de lumi­ nancia, es decir, a 6,75 Mhz cada una. También en este caso se produce un muestreo ortogonal y común a las dos normas. o Para reducir los valores extremos de las señales diferencia de color a ±0,5V se aplican unos coeficientes de ponderación: KR =0,5/0,701 = 0,713; KB =0,510,886 =0,564. Una vez atenuadas, B-Y pasa a llamarse CB, mien­ tras que R - Y se denomina CR. o Los valores de amplitud de la señal de luminancia se codifican con 220 nive­ les comprendidos entre el 16 (para el negro) y e! 235 para el blanco. Para las señales de crominancia se utilizan 225 niveles, entre el 16 Yel 240. Los valo­ res 00 y FF expresados en hexadecimal están prohibidos para la representa­ ción de las muestras. ' • Al igual que en analógico, la línea digital se divide en período activo y período de borrado. El período activo está formado por 720 muestras, tanto en la norma europea como en la americana. El numero de muestras del borrado de línea cambia de una norma a otra. o Los filtros antialiasing y de reconstrucción definidos en la norma garantizan un ancho de banda plano de la señal de luminancia hasta 5,5 MHz. En el caso de las señales diferencia de color esta cifra se reduce a la mitad. o La frecuencia de muestreo y los filtros "paso-bajo" resultan adecuados para la digitalización de un solo paso. Por el contrario, la digitalización múltiple, como sucede cuando se conectan en cascada muchos conversores A/D-D/A, genera importantes distorsiones lineales, que alteran la amplitud en función de la frecuencia. o La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul­ tiplicando o dividiendo las frecuencias de muestreo básicas: 4:4:4, 4 x 4, 2: 1: 1,4: 1: 1 y 4:2:0. o La norma 4:4:4 se utiliza sobre todo en croma-keys digitales. La norma LJ norl1la~LZ 4- X 4- tienr su aplicación en equipos que trabajan con valor de incrustación (canal alfa). Las normas 4:1:1)' 4:2:0 se utilizan cuando se necesita ahorrar bits, como, por ejemplo, en ciertos formatos de magnetoscopio digital utili­ zados en informativos. o Trabajando en digital se puede hacer cualquier número de generaciones sin que se produzca degradación. Para que esto sea posible es necesario normali­ zar la conexión digital-a-digital entre los equipos. De esto se encargan los interfaces de comunicación digital. o Teniendo en cuenta que se puede trabajar con señales compuestas o por com­ ponentes), que la conexión puede ser del tipo serie o pa¡'alelo, aparecen en principio cuatro tipos de posibles interfaces. o El interfaz paralelo utiliza los mismos conectores, patillaje y niveles eléctricos para la norma americana)' para la norma europea y tanto para señales com­ puestas como para señales por componentes. Este interfaz emplea un conector de 25 pins )' está preparado para trabajar con señales de 10 bits por muestra. Si sólo se utilizan 8 bits, los dos menos significativos se ponen a cero. o Las señales transmitidas por e! interfaz son: Las señales de vídeo (Y, R - Y, H- Y). Las señales de referencia temporal. Los datos auxiliares. Las señales de identificación. o A la salida de! interfaz las señales se multiplexan siguiendo e! orden: Cno,Yo, Cno,Y" C""Y" CR"Y" CM,Y.. CR..Y . o En la norma 4:4:4 todos los píxe!es tienen un valor para la luminancia, otro para CB y otro para CR. En la norma 4:4:4:4 (o 4 x 4), los píxcles tienen, además, un valor de incrustación o transparencia "K". La conexión se logra mediante dos cables como los utilizados en 4: 2: 2, que trabajan en paralelo. Los datos de vídeo se multiplexan a una frecuencia de 27 MHz y en el orden siguiente: Conexión A: Cuo,Yo, CRO,Y" Cn"Y" CR"Y" Cn.,Y., CR.,Y, . Conexión B: Cn" Ko, CR" K" CRl, K" CR" K" C." K., CR" K, . o El borrado del campo digital" 1" dura 24 líneas, mientras que el borrado del campo digital "2" dura 25 líneas. Por esto el número de líneas activas de la imagen digital es de 576 y no 575 como en el caso analógico La sincronización de línea y campo se logra mediante la llamada TRS (Time Riférence SiBnal). Esta, a su vez, se divide en EAV (End <fActive Video) y SAV (Start rfActive Video). Estas palabras de sincronización van colocadas al inicio y al final de! borrado de línea. o EAV y SAV están formadas por cuatro palabras de 8 ó 10 bits cada una de ellas. Las primeras tres palabras son un preámbulo fijo, mientras que la últi­ ma informa sobre si estarnos en el primer o segundo campos, si estamos en una linea activa o en una de! borrado vertical y si nos encontramos al inicio o al final del borrado de línea. o Todos los parámetros de! interfaz serie (las señales de vídeo, las señales de referencia temporal, los datos auxiliares y las señales de sincronización) cain­ 148 149
  • 74.
    TEcrWLOGIA ACTUAL DETE' EI"S'ÓN ciden con los del interfaz paralelo. La única diferencia es la forma en que se transmiten los datos y las características eléctricas. • Este interfaz consiste en una conexión unidireccional entre dos equipos, en la que las palabras de 10 bits (si se parte de palabras de 8 bits los dos bits menos significativos se ponen acero), se transmiten formando un único tren binario, por un cable coaxial de un solo conductor. • Para evitar largas secuencias de ceros o de unos, que presentarían problemas de propagación por el cable coaxial del interfaz serie, se aplica a la señal digi­ tal un barajado seudoaleatorio. A continuación los "unos" se convierten en transiciones y los "ceros" en no-transiciones. 1 I CAPíTULO 6 La señal digital compuesta 1. Introducción Con la aparición de los equipos de grabación digital de vídeo surgió en la comunidad técnica una discusión acerca de los métodos de grabación por compo­ nentes y compuesto. Algunos pensaron que los dos métodos competirían entre sí, con el resultado final de un virtual ganador. En cambio, otros creyeron que ambos formatos podrían lograr un lugar en el mercado durante, al menos, una década, ya que apuntaban hacia diferentes aplicaciones. Antes de que el magnetoscopio digital fuera una realidad, la grabación digital de vídeo había sido demostrada públicamente durante unos diez años. El enfoque técnico durante ese tiempo se dirigió a conseguir una tecnología practica que lograra los requerimientos operacionales necesarios. Se trabajó en paralelo en las dos tecnologías, compuesta y por componentes, cada una de las cuales probó sus ventajas para un segmento del mercado. El primer magnetoscopio digital fue demostrado a mitad de los 70 por JoOO Baldwin, de la Independent Broadcast Authority. A finales de los 70 y principios de los 80 se suce­ dieron demostraciones por parte de Ampex, Bosch, Itachi, la NHK y Sony. Una buena parte del trabajo inicial se realizó grabando digitalmente señales de televisión compues­ ta. En la primavera de 1982 el Comité Consultivo Internacional para la Radiodifusión aprobó la recomendación 601 como norma básica de transmisión digital por compo­ nentes. Grupos de trabajo del CCIR, el SMPTE Yla UER establecieron la norma para el grabador digital por componentes (D1), basado en la recomendación 601 . Reconocida la necesidad de grabadores digitales para ambos estandares, com­ puesto y por componentes, ya que van dirigidos a diferentes aplicaciones dentro de la industria de la televisión, se presentó en la NAB de 1986 un reproductor de spots comerciales digital por parte de la casa Ampex, el cual estaba basado en el formato digital compuesto. 150 151
  • 75.
    TlCNOlOGiA rCTU-l DETELE,ISIÓN Aunque las incursiones iniciales en televisión digital se realizaron en formato com­ puesto, los organismos reguladores normalizaron primero la señal digital por compo­ nentes, considerada como la auténtica solución de futuro. Sin embargo, muy pronto se vio que los equipos basados en componentes digitales, en especial los magnetosco­ pios, resultaban muy caros, tanto en el coste de los equipos como en el consumo de las cintas. Además en aquella epoca (mediados de los ochenta) la mayoría de los radio­ difusores y empresas de producción "trabajaban en entornos compuestos", de manera que un magnetoscopio digital compuesto podía reemplazar directamente a otro ana­ logico sin dejar obsoleto el resto del sistema de edición, rnientTas aportaba la gran ventaja de la grabacion digital: la mllltigeneración sin pérdidas. Para satisfacer la demanda del mercado, en 1988 SONY y AMPEX lanzan el mag­ netoscopio digital compuesto D-2. En este caso son los fabricantes y no los organis­ mos reguladores los que inventan una norma deJacto que sera. posteriormente recogi­ da y publicada por dichos organismos. Nace así la norma digital compuesta. 2. Eleccion de la frecuencia de muestreo Desgraciadamente no es posible definir una norma de tclevision digital com­ puesta que sea común a las dos normas básicas de televisión: NTSC y PAL. Sencillamente las diferencias entre ellas son demasiado grandes como para inten­ tarlo. En el caso del SECAM, debido a la modulación en frecuencia de las señales diferencia de color, las tareas de posproducción son prácticamente imposibles en formato compuesto, por lo que los radiodifusores y empresas que utilizan este sis­ tema potenciaron desde sus inicios el trabajo en componentes, de manera que no existe una norma digital para señales SECAM. Así pues, tenemos dos normas de señal de vídeo digital compuesta: • La norma 4f.. NTSC. • La norma 4t PAL. El término 4C significa que la señal compuesta analógica, ya sea PAL o 'NTSC, se muestrea a cuatro veces la frecuencia de la subportadora de color. Veamos la razón: para facilitar el posterior tratamiento de la señal digital compuesta (separa­ ción luminancialcrominancia, ajuste de niveles y retardos, etc.) resulta conve­ niente que la frecuencia de muestreo esté sincronizada con la frecuencia de la sub­ portadora de color. En particular estos procesos resultan más sencillos si la fre­ cuencia de muestreo es igual a cuatro veces la frecuencia de la subportadora de color: fS =4C. Esto conduce a una frecuencia de muestreo de: 4 x 4,43MHz = 17,73 MHz en PAL y 4 x 3,58 MHz = 14,32 MHz en NTSC. Como puede verse, no es posible lograr una frecuencia de muestreo universal en este caso. En la señal de video compuesta la relación SclH cambia línea a línea e incluso campo a campo. Por esta razón es conveniente digitalizar esta relación, lo que sig­ nifica muestrear y cuantificar los borrados de línea. Sólo es posible obviar el mues­ treo durante el tiempo correspondiente al fondo del sincronismo horizontal. De igual forma es necesario muestrear la mayor parte del borrado vertical. La sciial JifitaG;~UD_-P~t.:st.í! Como se ha dicho, la seilal compuesta se muestrea a una frecuencia equivalen­ te a cuatro veces la frecuencia de la subportadora ele color. Esto hace que en oca­ siones a las normas de television digital compuesta se las conozca como 4 fsc­ NTSC y 4 fsc-PAL. La figura 6. 1 muestra las ventajas de relacionar la frecuencia de muestreo de la señal compuesta con la frecuencia de la subportadora de color. íl~SENOIOE DE CROMA ORIGINAL -PAL LS.6~ 69-~SMU~~~~EOA4 fe SUMA PONDERADA DE A YB ¡(A'BY') l56 n5 _---- 1";;",J.A:69 ns ""- 56 ns .69 ns ¡ I ¡ i i i iINSTANTES DE MUESTREO RESTA PONDERADA SENOIDE DE CROMA DE A YB ¡(A-BY21 ( DESFASE DESFASADA 160"(2T) DE2T ... ­ i i ii ~1INSTANTES DE MUESTREO Figura 6.1. El muestreo a 4 veces la frecuencia de la subportadora de color facilita la separaci6n de la lurninancia y la crominancia. La separación digital de las señales de luminancia (Y) y crominancia (C) es muy fkil cuando la frecuencia de muestreo es igual a cuatro veces la frecuencia de la subportadora de color. En este caso basta con sumar o restar el tren de muestras retardado dos períodos de muestreo. La suma de los dos trenes de muestras (que se encuentran en contrafase) anularia la informaci6n de crominancia, dejando s610 la informaci6n de luminancia. La resta de las dos señales desfasadas eliminaría la componente continua, es decir, la luminancia, quedando solo la informaci6n de crominancia. Muestreando a cuatro veces la subportadora de color se produce un cierto Ol'ersampling o sobremuestreo, lo que facilita la utilizaci6n de filtros de reconstruccion de corte suave. 2.1. Muestras por línea En NTSC, muestreando a cuatro veces la subportadora de color, se produce un número exacto de muestras por línea, ya que esta norma presenta un desplaza­ miento de medio ciclo de subportadora por línea (fe = 227,5 O». Esto proporcio­ 153 152
  • 76.
    -- TECNOI OGfA ACTUALDE TELEVISiÓN na un total de 4 x 227,5 =910 muestras/línea completa. En esta norma la línea digital activa acomoda 768 muestras, mientras que las 142 restantes se localizan en el borrado horizontal. En la norma PAL no es posible obtener un número entero de muestras por línea, como consecuencia de la suma del desplazamiento vertical a la frecuencia de subportadora. En efecto, en esta norma la frecuencia de subportadora es igual a 283,75 veces la frecuencia de línea, más N 12 (N es la frecuencia de campo =50 Hz). El último término "N12" (desplazamiento vertical) equivale a sumar 25 Hz, es decir, un ciclo completo por imagen o, lo que es lo mismo, 180 grados por campo. De esta forma se producen 4 x 283,75 =1.135 muestras/línea más 4 x 1ciclo/625 líneas =1.135,0064 muestras/línea. Sin embargo, resulta convenien­ te tratar la imagen como si cada línea comprendiera un número entero de mues­ tras (muestreo ortogonal), de manera que se hace como si cada línea estuviera for­ mada por 1.135 muestras/línea exactamente. Puesto que en realidad tenemos cua­ tro muestras más por imagen, lo que se hace es despreciar dos muestras en cada borrado de campo. Las muestras de vídeo deben señalar la fase de la subportadora de color. Por esto se hace coincidir la fase de muestreo con la fase del burst (± 135 grados). Las otras dos muestras se toman a ±45 grados. De esta forma se obtienen muestras a 45, 135, 215 Y305 grados. Si la fase de muestreo del burst es la correcta, se obtie­ nen los valores mostrados en la figura 6.2, abajo. Cualquier diferencia entre los valores intermedios del burst y el nivel de borrado (64) se entenderá como un error de la fase de muestreo. Dicho error generará una tensión capaz de reposicionar la fase del convertidor analógico-digital. +U -v FASES DE MUESTREO (PAL) Figura 6.2. Número de muestra por línea en la señal digital compuesta NTSC y PAL. VALORES CUANDO EL BURST SE MUESTREA CORRECTAMENTE (8 BITS) La señal digital compuesta 2.2. Fase de muestreo En la norma americana (SMPTE 244M) el muestreo de la señal compuesta fue definido con referencia a los vectores l y Q, en lugar de R-Y YB-Y, como suele ser normal. La figura 6.3 muestra que cualquier vector de crominancia puede repre­ sentarse mediante los vectores 1y Q o R - Y YB - Y; basta con desplazar ligera­ mente la fase de muestreo. La intención original de la norma NTSC era asignar diferentes anchos de banda a la señal "1" (1 ,3 MHz) ya la señal "Q" (0,5 MHz), lo que permite una mejor resolucion en el eje rojo-cián, donde la agudeza visual cro­ mática es máxima. EJE R·Y .90" VECTOR DE CROMINANCIA EJE J +1230 33­ EJE a" ~.--=----+' ...330 Figura 6.3. ~.. ,. Diagrama polar mostrando la relación entre los vectores de color 1 y Q por FASE DEL EJE B·YO" un lado y R - Y YB - Y por otro./~ (REFERENCIA)BURST .180­ En la figura 6.4 pueden verse los instantes de muestreo de la señal compuesta PAL. Estos instantes están sincronizados con la subportadora de color y se toman coincidiendo con las fases 135, 225, 315 Y45°. INSTANTES DE MUESTREO -u+v -u-v u-v u+vI I I -SUBPS::~REFERENCIA GENERADA A PARTIR DEL BURST 0° +1350 +225° +315° +45° Figura 6.4. Instantes de muestreo de la señal compuesta PAL. l5S 154
  • 77.
    TECNOLOGíA ACTUAL DETELEVISiÓN La figura 6.5 muestra que se puede pasar de un sistema basado en R - Y/B _ Ya otro de tipo IIQ, cambiando simplemente los instantes de muestreo. En la norma NTSC-4 f" es necesario que los instantes de muestreo coincidan con los picos de amplitud positiva y negativa de las señales 1 y Q. La parte superior de la figura muestra los instantes que resultarían adecuados si se trabajara con las señales dife­ rencia de color R - Y YB - Y, mientras que la parte inferior ilustra en qué momen­ tos es necesario muestrear la señal compuesta para sincronizarla con los ejes 1y Q. R-Y ,', B-Y BURST ../:'.. '. , /o' +900 +18Do Q .: , BURST ¡ '. , .• •'.i ,'. O' +900 ¡ +180°: I I i ~ j- Ii I Q ,) -Q II Q -, -Q +123° +213° +303° +330 +123° +213° +303° +330 +123° INSTANTES DE MUESTREO Figura 6.5. Instantes de muestreo de la señal compuesta NTSC, en función de los ejes de crominancia I y Q (ahajo). Aunque se trate de una norma digital, sigue siendo una señal PAL, por lo que es necesario conservar y codificar la secuencia PAL de 8 campos (4 campos en NTSC). Para esto se define la fase de los impulsos de muestreo en función del punto O" de la señal analógica (relación Sc/H). Este punto corresponde al punto de mcdia amplitud de! flanco anterior del impulso de sincronización de línea. En estc punto OH la fase de la subportadora de la señal PAL debe ser de cero grados cuando se esté codific.ando el inicio de la linea uno del campo uno. En estas circunstan­ cias la fase de muestreo será tal que el punto O" quedará ubicado exactamente entre dos instantes de muestreo, es decir, el punto O" quedará a igual distancia de los dos instantes de muestreo de ambos lados (véase figura 6.6 izquierda). En el caso de la señal NTSC, la relación SclH se define también en función del punto de media amplitud del impul­ so de sincroniz.ación horizontal, pero referido a la linea 10 del primer campo. Nótese, en la figura 6.6 derecha, que el desplazamiento de 33° de los ejes 1y Qcon respecto a la subportadora reconstruida a partir del burst provoca que los instantes de muestreo no estén exactamente centrados con respecto al instante O". La señal dig.!J.-ª.LcompUc;;lJ OH OH PAL NTSC 100% 100% 50% 50% 0% 0% rn ~ 01 O'l +-Numero de muestra .. '"~ ~ _Numero de mue!llra .Q ·1 oQ -1 .Q -<-1 .Q .1 ril11iJl J_L_LLLllL33 Gr;~dos ....--~-- 45 GradoS-rJ : 28.2 ns :.. .. 46,6 n!;. 23,3__os ~: ~~_ ,,_ ,.: ~ 34.9 ns 28,2_D~.~ 1.."5"6A os ---'" I .. IMPULSOS DE IMPULSOS DE MUESTREO A MUESTREO A 4fsc. T= 56.4 os 4fsc. T= 69,8 os Figura 6.6. La fase de muestreo dc la scñal compuesta se define cn función dcl punto de media amplitud del flanco anterior del impulso de sincronización de línea. Aqui se muestran los instantes de muestreo y los ticmpos correspondientes a la señal PAL (izquierda) y NTSC (derecha). 3. Rango de amplitudes En la figura 6.7 puede verse la relación entre los niveles de la señal analógica NTSC y los niveles digitales correspondientes en notación decimal y hexadecimal, expresados con 10 bits por muestra. En este caso se trata de las barras de color del 100% de amplitud de croma. Más concretamente, esta señal de prueba se deno mina "100/7,5/100/7,5", donde e! primer número describe el nivel de los colo­ res primarios durante la transmisión de la barra blanca. El segundo número se refiere al nivel de los primarios durante la transmisión de la barra negra. El terce ro identifica el nivel de los primarios durante la transmisión de la máxima modu­ lación de croma, mientras que el cuarto se refiere al nivel de los primarios duran­ te la transmisión de! nivel mínimo de crominancia. Por tanto, e! "7,5" indica la pre­ sencia del llamado "pedestal" o también set-up, típico de la señal NTSC. En esta norma se ha definido la utilización de 10 bits por muestra, lo que propor­ ciona 1,024 niveles, numerados del Oal 1.023 en decimal, o del 000 al 3FF en hexa­ decimaL Al igual que sucede en la señal por componentes, los valores 000, 001,002, 003, 3FC, 3FD, 3FE Y3FF están prohibidos para la representación de las muestras, ya que se reservan para propósitos de sincronización y referencia temporal. Esto pro­ porciona 1.016 niveles para la codificación de las muestras, que, expresados en deci­ mal, van desde el 4 hasta el 1.O19, Yen hexadecimal, desde el 004 hasta el 3FB. Al fondo de sincronismos se le asigna el valor decimal 16, correspondiente al O10 hexa­ decimaL El nivel más alto de la señal, que corresponde al amarillo y al cián, se codifi­ ca con e! valor decimal 972 (3CC,,). Esta norma proporciona un pequeño margen de tolerancia en los niveles bajos, desde el nivel decimal 4 hasta el 16 (004" a 010,,), Yen los niveles altos, desde el 972 al 1.019 en decimal (3CC" A 3FB,,). La tolerancia total 156 157
  • 78.
    -- - Niveles Niveles analógicosdigitales TOLERANCIA mV IRE Oscí Hexa 998,1 139,1 1023 3FF _o. -.-_ 994,2 139,2 1020 3FC RE::¡¡;RVADO 992,9 139,0 1019 3F8. _ ---- Max. nivel cuantificado 934,3 130,8 912 3CC IQb~~_i'J~IA _ ~ --1 001;1/1;1 de croma 714.3 100,0 800 320. g ro ro 11« "1"~ 'E U ~ !53,b o 1.5 o 282 240 llA oFO ~ • Nivel de borrado ~ I·g. 13 a: 1l ~ "z -285,7 -40,0 ,. 010 -__L-J. Fondo de sincronismo -300,7 -'42,1 4 004 mL~RANGlA .__ . _ 003 _ -306,1 --42,8 000 RES~RYADO::-'::======--- ----­ -302,3 -112,3 - - - - - ~ Figura 6.7. Rango de amplitudes de la señal digital compuesta NTSC. equivale a 1 dB Ypermite acomodar los errores de nivel que pudieran presentarse en la señal de entrada. La relación sei'ial a ruido de cuantificación se reduce, como con­ secuencia, en la misma cantidad, es decir, en 1 dB. Debe entenderse que lo anterior se refiere a la relación entre el nivel de pico de la señal de entrada y el nivel RMS del ruido y que aquÍ como señal de entrada se entiende toda la señal, desde el fondo de sincronismo hasta e! máximo nivel de modulación de croma. De! conjunto de niveles permitidos, la señal de luminancia (que es la más crítica) emplea poco más de la mitad, de forma que en el caso de la señal compuesta es especialmente necesario la utilización de 10 bits por muestra. En la figura 6.8 se muestra la relación entre los niveles de la señal analógica PAL y los niveles digitales correspondientes en notación decimal yhexadecimal, expre­ sados con 10 bits por muestra. En este caso se trata de las barras de color del 100% de amplitud de croma. Más concretamente, esta señal de prueba se denomina "100/0/100/0". Puede verse que la señal PAL no dispone de pedestal y que, por tanto, el nivel de negro coincide con el nivel de supresión o borrado. En esta norma se ha definido la utilización de 10 bits por muestra, lo que pro­ porciona 1.024 niveles, numerados del Oal 1.023 en decimal o del 000 al 3FF en hexadecimal. Al igual que sucede en la señal por componentes, los valores 000, 001, 002, 003, 3FC, 3FD, 3FE Y3FF están prohibidos para la representación de las muestras, ya que se reservan para propósitos de sincronización y referencia tem­ poral. Esto proporciona 1.O16 niveles para la codificación de las muestras, que, expresados en decimal, van desde el4 hasta e! 1.019, Y en hexadecimal, desde e! La señal dieital compuesta NIveles NNeles analógicos digitales mV Oaci Hexa 913,0 1023 3FF 909,2 1020 3FC RESERVADO .--.--------------­ :~~::---~~;_9-~TOLERAN9IANEGATlv~~·-~~~Oxl;l~~n~:e~~~:~líficado 1144 >4C700.0 ~iii 1 "I~ 11 ~13 240 OFO Nivel da bárrado "'12. ~ ~ 1:; 1l g,~ z Figura 6.8. Rango de amplitudes de la señal digital compuesta PAL. -300,0 -301 ;l -3.04,8 Fondo de sincronismo 003 -­ _.-_...- - -----­ 000 RESERII.'JJQ- - . 004 004 hasta el 3FB. Al fondo de sincronismos se le asigna el valor decimal 4, corres­ pondiente al 004 hexadecimal. A diferencia de lo que sucede en el caso de la señal compuesta NTSC, en PAL no se deja tolerancia entre el fondo de sincronismos y el mínimo nivel de cuantificacion permitido: son e! mismo valor. El nivel más alto permitido a la señal analógica de entrada es de 903,3 mV, correspondiente al valor digital 1.019 o 3FB". Esto está claramente por debajo de la excursion máxima de los hemiciclos positivos de las señales amarillo y azul de las barras lOO/O/lOO/O, que llegan hasta 933,5 mY. Sin embargo, lo anterior no genera problemas, gracias a que los instantes de muestreo se han elegido de forma que no coincidan con los momentos de máxima amplitud de las señales amarillas INSTANTES DE MUESTREO -U+V -U-V u-v U+V +135or----,-~T-l+45° ¡ ¡ ¡ +2250 +315° SUBPORTADORA DE REFERENCIA GENERADA A PARTIR DEL BURST 0° ---16I"-__ J,_ --O'934V Figura 6.9.._-~ '" Los instantes de muestreo de la . Barra Nivel de barra amarilla del 100% de ampli­ 1.0,886V' amarilla da1100% ­ luminancia ,; O.6-2V- tud, nunca alcanzan el máximo de excursión de la señal analógica. 159 158
  • 79.
    TlCNOlOGIA ACTU:L PETEUV/SI6N o cián. Por ejemplo, el valor más alto realmente muestreado de la señal amarilla es de 0,886 mV, lo cual está claramente por debajo de los 903,3 mV permitidos. Lo anterior puede verse en la figura 6.9. En PAL los valores de cuantificación están mejor aprovechados para la señal útil que en NTSC. 4. Numeración de las muestras Con una frecuencia de muestreo fl = 14,3181 MHz (nominalmente 14,32 MHz) y una frecuencia de exploración horizontal ~, = 15.734,25 Hz, e! número de muestras por línea total en la norma digital compuesta NTSC es de: f,NTSc/f, = 14,3181 MHz / 15.734,25 Hz =910 muestras/línea La línea digital activa acomoda exactamente 768 muestras. Las 142 muestras restantes forman el intervalo de borrado horizontal. En la figura 6.10 puede verse la numeración de las muestras de la señal digital NTSC. El punto de media ampli­ tud, de! flanco anterior del sincronismo de línea analógica, debe caer entre los ins­ 44.2 ns _69.8 os FLANCO ANTERIOR DEL IMPULSO DE (b) SINCRONIZAC¡ÚN DE LINEA NUMERO DE MUESTRA (a) LINEA 524 LINEA 525 I ( LINEA 1 ( Hu'UiL1NEAACTIVA DIGITAL l' ); BORRADO DIGITAL DE LINEA .... (O:.!6!L_17,6.a:9!l!Ji (142 MUESTRAS) (0.909)' ! .LINEACOMPLETA'(63,55 ~;)., (768 MUES7RAS) '" '.¡ Figura 6.10. Numeración de las muestras de la línea digital compuesta NTSC. tantes de muestreo 784 y 785. La primera de las 910 muestras corresponde a la primera muestra de la línea activa, es decir, la numeración de las muestras comien­ za despues del borrado de línea. Esta muestra se numera "O". La última muestra, numerada 909, se localiza al final del borrado de línea de la línea analógica siguien­ te. Esto es distinto a lo que sucede en el caso de la señal digital por componentes. Las muestras °a 767, ambas inclusive, contienen la línea digital activa. La figura 6.11 (a) muestra la numeración normalizada de las muestras a nivel de la línea digital PAL. La figura 6.11 (b) muestra en detalle el flanco anterior del impulso de La sUlal digital COI.!W-Q..Wi! 100% FLANCO ANTERIOR 1 ~DEL IMPULSO DE 50% (b) SINCRONIZACiÓN 1 I DE LINEA IO%L- 4' NUMERO DE MUESTRA 955 956 957 958 959 90Q / / LINEA 624 I (a) ( k I N E A l~NEA625 LINEA ACTIVA DIGITAL Sil . (948 MUESTRAS) i i1 I BORRADO DIGITAL . .. • . DE LINEA JQ.:J!47L ~(948.'134J. (187 MUESTRAS) (O, 1.134) , LiN'EÁCOMPLETA(6¡~~)-' Figura 6.11. Numeración de las muestras de la línea digital compuesta PAL. sincronización de línea, El número exacto de muestras se calcula dividiendo la frecuen­ cia de muestreo por el número de líneas que se producen en un segundo: ["'AJf, =17,734465 MHz / 15.625 Hz = 1.135,0064 muestras/línea La fracción 0,0064 significa que en una línea se habrán producido 0,0064 mues­ tras extra y despues de un campo completo: 312,5 x 0,0064 = 2 muestras extra. Dicho de otra forma, si se entiende que cada línea tiene exactamente 1.135 mues­ tras, entonces la última debería tener 1.137 (dos más) para compensar el pequeño acarreo de 0,0064 muestras de cada línea. Puesto que la numeración no puede pasar de 1.134 (el cero tambien cuenta), la penúltima muestra de la última línea debería ser la número uno y la última la núme­ ro dos. Esto haría que la primera muestra de la línea siguiente fuera la número tres y no la uno, como debe ser. El truco para mantener constante la numeración de las muestras, a nivel de la referencia temporal de la línea digital, consiste en no numerar las dos últimas muestras de la última línea de cada campo. Estas dos muestras no se borran: permanecen en su sitio, pero no reciben numeración. La primera de las 1.135 muestras corresponde a la primera muestra de la línea activa, es decir, la numeración de las muestras comienza despues del borrado de línea. Esta muestra se numera "O". La última muestra, numerada 1.034, se localiza al final del borrado de linea de la línea analógica siguiente. Esto es distinto a lo que sucede en el caso de la señal digital por componentes. Las muestras °a 947, ambas inclusive, contienen la línea digital activa. Si se multiplica el período de muestreo (1/17,734475 MHz =56,38 ns) por el número de muestras de la linea activa digital se verá que la duración de la línea acti­ va digital es superior a la de la línea activa analógica (53,45 ¡.ts vs 52 ¡.ts), pero, al igual que sucede con la señal compuesta, esto no supone ningún problema, ya que durante la conversión digital-analógico se borran las muestras necesarias para reconstruir la duración correcta de la línea analógica. 160 161
  • 80.
    TfCNOl OCJA ACTUAlDE TEII-VISIÓN 5. Referencia temporal de identificación La seilal digital compuesta incorpora información de sincronización (referencia temporal) e identificación. Esta información aparece sólo después de cada flanco anterior de cada impulso de sincronización de línea (a diferencia de la señal por componentes, en que aparece dos veces por cada borrado de línea). La señal de referencia temporal (TRS) está formada por cuatro palabras de 10 bits, con valo­ res hexadecimales: 3FF, 000, 000, 000. En la señal NTSC estas palabras se locali­ zan en las muestras 790, 791, 792 Y793 (véase figura 6.12). Después de las pala­ bras TRS se encuentra una palabra de 10 bits (muestra 794). Tabla 6.1 Señalización de campo en el sistema NTSC mediante tres bits de la palabra TRS. Las combinaciones decimales 4, 5, 6 Y 7 no se aplican en este caso, ya que en la señal NTSC la secuencia de campos es de 4. SEÑALIZACIÓN DE CAMPO EN NTSC BIT 2 BIT 1 BIT O NÚMERO DE CAMPO o O O OO 1 1 1 O 1 O 2 O 1 3 1 0O O 4 1 1 11 1 O1 1 FIN DE LA LlNEAACTlVAANALÓGICA IFIN DE LA LINEA ACTIVA DIGITAL 11 ....... ¡ 767-782 (OFOH ) - (14EH) - - -.. 0- 784 (OA4H ) ~~~----·--50% ~.'1 C--785 (044H ) ¡ '1 ',1 1 ¡I 1854 787 I I (010,) ~I I 1850 TRS·ID I I ~ DATOS ;¡¡.rr79S-849 UXILlARES ~.'',_""''''',_ .,t'f:~;.";;,,,~ (55 palabras) 790 791 f92 793 794 909~ 111 INICIO DE LA LINEA ~ DIGITAL ACTIVA FIN DEL BORRADO HORIZONTAL DIGITAL El número entre paréntesis corresponde al valor de la muestra en notación hexade­ cimal y con 10 bits/muestra r-"----.. .---"--.. ..---"----,. ~ ~ A~ ", 3FF 000 000 000 P P b7 b6 b5 b4 b3 b2 b1 bO PATRÓN FIJO DE IDENTIFICACIÓN REFERENCIA TEMPORAL (PALABRA VARIABLE) Figura 6. J2. Ubicación de la señal de referencia temporal en el sincronismo de línea, en la señal digital compuesta NTSC e identificación de las muestras, en torno al borrado de línea. La senal dil'ital comDucsta Tabla 6.2 Señalización de linea en el sistema NTSC, mediante cinco bits de la palabra TRS. SEÑALIZACiÓN DE LINEA NTSC BIT 7 BIT6 B"5 B"4 ffiT3 N.O DE LINEA O O O O O No utilizado O O O O 1 1 (264) O O O 1 O 2 (265) O O 0 1 1 3 (266) O 1 29 (292) 1 O 30 (293) 1 1 2:31 (2:294) En la señal PAL las palabras TRS se localizan en las muestras 967, 968, 969 Y 970 (véase figura 6.13). Después de las palabras TRS se encuentra una palabra de ID bits (muestra 971 en PAL y 794 en NTSC) con datos de identificación, según las tablas siguientes: Tabla 6.3 Señalización de campo en el sistema PAL mediante tres bits de la palabra TRS. SEÑALIZACiÓN DE CAMPO EN PAL BIT2 BIT 1 BIT O NÚMERO DE CAMPO O O O 1 O O 1 2 O 1 O 3 O 1 1 4 1 O O 5 1 O 1 6 1 1 O 7 1 1 1 8 Tabla 6.4 Señalización de línea en el sistema PAL mediante cinco bits de la palabra TRS. SEÑALIZACiÓN DE LíNEA PAL BIT 7 BIT6 BIT 5 BIT 4 BIT 3 N.O DE LINEA O O O O O O O O O O O 0 O O 1 1 O 1 O 1 No utilizado 1 (314) 2 (315) 3 (316) O 1 1 1 O 1 29 (342) 30 (343) 2:31 (2:344) 162 163
  • 81.
    1¿1 sóiill-!ii.gjt~lJ!J2-q9.!ª Tl5-'NOI.OGiA "CTU!lDE TEU'I....10:-­ IN DE LA LINEA ACTIVAANALOGICA FIN DE LA LINEA ACTIVA DIGITAL 1.1340 / ~ (HE") . . ~:¿CIO DE LA LINEA • ' . 957 (09B") '1:VDIGITALACTIVA ---- 50% 958 (069,,) eFIN DEL BORRADO 948-954 HORIZONTAL DIGITAL (100") , :1.038 962 1.037 El numero entre paréntesis (004") 967~ '1.036 corresponde al valor de la muestra en notación hexade­TRS.:!,O l· DATOS cimal y con 10 bilsimueslra ~",'w~lP",,::-. ~ palabras) .Jt~f972-1.03S-AUXlllARES ,(.64-=~~~~~~,,"~1r. _U¡;;'~"".""",,_~ 967 968 969 970 971 3FF 000000 000 j5 Pb7 b6 b5b~4-b3-b2-b1-b~O PATRÓN FIJO DE IDENTIFICACiÓN REFERENCIA TEMPORAL (PALABRA VARIABLE) Figura 6.13. Ubicaci6n de la señal de referencia temporal en el sincronismo de línea, en la señal digital compuesta PAL e identificación de las muestras, en torno al borrado de línea. El bit 8 forma paridad con los bits Oa 7. El bit 9 es el negado del 8. Los bits Oa 2 indi­ can la secuenda PAL de 8 campos, mientra~ que los bit~ 3 al 7 indican la cuenta de linea en las proximidades del sincronismo vertical, es decir, de la línea 1 a la 30 (o entre la 314 y la 343, si se trata del segundo campo). Las lineas de numeradón superior a 30 (o 343) tienen todas el mismo indicador en la señalizadón de linea. Puede verse que elTRS de la señal compuesta contiene una palabra 000 extra con respecto a la palabraTRS para com­ ponentes. Esto puede usarse como "identificador de tipo" en un sistema de interfaces, donde se combinen señales de diferentes normas. 6. El campo digital El campo digital activo NTSC excede al campo analógico activo, ya que empie­ za antes y termina después. En los campos impares el intervalo de borrado verti­ cal digital se extiende desde la muestra 768 de la línea 525 hasta la muestra 767 de la línea 9, ambas inclusive. En los campos pares el borrado abarca desde la mues­ tra 313 de la línea 263 hasta la muestra 767 de la linea 272. La figura 6.14 mues­ tra la relación entre los períodos activos de los campos analógico y digital de la señal compuesta NTSC. Al igual que sucede con los campos, también la duración de la linea digital acti­ va excede a la duración de la línea activa analógica, sobrepasándola, tanto en su ini­ cio como en su final. Por tanto, la línea activa digital incluye los bordes del borra­ do analógico de linea. Esto ayuda a enmascarar los posibles efectos de rizado y Isobreimpulsos, generados por el limitado ancho de banda del filtro de reconstruc­ ión del convertidor DIA, como consecuencia de los rápidos cambios de nivel que ) 11•.,.l.~ !1'i. ~' "'=~ , 18;~ado d.gilal BonadoI 11 de campo v ..::?~~a;~~~i1g~ 21~Bt'¿~" Campos de video ;* aclfVOS (1 y 111) -lmp;,tes­ ~{ A,:,a.l~g¡co Del mIC'O de la Hnel!l 21 8 la mrlad dI! la linea 263 019~tal Del InicIO de la Ifnea 10 ;lo la milad de la linea 263 -"fi3()rrado digital -.i--º.e campo ~ .. '" ." "'-. '"l-·!! Campos de video Ac1ivos (11 y IV) -P.ue~~ Anal~gleo De la mitad de la linea 263 el final de la lIf1ea 525 ~cuadm 1(1"'f;,t,¡ dig~tal ,~,!" Del~:~~273 ''11 actIvo :~ .,'1-", 1.0~'1': a la linea 525 (ambas inclusive) ~. DCU.d'~analógICO 525 __ . activo Figura 6.14-. Comparaci6n entre el cuadro anal6gico y el digital en la norma NTSC. se producen en los límites entre el borrado y la zona activa. El borrado de línea digital se extiende desde la muestra 768 hasta la muestra 909, ambas inclusive, de todas las líneas fuera del intervalo de borrado vertical. La norma NTSC especifica que la relación entre la fase de la subportadora y la posición de! impulso de sincronización horizontal (SC/H) en el dominio digital debe ser igual a cero. En analógico, la SC/H se define como una señal en la que e! punto de referencia horizontal (O,,) es coincidente con el paso por cero de una senoide, sincronizada con el bUTSt (una senoide continua que tenga la misma fase que el burst). La relación entre la frecuencia de la subportadora NTSC y la fre­ cuencia de exploración horizontal provoca que la dirección del paso por cero alter­ ne entre hacia arriba y hacia abajo en campos sucesivos. El campo 1se define como aquel en el que el primer paso por cero de la línea 10 tiene dirección hacia arriba. Esta especificación tan detallada y precisa debe mantenerse, por ejemplo, en todas las fuentes de señal asociadas a un sistema de edición, si se quiere que los insertos de vídeo resulten correctos. El campo digital activo PAL excede al campo analógico activo, ya que empieza antes y termina después. En los campos impares el intervalo de borrado vertical digital se extiende desde la muestra 382 de la línea 623 hasta la muestra 947 de la línea 5, ambas inclusive. En los campos pares el borrado abarca desde la muestra 165 64
  • 82.
    TITN()Uh;IA ACTUAl DI-n:II:'I'ilÚN La scilal dIgital compuesta 948 de la línea 310 hasta la muestra 947 de la línea 317. La figura 6.15 muestra la relación entre los períodos activos de los campos analógico y digital de la señal compuesta PAL. Al igual que sucede con los campos, también la duración de la línea digital activa excede a la duración de la línea activa analógica, sobrepasándola, tanto en su inicio como en su fina!. Por tanto, la línea activa digital incluye los bordes del borrado ana­ lógico de línea. Esto ayuda a enmascarar los posibles efectos de rizado y sobreimpul­ sos generados por el limitado ancho de banda del filtro de reconstrucción del conver­ tidor DIA, como consecuencia de los rápidos cambios de nivel que se producen en los límites entre el borrado y la zona activa. El borrado de línea digital se extiende desde la muestra 948 hasta la muestra 1.134, ambas inclusive, de todas las lineas fuera del intervalo de borrado vertical. Puede resultar extraña la forma trapezoidal del campo digital activo PAL (figu­ ra 6. 15). Esto es sólo una representación gráfica y es consecuencia de que la fase de muestreo está sincronizada con la fase de la subportadora de color y que, por otro lado, la frecuencia de muestreo no es un múltiplo exacto de la frecuencia de líneas. Lo anterior supone que una línea digital contiene un cierto número de muestras y un poco más. En concreto, una línea digital (total) PAL contiene 1.135,0064 muestras, de manera que el primer intervalo de muestro de la línea 23-_ Borrado 1 . . . FadOdigital an8/ógico 5 - . de campo [ decampo 2~aMI~'itj,t~.AAQana24----·· Campos de l/deo actIVos (1 y Ul) -Irnpares- Analógico De la mitad de la linea 23, al final de la linea 310 De?~~:~la6 a la linea 310 (ambas inciu$Jve) 310 T 311~ 312_ -/f B~rr.8do Borra~o 317 ~__""''';<~~ I dlgllal analógIco 31B-r.t:''¿:~$w;,¡ de campo de campo1335~_~?._ 336~ 337 Ca~pos de video actIvos (11 y IV) -Pares- Analógico Del Inicio de 336 a la milad de la 623 Cuadro De 1~:Pr::1 318 .. .. digital él la linea 623 • iil.1iVO (ambas ll'lcJuslve) D cuadro analógico activo sn ~ A Figura 6.15. Comparación entre el cuadro analógico y el digital en la norma PAL. siguiente no es completo, produciéndose un pequeño desplazamiento. Al terminar la imagen se habrá acumulado un desplazamiento total de 0,0064 x 625 =4 mues­ tras, lo que equivale a dos muestras por campo. Este desplazamiento es tan peque­ ño (1 12 nslcampo) que no tiene efectos reales sobre la imagen; sólo hace que el muestreo de la señal compuesta PAL tenga que catalogarse como "no-ortoBonal". En la figma 6.15 puede verse que, en cualquier caso, la falta de ortogonalidad queda confinada a la tolerancia entre el campo digital y el analógico. 7. Características de los interfaces En la señal digital compuesta, ya sea NTse o PAL, se utilizan los mismos inter­ faces de comunicación que en la señal digital por componentes. Existen, por tanto, dos tipos de interfaces o sistemas de conexión para señal digital compuesta: para­ lelo y serie. El interfaz paralelo consiste, igual que en componentes, en once pares de hilos que conectan un dispositivo con otro. Diez pares transportan los datos correspon­ dientes a la señal de televisión o los datos asociados, mientras que el par once trans­ porta la señal de reloj sincrónica. Se dispone además de un par extra para la cone­ xión de la señal de tierra. Los datos se numeran desde DATO-O a DATO-9. DATO­ OYDATO-l son opcionales y pueden utilizarse para aumentar la resolución de las muestras de vídeo, desde un mínimo de 8 bits hasta un máximo de 10 bits. La fre­ cuencia de transmisión de datos y, por tanto, la frecuencia de la señal de re!oj es de 4 x fse = 17,734475 MHz en PALy de 14,31818 MHz en NTSC. El interfaz para­ lelo resulta adecuado para conectar equipos separados unos 40 m entre sÍ. También el interfaz serie para señales digitales compuestas es igual que en e! caso de componentes. Si se utilizan cables coaxiales de calidad, el interfaz serie permite distancias de conexión hasta 200 m. Los 10 bits generan una señal serie con una tasa binaria de 177,34475 Mbits/sen el caso de la señal PAL yde 143,1818 Mbits/s en el caso de la señal NTSC. El código de canal utilizado para la aleatorización, control de bajas frecuencias y De es el mismo que el empleado en el interfaz para señales por componentes digitales, es decir, el RNRZI, y utiliza los mismos polinomios generadores: GI(x) = x' + x' + 1 y G,(x) = x + l. Resumen • La norma digital compuesta surge para satisfacer las necesidades de! merca­ do, que a mediados de los ochenta demandaba equipos más económicos y directamente insertables en el entorno compuesto. Se trata de normas dise­ ñadas inicialmente por fabricantes y recogidas después por los organismos reguladores. • Para facilitar el posterior tratamiento de la señal digital compuesta (separa­ ción luminancia/crominancia, ajuste de niveles y retardos, etc.), resulta con­ veniente que la frecuencia de muestreo esté sincronizada con la frecuencia de la subportadora de color. 166 167
  • 83.
    TLC:~OLOGlt ACíU,L DETEU::V!";¡Ú:--: o En particular estos procesos resultan mas sencillos si la frecuencia de mues­ treo es igual a cuatro veces la frecuencia de la subportadora de color: f, = 4e. Esto conduce a una frecuencia de muestreo de: 4 x 4,43MHz =17,73 MHz en PAL y 4 x 3,58 MHz = 14,32 MHz en NTSC. o En la señal de vídeo compuesta la relación SCA/H cambia línea a línea e inclu­ so campo a campo. Por esta razón es conveniente digitalizar esta relación, lo que significa muestrear y cuantificar parte de los borrados de línea. o En NTSC, muestreando a cuatro veces la subportadora de color, se produce un número exacto de muestras por linea, ya que esta norma presenta un des­ plazamiento de medio ciclo de subportadora por línea (fc =227,5 fL). Esto proporciona un total de 4 x 227,5 =910 muestl"as/linea completa. De éstas, 768 corresponden a la linea activa y 142 al borrado de linea. o En PAL se producen 1.135,0064 muestras por linea, aunque se hace como si hubieran exactamente 1.135 muestras/linea. De éstas, 948 corresponden a la linea digital activa y 187 al borrado de linea. Puesto que en realidad tenemos cuatro muestras mas por imagen, lo que se hace es despreciar dos muestras en cada borrado de campo. o Las muestras de vídeo deben señalar la fase de la subportadora de color. Por esto se hace coincidir la fase de muestreo con la fase de! burst (± 135 grados). Las otras dos muestras se toman a ±45 grados. De esta forma en PAL se obtienen muestras a 45, 135, 215 Y 305 grados. o En la norma americana el muestreo de la señal compuesta fue definido con referencia a los vectores "1" y "Q", en lugar de R - Y YB - Y, como suele ser normal. La intención original de la norma NTSC era asignar diferentes anchos de banda a la señal "1" (1,3 MHz) ya la señal "Q" (0,5 MHz), lo que permite una mejor resolución en el eje rojo-cian, donde la agudeza visual cro­ mática es máxima. Así las fases de muestreo en esta norma son: + 123, + 213, +303 Y +33 grados. o En la norma digital compuesta se define de forma precisa la relación SC/H. En el caso de la señal PAL, en el punto 011 la fase de la subportadora debe ser de cero grados, cuando se esté codificando e! inicio de la línea uno del campo uno. En estas circunstancias la fase de muestreo sera tal que e! punto OH que­ dará ubicado exactamente entre dos instantes de muestreo, es decir, el punto O" quedara a igual distancia de los dos instantes de muestreo de ambos lados. • En el caso de la señal NTSC, la re!ación SC/H se define también en función del punto de media amplitud de! impulso de sincronización horizontal, pero referido a la linea 10 del primer campo. El desplazamiento de 33° de los ejes I y Q con respecto a la subportadora reconstruida a partir del burst provoca que los instantes de muestreo no estén exactamente centrados con respecto al instante OH' o En la norma NTSC se ha definido la utilización de 10 bits por muestra, lo que proporciona 1.024 niveles, numerados del Oal 1.023 en decimal o de! 000 al 3FF en hexadecimal. Al igual que sucede en la señal por componentes, los valores 000, 001, 002, 003, 3FC, 3FD, 3FE Y 3FF están prohibidos para la representación de las muestras. Esto proporciona 1.016 niveles para la codi- Ll sCJ'laLili..giWsJ.~IJU1lIf:'i~ ficación de las muestras. Al fondo de sincronismos se le asigna el "alor deci­ mal 16, correspondiente al O1Ohexadecimal. o En PAL se aprovecha un poco mejor e! rango dinamico disponible. Por un lado, no se deja tolerancia por abajo (el fondo de sincronismo se codifica con el valor deci­ mal 4, en Jugar del 16) y, por atTO lado, se utiliza el pl-incipio de "tolerancia nega­ tiva" en la cocJif¡cación de los valores mas altos de <'Tominancia. o La señal digital compuesta incorpora información de sincronización (referen­ cia temporal) e identificación. Esta información aparece sólo después de cada flanco anterior de cada impulso de sincronización de linea (a diferencia de la señal por componentes, en que aparece dos veces por cada borrado de línea). La señal de referencia temporal (TRS) esta formada por cuatro palabras de 10 bits, con valores hexadecimales: 3FF, 000, 000, 000. En la señal NTSC estas palabras se localizan en las muestras 790, 791, 792 Y793 (en PAL, de la 967 a la 970). Después de la las palabras TRS se encuentra una palabra de 10 bits (muestra 794 en NTSC y 971 en PAL) que es la que aporta la información de identificación. o Los bits de la palabra de identificación informan sobre la secuencia de color (4 campos en NTSC y 8 campos en PAL) y el número de línea en torno al borrado vertical (desde la línea 1 a la 31 y sus equivalentes en el segundo campo). El campo digital activo, tanto en NTSC como en PAL, excede al campo ana­ lógico activo, ya que el primero incluye mas líneas que el segundo y, ademas, las líneas digitales son mas largas que las analógicas. Esto permite acomodar los errores de codificación o artificios que pudieran producirse en las transi­ ciones entre los borrados y las zonas activas. o En la señal digital compuesta, ya sea NTSC o PAL, se utilizan los mismos interfaces de comunicación que en la señal digital pOI' componentes. Existen, por tanto, dos tipos de interfaces o sistemas de conexión para señal digital compuesta: paralelo y serie. 168 169
  • 84.
    I I I ! ¡ CAPÍTULO 7 Compresión envídeo 1. Introducción La digitalización de las imágenes ofrece muchas y muy importantes ventajas, algunas de ellas ya enumeradas en e! capítulo 4. El mayor éxito de! vídeo digital se produjo en posproducción, donde e! alto coste de los equipos quedaba compensa­ do por la mayor calidad y la multigeneración ilimitada sin perdidas. Por otro lado, una producción normal de TV genera unos 200 Mbits/s. Tal fre­ cuencia binaria requiere grandes capacidades de almacenamiento y enormes anchos de banda para su transmisión. La utilización masiva del vídeo digital sólo será un~ realidad si se reducen las necesidades de almacenamiento y de ancho de banda. Este es justamente e! propósito de la compresión. Casi todas las aplicaciones actuales emplean compresión. Formatos de magne­ toscopios como el Betacam Digital, DVCPRO, DVCAM, DIGITAL-S, Betacam SX o MPEG-IMX, soportes multimedia como el DVD, sistemas de televisión digital, como ATSC o DVB, etc., todos ellos utilizan la compresión de datos para propor­ cionar más y mejores servicios. Es, por tanto, necesario conocer los principios básicos, las técnicas y los trucos que permiten, por ejemplo, reducir desde 200 Mbits/s a sólo 6 Mbits/s un tren binario sin que apenas sufra la calidad de la ima­ gen en movimiento. Estudiar los procesos que permiten comprimir las imagenes y sonidos no sólo es necesario, sino que, además, puede resultar, para cualquier persona inquieta, un ejercicio interesante y hasta fascinante. La compresión permite al usuario elegir la combinacion de parámetros de muestreo y factores de compresión que mejor se adapten a sus necesidades. Esta nueva filosofía de "norma a la carta" esta desplazando a los viejos y rígidos concep­ tos de "frecuencia de líneas", "frecuencia de campos" y "codificación del color PAL, 171
  • 85.
    TlCNOLOGI..I ACTUAL D[TU,,,J!c'-I'.c:""'I<¿j')N-'-' _ NTSC y SECAM", Distintos factores de compresión significan distintas frecuencias binarias (el equivalente en digital al concepto de ancho de banda), lo que supone, a su vez, distintos niveles de coste)' prestaciones en la grabaCión, en e! procesado y en la transmisión. Tal flexibilidad permite, por ejemplo, transmitir "ídeo digital por los cables de cobre utilizados por las compaii.ías telefonicas, por cables coaxiales o de fibra opti­ ca, por los transmisores VHF /UHF o por satélites de comunicación directa al usua­ rio (D8S), cada uno de ellos con su propia tasa binaria y su propio nivel de calidad. Otro factor de gran influencia es la aparición de los ordenadores tipo PC, capa­ ces de generar)' manipular imágenes a muy bajo coste. En el entorno de los estu­ dios de televisión esta pequeña maravilla, compacta, eficiente y versátil, está revo­ lucionando las técnicas de produccion. En la mayoría de los casos el vídeo sobre PC necesita la ayuda de la compresión. 2. ¿Para qué comprimir? La compresión está de moda, pero eso no es razon suficiente para utilizarla. La compresion puede servir, por ejemplo: • Para ubicar audio y vídeo en soportes donde no sería posible: CD-ROM, canales de transmisión estrechos, etc. • Para lograr mayor calidad, fiabilidad, robustez, etc. en un soporte determina­ do, como, por ejemplo, DVTR o DAT (al grabar menos datos, las pistas pue­ den ser más anchas y las longitudes de onda grabadas en cinta más largas). • Para aumentar el tiempo de grabación y reducir el tiempo de acceso en los magnetoscopios. • Para poder enviar más programas sobre un mismo soporte: DVD, vídeo bajo demanda, etc. En la tabla 7.1 podemos ver algunas posibles aplicaciones de la compresión en vídeo y audio. Consideremos la transmision de una página gráfica mediante FAX. El tamaño de la página suele ser el llamado DIN-A4 (297 x 210 mm). La resolucion más frecuente es de 200 puntos/pulgada. Puesto que cada punto solo puede ser blanco o negro, éste puede codificarse con un solo bit, lo que genera 3,74 Mbits/página. Si se transmitie­ ra esta informacion a través de un modem de 14,4 Kbits/s, serían necesarios 5,62 minutos para transmitir la página completa. Gracias a la compresión, la transmisión puede realizarse en sólo 17 segundos, lo que supone reducir el coste a 1/20. Consideremos ahora la reproducción de vídeo a partir de un CD-ROM (720 x 576 píxeles, 25 imágenes por segundo). Esta aplicacion genera una fre­ cuencia binaria de algo más de 20 Mbytes/segundo (166 Mbits/s exactamente). A esta frecuencia binaria sólo se podrían almacenar 30 segundos de vídeo en los 650 Mbytes de capacidad de! CD-ROM. Aplicando compresión podemos almacenar hasta 74 minutos de vídeo en movimiento (150 veces más), aunque con una cierta pérdida de calidad. Comj2fs.,<;jÚllS!LÜl~! Tabla 7.1 Algunas aplicaciones de la compresión. APLlCACION Frecuencia binaria Sin compresión Con compresión Notas Voz: 8 Kmuestras/s; 8 bits/muestra 64 Kb/s 2-4 Kb/s Vídeo a baja frecuencia temporal, 177 x 120 píxeles; 8bits/muestra 5,07 Mb/s 8-16 Kb/s 10 cuadros segundo Audioconferencia 8 Kmuestras/s; 8 bits/muestra 64 Kb/s 4-16 Kb/s Videoconferencia 352 x 240 píxeles; 10,13 Mb/s 64-768 Kb/s Solo "V" 8 bits/muestra Audio digital (estéreo) 44,1 Kmuestras; 16 bits/muestra 1,5 Mb/s 64-128 Kb/s Vídeo en CD-ROM 352 x 288 pixels 30,41 Mb/s 1,5 Mb/s 2:1 :0 Vídeo calidad radiodifusión 720 x 576 píxeles; 8 bits/muestra 165,88 Mb/s 4-6 Mb/s 4:2:0 HDTV 1.920 x 1.152 píxeles; 884,73 Mb/s 16-25 Mb/s 8:4:4 8 bits/muest. 3. Teoría de la información La informacion de las imágenes de vídeo puede dividirse en tres partes: • El elemento rcdundante: Información repetitiva o predecible. Una señal de vídeo contiene mucha información redundante. Un píxel tiende a parecerse a sus vecinos (redundancia espacial). Una imagen tiende a parecerse a la que le pre­ cede y a la que le sigue (redundancia temporal). • El elemento irrclevante: Información que el ojo humano no es capaz de apreciar. • El clcmento básico: Información que no es redundante ni irrelevante y que debe retenerse. La compresion pretende reducir (idealmente eliminar) tanto la redundancia como la información irrelevante. Desgraciadamente, las fronteras entre estos tres elementos son borrosas, en especial entre irrelevante y perceptualmente básica. La habilidad a la hora de separarlas depende de la "inteligencia" del codi­ ficador, de la cantidad de memoria utilizada para el análisis y del retardo per­ mitido. 172 173
  • 86.
    Compresión en ,"ideo JlCN()1O{;iA ACTUAl nE Tf:Ll:.·I~IO~ 3. l. Tipos de compresión Conceptualmente podemos dividir los sistemas de compresi6n en tres tipos: sin pérdidas, subjetivamente sin pérdidas y subjetivamente con pérdidas. Tabla 7.2 Los tres tipos básicos de compresión: sin pérdidas reales, subjetivamente sin pérdidas y subjetivamente con pérdidas. TIPO PRECISiÓN FACTOR DE COMPRESiÓN APLICACiÓN Sin pérdidas reales Precisión bit a bit Bajo nivel de compresión Informática Subjetivamente sin pérdidas Errores no perceptibles Nivel medio de compresión Broadcast Errores Subjetivamente con péridas perceptibles pero tolerables Alto nviel de compresión Comunicación Los compresores utilizados en informatica necesitan una precisión "bit-a-bit". Esto hace que el factor de compresión (relación entre la cantidad de datos antes y después de la compresión) sea variable, ya que depende de la cantidad de redun­ dancia que contenga el archivo original. Al tener que respetar la integridad de los datos, el factor de compresión medio suele ser pequeño (entre 1: 1 y 1O: 1). Además varia con la complejidad del archivo. En audio y vídeo se pueden tolerar ciertas pérdidas de información, cuando se sabe que no van a ser percibidas por el espectador (codificación perceptiva). De esta manera se logra un factor de compresión mayor (2: 1 a 40: 17). Ademas se puede hacer que el factor de compresión sea constante, tolerando mas pérdidas subjetivas cuando la redundancia es menor. , La máxima compresión se logra cuando se permiten errores que el espectador o el oyente pueden ap¡'eciar, pero que son tolerables en una aplicación dada. Por ejemplo, en aplicaciones de "videoconferencia", puede ser suficiente con imágenes en blanco y negro, de poca resolución espacial y con una frecuencia de refresco de imagen (resolución temporal) muy baja. Otra aplicación de este tipo poddan ser las copias de vídeo y audio para aplicaciones iifJ-line. En estos casos se pueden lograr factores de compresión de mas de 100: 17. 3.2. Entropía vs redundancia Toda imagen contiene una cierta cantidad de redundancia, la cual se define como aquellos datos que son repetitivos o predecibles. La diferencia entre la can­ tidad total de datos de un mensaje y su redundancia se conoce como "entropía". Por tanto, el contenido de información real o entropía de una muestra es una fun­ ción de cuán diferente es ésta con respecto a su valor predecible. Una onda senoi­ dal, por ejemplo, es muy predecible, puesto que todos los ciclos son iguales y no ocupa ancho de banda. En el otro extremo, el ruido aleatorio es totalmente impredecible y, por tanto, imposible de comprimir. El lenguaje humano es un buen ejemplo de redun­ dancia. Si un camarero nos pregunta que deseamos tomar, podríamos contestar: "¿Seria tan amable de traerme una taza de café solo, por favor?". Sin embar­ go, "Cafe solo, por favor" resulta igual de comprensi­ ble, ya que la acción de traer esta implícita en el hecho de servir un cafe y, ademas, ya se sabe que hace falta una taza que lo contenga. Dejando de un lado la cortesía, "Un café solo" hubiera sido suficiente e incluso "Un café" bastaría. Los sistemas de compresión intentan eliminar toda la redundancia posible. Sin embargo, la redun­ dancia no es siempre mala, ya que, por otra parte, da seguridad al mensaje. De hecho, a la hora de proteger un mensaje contra posibles errores del canal de transmisión, grabación, etc., todos los sistemas añaden una cierta cantidad de redundancia (debidamente calculada) a los datos originales. Si el camarero no hubiera oido bien la palabra "café", seguramente las palabras "taza" y "solo" (que son redundancia) le habrian dado una pista. Puede notarse en representación espectral de la figura 7.1 que, dada una infor­ mación concreta, no todas las frecuencias existen simultaneamente Y con total energia. Igualmente, en el histograma puede verse que el numero de ocurrencias SEPARACiÓN ENTROpIA-REDUNDANCIA CODIFICACiÓN SIN P(RDIDAS IMAGEN ORIGINAL l~lREDUNDANCIA ANCHO DE BANDA FRECUENCIA *'" CODIFICACiÓN CON P(RDIDAS " ~1Li~:~lo VALOR DE LAS MUESTRAS Figura 7.1. Toda imagen está formada por eiertas cantidades de redundancia y ciertas otras de entropía. La codificacion sin perdidas respeta toda la entropía mientras elimina la redundancia. La cDdi­ llcacion con pérdidas permite eliminar parte de la entropía. 174­ 175
  • 87.
    TlCNOL<.l§M...:-C1 U)L D'~L~I",T",L"-Lll.!·I"SI,,6,,,;-¡,--_ de los valores digitales de los píxeles está polarizado hacia ciertos valores. Son estas ca¡-acterísticas de la señal las gue permiten la compresión Por definición, la comp¡-esión elimina la redundancia gue toda información con­ tiene. Sin embargo, la redundancia es esencial para Iogra¡- gue los datos sean resisten­ tes a los errores del canal de grabación o transmisión. Los datos comprimidos son más propensos a presentar errores gue los no comprimidos. Por tanto, los sistemas guc emplean compresión deben utilizar esguemas de protección contra errores más potentes. Por ejemplo, el Betacam-Digital Comp¡-ime ligeramente (2: 1) los datos antes de grabarlos en cinta, por lo gue requiere un 20% más de redundancia para pro­ tección contra errores que el D-S, que no comprime. Como norma, la compresión de datos no se empleará gratuitamente; sólo cuando sea necesaria. La entropía, sobre la que ya se ha hablado en el apartado anterior, es una medi­ da del desorden o de la impredictibilidad. Esto resulta un tanto raro para los téc­ nicos de televisión, acostumbrados a asimilar el desorden con el ruido y la parte de la señal gue no es ruido con la información. El concepto importante es el de la pre­ dictibilidadj un mensaje perfectamente predecible no contiene ninguna informa­ ción. Si sabemos Jo que va a decir un mensaje, nuestro almacén de información no cambia después de recibirlo. Si el mensaje es en alguna medida impredecible, ten­ dremos más información después de recibirlo. Por tanto, entropía significa info¡'­ mación nueva e impredecible. 4. Redundancia y entropía en las imágenes de televisión Separar la redundancia de la entropía es como separar el grano de la paja. La mies trillada abulta mucho, pero tiene poca sustancia. De igual forma, las imáge­ nes digitalizadas consumen muchos bits, aunque posean poca información real. 4. 1. Redundancia estadística Prácticamente todas las imágenes contienen grandes cantidades de información repetitiva o predecible. Si no se utilizaran sistemas de reducción de datos, estos valores idénticos se repetirían, llenando innecesariamente el canal de transmisión o de grabación. Puesto que la información de televisión fluye en tres dimensiones (horizontal, vertical y temporal), podemos encontrar redundancia en cualguiera de ellas. Así un punto de la imagen tiende a parecerse a sus vecinos de la izquierda y la derecha; una línea tiende a ser similar a la de más arriba y a la de más abajo; una imagen suele parecerse a la que le precede y a la que le sigue. En los dos pri­ meros casos se habla de redundancia espacial, mientras que en el último se habla de redundancia temporal. 4.2. Redundancia perceptuaI Además de la redundancia estadística, las imágenes de televisión contienen información real, no repetitiva ni predecible, pero que el sistema de percepción _ -'c"'·Q"-'JTllf!! csiúlJ QDJ~.kQ I visual humano no es capaz de apreciar o, dicho de otra forma, que si se elimina, la calidad subjetiva de la imagen no empeora o apenas lo hace. Si el sistema de per­ cepción visual humano no es capaz de ver ciertos "errores de codificación", tales errores no afectan a la calidad percibida. Por tanto, ciertos valores pueden ser alte­ rados y en algunos casos incluso eliminados del tren binario, sin que esto suponga una degradación apreciable de la imagen. 4.3. Entropía de las imágenes Como se ha visto, la entropfa es una medida del contenido real de información de una imagcn que ha sido digitalizada. Según la teoría de la información, la ocu­ rrencia de un suceso poco probable contiene más información que la de otro más probable. A partir de esta observación puede decirse que la entropía define la difi­ cultad de codificación de una imagen. Lo anterior significa gue si, analizando una cierta cantidad de información ya recibida, el nuevo dato es altamente probable, tal dato contiene muy poca información real o, lo gue es lo mismo, muy poca entropía. La entropía también se define como "la mínima cantidad de información pro­ mediada por muestra binaria que es necesario preservar para poder reconstruir la información original sin incertidumbre". Una imagen digitalizada en blanco y negro, con 256 niveles de gris (8 bits/muestra), podría, por ejemplo, indicar, des­ pués de una codificación diferencial "entropía =4,14". Esto significa que, como promedio, son necesarios 4,14 bits/muestra para codificar toda la información de la imagcn, de forma gue la reconstrucción posterior no suponga ninguna pérdida de información. Otro esguema de codificación estadística más avanzado que la diferencial podría dejar la imagen con una "entropía = 3,88", aungue existe un límite tearico deno­ minado entropía mínima. Si un sistema de compresión dc vídeo reduce la tasa bina­ ria por debajo del valor de entropía mínima, una parte de la información de la ima­ gen se perderá inevitablemente. 4.4. Redundancia en tres dimensiones Cuando sc desea obtener un factor de compresión e1cvado, es necesario elimi­ nar tanto la redundancia espacial como la temporal. Hay varios procedimientos para eliminar o reducir la redundancia espacial, la mayoría de ellos basados en el análisis de las frecuencias gue componen la imagen. Para reducir la redundancia temporal, lo que se hace es no enviar las imágenes de vídeo en sí mismas, sino la diferencia entre ellas. Por ejemplo, una de cada diez imágenes se podría enviar completa, mientras gue de las otras nueve sólo se enviaría la medida en que cada una difiere de la anterior. Con este sistema pueden lograrse factores de compre­ sian elevados, pero hay gue tomar algunas precauciones. Por ejemplo, podría ser necesario enviar una imagen completa extra cada vez que hubiera un cambio de plano. 176 177
  • 88.
    TECNOLOGIA ACTUAl. DETEI.I:VI,lf)N ComDrcsión en video ! mm mm mm iIDf mm mm r e{ U-'Zc{ c{u 0­ Z"" :::lffio>w el:: p@ ¿ U'?­ '¡::v REDUNDANCIA ::0~~O~ HORIZONTAL «:-tv~tv~ Figura 7.2. La redundancia espacial puede apreciarse por la similitud entre elementos vecinos en una misma imagen. Basta con observar un grupo de fotogramas de película de cine, para ver que las imágenes en movimiento contienen, además, redundancia temporal. Los sistemas que comprimen temporalmente (también denominados de com­ presión intercampo o de compresión intercuadro) no son adecuados para la graba­ ción digital profesional, ya que en este tipo de aplicaciones interesa que una ima­ gen sea una entidad en sí misma y no la diferencia codificada de la imagen o imá­ genes precedentes. A la hora de editar, el montador desea poder cortar en cual­ quier punto, sin que esto rompa ninguna secuencia de codificación. Para entender cómo se puede comprimir una imagen es necesario cOIlocer las características espectrales de las imágenes de vídeo. Una señal de vídeo conven­ cional ocupa un espectro que puede extenderse desde Oa 6 MHz. Sin embargo, la mayoría de las imágenes de vídeo que representan objetos naturales están com­ puestas básicamente por bajas frecuencias. Las altas frecuencias aparecen sólo en las zonas de finas texturas o en los ~~~,:. -".l bordes de los objetos (como en las rayas de la chaqueta o en los bordes que delimitan al presentador de la figura 7.3). Por tanto, se puede pen­ sar que una imagen como la de dicha Figura 7.3. Ejemplo de frecuencias espaciales en imá­ genes de televisión figura contiene una gran cantidad de información relacionada con áreas de bajas frecuencias y muy poca información en áreas de altas frecuencias. Se puede concluir que cuando se procesa vídeo digital podríamos asignar el I numero de bits en función de la frecuencia: más bits en las zonas de baja frecuen­ cia (que contienen la mayor parte de la información) y menos bits en las zonas de altas frecuencias (que contienen muy poca información). Asignando adecuadamen­ i te el numero de bits en función de la frecuencia, se puede reducir considerable­ I I mente la cantidad de datos que representan la imagen sin que ésta se degrade. Sin embargo, lo anterior se basa en supuestos estadísticos, de forma que nada asegura que el contenido de información en las altas frecuencias sea siempre bajo. I 5. Técnicas de reducción de datos Los sistemas reales de compresión de datos, actuales y potentes, son combina­ ciones de muchas y variadas técnicas o herramientas. Éstas pueden dividirse en dos grupos: herramientas de "compresión sin pérdidas", también llamada "compresión matemática" o "compresión entrópica", y herramientas de "compresión con pérdi­ das" o "compresión perceptual". Aunque durante las últimas décadas se han des­ arrollado muchas herramientas de compresión "con pérdidas" y "sin pérdidas", sólo algunas son adecuadas para la compresión de imágenes. A estas herramientas habría que añadir algunos "trucos" que ayudan igualmente a reducir la tasa binaria. La figura 7.4 resume las herramientas y trucos empleados en la compresión JPEG Uoint Photo8raphic Experc Group) para imágenes estáticas y MPEG (Motion Pieture Expert Group) para imágenes en movimiento, así como en magnetoscopios digitales. INFORMACiÓN ORIGINAL PCM Figura 7'+. algunos formatos de JPEG M-JPEG MPEG-1 MPEG-2 >1 DVCPRO p-DIGITAL DIGITAL-S Técnicas de reducción de datos, con y sin pérdidas utilizadas en los sistemas de compresión JPEG, MPEG YDVTRs. 178 179
  • 89.
    TECNOLOGIA ACTUAL DLrW~"'~IS~·I(~)~~·. _ Además de las técnicas mostradas en la figura 7.4, existen otTaS que o bien están en desarrollo o resultan difíciles de aplicar a las imágenes de televisión, por lo que no serán tratadas en este libro. Entre ellas cabe destacar la KLT (Transformada de Karhunen­ Loeve), la WHT (transformada de Walsh-Hadamard), los lI'al'e/ets y los fractales. Ninguna de las técnicas que aparecen en la figura 7.4 es capaz, por s! sola, de proporcionar una reducción significativa de los datos en el tratamiento de las imá­ genes de televisión. Es la combinación inteligente de muchas técnicas y trucos lo que permite reducir la tasa binaria, manteniendo el máximo de calidad. As!, por ejemplo, los sistemas MPEG combinan en un mismo codificador todas las técnicas mostradas en la figura 7.4. Resulta conveniente, a la hora de estudiar la tecnolog!a de la compresión de imágenes, dividir las distintas técnicas o herramientas en dos grupos: con pérdidas y sin pérdidas, tal como se muestra en la figura 7.4. En los sistemas reales se comienza por aplicar las herramientas de compresión con pérdidas o compresión perceptual, eliminando la información no apreciada por el ojo. La información resultante es sometida a continuación a los procesos de compresión sin pérdidas, o compresión entrópica. Sin embargo, desde el punto de vista didáctico resulta más aconsejable estudiar primero los procesos de compresión sin pérdidas y dejar para el Hnalla compresión perceptual. A continuación se irán desgranando una a una las distintas técnicas o herra­ mientas de compresión; primero, las entrópicas (sin pérdidas) y luego las percep­ tivas (con pérdidas). En esta primera aproximación, cada técnica es un módulo de estudio, independiente y aparentemente inconexo. Sin embargo, pronto se verá que es la unión o combinación de varias herramientas y trucos, lo que permite dis­ poner de sistemas eficaces de compresión. 6. Técnicas de compresión sin pérdidas Puede verse en la figura 7.4 que las principales herramientas de compr~siónsin pérdidas incluyen: supresión de borrados, RLC (Run Lenaht Codina, o codificación de secuencias) VLC (Variable Lenaht Codina o codificación de longitud variable) y DCT (Discret Cosine Tranifórm o transformada en coseno discreto). 6. 1. Supresión de borrados Casi un 20% de la duración de una linea de televisión corresponde al periodo de borrado de linea. Seria un lujo innecesario digitalizar, procesar, grabar y transmitir una información que ya se sabe cómo ha de ser. Hay que recordar, a partir de la definición de entropía, que si sabemos de antemano cuál será el contenido de un mensaje éste no contiene información real. De igual forma, un 8% de las lineas de televisión pertenecen al borrado vertical y pueden omitirse en la codificación. Después de la descompresión, el equipo oportuno ya generará, si resulta necesario, los sincronismos horizontal y ver­ tical, sea en forma digital o analógica. En la norma 4:2:2 básica (8 bits/muestra) la supresión de los borrados permite reducir de 216 Mbits!s a 166 Mbits!s. _ . ~illJJli-~~(ll__L~!lJ_:iJ~ 6.2. Codificación de secuencias Podemos imaginar una aplicación como el fax, en la que se transmiten, en blan­ co y negro, páginas impresas. La transmisión se hace digitalmente a través de line­ as telefónicas, por lo que interesa reducir el tren binarío. Puesto que los puntos elementales que componen la imagen sólo pueden ser blancos o negros, se puedc codificar cada muestra con un sólo bit, el cual podría ser" 1" para el blanco y "O" para el negro. La página podría analizarse por lineas, de forma similar a como se hace en televisión. Por otro lado, en una página normal suele haber zonas muy grandes en blanco (lo que produce largas secuencias de unos), as! como zonas en negro (largas secuen­ cias de ceros). En lugar de estar repitiendo constantemente: blanco, blanco, blan­ co... , sería más corto decir "n veces blanco", es decir, no transmitir el valor de cada muestra, sino el número de veces que un valor se repite hasta que se cambia de valor. En el ejemplo de la figura 7.5 esto ha permitido pasar de 89 bits a sólo 20. Puede verse que la eficacia del código no depende sólo del tipo de codificación utilizado, sino también de la probabilidad de ocurrencia de cada símbolo (entro­ pía). Si se ha logrado una reducción importante de los datos en el ejemplo anterior es porque la probabilidad de repetición de un mismo valor es alta. Cuanto mayo­ res sean las cadenas de ceros y unos, mayor será la eficacia de este tipo de codifi­ cación. COLOR CODIGO ;~- NEGRO o DATOS illiTilTrl-~Tilr'nnlGGQ T['JilTiIq-pnTI [1ORIGINALES l!L1Jll ....] 1J]¡ltQ':t'I, , .11llL _, _ ..}!J J .. ,.69 BITS '-------~~'--~'---v----' JO ·UNOS· 26 'CEROS' 24 'UNOS' 9 'CEROS' L ..... .-J II'--'--'~-l ! [ r-.---- CODIFICACiÓN r ' T 3' r-­f:U~~~EUNE~TC~~ ~~OJ~~_~i~¡_'__] I ~~~~~6~EN ~ ~íMB6Cf~aéJr¡.20BITS Figura 7.5. El principio básico de la RLC consiste en indicar el número de veces que un valor se repite hasta que aparece otro distinto. NOTA: Es necesario anadir informadón de sincronizacion para indicar cuándo se inicia la descrlpción de una cadena de ceros o unos, especialmente cuando el número de bits que define cada cadena puede ser variable. 180 181
  • 90.
    - ----- TI:cNO/ O(;iAACTUAL IX 1 ¡:/ ['ISlClN El ejemplo anterior muestra sólo una posible implementación del RLC. En MPEG, por ejemplo, lo gue se hace es codificar sólo los valores distintos de cero, poniendo a continuación el número (run) de ceros gue siguen hasta gue aparece otro valor distinto de cero. Así, por ejemplo, la secuencia 45,0, O, 0, 12, 7, 0, 0, 0,0,0,0,23 se codifica como 45,3,12,0,7,6,23 Yse lee: 45, tres ceros, 12, ningún cero, siete, seis ceros, veintitrés. Puede verse gue se forman "parejas" de "valor real-número de ceros". Si esta forma de aplicar la RLC en MPEG es eficaz es porgue se sabe de antemano gue se producirán largas cadenas de ceros. 6.3. Codificación de longitud variable Una forma de reducir el tren binario consiste en analizar las posibilidades de ocurrencia de cada valor digital. Esto se puede entender pensando en cómo fun­ ciona el código Morse, desarrollado para comunicación y gue utiliza un alfabeto basado en combinaciones de puntos y rayas. A efectos de lograr la máxima eficacia, el código Morse adjudica combinacio­ nes de rayas y puntos más cortas a las letras del alfabeto gue aparecen con mayor frecuencia, así como combinaciones más largas, a las que aparecen con menor fre­ cuencia. Este código fue desarrollado para su utilización en el idioma inglés, en el cual letras como la "e" y la "t" se usan muy frecuentemente, mientras gue la "g" y la "z" se emplean raramente. Como puede verse en la figura 7.6, la "e" y la "t" utili­ zan códigos cortos, mientras gue la "g" y la "z" emplean los códigos más largos. Por tanto, si el idioma inglés puede codificarse eficazmente mediante un código como el Morse es porque la probabilidad de ocurrencia de cada letra del alfabeto es dife- PROBABILIDAD DE OCURRENCIA Y CODIFICACiÓN DE LONGITUD VARIABLE REGLA DE CODIFICACiÓN 12 ee t -~ 9O (EN EL IDIOMA INGLfS) ~--­ ~~ 6 ro O g:: 3 o q - - e _ Ze t. q z - - e e ALFABETO Figura 7.6. El código Marse es un buen ejemplo de codificación de longitud variable. Com!Jresíón en 'ídeo rente. Cuanto mayor sea la polarización de la probabilidad estadística de cada carácter, más eficiente podrá ser la codificación con longitud variable. Si el código Morse se utilizara con otro idioma, como, por ejemplo, el polaco, la eficacia sería muy inferior, ya gue la estadística del idioma polaco es diferente de la del idioma inglés. Por ejemplo, en polaco la letra "z" es bastante frecuente. De aquÍ se deduce que un estudio adecuado de las probabilidades de ocurrencia de cada símbolo resulta clave para una codificación eficaz. 6.3.1. El códiBo H!!lJman El "Huffman" es uno de los más populares códigos de longitud variable. Para comenzar se colocan todos los símbolos en orden descendente de probabilidad de ocurrencia, de manera gue el más probable aparezca arriba y el menos pro­ bable abajo. A continuación se conectan los dos menos probables (en la figura 7.7 el 4 y el 5) y se suman sus probabilidades. El resultado de la suma se entien­ de como un valor "unión A", que en este ejemplo es de 0,08. A continuación se buscan los siguientes dos valores menos probables (aquí el 2 y el 3), los cuales proporcionan la unión "B", La siguiente operación será conectar las uniones "A" y "B", ya que la probabilidad de ambas es menor que la probabilidad del siguien­ te valor hacia arriba (aquí el 1). El procedimiento continúa hasta que todos los símbolos tengan su conexión. Todo lo que gueda por hacer es asignar un cero o SIMBDLO PROBABILIDAD SIMBOLO PROBABILIDAD O 0,50 O 0.50 1 0.22 1 0,22 (a) 2 0,14 (b) 2 0,14~ 3 0.06 3 0,06 4 0,05 4 0.05~ 5 0,03 5 0,03 SIMBOLO PROBABILlDAO. _ - ­ O 0,50 1 --~­ 0,22 0,14 - I 2 3 0,06 --ª 4 0,05 5 O.03~8 __ (e) (e) SIMBOLO CÓDIGO O O 1 10 2 1100 3 1101 4 1110 5 1111 Figura 7.7. Huffman genera códigos de longitud variable en función de la probabilidad de ocurrencia de cada símbolo. (d) 182 183
  • 91.
    TLCNOLOGIA ICTU:L DETLllqSclcÓ~N~ ~ _ un uno a cada rama de una unión, con la condición de que las dos ramas deben tener códigos opuestos. En estas condiciones el código correspondiente a cada símbolo Sé' obtendrá leyendo el valor (cero o uno) correspondiente a cada rama que se atraviesa, al ir desde el punto de probabilidad unidad (a la derecha) hasta el símbolo que se quie­ re codificar (en la izquiel-da). Puesto que se siguen caminos distintos, nunca un cadigo corto podrá ser prefijo de otro más largo. La relación entre los símbolos y los códigos que les corresponden puede establecerse de manera fija o actualizarse periódicamente mediante tablas de consulta e¡ue se envían al receptor. La implementación más sencilla)' práctica del c6digo de Huffman consiste en almacenar en unas memorias, tanto en el codificador como en el decodificador, la correspondencia entre los valores de entrada y salida, realizando la conversión por el método de "look-up tahles" (consultar tablas). 6.3.2. La codificación aritmética En la codiflcación VLC-Huffman cada símbolo de entrada genera una palabra codificada de salida. Esto significa que la máxima compresión que puede propor­ cionar este sistema sería la correspondiente a un bit por símholo de entrada. Es posible ohtener mayores factores de compresión combinando varios símbolos de entrada en una misma unidad, que podríamos denominar "mensaje". Aune¡ue esto se puede hacer dentro elel contexto de codificación Huffman, la complejidad de cómputo se dispara, Además, si las probabilidades de ocurrencia de cada símbolo cambian, resulta necesario rediseñar las tablas de correspondencia Huffman. HUFFMAN síMBOLO PROBABILIDAD a 0,05 b 0,2 e I 0,1 d 0,05 e 0,3 f 0,2 x 0,1 CODIFICACiÓN ARITMÉTICA CÓDIGO I SIMBOlO PROBABILIDAD SUBINTFRVAlO I 10101 a 0,05 0,00-0,05 01 b 0,2 0,05-0,25 100 e 0,1 0,25-0,35 10100 d 0,05 0,35-0,40 Ie11i 0,3 0,40-0,70 f00 0,2 0,70-0.90x1011 0,1 0,90-1,00 I MENSAJE: bbccfe SIN COMPRESiÓN: 7 SíMBOLOS x3 BITS/síMBOLO = 21 BITS VLC-HUFFMAN: 0101 10010000111011 (TOTAl= 18 BITS) VLC-CODIFICACIÓN ARITMt:TICA: 0001001 001 000011 (TOTAL= 16 BITS) Figura 7.8, La codificación aritmetica es otra forma de codificación de longitud variable, algo más eficaz que la de Huffman. CQ!lll-llI~tQILºl_Jid.hº La codificación aritmética es un sistema de compresión sin pérdidas que se beneficia del tratamiento de multiples símbolos en una única unidad o mensaje. Al igual e¡ue en Huffman, la codificación aritmética comienza por analizar la pl"Obabi­ lidad de ocurrencia de cada símbolo, pero, en lugar de darle un valor de probabi­ lidad, le asigna un "subintervalo" de probabilidad, de manera c¡ue la suma de los subintervalos genera un intervalo unidad (entre °)' J). Durante la codificación se parte del intervalo unidad. A continuación se establecen los límites, superior e inferior, del primer simbolo (en este ejemplo la "b"j los limites son 0,05 y 0,25). En el siguiente paso este subintervalo (que vale 0,2) vuelve a entenderse como el intervalo unidad y dentro de el se buscan los límites del siguiente slmbolo (otra "b" en nuestro ejemplo). Estos nuevos límites son ahora 0,06 y 0, l. Repitiendo el mismo proceso para la "c" se obtiene 0,07 )' 0,74. Si se continúa el proceso, los dos límites tienden a converger y en nuestro ejemplo, después de codificar el símbolo "x" (c¡ue se coloca como final del mensaje) los límites super-ior e inferior resultan ser: 0,0713360 y 0,0713336_ Estos numeras codifican perfectamente el mensaje del ejemplo (bbccfex). En la práctica no es necesario codificar ambos límites, sino cualc¡uier numero comprendido entre ellos, como 0,0713348389, que, como puede comprobarse, corresponde a 2-4 + 2-7 +2-10 + 2-15 + 2-16 y que, por tanto, puede representarse con 16 bits. En la codificación aritmética lo que se codifica es un "camino" o una "vía" desde el intervalo 0-1 hasta un subintervalo menor. Cuantos más símbolos se vayan aña­ diendo al mensaje, más precisa deberá ser la Vla que conduce al subintervalo final y, por tanto, más bits harán falta para codificarla. Al igual que en el código de Huffman, a los conjuntos tle datos más probables le corresponden subintervalos mayores, los cuales necesitan menos bits de preci­ sión para ser descritos. Si el subintervalo es muy grande, puede redondearse a cual­ quier cifra de pocos decimales dentro de tal subintervalo; si es muy estrecho, defi­ nirá un tramo muy preciso. Es importante recordar que tanto la RLC como la VLC son técnicas de com­ presión sin pérdidas, es decir, ya se aplic¡uen juntas o por separado, estas tccnicas permiten la recuperación exacta de los datos después de la descompresión. 6.4. Introduccíon a la DCT La DCT (Discrete Cosine Traniform o transformada en coseno discreto) es la base de sistemas de compresión tales como JPEG, MPEG, DVCPRO, Betacam Digital, etc. La práctica totalidad de los sistemas de compresión para imágenes de televi­ sión, ya sea en captación, distribución, contribución, edición o emisión, se basa en la ubicua DCT. Se trata de un sistema de compresión por transformación, es decir, la DCT no opera sobre el valor de las muestras de vídeo, sino sobre su represen­ tación frecuencia!. La DCT, aplicada a imágenes de televisión, procesa bloques amplitud de los de píxeles y los convierte en bloques de valores de frecuencia. En sí misma la DCT no introduce pérdidas, siendo, por tanto, un proceso totalmente reversible. Sin embargo, para que ello sea cierto, en imágenes en que las muestras han sido cuan­ J84 185
  • 92.
    -- Tf:CNOI ocIA AC-TlIAIDE TElL:,ISlÓN tificadas con 8 bits, los coeficientes frecuenciales deben codificarse con una preci­ sión de 12 a 13 bits/coeficiente. Al contrario de lo que se cree: "la DCT no com­ prime, sino todo lo contrario" y "la OCT, en sí misma, no introduce pérdidas". Lo que sucede es que la OCT se utiliza como herramienta para ayudar a comprimir. Siendo la DCT el núcleo o alma en torno a la cual giran las demás herramien­ tas de compresión, nada más será dicho por ahora. Abriremos un poco más ade­ lante un apartado completo sobre ella. 7. Técnicas de compresión con pérdidas Afortunadamente las imágenes de televisión, después de descomprimidas, no necesitan ser idénticas a como eran antes de la compresión: ¡basta con que lo parezcan! En comunicación audiovisual, el decodificador final es siempre el mismo: el espectador. Si para él la calidad de las imágenes y sonidos es apropiada, entonces no importa en absoluto cuántos errores y redondeos se hayan cometido en la codificación. Lo anterior significa que además de la compresión matemática, sin pérdidas, podemos echar mano de las llamadas herramientas de compresión perceptual. Son estas últimas las que proporcionan, como se verá más adelante, la máxima poten­ cia de compresión. También añaden un poco de "sal" a la tecnología, ya que intro­ ducen una cierta subjetividad, haciendo que la compresión sea en parte una cien­ cia yen parte un arte. Gracias, o por culpa, de la compresión perceptual, dos codi­ ficadores pueden proporcionar distinto nivel de calidad de imagen, a pesar de uti­ lizar el mismo material de entrada y producir la misma tasa binaria de salida. 7.1. Codificación diferencial (DPCM) La OPCM puede encuadrarse dentro de las técnicas con pérdidas o déntro de las técnicas sin pérdidas. Si se utiliza sola, será una técnica con pérdidas o no se garantizará ninguna compresión. Usada en conjunción con otras técnicas, la DPCM puede ayudar a comprimir incluso sin pérdidas. Si la redundancia es la culpable de que el tren binario se dispare innecesaria­ mente, una solución puede consistir en no codificar el valor absoluto de las mues­ tras, sino la medida en que cada muestra difiere de la anterior. Esto es lo que hacen los sistemas OPCM (Diferencial Pulse Cade Modulatian). Puede verse en la figura 7.9 que de esta forma se reduce considerablemente la amplitud de los valores a codi­ ficar, lo que significa tener que emplear menos bits por muestra. En el ejemplo de la figura 7.9, para codificar la señal PCM hacen falta cinco bits por muestra, mien­ tras que la señal DPCM necesita sólo tres bits para codificar cada valor diferencia. De todas formas, es evidente que será necesario enviar el valor absoluto de alguna muestra, precediendo a los valores diferencia, de manera que el decodificador tenga un punto de partida para poder reconstruir los valores originales. Un problema asociado a la codificación diferencial es que es propensa a la pro­ pagación de errores. En efecto, si durante la transmisión, grabación, etc. se alte- Comnresión ("1), ddeo 26 25 /1 '-/1"­24 '-.,"­23 22 21 20 ­ /1 - ......... --1......... _ ......... 19 ,8 -1 , '­- 15 14 -~ 17 16 13 ,2 ­ 11 PCM5 BITS POR MUESTRA "l"-_._.-_....~-.-....._,._._.-.-,.-.-._,._-- .. 20212222232625262423212120202019191817 16 15 1411 12 MO MI MI -O-PCM-[)N=(M--)-:.:-M­ M23 .. : _ _N+1 N 3 BITS POR -- - - - .­ MUESTRA 'F /1 .­ OPCM .~ o' ./,-,'-.,/, 1/'.1 ' I/"""--,,,v-"-'_I_'-' I! ·2- ./'- ,V +1 +1 0+1 +3 -1 +1-2 -1 -2 o ·1 o o -1 o -1 -1 ·1 ·1 -1 ~3 +1 oo~m ~ Figura 7.9. En la DPCM no se codifica el valor absoluto de las muestras, sino la diferencia entre el valor de una muestra dada y otra u otras muestras de referencia. ra uno de los valores diferencia, el valor de la muestra actual será incorrecto, pero, además, serán incorrectos también los valores de todas las muestras que aparezcan a continuación. Para evitar esto se pueden intercalar muestras con su valor absoluto entre los valores diferencia. Por ejemplo, se puede hacer que una de cada diez muestras no esté codificada como valor diferencia, sino que se envíe con su valor absoluto, es decir, enviar un valor absoluto, nueve valores diferencia, un valor absoluto, etc. Otro problema asociado a la codificación DPCM es que la reducción de bits sólo es posible si los valores diferencia se mantienen claramen­ te más pequeños que los valores absolutos y, desgraciadamente, no hay nada que garantice esto último. 7.1.1. DPCM con predicción adaptativa En la figura 7. 1O(a) puede verse una estructura ortogonal, en la que todas las muestras se han codificado con su valor absoluto. En (b), una de cada cuatro mues­ tras se codifica con su valor absoluto, mientras que tres de cada cuatro se codifican con un valor diferencial. Para optimizar el cálculo del valor diferencial se adopta una estructura en diagonal o "al tresbolillo". Para que el valor diferencial sea lo más bajo posible, se comienza por obtener una predicción o aproximación al valor de la muestra diferencial. En el ejemplo de la figura 7.10 Cc) esta predicción se calcula promediando el valor de tres muestras vecinas (de las cuales se envía su valor absoluto), según la fórmula mostrada en la figura. De esta forma se obtiene un valor que resulta estadísticamente aproximado al valor real y que se conoce como "valor de predicción". A continuación se com­ 186 187
  • 93.
    IlCNOLOGIA AClUAl lJLTlU,'ISIClN UN" N·, ~ I!J I!J I!J I!J I!J I!J I!J I!J I!J (a) LINEA N @ @ @ @ @ @ @ @ @ @ CODIFICACION ABSOLUTA LINEA N+1 @ @ @ @ @ @ @ @ @ @ LINEA N-1 I(!] @ (!] (!] (!] @ (!] (!] (!] @ (b) CODIFICACIONLÍNEA N ,f!] (!] (!] @ (!] (!] (!] @ (!] f!] DIFERENCIAL liNEA N+1 I(!] @ f!] (!] (!] @ (!] (!] (!] @ PRED (N.b) =x.A(N,a) +y.A (N-l.e) +yA(N+l,e) (x =1/2; Y=1/4) (e) a e eb d (d) a b e d e N-1 I m (!]j~) m (!] m (!]e@) m (!]N-1 N I@iPR~DI m (!] [A] N @üi'I~~EDlrn-@ N+1 I m m-e@) m (!] N+1 (!] me@) m l!1 Figura 7.10. El rendimiento de la DPCM se puede mejorar adoptando esquemas de predicción variables adaptados a la información real. para e! valor de predicción con el valor real de la muestra, de forma que la dife­ rencia entre ambos se denomina "error de predicción". Es este error de predicción el que finalmente se codifica con un número limitado de bits. La magnitud del error de predicción depende de cuán acertada sea la predicción, lo cual, a su vez, depende del contenido de la escena. Por ejemplo, en zonas estáticas de la imagen una predicción por promediado entre cuadros daría un error de prediccjón muy pequeño (e incluso nulo), mientras que en zonas en movimiento sería más apro­ piado un promediado dentro de! mismo campo. La predicción adaptativa varía el esquema de predicción en función de! contenido del programa. Suele distinguirse entre tres esquemas de predicción básicos: intracampo, intercampo e intercuadro. La conmutación entre un modo y otro se hace por bloques de píxeles y se comu­ nica al receptor mediante unos cuantos bits extra. 7.1.2. Combinar DPCMy VLC En ocasiones no es posible lograr que e! valor diferencial sea mucho más pequeño que el rango de valores absolutos. Sin embargo, la codificación dife­ rencial sigue siendo aún útil. En la figura 7.11(a) puede verse una codificación PCM en la que el rango de valores va de O a 4, es decir, hay cinco valores posi­ bles. Si se pasa a una codificación diferencial, el rango de valores irá de -2 a +2, lo que sigue dando cinco valores posibles. Sin embargo, puede verse que en la codificación PCM la probabilidad de ocurrencia de cada uno de los valores es la Cun!¡l[~siól1 ell 'id~..2 PROBABILIDAD VALOR DE OCURRENCIA 4 5125 3 5/25 -Vf"R_~1-t:(N13~(~~i!~~,~_ 5/252 1 5/25 Al A3 - - - - - - - - - - - - - - - - - - - A25 o 5/25 A2 A4 t A24 r--0PCM VALOR Ll:Jr1"An-(An-1) f- ----. 2 i (b) OIFEREN~CIAENTRE ADYACENTES 1: _ .0 r--L1·flr- ---J7-&~-''17V'1, . _ . -2 i D1 D3 - - - - D23 t D2 D4 t D22 VALOR o -1 1 2 -2 PROBABILIDAD DE OCURRENCIA 11/24 6124 4124 2/24 1/24 Figura 7. 11. La DPCM "polariza" la probabilidad de ocurrencia de los símbolos, baciendo más eficaz la aph cación del paso que realmente comprime: la codificación de longitud variable. misma, mientras que en la codificación DPCM algunos valores son más proba bIes que otros. Cuando la probabilidad de ocurrencia está polarizada en alguna dirección, es decir, cuando unos valores son más probables que otros, puede utilizarse la codifi­ cación de longitud variable (Variable Length Coding o VLC), en la cual se asignan palabras más cortas a los valores con mayor probabilidad de ocurrencia y palabras más largas a los valores menos probables. Esto es lo mismo que se hace en el códi­ go Morse, tal como se ha visto en el apartado 6.3 En este ejemplo los valores más probables son "O" y "-1" por lo que se les otorgan los códigos OY 10. A los valores menos probables se les otorgan los códi­ gos más largos (11 10 Y 11 11). Para que el decodificador sea capaz de saber dónde comienza y dónde termina cada palabra hace falta que ninguna palabra pueda ser prefijo o inicio de otra más larga. La reducción de bits lograda puede calcularse como sigue: en PCM: 25 palabras x 3 bits =75 bits; en DPCM: (11 palabras x 1 bit) + (6 palabras x 2 bits) + (4 palabras x 3 bits) + (2 palabras x 4 bits) + (1 palabra x 4 bits) =44 bits. A éstos habría que añadir 3 bits de una palabra inicial de valor absoluto, con lo que habría 47 bits.VALOR PROBABILIDAD DE OCURRENCIA CÓDIGO O 11/24 O -1 6/24 10 1 4/24 110 2 2124 1110 ·2 1/24 1111 Al inicio del apartado 7.1 se ha dicho que la DPCM se puede aplicar con o sin pérdidas. En el ejemplo anterior, la DPCM, por sí misma, no logra comprimir en abso­ luto los datos, aunque, por otro lado, tam­ poco introduce errores. Al combinarla con 188 189
  • 94.
    TECf'JOI.ociA ACTUAL nETELE'IIÓN la VLC se obtiene una reducción importante de los datos y, en este caso, sin pérdi­ das o errores de codificación. Puede decirse que la DPCM produce una reducción de la entropía de la señal original. Muchos valores diferencia se concentran en o alrededor de cero, como consecuencia de la alta probabilidad de encontrar zonas de color uniforme en las imágenes. Por otro lado, en imágenes altamente detalladas serían posibles valores diferencia incluso mayores que los valores absolutos. En tal caso podría utilizarse una cuantificación no lineal, donde las infrecuentes diferencias de gran valor (posi­ tivas o negativas) se cuantificaran con poca precisión (peldaños de cuantificación grandes), mientras que los más frecuentes valores pequeños se representarían con mayor precisión. Se cometerían errores, pero éstos serían infrecuentes y, además, el sistema de percepción visual humano es poco sensible a tales errores, cometidos en la codificación de altas frecuencias, ya que pertenecen a elementos de imagen contrastados, capaces de enmascararlos. De los párrafos anteriores se sacan dos conclusiones: • La codificación diferencial descorrelaciona los valores de amplitud de los píxeles, preparándolos para aplicar otras herramientas, tales como la VLC. • Si se utiliza la DPCM de cuantificación no lineal, los errores cometidos son enmascarados por la propia imagen. En la práctica la DPCM, tal y como se ha explicado aquí, no se utiliza en nin­ gún sistema de compresión de imágenes de los que podríamos llamar avanzados. Sin embargo, los conceptos de la codificación diferencial, de la polarización de la probabilidad de ocurrencia unida a la codificación de longitud variable y del enmascarado por parte de sistema de percepción visual de los errores de codifica­ ción no lineal sí que se aplican y son los que realmente hacen que los sistemas de compresión funcionen. Como se verá en este mismo capítulo, el concepto de codi­ ficación diferencial se transforma en "codificación intercuadro" o en "transforma­ da" DCT, pero eso vendrá un poco más adelante. 7.2. El submuestreo Una forma sencilla y directa de reducir la cantidad de datos que representan una imagen consiste en "submuestrear", es decir, eliminar selectivamente algunas de las muestras que la componen. Es un método eficaz de reducción de datos, aunque produce pérdida de resolución y puede generar componentes de aliasina, que pue­ den degradar la calidad de la imagen original. Por esto el submuestreo no suele aplicarse a la señal de luminancia. Sólo las señales de crominancia son submuestre­ adas, como sucede en las normas 4: 2:0 y 4: 1: 1. Estas dos variantes de la norma 4:2:2 se utilizan en ciertos formatos de magnetoscopios digitales con compresión, mientras que los sistemas MPEG utilizan exclusivamente la variante 4:2:0 (si no se tiene en cuenta un perfil especial 4:2:2 para aplicaciones profesionales). Submuestreando de 4:2:2 a 4:2:0 o a 4: 1: 1 se obtiene un ahorro de aproxima­ damente un 30% en la tasa binaria. Existe en la comunidad técnica un debate no cerrado sobre qué es mejor: submuestrear antes de comprimir y limitar el factor de Comnresión en -í<ieo compresión o bien partir de la máxima información posible y aplicar más compre­ sión. Los formatos de la gama DV (DV, DVCAM YDVCPRO-25) se basan en el pri­ mer principio, mientras que el Betacam-SX prefiere partir de 4:2:2 y aplicar más compresión. ¿Quién tiene razón? Probablemente los dos. Submuestrear, por ejem­ plo, a 4: 1:1 y limitar el factor de compresión a 5: 1 (como en la familia DV) parece que preserva algo más de calidad visual que partir de 4: 2: 2 y aplicar una compre­ sión 7: 1. Por otro lado, una estructura de muestreo tan "débil" como la 4: 1:1 puede quedar afectada después de unas pocas generaciones de posproducción. Si se desean factores de compresión más altos, es necesario submuestrear también la luminancia, con la consiguiente pérdida de resolución visual. Esto es lo que se hace, por ejemplo, en e! sistema MPEG-I . En este caso se trata de lograr, a partir de una entrada 4: 2: 2 de 166 Mbits!s, una señal de salida comprimida a sólo 1,5 Mbits!s. MPEG-l submuestrea en las tres dimensiones. Para comenzar, descarta uno de cada dos campos, reduciendo tanto la resolución temporal como la vertical. A continuación la señal 4:2 :2 se convierte en otra de tipo 2: 1:0. Así se genera una com­ presión 5: 1. Los procesos posteriores logran una compresión 21: 1, que, multiplica­ da por la lograda por el submuestreo, proporcionan una compresión global 105: l . 8. Codificación por transformación A menudo es difícil descubrir la redundancia cuando se representa la señal en fun­ ción de! tiempo. La señal de vídeo, por ejemplo, puede tomar cualquier valor entre O y 255 (8 bits) o entre Oy 1023 (10 bits). Por tanto, la entropía de cada píxel es muy alta, ya que puede tomar cualquier valor con igual probabilidad. Si la entTOpía de la imagen es igual a la suma de la entropía de los píxeles que la componen, ésta será tam­ bién alta. Esto es lo que sucede cuando la excursión de la señal de vídeo es grande, como en la figura 7.12 (a). Cuando la señal de vídeo está cerca del nivel de negros (b) o del pico de blanco (c), la entropía es menor, pero esto sucede aleatoriamente. ~. (a) A11TI ¡~) 1~ ~ lT11l1nnm,... 4I1JlJJ, . . . . ~.~~I~i~IK 'L FRECUENCIA 5,5 MHz o >.W< o MÁJC. o MÁJC o MAx. DOMINIO DEL TIEMPO DOMINIO DE LA FRECUENCIA ~A~h~IIL~~h'IL'.J!~hhl.L,~f¡hJllll¡!M ... I=J--1~~fJ=~3VVVVMrY¡¡',,"''''V¡VVI~T'Y~¡'1Il~~iV J.&--n'¡¡~J.J- ~C;¡~~'!~_ Figura 7.12. La representación frecuencial facilita la detección de la redundancia, a la vez que permite procesar por separado bajas y altas frecuencias. 190 191
  • 95.
    Comprcsivll ell yíuc(~ TECNOLOGíAAC/ UAl /)[ '/ E/I",E"I'1;">1"/("'''''---/ _ Una forma de detectar la redundancia y aislar la entropía consiste en transfor­ mar la señal desde el dominio del tiempo hasta el dominio de la frecuencia. Si nos fijamos en el espectro de la seilal de vídeo veremos que a menudo su amplitud esta­ dística decrece con la frecuencia. En otras palabras, la probabilidad de ocurrencia de todos los valores es similar en el caso de las bajas frecuencias, mientras que esta probabilidad está dccantada o polarizada hacia valores bajos, en el caso dc las altas frecuencias (figura 7.12, centro). Esto significa que la parte baja del espectro posee una alta entropía, mientras que la parte alta prcscnta baja entropía. De aquí se saca la conclusión de que si podemos manejar las componentes de frccuencia baja y alta por separado, podremos comprimir las componentes de alta frecucncia, puesto que presentan baja entropía. Para esto es necesario transformar la representación temporal en otra dc tipo frecuencial. Un ejemplo dc esta dualidad lo tenemos en la música, donde la forma de onda sería la representación temporal, mientras que la partitura equivaldría a la representación frecuencial. Nótese que es posible codificar el valor de muchos cientos de muestras con sólo unos pocos símbolos frecuenciales en la partitura (figura 7. 12 , abajo). 8.1. Transformada de Fourier A finales del siglo XVIII el barón Jean Baptiste Fourier descubrió un método que permite descomponer cualquier fenómeno fluctuante periódico, desde las ondas luminosas hasta las mareas oceánicas y los ciclos solares, en un conjunto de componentes senoidales o cosenoidales. Las figuras 7.13 (a) y (b) mucstran que, si se conoce la amplitud y fase de cada componente de frecuencia, se pucde, mediante la suma lineal de las componentes senoidaleslcosenoidales, obtener cualquier forma de onda. En los sistemas digita­ les la forma de onda está expresada mediante un número discreto de muestras. Como resultado, la transformada de Fourier proporciona un número discreto de frecuencias. Esto se conoce como "Transformada dc Fourier Discreta" o DFT Como puede verse en la figura 7.13 (b), resulta vital conocer la fase de cada una de las componentes frecuenciales, ya que una alteración de la fase de cualqUiera de las componentes alteraría la forma de la onda reconstruida. Hay muchas formas de expresar la fase y una de ellas consiste en dar un valor de seno y otro de coseno, ya que la combinación de ambos valores (positivos o negativos) proporciona cualquier valor de fase desde O a 360 grados (c). La DFT analiza el espectro de un grupo de muestras para ver si contienen una serie de fre­ cuencias predeterminadas. Para saber si una serie de muestras contiene una frecuencia determinada, la DFT multiplica la forma de onda de entrada por una forma de onda senoidal de esa frecuencia, conocida como "función base". A continuación suma o integra los pro­ ductos de la multiplicación. Si la señal de entrada posee esa frecuencia, la suma integrada de los productos será distinta de cero. Si la frecuencia que se busca no esta presente en la señal de entrada, la suma integrada será igual a cero. La magni­ tud de la integral es proporcional a la amplitud de la frecuencia buscada. ONDA DIENTE CUADRADA DE SIERRA AMPLITUD A !DEL COSENO ' A ~~~-=--.....! + r--~',. AMPLITUD + J).J'1: ~·t_'f__~EL SENO ' + ' (e) - : ! ~ + IW 'I + MAM+~+ : ~ "]fctFUNCiÓN FUNCiÓN .~¿;~k~~:~:~:to SIMÉTRICA ASIMÉTRICA vERDE (a) (b) ClAN AZUL VIOLETA (d) Figura 7.13. Menos utilizada que la representación temporal, la frecuencial tiene, sin embargo, muchas aplicaciones. La dispersión de la luz blanca al pasar por un prisma puede ser un ejemplo de descomposición de una onda compleja en componentes basicos. Por tanto, si la señal de entrada posee un número elevado de frecucncias, todas ellas serán excluidas excepto una. El proceso continúa, cambiando cada vez la fre­ cuencia de la función base. Es posible quc la frecuencia buscada pase dcsapercibida si se gira la fase 90 grados, puesto que el producto de dos señales en cuadratura da siempre cero como valor integral. Por tanto, la DFT debe hacer una búsqueda adi­ cional, utilizando la función coscno, que no es otra cosa que la función seno gira­ da 90 grados. La amplitud relativa de las contribuciones en seno y coseno revela la fase de la componente buscada de la señal de entrada. Por tanto, cada frecuencia discreta del espectro de la señal dcbe ser el resultado de un par de búsquedas en cuadratura. 8.2. Teoría de la OCT La DCT es una variante de la transformada discreta de Fourier, en la cual los coeficientes de las componentes en seno se han eliminado, quedando, por tanto, un solo número por componente espectral. Como muestra la figura 7.13 (a), las fun­ ciones simétricas proporcionan s610 coeficientcs en coseno. En el caso de la señal de vídeo, lo que se hace es tomar un cierto número de muestras y copiarlas de manera especular sobre el eje temporal, como en la figura 7.14 (a). Esto propor­ ciona una función par o simétrica, la cual pucde ser representada con sólo los coe­ 192 193
  • 96.
    TECNOLoc;iA ....CTUAI. DETri EVISION Conmn:slón en "ídeo MUESTRAS REPETIDAS MUESTRAS DE Y GIRADAS ENTRADA (a)_~r--j ,ú_ IDili¡;tU¡j~ EJE DE SIMETRIA - LAS COMPONENTES LAS COMPONENTES:JJb EN SENO ~ EN COSENO SE RESTAN ~E SUMAN (b) Figura 7.14. La OCT se obtiene copiando especularmente los bloques de entrada antes de aplicar la OFT. La copia especular cancela las componentes en seno, dejando sólo las componentes en coseno. ficientes en coseno. La figura 7.14 (b) muestra que la fase de todas las componen­ tes de un bloque se oponen en dirección a las del otro. Esto significa que, cuando se suman para proporcionar la tranformada del bloque doble, todas las componen­ tes en seno se cancelan, dejando sólo las componentes en coseno, que dan nombre a la transformada. A pesar de que de esta forma se han de manipular el doble de muestras, los cálculos se simplifican mucho al poder trabajar sólo con los compo­ nentes en coseno. Por supuesto, cuando se realiza la transformada inversa, la parte doblada e invertida de la forma de onda es descartada. En el caso del procesado de imagen se necesita una transformación bidimensio­ nal, capaz de encontrar todas las frecuencias horizontales, para todas las frecuen­ cias verticales, de manera que el número de búsquedas será igual al número de fre­ cuencias horizontales a buscar, multiplicado por el número de frecuencias vertica­ les a buscar. La DCT permite realizar la transformación bidireccional, haciendo el cómputo en cada dirección separadamente. Para comenzar, la imagen se divide en pequeños bloques de m por n muestras. En principio puede utilizarse cualquier valor para m y para n, como, por ejemplo 4 x 4, 8 x 4, 8 x 8, 16 x 16, etc. Si se utilizan bloques de 8 x 8 píxeles, las fre­ cuencias horizontales que podrán contener irán desde cero (nivel de DC) hasta 4 ciclos por anchura de bloque. Lo mismo sucede con las frecuencias verticales, que irán también desde DC hasta 4 ciclos por altura de bloque. La combinación de fre­ cuencias horizontales y verticales proporciona los 64 posibles coeficientes que pueden verse en la figura 7.15, donde las frecuencias horizontales crecen de I I 11 I_IJ 1111111111 il~~~ll1mUN ---:O«OOw.rJJJifIJ. :::;:;::::;~~~~ ....-=-8~ « 00 iXJj C«i@: ~~ - _.«~~~(((( i ~; §~~~f¿E9loo-! ; i :;§§§§§moom~ ~--­ ~~m~B •• " ­ Figura 7.15. Con la OCT la imagen se divide en pequeños bloques de 8 x 8 píxeles. A continuación los 64 valores de amplitud se convierten en 64 valores, que representan las frecuencias presentes en el bloque. La figura muestra los 64 coeficientes frecuenciales, con frecuencias horizontales crecientes (de izquierda a derecha) y frecuencias verticales crecientes (de arriba abajo). izquierda a derecha; las verticales, de arriba abajo, y las diagonales, de la esquina superior izquierda a la esquina inferior derecha. De esta forma los 64 píxeles del bloque han proporcionado 64 valores o coeficientes de frecuencia. El tamaño de los bloques es una solución de compromiso entre la eficiencia en la cuantificación de los valores frecuenciales (los bloques grandes serían mejores en este sentido) y la eficacia en la estimación de movimiento (un tema que se verá un poco más adelante), favorecida por bloques pequeños. Los experimentos han demostrado que se gana muy poco con bloques DCT grandes, los cuales aumentan el "efecto mosaico" de la imagen cuando se aplican fuertes factores de compresión. 8.2.1. Interpretación de la DeT A menudo resulta difícil entender la relación entre la representaci6n temporal o espacial de una señal y su traducci6n a coeficientes de frecuencia. La figura 7.16 (a) es una representación espacial de un bloque de píxeles de 8 x 8, es decir, cada cuadradito representa un píxel. Se trata de la luminancia de una señal en diente de sierra, que crece de negro a blanco, cuando se analiza de izquierda a derecha. En 194 195
  • 97.
    TECNOLOGI, AC'TUAL UET[l['SIÓ:-" 1I1I••mJ~@]~ ;¡ @jEJ0@)0EiJ00 G IIII••IJ~@]~ ;; 00000000 ~ 1I1I••~f§~§ ;j 000rol0000 ~ (a) IIII••~~@]~ ~ (b) 00000000 ~ 1I1I••lJf§~~ o 00000000 ~ 1I1I••~@0]@]~ ~ 00000000 ~ 1I1fI••IJ~~§ ~ 00fOl0fOl01olioJ § 1I1IJ••lIJ~@]§] z 00000000 ü "1 I-~' ~ ~ ~ ~ ~ ~ ~ ~ 1 + 43.50;, V VVVAA WNlIi FRECUENCIAS HORIZONTALES + 40% 41% 1.1% QUE INTERVIENEN EN LA SEÑAL ~~ ~o IN,RTIDO INVERTIDO EN "DIENTE DE SIERRA" ~ _ ~ / ~~- -­ ~~1Figura 7.16. Relación cntre los componentes frecuenciales de un grupo de muestras y su representación temporal. este caso concreto la señal no presenta variaciones en la dirección vertical, de manera que puede analizarse como si se tratara de una señal unidimensional. Esta señal en diente de sierra puede obtenerse sumando una serie de contribu­ ciones de señales más simples. La primera contribución es el nivel de continua (o nivel OC), que no es otra cosa que el nivel medio de la señal en diente de sierra. Si no se sumara el coeficiente de OC, el resultado sería una señal bipolar, donde el gris medio se situaría en "cero voltios", el negro en "-V" y el blanco en "+V". Intuitivamente puede verse, que el primer coeficiente senoidal (invertido) de fre­ cuencia horizontal debe tener mucho peso en la obtención del diente de sierra, ya que ¡se parecen enormemente! El siguiente coeficiente no interviene en la suma (su punto medio tendería a desplazar el punto medio de la señal en diente de sierra hacia abajo -si se suma en positivo- o hacia arriba -si se suma en negativo-). El siguiente coeficiente (invertido y con mucho menos peso) nos aproxima más a la función en diente de sierra y así hasta terminar con el coeficiente de peso -1 ,1 . Es cierto que al sumar un número limitado de coeficientes nunca obtendremos una señal en diente de sierra perfecta, pero tampoco hace falta, ya que, al tratarse de una señal muestreada, sus componentes de frecuencia son limitados. Resulta relativamente fácil entender la descomposición de una señal unidimen­ sional compleja en una serie de funciones simples. Algo más complicado puede resultar extender este concepto a funciones bidimensionales (en nuestro caso, las imágenes formadas por una dimensión horizontal y una vertical). Matemáticamente una función bidimensional puede entenderse como la com­ binación de todas las frecuencias de una dimensión con todas las frecuencias de la ______l·_ill~.i2.Ds..n.TIdsQ otra dimensión; en el caso de imágenes, la combinación dc todas las frccucncias horizontales para cada una de las frecuencias verticales. Visto de esta forma, el con­ cepto sigue siendo todavía muy abstracto. La figura 7.17 muestra otra forma de entender los coeficientes OCT. La aplica­ ción de la OCT sobre un bloque de 8 x 8 pÍxeles genera una tabla de 8 x 8 coefi­ cientes de frecuencia. Cada coeficiente puede entenderse como una "trama" básica predefinida. Las tramas van desde completamente lisa hasta máxima frecuencia horizontal y vertical (esta última sería similar a un tablero de ajedrez de 8 X 8 casi Has). Una vez realizada la OCT, cada una de las tramas tiene su propio "valor" o "peso" en la formación del bloque de la imagen original. La idea es la siguiente: si dispusiéramos de una transparencia de cada una de las tramas y pudiéramos ajustar el valor de contribución de cada trama, obtendríamos, sumando todas las transparencias, la imagen original, es decir, podríamos pasar del dominio de las frecuencias al dominio de las amplitudes. La suma podría lograrse proyectando un haz de luz a través de las transparencias. IMAGEN DE 720 X 576 DIVIDIDA EN BLOQUES DE 8 , 8 plXELES . - ,._-., ~rt;P1:+t1=l:ttK~~9~· ..ltJI#t¡¡bj:3M I 'YolA) ~ UN BLOQUE"1 DE 8,8 plXELES 'J'l. Figura 7.17. Otra forma de interpretar la DCT. 8.2.2. La DeT no comprime: ¡ayuda a comprimir! En el ejemplo de la figura 7.18, Ypara simplificar, la imagen se ha dividido en bloques de 4 x 4 muestras. Como consecuencia, la OCT bidimensional ha propor­ cionado un bloque de 4 x 4 coeficientes de frecuencia, de manera que se han pro­ ducido tantos coeficientes como muestras había en el bloque original. Por tanto, la OCT en sí misma no comprime. Es más, una representación precisa de la OCT exige entre 12 y 13 bits por coeficiente. Sin embargo, puede verse que en el blo­ que de muestras la posibilidad de ocurrencia de los distintos valores es aproxima­ damente igual, mientras que en el caso de las componentes frecuenciales los valo­ 196 197
  • 98.
    TlCNOLoc;iA ACTUAl DfTHE"I.'ilÓN .. ca) BLOQUE ORIGINAL DE 4 x 4 MUESTRAS •Del BIDIMENSIONAL VALOR MÁXIMO ; 32 '28 ';24 '20 "2 ',. 8 D/~~ 4ftO~ CC1Ó/y I<:O/Yr"l( Figura 7.18. Nótese la polarización en la probabilidad de ocurrencia de valores altos en las bajas frecuen­ cias de la representación frecuencial. res están muy polarizados. El coeficiente de la esquina superior corresponde a la frecuencia cero, es decir, al nivel de DC, y es el que tiene la máxima amplitud. A medida que nos movemos hacia la esquina inferior, ya sea a través de las filas o de las columnas, la amplitud decrece rápidamente, de manera que en las proximida­ des de la esquina inferior, que corresponde a las altas frecuencias, la mayor parte de los coeficientes son cero o están muy cerca de cero. Esta polarización del valor de los componentes de frecuencia facilita la codificación de longitud variable, de manera que podemos emplear palabras cortas para la codificación de los valores más frecuentes y palabras largas para la codificación de los valores menos frecuen­ tes. Esto es similar a la polarización de la probabilidad de ocurrencia de los valores de amplitud proporcionada por la DPCM. Aun siendo procesos distintos, podría relacionarse, aunque sólo sea a efectos pedagógicos, la DPCM con la DCT. La primera trabaja en el dominio de las ampli­ tudes temporales, mientras que la segunda lo hace en el de la energía de las com­ ponentes frecuenciales. Sin embargo, ambas hacen esencialmente lo mismo: pola­ rizan la probabilidad de ocurrencia de los distintos valores. Así podríamos enten­ der la DCT como una DPCM especial que proporciona, por un lado, el valor medio de un grupo de muestras (valor DC) y, por otro, los valores diferenciales, a COnlJ)resión en ddeo modo de tasas de varianza de distinta frecuencia. Estos valores difirenciales se denominan "coeficientes AC" (t." 823L. ., ecturo en Z18ZQ8 En la figura 7.19 (a) la señal de entrada presenta sólo suaves variaciones en la dirección horizontal. El valor de la esquina superior izquierda de la DCT (c) repre­ senta el valor de frecuencia cero, es decir, la componente continua de! bloque o, si se prefiere, el valor promediado de todos los píxeles del bloque. Lógicamente este coeficiente es e! de mayor energía, de manera que proporciona el valor más alto. A estos valores más altos, pero infrecuentes, se les otorgan los códigos VLC más largos. Por otro lado, a los valores más frecuentes, como 0, 1 Y-1, se les otorgan los códigos más cortos, El cero, por ejemplo, podría codificarse con un solo bit. Nótese que si sólo se codificaran los coeficientes de DC de cada bloque de la ima­ gen aparecería una especie de "efecto mosaico", es decir, la imagen seguiría man­ teniendo su nivel medio. •••••000 0 G0EOJ0~ITJ@]ITJITJ •••••LJUU;;J ~ITJITJITJ0lCJJlCJJ0lCJJ •••••CJOU~ ~ITJITJITJITJITJ00ITJ •••••GDD~ ~ITJITJ0000ITJ0 ••••IIDDO~ ~ lCJJ0 0lCJJlCJJlCJJl~lCJJ ••••mOUU2 ºlCJJITJlCJJlCJJ~~00 ••••~UOD~ ~lCJJ0lCJJlCJJ00lCJJ0 ••••IiiUUU~ u ~~0lCJJlCJJlCJJlCJJlCJJlCJJ 0§:5]@]~[50][6D]@J[6D]~ en _ UJ ~UJ 0~~~~~@J[6D]~ U ¡¡:: UJ 0§:5]@]~~~@][6D]m O en0§:5]@]~~~~~~ U UJ lCJJlssJ@]~~~~~~ g o ~lCJJlssJ[25J~~~~~~ ¡:= u UJlCJJlssJ~~~§@J~~ -' 0lssJ~~~~~~~ :§: 43,5 ~ o ~' o h' o~ l/o Va VOl l/o FIN 170 170 170 170 o;Vo)l/o-¿' Va l/o-.. 0)/0 V~ al/¡, l/¡, Va l/o o¿,l/o Va ~ 0;1/0~Va Vo~Va 0,,170 ~. o l/o Va"Va Va o l/o"V o 01/0 Va l/o)l/ou¿, 0)/0 V~ o~Va,~170•~1/0•¡-­ Va Figura 7. 19. La forma más eficaz de leer los coeficientes frecuenciales proporcionados por la DCT es siguiendo una pauta en zigzag. Estadísticamente es la forma de asegurar que pronto se encon­ trarán largas cadenas de ceros. 199 198
  • 99.
    TI;C:'-!OLOGII ACTUI1. UI:TLl[,¡IÓ;' Cuando el bloque DCT representa la señal de luminancia de, por ejemplo, una sei'ial 4:2:2, resulta ventajoso realizar la lectura o serialización del bloque siguien­ do una pauta en "zigzag", comenzando por el coeficiente de menor frecuencia espacial (en la esquina superior izquierda) y terminando por el de mayor frecuen­ cia espacial (en la esquina opuesta). De esta forma, en la mayoda de las imágenes, la secuencia de coeficientes tiende a decrecer rápidamente e incluso en la mayoría de los bloques DCT se llega muy pronto a una situación en que todos los coefi­ cientes restantes son cero. Una vez que se alcanza esta situación, resulta más con­ veniente transmitir un código especial de FIN, en lugar de seguir enviando ceros repetidamente. Esto es similar a la marca de final de archivo (EOF o End f!.f File) que se coloca después del último byte de información real de un archivo de orde­ nador. Un clúster determinado del disco duro contendrá muchos bytes después de la marca de EOF. Tales bytes fueron en su momento escritos por el sistema 'opera­ tivo durante el formateo del disco, pero no contienen información real y no serán leídos por el programa de aplicación. En la práctica pueden utilizarse dos pautas o esquemas para la lectura de los coeficientes frecuenciales de la DCT. La pauta de la figura 7.20 (a) proporciona una lectura simétrica de los coeficientes horizontales y verticales y es preferida en el caso de imagenes no entrelazadas, es decir, cuado los bloques DCT pertenecen a una imagen formada por un solo campo secuencial. La pauta (b) muestra una ten­ dencia a Icer primero los coeficientes verticales y es preferida cuando hay mucha información vertical, como sucede en el caso de imagenes entrelazadas, en que los bloques codificados pertenecen a un campo concreto de los dos que forman la ima­ gen. En tal caso las filas consecutivas de los valores de amplitud del bloque DCT corresponden a líneas de televisión separadas en dos unidades en la imagen, por lo que la probabilidad de aparición de altas frecuencias verticales es mayor. A V1 11 V1 A V1 IV) VV) IIV) / / ( ( Al ( Al ) ) ) 'V [) 'V / / / / / / 1 I I 1 / 11 1/ 1/ 1/ -r-­ (a) (b) Figura 7.20. Los dos posibles esquemas de lectura de los coeficientes frecuenciales proporcionados por la DCT. ___~C~O~l1"lp.r(':-;i('1Jl en ,íci..-'O 9. Recuantificación de los coeficientes Es bien sabido que la sensibilidad al ruido en las imágenes de television no depende del 'alar absoluto del ruido, sino de la relación entre el nivel de la señal y el nivel del ruido, de forma que en las zonas oscuras de la imagen el ruido es mucho más visible que en las zonas claras, ya que en estas últimas la propia imagen tapa al ruido. Esto es lo mismo que sucede con el soplido de las cintas de audio, el cual sólo se percibe durante los silencios o en los "pianísimos". El NICAM, que es un sistema de compresión de datos de audio, saca provecho de este fenómeno de enmascaramiento. Tal vez sea menos conocido el hecho de que la perceptibidad del ruido en las imágenes depende también de las frecuencias espaciales a las que se añade. Tal como se puede ver en la figura 7.21, el sistema de pereepcion visual humano mues­ tra máxima sensibilidad al ruido en las zonas lisas o de baja frecuencia, mientras que decae rápidamente a medida que aumenta la frecuencia. En otras palabras, las altas frecuencias espaciales enmascaran el ruido. Estas altas frecuencias correspon­ den a las finas texturas o a los bordes de los objetos. En estas zonas el ruido gene­ rado por los errores de codificación es "ocultado" por las propias tramas y detalles finos de la imagen. Este fenómeno de enmascaramiento es la base de la compre­ sión perceptual aplicada a las imágenes de televisión. Disponer de una representación frecuencial permite explotar este tipo de enmascaramiento. Lo que se hace es dividir los coeficientes frecuenciales por un factor de ponderación, siendo este último función de la frecuencia. El efecto de este proceso de ponderación es el de reducir desproporcionadamente la precisión en la codificación de los coeficientes que representan las altas frecuencias. El pro­ ceso es como sigue: los distintos valores frecuenciales proporcionados por la DCT 0+10 dB­ O « OdB-­ o::: W -10 dB O Z -20 dB O Q.. -30 dB-­ O O -40 dB ::J -SO dB­ o::: • Figura 7.21. La perceptibilidad del ruido depende de la frecuencia a la que se suma, máxima en las bajas frecuencias y minima en las altas. FRECUENCIA ESPACIAL 200 201
  • 100.
    TH'NOLOGIA ACTUAl 1)[1El 1:'ISIOj.' son divididos por cantidades que dependen de la posición de cada valor en el blo­ que de coeficientes. Los valores situados mas arriba y a la izquierda prácticamente no son alterados, mientras que el factor de división aumenta de izquierda a dere­ cha y de arriba abajo. Los coeficientes atenuados son a continuación redondeados, por truncamiento de decimales, a los valores normalizados más próximos. Por otro lado, el decodificador dispone de la tabla de coeficientes de división que se han aplicado a los valores frecuenciales y lo que primero hará es multiplicarlos por una matriz inversa a la que utilizó el codificador. De esta forma lo que se pierde es pre­ cisión en la representación de los valores frecuenciales, especialmente en los correspondientes a las altas frecuencias, aunque se respeta el valor de magnitud a groso modo. En otras palabras, los coeficientes son recuantificados individualmente, con peldaños cuyo tamaño aumenta con la frecuencia. De esta forma se logra aho­ rrar bits extra en la representación de las altas frecuencias. Por tanto, el proceso completo sería: división-truncada-reconstrucción. Estos conceptos pueden enten­ derse mejor con un pequeño ejemplo: Tabla 7.3 Ejemplo de recuantificación por división. redondeo y escalado, basado en cuatro zonas de frecuencia. ZONA EN LA TABLA OCT ORIGINAL PONDERACiÓN RESULTADO PRECISiÓN Valor de DC 111 x1 =111 (Sin desplazamiento) Total = 111 Frecuencias bajas Free. medias- bajas 111 111 x1/2=011 x1/4=001 (Desplazando 1 bit) = 110 (Desplazando 2 bits) = 100 Ligero Redondeo Alto redondeo Free. medias- altas Frecuencias altas 111 111 x1/8=000 x1/16=000 (Desplazando 3 bits) = 000 (Desplazando 4 bits) = 000 Se convjerte en cero Se convierte en cero En la tabla 7.3 se ha utilizado un esquema de ponderación fijo basado en divi­ dir el hloque de coeficientes DCT en cinco zonas: una para el coeficiente de DC y cuatro para los coeficientes de AC. En este ejemplo, y para que resulte más didác­ tico, se supone que todos los coeficientes tienen el valor binario "111". Puede verse en la columna de la derecha que el resultado final es la codificación del valor de De con total precisión. Por otra parte, hay un ligero redondeo en las bajas fre­ cuencias, un redondeo más alto en las frecuencias medias-bajas y, en este caso, una puesta a cero en las frecuencias medias-altas y altas. Los redondeos hacen que cier­ tos valores aparezcan con mucha mas frecuencia que otros. Por ejemplo, el valor "lOO" será muy frecuente, ya que los valores originales "IJl", "110", "101" y, por supuesto, "lOO" podrán degenerar en "lOO" si se les aplica el redondeo "x 1/ 4". Lo anterior ayuda a la codificación de longitud variable, basada en la polarización de la probabilidad de ocurrencia. ___________________________________-'c"'"lIl,,ll'pre:-,i()11 ('11 ,-ídcll Por otro lado, cuando los valores de entrada son bajos y el redondeo fuerte (como en el caso de las frecuencias medias-altas)' altas), el proceso anterior gene­ rará largas cadenas de ceros, a las que se aplicará la codificación de secuencias o el código especial de "final de bloque" (EOB). En la practica muchos sistemas de com­ presión aplican un factor de división distinto para cada uno de los coeficientes espa­ ciales del bloque DCT, como en el caso del ejemplo sigUiente: 16 12 14 14 18 24 49 72 11 12 13 17 22 35 64 92 10 14 16 22 37 55 78 95 16 19 24 29 56 64 87 98 24 26 40 51 68 81 103 112 40 58 57 87 109 104 121 100 51 60 69 80 103 113 120 103 61 55 56 62 77 92 101 99 La tabla anterior muestra los factores por los cuales son divididos los coeficien­ tes de frecuencia proporcionados por la DCT para los bloques de luminancia en el sistema de compl'esión de imagenes estaticas JPEG. Esta tabla representa unos niveles de recuantificación de los coeficientes muy agresivos (en JPEG se puede escoger entre un conjunto muy variado de tablas en función del grado de compre­ sión deseado). Utilizando esta tabla, las imagenes reconstruidas mostrarían con mucha probabilidad ciertas degradaciones. Para comenzar, la máxima precisión, o, si se prefiere, la minima recuantificación, se obtiene en (H =O, V =2) Yen (H = 1, V = O), frecuencias espaciales a las cuales el sistema de percepción visual huma­ no presenta la máxima sensibilidad, Por la forma en que trahaja la DCT, dividir por 16 el valor de DC equivale a no perder precisión. Lo anterior significa introducir errores en la representación de la magnitud de las altas frecuencias espaciales, es decir, sc introduce ruido en estas frecuencias, pero, como se ha visto, en estos casos el ruido puede ser tolerado. También puede entenderse como una cierta pérdida de resolución en las altas frecuencias de la imagen, con lo que se parece a los VTR analógicos, donde las señales de alta fre­ cuencia son reproducidas con menor precisión que las de baja frecuencia como resultado de la grabación en FM. 1O. Todas las herramientas juntas Cuando se desea obtener un factor de compresión alto, manteniendo el maxi­ mo grado de calidad posible, es necesario combinar varios procesos distintos. En este ejemplo se trata de comprimir la información de una imagen en sí misma, es decir, sin procesar la redundancia temporal. Éste podda ser el caso de un magne­ toscopio digital, como el DVCPRO, Betacam-Digital, etc. El primer paso consiste en dividir la imagen en bloques de 8 x 8 píxeJes. Estos bloques, que representan la información de luminancia de la imagen, son sometidos a la transformada DCT bidireccional. A continuación el bloque es leído en zigzag y el valor de cada coefi­ 202 203
  • 101.
    TI.:C'OI.()(¡). ,KllUL DI.I [LJ:'I~IO:,-' _ ciente recuantificado en función de la frecuencia gue representa, es decir, de su posición en el blogue transformado. A la salida del recuantificador se procede a la codificación de secuencias y a continuación a la codificación de longitud variable. El último paso consiste en formar paguetes de bits de longitud fija para su trans­ misión, grabación, etc. La DCT no se realiza sobre el valor de amplitud de los píxeles. Por el contrario, previamente se resta a cada muestra un valor fijo de 128 (con lo que los valores resul­ tantes podran ser positivos o negativos). Esto se hace para gue el rango de amplitu­ des de las tres señales (Y, R· Y YB·Y) se extienda entre los mismos margenes (hay gue recordar gue las señales diferencia de color pueden ser positivas o negativas y estan centradas en cero). Así, en el nuevo bloque de amplitudes, al gris medio le corres­ ponde un valor "cero"; el valor positivo mas alto es 127 y el mas bajo ~127 (por sim­ plificación, en la figura se han mantenido los valores absolutos). A continuación se realiza la DCT de cada bloque. Los valores proporcionados son expresados con una resolución mínima de la bits, lo que eguivale a multiplicar por cuatro (añadir dos ceros a la derecha es multiplicar por 22, es decir, por cuatro). En la figura 7.22 puede seguirse el dlculo del coeficiente de DC, desde el bloque de amplitudes hasta el blo­ que de coeficientes frecuenciales. El valor de DC se calcula como el valor promedio de todos los valores de amplitud del bloque de codificación. Un problema gue se genera con este tipo de codificación es que el factor de compresión es variable, ya que está en función de la entropía de la imagen de entrada. Esto supone que la tasa de bits a la salida del compresor será también I 10 bits ..l.8bítS ~ XI 231) 30 2)(] -JO 2Xl JO 230 I I I 208 30 230 30 no 30 130 JO 130 I , :~g 2l:) 230 no 130 2X1 230 'lO 130 !230 :no 230 2JO no 2JO 230]]0 1 I ·13 oI ~~~ ~~~ ~;~ ~;~II -391230 2301JO 1JO no 1JO 230 130 I o / 2l) 2JO 230 230 2JO 2JO 2JO 2JO I I O -138 o ((16.30':(481230)) '~'73 ·lJ I}·U 0.10 o .A8 ¡ -25 ~2Oe~36--0~J9-t----:-!l4-~JI of&4"~80"lJO.128"511 O o o o o o o 01 uIr- -145h4-208____ .1J8 .25 o -17 o ·37 o .91 o 000000001 -54 o I Sb 1~ ~ I~ ~ 2~ ~ ~ I o IMAGEN II 2 o 2 o J o--.iJ 01 o 87 o 16 o ·27 i .¡"L~_-----.J Figura 7.22. Esquema de un compresor intracuadro, desde la formación de los bloques OCT a la entrada hasta la salida de los paquetes comprimidos. 204 variable, lo cual no resulta conveniente en la gl'ah<lción o transmisión de imágenes en televisión, ya gue los canales tienen un ancho de banda fijo. Para resoh'Cr este problema se permite gue los coeficientes de ponderación, gue regulan el proceso de recuantificación, puedan ser más o menos severos en función de la ocupación de la memoria ele salida. Cuando la memoria está poco llena, los coeficientes de frecuencia apenas son alteraelos. En caso contrario, éstos se atenúan en m<l)'or medida. Éste será el tema del próximo apartado. 11. El btiffer de salida La cantidad de información redundante e irrelevante en la señal de vídeo depende de la complejidad de la' escena. Aguí "complejidad" se refiere a la cantidad ele detalle que contienen las imágenes y el grado de correlación o "pautas" que pre­ senta dicho detalle (información espacial), así como a la cantidad de movimiento y su predictibilidad (información temporal). Así pues, tanto el porcentaje de redundancia como el de irrelevancia son fun­ ción del tiempo. Además el tamaño de ambos componentes no depende el uno del otro. Si se guiere mantener una calidad constante, la cantidad de información remanente (la relevante) será variable. La línea 1 de la figura 7.23 muestra cómo se elimina la mayor parte de la redun­ dancia sin tocar para nada el resto de la información, por lo que se puede trans­ portar la señal comprimida sin que se produzca ninguna degradación (compresión sin pérdidas). Esto genera una señal de calidad estable, pero una tasa de datos de salida variable. En la línea 2 se elimina parte de la información relevante o "básica" (compresión con pérdidas). Así se logra una tasa de salida de datos estable a cam­ bio de una calidad variable. Una frecuencia de datos estable es necesaria en el caso de la transmisión digital y en la grabación en cinta de vídeo. En la línea 3 no se eli­ mina ningún tipo de información (no hay compresión). Es la única forma de garan­ tizar a la vez "calidad estable" y "tasa de salida de datos estable". El precio que hay U - -3 ~O~ ~m~ !~~~~~! INFORMACiÓN REDUNDANTE I JINFORMACIÓN IRRELEVANTE I ¡INFORMACiÓN RELEVANTE Figura 7.23. La cantidad de informacian relevante que puede contener una sei'íal de video varía en funcían del tiempo. 20S
  • 102.
    TrCNOloC!A :Cl tHIDI Tri H'¡,¡():, ""~"-" I Detector de nivel i:'~,~ t~-Jtt"1 ~:;" Paquetes de información ,: 'r~ i( ....~"_.--,-.- ~ ~; Control del grifo ,--.. ..-".~ Buffer f ~, Caudal de Información esta~ Figura 7.24. Se trata de evitar que el bidón ni se desborde ni se vacíe. Un mecanismo regula la cantidad de información cerrando o abriendo el grifo de la recuantificación. que pagar, en este caso, es un ancho de banda mucho más elevado que en el caso de los sistemas que emplean compresión. Algunas apucaciones permiten tasas de bits variables, pero en el caso de los mag­ netoscopios digitales y en la mayoría de las aplicaciones de televisión es necesario que la cantidad de bits grabados, procesados o transmitidos por unidad de tiempo sea esta­ ble. ¿Cómo convertir una información de complejidad variable en una tasa de salida estable? La solución consiste en disponer de un bt!fJer o almacén de salida que regule en cada momento la "dureza" de la compresión. Se trata de evitar que el bt1Jer se vacíe o se desborde. Si el bt1Jú está a punto de desbordarse, el factor de compresión se redu­ ce; si está casi vacío, se aumenta. De esta forma es posible lograr una tasa de daros de salida estable con una calidad de imagen "casi estable". Esto puede compararse a man­ tener un bidón de agua con un llenado óptimo (sin que se vacíe ni se desborde), a pesar de que los aportes de agua son variables en el tiempo. En resumen, la "compresión intracuadro" consiste en la elaboración de los valo­ res DCT, seguida de la recuantificación de los coeficientes y de la codificación de longitud variable. El control de llenado asegura una tasa de datos de salida estable, forzando la recuantificación si fuera necesario. 12. Compresión temporal En los apartados anteriores se ha utilizado el concepto de "correlación espacial". Por tal se entiende la medida en que el valor de un píxel depende o está relacio­ nado con el valor de los píxeles vecinos. Alta correlación significa que el valor de un pixel es muy dependiente del valOl' de los otros píxeles de la imagen; baja corre­ laCión, todo lo contrario. Por tanto, correlación y redundancia son términos liga­ dos el uno al otro. Compresión en vídco 12.1. Redundancia temporal La redundancia no sólo existe dentro de las imágenes, sino también entre ellas. Una secuencia de imágenes, representando una escena en movimiento, es un con­ junto de muestras temporales. En una escena típica los cuadros que representan las muestras temporales tienden a mostrar un cierto grado de similitud. En otras pala­ bras, se obtendría un cierto éxito si se predijera una imagen a partir de otras imá­ genes ya disponibles. Esto significa que la nueva imagen contiene muy poca infor­ mación real o, en términos más técnicos, muy poca entropía. Out Compresión perceptual OCT =Transformada en coseno discreto X =Recuantificador VLC =Codificación de longitud variable Figura 7.25. Diagrama de bloques basico de la compresión intracuadro. La redundancia de información entre cuadros sucesivos puede ser aprovechada codificando y transmitiendo sólo aquello que cambia de un cuadro a otro. El con­ cepto básico de la compresión temporal se ilustra en la figura 7.26. Para simplifi­ car, en esta imagen se ha congelado el fondo y sólo se ha permitido al tiburón avan­ zar unos pocos píxeles hacia la derecha y hacia arriba, de un cuadro a otro. Si res­ tamos ambas imágenes obtendremos algo similar a la figura 7.27, donde todo el fondo vale cero y sólo contiene información real aquello que se ha movido. Figura 7.26. Entre dos imagenes consecutivas existe un alto grado de similitud o correlación. 206 207
  • 103.
    T;T1'(n~)GíA ,'CTlP'¡ ¡,")Ie-.,-,1I~I",E~",¡"-Ic'J,,,~,-'_ __ COmp¡c>J,'¡¡¡ Cl.Ul!l~ Figura 7.27. Residuos obtenidos al restar dos imá­ genes consecutivas. Si se hiciera la DCT de la imagen de la figura 7.27, está claro que todos coefi­ cientes de todos los bloques correspondientes a las zonas del fondo valdrían cero (al menos en un caso ideal). Sólo los bloques que incluyen el tiburón de primer plano presentarían valores reales. Tan largas cadenas de ceros serían fácilmente tra­ tadas por Jos pl"Ocesos de codificación de longitud variable y codificación de secuencias. 12.2. Compensacíón de movimiento Es posible ir un paso más adelante en la reducción de datos gracias a las técni­ cas de predicción y compensación de movimiento. Basta con pensar que, aunque el tiburón se haya movido de un frame a otro, sigue siendo e! mismo tiburón y man­ tiene la mayoría de sus atributos de forma, color, textura, iluminación, etc. La idea básica es comunicar al decodificador las fronteras que delimitan la forma del tibu­ rón y la medida y dirección en que se ha movido de un cuadro al siguiente. El deco­ dificador sólo tendrá que recuperar el tiburón de! cuadro "A" y copiarlo desplaza­ do en e! cuadro "8". Hoy por hoy los codificadores no son capaces de reconocer la forma de los obje­ tos yprocesarlos como entidades. En lugar de csto, ]0 que se hace es dividir la ima­ gcn en bloques de compensación de movimiento, llamados "macrobloques" (por­ que suelen incluir varios bloques DCT), por ejemplo, de 16 x 16 píxeles, como en la figura 7.28. A continuación se busca en qué medida los macrobloques de píxe­ les de la imagen "A" se han desplazado cn la imagen "B". Para ser más exactos, son los macrobloques de la imagen "B" los que se desplazan dentro de un área de bús­ queda predeterminada (por ejemplo, moviéndolos ±16 píxeles en la dirección horizontal y ±8 en la vertical) y se comparan con los macrobloques correspon­ dientes de la imagen "A". Aquella igualación que dé mínima diferencia se toma como "vector de desplazamiento". A continuaci6n e] codificador "resta" el macro­ bloque de la imagen "8" (la actual) del macrobloque desplazado de la imagen "A" (la anterior). Este resto o residuo será posteriormente procesado como si se trata­ ra de un macrobloque de imagen normal, es decir, DCT + ZIGZAG + VLC. .. La Figura 7.28. En este? ejemplo (un tanto ideal) la mayoría cte los bloques proporcionan residuos cero )' bloques de desplaza­ miento nulos. Sólo unos pocos blo­ ques se han movido de la imagen "A" a la "E". diferencia es que como el bloque contiene muy pocos valol'es rcales y, en cualquier caso, estos son muy pequeños, contendrá igualmente muy pocos coeficientes de frecuencia reales, los cuales serán, además, de escasa energía. Ciertamente con esta técnica es necesario codificar, además de los coeficientes DCT, los vectores de des­ plazamiento, para lo cual se necesitan bits extras. Aun así, es eficaz. Sólo se nece­ sitan dos valores (uno para H y otro para V) para comunicar el movimiento de un conjunto de 256 píxeles (16 x 16). Además los vectores de desplazamiento pre­ sentan una gran correlación entre ellos, ya que son consecuencia del movimiento de objetos sólidos, por lo que se utiliza para ellos codificación diferencial DPCM. Así pues, para cada bloque (en este ejemplo de 16 x 16 píxeles) se obtiene un "vector de desplazamiento", formado por dos parámetros: desplazamiento hori­ zontal y desplazamiento vertical del bloque. En las zonas estáticas el vector valdrá cero, en las zonas en movimiento el valor del vector de desplazamiento servid. para reconstruir la imagen "B" a partir de la "A". Puede compararse la codificación intercampo con las técnicas DPCM estudia­ das en apartados anteriores. En ambos casos no se procesan valores absolutos, sino valores diferencia. Esto descorrelaciona la información, disminuyendo la entropía. La situación pintada en los párrafos anteriores es un tanto idílica. Para comen­ zar, los objetos al moverse no sólo cambian de posición, sino también de tamaño cuando se acercan o se alejan de la cámara. Igualmente pueden girar, mostrando partes nuevas, o desvelar, al moverse, zonas de la escena que no estahan presentes anteriormente. Además siempre está presente un cierto nivel de ruido, el cual, al ser aleatorio, cambia de una imagen a otra. El tiburón de la figura 7.26 probahlemente se aleje o se acerque a la cámara al tiempo que se desplaza hacia la derecha, cambiando su tamaño. Además seguro que los pececillos del fondo no se quedarán quietos. Al contrario, huirán rápidamente y no todos en la misma direcci6n. En una situación como ésta hasta el pulso de! operador de cámara introducirá movimiento y, por tanto, descorrelaci6n entre imágenes. Así los vectores de movimiento de los distintos bloques de imagen sc parecen menos entre ellos, a la vez que los bloques restados entre imágcnes no sue­ len proporcionar residuos nulos, lo que significa que habrá un cierto número de coeficientes reales en los valores DCT. 208 209
  • 104.
    Th'NOL(}(;h ACTUAL DI:TEI f'ISJ()~ Aunque no sea perfecta, la codificación intercuadro reduce notablemente el número de coeficientes de frecuencia que hay que codificar. Dado tu1 cierto nivel de calidad, las "imágenes diferenciales", también llamadas "imágenes predecidas", ocupan como promedio entre la mitad y la tercera parte que las imágenes que se comprimen en sí mismas, denominadas estas últimas "de compresión intracuadro". 13. Combinar espacial y temporal Los sistemas que necesitan un alto factor de compresión, manteniendo un buen nivel de calidad de imagen, necesitan combinar las técnicas de compresión espacial y temporal. Comparese la figura 7.29 con la 7.25. Los procesos de compresión son esencialmente los mismos, sólo que los pasos de transformación, compresión per­ ceptual y compresión entrópica no se realizan sobre bloques DCT de la imagen de entrada, sino sobre bloques obtenidos como diferencia entre la imagen actual y la precedente. In Out Decodificación locsl OCT = Transformada en coseno discreto VLC = Codificación de longitud variable X = Recuantificador (VlC"+DCT")= De longitud variable a fija + DCT inversa Figura 7.29. Diagrama de bloques simplificado de la compresión intercuadro. Para simplificar, el diagrama de bloques de la figura 7.29 no contempla la com­ pensación de movimiento. Debe notarse la presencia de un conmutador de entra­ da, necesario para cambiar del modo "intracuadro" al modo "intercuadro". Para lograr un factor de compresión alto interesa que la mayoría de las imágenes se codifiquen en el modo intercuadro. Sin embargo, una de cada "n" debería codifi­ carse en el modo "intra". En aplicaciones como la difusión de television digital, la distancia entre dos imágenes "intra" determina el tiempo de reaccion del televisor al cambiar de canal, ya que éste necesita esperar a disponer de una imagen codifi­ cada "intracuadro" (espacialmente) para poder iniciar el trabajo de decodificación. ComDrL'~i6n en "ídl·O Además, al igual que sucedía con la codificación DPCM, la compresión intercua­ dro tiende a propagar errores, los cuales no se cancelan hasta que aparece una ima­ gen intracuadro. Intercalando una imagen intra cada once imágenes diferenciales se tendría un tiempo de espera de mas/menos medio segundo como promedio en el momento de encender el televisor o cambiar de canal. Sería necesario, además, insertar una imagen intra extra cada vez que se produjera un cambio de plano. 14. Precompresión Puede resultar muy útil "preparar" o, al menos, "cuidar" las imágenes antes de la compresión. De esta forma podr:in obtenerse factores de compresión elevados con alta calidad de imagen. Aunque se trata de procesos previos a la compresion, se han dejado deliberadamente para el final del capítulo, ya que ahol'a puede enten­ derse claramente su necesidad. En general, las mejores imágenes para ser comprimidas son aquellas que pre­ sentan el nivel más alto de calidad con el mínimo de ruido o distorsiones. Entre los artificios que afectan y perjudican a la compresión puede destacarse: ruido aleato­ rio, restos de intermodulación luminancia-crominancia (imágenes que proceden de PAL) y corrección de apertura excesiva (DTL). La figura 7.30 sería un ejemplo de imagen apropiada para la compresión. Muestra zonas fáciles, con poco detalle, y zonas más difíciles, pero es una imagen limpia, sin ruido ni artificios. Figura 7.30. Una imagen "normal" con zonas de bajas frecuencias (cielo, agua, nieve) y de altas frecuencias (vegetación y texturas en las montañas), pero, en cualquier caso, una imagen limpia. 210 211
  • 105.
    TI~C:()l ()(;IA ACTLJ.1./H. 1I;LE IS¡Ó:' 14. 1. El ruido De todos los artificios posibles, el peor es el ¡'uido aleatorio, ya que, por defi­ nicion, no contiene redundancia. Los sistemas de compresion interpretan el ruido como infonnacion básica e intentan codificarlo con la mayor precision. As! limitan el número de bits disponibles para codificar la parte realmente importante: la información perceptualmente básica. Las imágenes ruidosas son tan malas candi­ datas a la codificacion con compresion, que están apal'eciendo en el mercado equi­ pos (no precisamente baratos) dedicados a la supresion o minimizacion de ruido, especialmente para la compresion. También los arañazos y suciedad de las películas de cine puede entenderse como ruido aleatorio, ya que no se sigue ninguna pauta predefinida, produciéndose al azar. Figura 7.31. Imagen "muy ruidosa" poco apropiada para la compresion. 14.2. Exceso de corrección de apertura La corrección de apertura horizontal y vertical (conocida como DTL) también reduce la eficacia de los sistemas de compresión. Se trata de un proceso introducido por la cámara de vídeo con la intención de proporcionar imágenes más nltidas y bri­ llantes. Por otro lado, un exceso de corrección genera bordes muy marcados (e incluso dobles bordes) que aumentan e! contenido de altas frecuencias, estresando el sistema de compresión con detalles irrelevantes. Por suerte, el DTL puede ajustarse, de manera que es aconsejable reducir el nivel de correccion de apertura cuando se sabe que las imágenes van a ser comprimidas. La experiencia determinará e! grado de corrección adecuado en función de! sistema y e! factor de compresión utilizado. COlllPresión en '·Ideu Figura 7.32. En la imagen de la izquierda, un exceso de correccion de detalle aumenta la entropía de la imagen y dificulta la compresion. A la derecha, imagen deliheradamente suavizada para facili­ tar llna fuerte compresión posterior. 14.3. Suavizado de imagen Cuando se desea obtener factores de compresion muy elevados, puede ser úti! "suavizar" previamente la imagen. Esto supone una cierta pérdida de resolucion de la imagen comprimida, pero es mucho más tolerable que la aparicion de artificios como consecuencia de un exceso de compresion. 14.4. Otros defectos de entrada No se trata de hacer una relacion exhaustiva de todos los posibles defectos de la señal de entrada al codificador, pero sí es necesario citar al menos algunos propios de las películas de cine, que son después convertidas a vídeo y digitalizadas. Entre éstos destacan las ralladuras y la suciedad, especialmente al inicio y al final de la cinta. Otro defecto importante que puede dificultar enormemente la compresion es la inestabilidad o temblor de los fotogramas cuando se encuentran en la venta­ nilla de proyección expuestos a la luz. Tal temblor se traduce en movimiento, "estresando" los procesos de compensacion de movimiento y compresión inter­ cuadro. 15. Artificios de la cOlnpresión Si no se utiliza adecuadamente o si se abusa de ella, la compresión puede intro­ ducir defectos y artificios en la imagen que pueden llegar a ser muy molestos. En general, las degradaciones introducidas por los sistemas analógicos, tales como la reducción de la resolución por falta de ancho de banda o el ruido por mala S/N, resultan bastante "naturales" para el sistema de percepción visual humano. No así las degradaciones introducidas por la compresión, las cuales resultan mucho más artificiosas e intolerables. Entre estas últimas cabe citar: 212 213
  • 106.
    TLCNU! Ola.' ACTUAlDI" TJ~'-rU';J(')' BLOCK/NG (efecto mosaico).-A la imagen codificada se suma una estructura de bloques, que denuncia las fronteras de los bloques de DCT y/ o de los macroblo­ ques de compensación de movimiento. BLUR/NG (emborronado).-En una imagen determinada la reducción de infor­ mación real, genera efectos de emborronamiento y una especie de corrimiento de tintas (smearing) EDGE BUSYNESS (actividad de los borcles).-Un efecto de distorsión en torno a los bordes de los objetos, caracterizada por una variación temporal de su nitidez o agudeza o por una variación espacial elel ruido. Puesto que se elimina más infor­ mación en las zonas de alta resolución, se genera un "ruido" en los bordes de las imágenes. ERROR BLOCKS (bloques erróneos).-Una forma de distorsión en la que uno o más bloques de la imagen recibida no se corresponde con la escena original y a menudo contrasta mucho con los bloques adyacentes. Por ejemplo, pueden apare­ cer bloques congelados o en negro. MOSQY/TO N01SE (ruido nervioso).-Causado pOI' errores de cuantificación entre píxeles adyacentes. A medida que el contenido de la escena varía, los tama­ ños de los escalones de cuantificación varían también, de forma que los errores de cuantificación producidos se manifiestan como "puntos negros centelleantes", que se asemejan a mosquitos y que se muestran aleatoriamente en torno a los objetos de la escena. QYANTlZATlON NO/SE (ruido de cuantificación).-Representación inadecuada de la señal original que se produce durante el proceso de conversión de digital a analógico. Los procesos de compresión posterior pueden enfatizar este tipo de ruido. Resumen • La compresión permite al usuario elegir la combinación de parámetros de muestreo y factores de compresión que mejor se adapten a sus necesidades. Muchas aplicaciones actuales no serían posibles sin la compresión. • La información de las imágenes de vídeo puede dividirse en tres partes: -- El elemento redundante: Información repetitiva o predecible. Una señal de vídeo contiene mucha información redundante. Un píxel tiende a parecer­ se a sus vecinos (redundancia espacial). Una imagen tiende a parecerse a la que le precede ya la que le sigue (redundancia temporal). - El elemento irrelevante: Información que el ojo humano no es capaz de apre­ cIar. -- El elemento bdsico: Infor¡llJción que no es redundante ni irrelevante y que debe retenerse. • Toda imagen contiene una cierta cantidaJ de redundancia, la cual se define como aquellos datos que son repetitivos o predecibles. La diferencia entre la cantidad total de datos de un mensaje y su redundancia se conoce como " , " , entropra . • Es posible encontrar redundancia tanto en el espacio como en el tiempo. Hay COlllnrCSJÓn en ·ídeo' varios procedimientos para eliminar o reducir la redundancia espacial, lal mayoría de ellos basados en el análisis de las frecuencias que componen la imagen. Para reducir la redundancia temporal lo que se hace es no enviar las imágenes de vídeo en sí mismas, sino la diferencia entre ellas. • Los sistemas que comprimen temporalmente (también denominados de compresión intercampo o de compresión intercuadro) no son adecuados para la grabación digital profesional, ya que en este tipo de aplicaciones interesa que una imagen sea una entidad en sí misma y no la diferencia codificada de la imagen o imágenes precedentes. Los sistemas reales de compresión de datos, actuales y potentes, son combi­ naciones de muchas y variadas técnicas o herramientas. Estas pueden dividir­ se en dos grupos: herramientas de "compresión sin perdidas" y herramientas de "compresión con pérdidas". A la primera categoría corresponden: RLC, VLC, DCT y supresión de borrados. Son técnicas de compresión con pérdi­ das el submuestreo, la DPCM y la recuantificación de los coeficientes. Además se utilizan algunos trucos, tales como lectura en zigzag, marcado de EüF y compensación de movimiento. La codificación de secuencias codifica la longitud de las cadenas, es decir, el numero de veces que un valor se repite hasta que aparece otro distinto. • La codificación de longitud variable otorga códigos cortos a los símbolos más frecuentes y códigos largos a los menos frecuentes. Para que sea eficaz es necesario que la probabilidad de ocurrencia esté polarizada hacia ciertos valo­ res. El Huffman es uno de los códigos de longitud variable más populares. También se utiliza la llamada "codificación aritmética". • La OCT, aplicada a imágenes de televisión, procesa bloques que representan la amplitud de los de píxeles y los convierte en bloques de valores de fre­ cuencia. En sí misma, la DCT no introduce pérdidas, siendo, por tanto, un proceso totalmente reversible. • La OPCM no codifica el valor absoluto de las muestras, sino la medida en que cada muestra difiere de la anterior. De esta forma se reduce considerable­ mente la amplitud de los valores a codificar, lo que significa tener que emple­ ar menos bits por muestra. Una forma de detectar la redundancia y aislar la entropía consiste en trans­ formar la señal desde el dominio de! tiempo hasta e! dominio de la frecuen­ cia. • En el caso del procesado de imagen se necesita una transformación bidimen­ sional capaz de encontrar todas las frecuencias horizontales para todas las fre­ cuencias verticales, de manera que el número de busquedas será igual al número de frecuencias horizontales a buscar, multiplicado por el numero de frecuencias verticales a buscar. • La OCT polariza la probabilidad de ocurrencia de los distintos valores. Esta polarización del valor de los componentes de frecuencia facilita la codifica­ ción de longitud variable, de manera que podemos emplear palabras cortas para la codificación de los valores más frecuentes y palabras largas para la codificación de los valores menos frecuentes. 214 215
  • 107.
    T¡~C1( ¡tI )(,].. :CTlL1 1_1'-'--'-T"'U"-J-'.'°.L1"'IC-'-'}:'.'- _ • La lectura en zigzag y el marcado de "final de bloque" (EOB) acortan la codi­ ficación y facilitan la compresión. • El sistema de percepción visual humano muestra máxima sensibilidad al ruido en las zonas lisas o de baja frecuencia, mientras que decae rápidamente a medida que aumenta la frecuencia. En otras palabras, las altas frecuencias espaciales enmascaran el ruido. Este fenómeno de enmascaramiento es la base de la compresión perceptual, aplicada a las imágenes de televisión. • Cuando se desea ohtener un factor de compresión alto, manteniendo el máxi­ mo grado de calidad posible, es necesario combinar varios procesos distintos. • La cantidad de información l-edundante e irrelevante en la señal de vídeo depende de la complejidad de la escena. Se necesita un bt1fer de salida que controle el nivel de recuantificación de los coeficientes frecuenciales. Así se logra una tasa de salida de datos estable, con un nivel de calidad casi estable • La redundancia no sólo existe dentro de las imágenes, sino también entre ellas. En una escena típica los cuadros que representan las muestras tempora­ les tienden a mostrar un cierto grado de similitud. Los sistemas que quiel-en conseguir un alto nivel de compresión intentan eliminar también la redun­ dancia temporal. • Es posible ir un paso más adelante en la reducción de clatos gracias a las téc­ nicas de predicción y compensación de movimiento. • Puede resultar muy útil "preparar" o al menos "cuidar" las imágenes antes de la compresión. De esta forma podrán obtenerse factores de compresión ele­ vados con alta calidad de imagen. • En general, las mejores imagenes para ser comprimidas son aquellas que pre­ sentan el nivel más alto de calidad con el mínimo de ruido o distorsiones. Entre los artificios que afectan y perjudican a la compresión pueden desta­ carse: ruido aleatorio, restos de intcrmodulación luminancia-crominancia (imágenes que proceden de PAL) y corrección de apertura excesiva (DTL). CAPÍTULO 8 Los sistemas de compresión 1. Introducción Afortunadamente no son muchos los sistemas de compresión de imágenes uti­ lizados en televisión y, lo que es más importante, parece haber una tendencia clara a la simplificación. Los sistemas de compresión de imágenes actuales se limitan a: • JPEG: para retoque fotográfico de imágenes estáticas. • M-JPEG: para compresión intracuadro de imágenes en movimiento. • MPEG-l Y MPEG-2: que forman una familia completa de normas de com­ presión para todo tipo de aplicaciones. • Grupo DV: para compresión intracuadro aplicada a los magnetoscopios digi­ tales DV, DVCAM, DVCPRO-2S, DIGITAL-S YDVCPRO-SO. A esto habría que añadir algún sistema de compresión para señales de contri­ bución (distribución entre centros de producción, transportadores de seña1cs, etc.), tal como la Rec 723 del CCIR (ahora ITU-R I3T. 723). Por otro lado, el grupo conjunto de expertos EBU-SMPTE recomienda la utilización de sólo dos familias de sistemas de compresión: MPEG y DV, siempre que sea posible. 2. El sistema JPEG JPEG significa Joint Picture Experts Group (grupo unificado de expertos en imá­ genes). Es un formato de compresión de imágenes estáticas, basado en la codifica­ ción del dominio trasformado. La aplicación inicial de este sistema era el retoque fotográfico, aunque, al ser durante años el único sistema más o menos normaliza­ do de compresión de imágenes, fue adoptado por los primeros equipos de pos­ prodUCción de vídeo, tales como editores no lineales y los llamados Slow-Motion (discos duros para repetición de jugadas deportivas). Oficialmente el JPEG corresponde a la norma internacional ISO /IEC 10918- 1 216
  • 108.
    TrC:'IOLOGI. ACrU-1 ()f-TFlf'IIÚ!' (Diairal CompTeHion ond Codina l'Continous Tone Stilllmoaes). También puede encon­ trarse en la recomendación ITU-TT.81. El texto de Jos documentos del ISO )' del ITU-T es idéntico. Inicialmente se decidió que el núcleo básico del sistema JPEG serían las imáge­ nes monocromas y que, en el caso de imágenes en color, la compresión se aplica­ ría por separado a cada uno de los componentes de color. Si se parte de una ima­ gen monocroma, con una resolución de ent¡-ada de 8 bits/muestra, la meta origi­ nal era lograr imágenes "reconocibles" con 0,25 bits/píxel; de calidad "excelente" con 1,0 bits/píxel e "indistinguible" del original con 4 bits/píxel. A medida que se fue avanzando, el comité JPEG se impuso metas más exigentes, de manera que en las pruebas finales se lograron los sigUientes resultados: 0,083 bits/píxel (recono­ cible), 0,75 bits/píxel (excelente) y 2,25 bits/píxel (indistinguible). Se definió, además, un nuevo nivel de calidad de 0,25 bits/píxel, denominado "útil". Aunque en JPEG se puede escoger el factor de compresión desde, digamos, 2: 1, hasta más de 100: 1, se obtienen resultados muy interesantes y calidades "casi transparentes" con factores de compresión hasta 15: 1. Cuando JPEG se aplica a señales vídeo, antes de la compresión las imágenes se pasan al espacio de las componentes de color. Si, POI- ejemplo, la imagen se ha ori­ ginado en RGB, se realiza una transformación (mediante una matriz de multipli­ cación 3 X 3) a Y, Cb, Cr. A continuación las componentes de color se submues­ trean en un factor de 2, tanto en la dirección horizontal como vertical. Con esto se reduce a la mitad la cantidad global de datos. Después la imagen se divide en macrobloques (MB), donde cada MB está for­ mado por cuatro bloques de luminancia de 8 x 8 píxeles cada uno, un bloque de Cb de 8 X 8 píxeles y un bloque de Cr, también de 8 X 8 píxeles. Cada bloque de 8 X 8 será posteriormente tratado de forma independiente. El siguiente paso consiste en transformar cada bloque, desde el dominio de las amplitudes al de las frecuencias espaciales, utilizando una DCT discreta de 8 x 8. Con esta operación la mayor parte de la energía del bloque se concentra en'el valor de DC y en unos pocos coeficientes AC. JPEG aplica un codificador diferencial (DPCM) sencillo a los coeficientes de DC de los bloques DCT, a partir de los bloques adyacentes de luminancia, es decir, los coeficientes de DC no se codifican con sus valores absolutos, sino con valores diferencia con respecto a los valores DC de bloques DCT vecinos (figura 8.1). Ahora ya puede obtenerse la mayor compresión en JPEG: una vez que se ha eli­ minado la energía de DC de la imagen, los restantes coeficientes frecuenciales pueden cuantificarse aTo55o-modo. Esta cuantificación burda introduce errores, pero tales errores no se introducen directamente en el valor de los píxeles (en el domi­ nio espacio-amplitud), sino en los coeficientes frecuenciales (en el dominio trans­ formado). Afortunadamente los errores en el dominio transformado no son muy perceptibles. JPEG utiliza una tabla de cuantificación de valores discretos para los coeficientes frecuenciales, que depende del coeficiente particular en cada momen­ to. La tabla se ha diseñado en función de la agudeza espacio-frecuencial del sistema de percepción visual humano: los errores relativamente grandes son tolerables en las frecuencias espaciales altas. Los sislcma:'l dc compresión 2.1. Aplicación de la codificación Huffman Una vez realizada la cuantificación de las componentes frecuenciales, estos coefi­ cientes cuantificados presentan propiedades estadísticas redundantes. Leyendo la tabla de coeficientes en zigzag se aprecia una cierta tendencia a obtener largas cadenas de ceros y otras secuencias (ciertos valores son más probables que otros). Esto permite a JPEG aplicar la codificación de longitud variable Huffman. Este último paso no intro­ duce pérdidas y, en cambio, mejora mucho la capacidad de compresión de las imágenes. Finalmente, JPEG empaqueta los coeficientes de AC y el coeficiente de DC mediante la codificación de secuencias (codificación de cadenas mediante descripto­ res, que dicen el número de veces que se repite el mismo valor, hasta que aparece otro distinto). JPEG utiliza un método bastante sofisticado para la codificación de secuen­ cias, basado en la codificación de "categorías y bits adicionales", los cuales forman, al juntarse, los llamados "descriptores". Veamos cómo se codifica una determinada secuencia. Supongamos que después de realizar la DCT sobre un bloque de 8 x 8 píxeles se obtiene, leyendo en zigzag la siguiente secuencia de datos: 2, -21, -8, O, O, O, O, O, -3, todo ceros. Se trata de los primeros nueve coeficientes de AC, ya que el coeficiente de DC se codifica por separado y no entra en la codificación de secuencias. Tabla 8.1 Utilización de la codificación de secuencias en el sistema JPEG. Cadena 2 -21 -8 00000, -3 Todo Ceros Ceros/categoría 0/2 0/5 0/4 5/2 EOB Palabra 01 11010 1011 111111110111 1010 Bits adicionales 10 01011 0111 00 En el ejemplo anterior, para codificar los nueve coeficientes de frecuencia OCT, más el símbolo especial EOB (final de bloque), se han necesitado 40 bits (fila "pala­ bra" + fila "categoría"). Esta codificación se basa en dividir los posibles valores pro­ porcionados por la DCT en categorías. A continuación se codifica el número de la categoría a que pertenece el valor y unos pocos bits adicionales que especifican su posición dentro de la categoría. Tabla 8.2 Categorías y bits adicionales para la codificación de los coeficientes de AC. Nótese que el número de bits adicionales iguala a valor de la categoría. Categoría Valores incluidos en la categoría Bits adicionales 1 -1. 1 O, 1 2 -3,-2,2,3 OO. 01. 10, 11 3 -7.-6,-5,-4,4.5,6.7 000, ,011,100 111 4 -15, -8. 8, 15 0000 ,0111,1000, ,1111 5 -31 -16.16, , 31 00000 , 01111. 10000 , 11111 6 -63 -32, 32, 63 etc. 7 -127 -i34. 64, ,127 etc. 8 -255 -128. 128 255 etc. 9 511 -256, 256 ,511 etc. 218 219
  • 109.
    1[Ci'OlOCÍ-- ,.C'1 U;Lpr TEU'l'iru.' La combinación 0/2 (ningún cero, 'alOl- 2) pertenece a la categoría 2. Esta cate­ goría se codifica con al (tabla 8.3»)' los bits adicionales 10 mostrados en la tabla 8.2. Tabla 8.3 Parte de la tabla de códigos de Huffman para los coeficientes de AC de la lumi­ nancia. Cadena/ tamaño Longitud del código Palabra codificada EOB 0/1 0/2 0/3 0/4 0/5 4 2 2 3 4 5 1010 00 01 100 1011 11011 ._. 1/1 1/2 .... 4 5 ... 1100 11011 ... 2/1 2/2 2/3 . ... 5 8 10 .... 11100 11111001 1111110111 ... 3/1 3/2 3/3 .... 6 9 12 ... 111010 111110111 111111110101 ... 4/1 4/2 4/3 .... 6 10 16 .... 111011 1111111000 1111111110010110 ... 5/1 .... 7 .... 1111010 Igualmente el "~21 ", que pertenece a la categoría 5, debe codificarse como "0/5", que significa "ningún cero, valor incluido en la categoría S". Esta combina­ ci6n recibe el código "11010" (según la tabla de Huffman mostrada en 8.3), pero a este código hay que añadirle los bits adicionales "O 1O11" (por el -21), según la tabla 8.2. Como puede verse, el proceso completo es bastante complicado y no vale la pena dedicarle más tiempo. Lo importante es entender que a partir de los valores DCT se forman "descriptores". Cada deSCriptor incluye un valor de longitud de la cadena de ceros, seguido de un valor de categoría. A cada combinación de longi­ tud y categoría se le adjudica una palabra codificada de Huffman. Ahora, puesto que cada categoría incluye varios valores posibles, la palabra codificada Huffman es seguida por un cierto número de bits que indican cuál de los posibles valores den­ tro de la categoría es el adecuado. Puede verse, a partir de la figura 8.1, que la codificaci6n JPEG utiliza las herramientas y trucos clásicos propios de los sistemas basados en transformación DCT. _______________________________----.!Lus sistema.': de cOllllJl"I:si6n Figura 8.1 . Diagrama de bloques del codificador-dccodificadO!- JPEG. Se muestra sólo un canal, por ejem­ plo, el de luminaneia. JPEG incluyc dos modos básicos de compresión: 1. Compresión sin pérdidas basada en codificación predictiva, seguida de codi­ ficación aritmética o codificación Huffman, donde la señal decodificada es idéntica a la original, pero el factor de compresión es muy pequeño (garan­ tizado 1,6: 17; típico 2: 17) y, además, la frecuencia binaria de salida es varia­ ble. 2. Compresión con pérdidas (perceptual) basada en DCT progresiva o secuen­ cial. En este caso el factor de compraesi6n es más alto y puede ser elegido por el usuario en función de la calidad deseada. Los factores de compresión típicos, en el modo "con-pérdidas", están entre 8: 1 y 100: 1. Además, gracias a los vectores de cuantificación variables, se puede obtener una frecuencia de salida binaria estable. 2.2. Características del JPEG Aunque la normalización de este sistema se inició a mediados de los 80, en los últimos años han aparecido nuevos métodos de compresión basados en la "codifi­ caci6n por transformación", los "vectores de cuantificación", el "filtrado en sub­ bandas", los "wavelets" y los "fractales". La meta o propósito del JPEG ha sido lograr una serie de requisitos mostrados a continuación. • Dos modos de codificación: entr6pica (sin pérdidas) y perceptual (con perdi­ das). • Utilizar las últimas técnicas de compresión. Permitir a las aplicaciones (o al usuario) escoger entre calidad de imagen y grado de compresión. 220 221
  • 110.
    Tt,C:'JOI od..... ACTlJ.1nl- TI:I n"I'iIO;'.' • Trabajar con independencia del tipo de imagen (sin limitación por dimensión de la imagen, espacio de color, tamai'io y forma del pixel, etc.). • Relativamente baja complejidad de cómputo, que permite soluciones "sólo software", incluso en ordenadores de gama media. • Permitir la codificación secuencial (una sola pasada) y la codificación progre­ siva (múltiples pasadas). • Ofrecer la opción de "codificación jerárquica", mediante la cual se puede obtener una "copia de baja resolución" sin necesidad de descomprimir la ima­ gen con resolución total. Las prinCipales características del sistema JPEG son: • Elección del espacio de color, RGB o Y, Cb, Cr. • Elección de la estructura de muestreo: 4:4:4, 4:2:2 o 4:2:0. • Tamaño de imagen variable hasta 65.536 píxeles por 65.536 líneas. • Precisión de la señal de entrada de 8 bits en el sistema básico y de 8 a 12 bits en el sistema extendido. • Precisión del proceso de cuantificación DCT de 9 bits. • Utilización de un cuantificador DPCM lineal para el coeficiente de DC. • Proceso de cuantificación adaptativa a nivel de los macrobloques de 16 x 16 píxeles. • Máxima precisión de los coeficientes de DC =11 bits. • Tablas de recuantificación diferentes para Y, Cb y Cr. • Esquema de RLC-VLC Huffman modificado. • Tablas de Huffman "descargables" incluidas en el archivo de imagen. • Factor de escala variable en base a bloques. • Sólo compresión espacial. • Elección entre exploración entrelazada o progresiva. • Tratamiento de errores del canal, mediante la definición de varios códigos de sincronización que limitan los efectos en la propagación de errores. Puesto que la compresión JPEG se realiza exclusivamente dentro del cuadro (compresión intracuadro), resulta espeCialmente adecuada para aplicaciones inter­ activas donde es necesario acceder a cualqUier imagen en cualqUier secuencia posi­ ble. 3. El M-JPEG Como se ha visto en el apartado anterior, JPEG es un sistema de compresión de imágenes de tipo "intracuadro", donde todo el procesado se realiza dentro de la ima­ gen. Motion-]PEG o M-]PEG es básicamente lo mismo que JPEG, pero adaptado a las imágenes de televisión (tamaño del ráster, espacio de color, etc.). Al igual que ]PEG, el Motion-]PEG es un sistema de compresión sólo intracuadro. El concepto es sencillo: cada imagen de la secuencia de vídeo se codifica como una imagen ]PEG. El Motion-JPEG no forma parte de las normas JPEG, siendo un estándar de Jácto creado por los fabricantes que, sin embargo, ha proporcionado una potente herramienta de compresión, durante una época en que no se disponía de otros sis­ temas. Parece que la llegada de las normas MPEG está desplazando al M-]PEG. Los si.sT~mas de comlJresión Una particularidad del M-JPEG es que suele utilizar codificación adaptatil'a (la dureza de la recuantificación de los coeficientes es variable) para proporcionar un número fijo de bits por cuadro, lo cual es muy adecuado a las aplicaciones de tele­ visión. Puede decirse que mientras JPEG es esencialmente un sistema "calidad constante-frecuencia binaria variable", e! M-JPEG es un sistema de "calidad varia­ ble-frecuencia binaria constante". 3.1. Variantes M-JPEG Existen dos variantes: Baseline M-JPEG (M-JPEG base) y Machematícally Lossless M-JPEG (M-JPEG matematicamente sin pérdidas). Baseline M-JPEG La norma ISO 10.918 define la codificación M-JPEG. El vídeo se muestrea, normalmente, según la Rec. ITU-601, con 8 bits por muestra. Alternativamente puede utilizarse e! formato SIF (352 x 288 x 25 campos). La estructura de codifi­ cación es del tipo 4: 2: 2. La frecuencia binaria de la señal comprimida puede variar desde aproximadamente 1 Mbyte/s para una calidad tipo VHS, hasta más de 15 Mbytes/s para una calidad superior al Betacam SP. M-JPEG utiliza siempre com­ presión intracuadro, por lo que resulta adecuada para los sistemas de edición no lineal. Aparecen artificios o defectos espaciales con frecuencias por debajo de 6 Mbytes/s. Por encima de esta frecuencia binaria los artificios existen, pero no son visibles. La norma M-JPEG no hace mención a la codificación de audio, por lo que cada fabricante implementa su propia solución. El M-JPEG se utiliza, sobre todo, en las estaciones de edición no lineal, desde rjJ-line hasta on-line y para un amplio segmento de! mercado: desde la producción multimedia hasta la posproducción de alto nivel. El coste del codificador M-JPEG es relativamente bajo, ya que se trata de un sistema simétrico, donde la compleji­ dad del algoritmo se reparte a partes iguales entre el codificador y el decodifica­ dor. M-JPEG sin pérdidas El M-JPEG, matemáticamente sin perdidas, utiliza sólo los algoritmos M-JPEG que son matemáticamente reversibles, es decir, la codificación de longi­ tud variable, la codificación de secuencias, etc., pero no aquellos que, como la recuantificación de los coeficientes de frecuencia DCT, se basan en las característi­ cas del sistema de percepción visual y que suelen denominarse como compresores perceptivos. El esquema de codificación es del tipo ITU-601 , con 8 bits por mues­ tra y estructura 4: 2: 2. Dependiendo del tipo de imagen, se obtienen frecuencias binarias del tren comprimido entre 9 y 15 Mbytes por segundo (entre 72 y 120 Mb / s), lo que proporciona factores de compresión entre 2,5: 1 y 1,5: 1. La princi­ pal ventaja del sistema M-JPEG sin perdidas es que proporciona una calidad total de la señal despues de descomprimida, es decir, igual que un D-1 . La editabilidad es la misma que en la variante baseline, aunque con el sistema sin perdidas no hay límite en la composición multicapa, ya que no se genera ningún tipo de artificio 222 223
  • 111.
    Tl.ll'!()U)(;I., lClll:J l>LTLU.H....J()· ______~l,u~.."i:'llcma:-. (J~1..~~J!l+)j..~:lÓn que pueda propagarse de una pasada a la siguiente. Desde 1997 están empezando a aparecer en el mercado sistemas de edicion no lineal basados en la yariante sin pérdidas M-JPEG, orientados hacia la posproduccion on-line de alta calidad. Factores de compresión Puesto que se trata de un sistema de compresion estrictamente intracuadro, el factor de compresion logrado con los compresores M-JPEG perceptiyos (con pér­ didas) no puede ser muy alto. En aplicaciones profesionales de edicion no lineal sue­ len utilizarse factores de compresion entre 3: 1 y 6: 1. Los discos duros para repeti­ ciones de jugadas deportivas pucden lIcgar hasta 8: J, pero no más. Por su lado, los comprcsores M-JPEG sin pérdidas no supcran factores dc compresion de 2: 1. Por desgracia, el M-JPEG no es un sistema normalizado, de manera que los dis­ tintos fabricantes han optado por soluciones diferentes. Prácticamente cada equi­ po utiliza una yariante distinta del M-JPEG. Esto significa que, por ejemplo, un edi­ tor no lineal basado en M-JPEG no puede comunicarse directamente con un "slow­ motion", aunque los dos utilicen compresion M-JPEG. Normalmente el intercam­ bio debe realizarse decodificando (a Rec. 601 en e! mejor de los casos) y volvien­ do a recodificar en el equipo receptor. En un futuro inmediato muchas aplicacio­ nes reemplazarán el M-JPEG por el más moderno MPEG, de forma que e! inter­ cambio en el dominio comprimido ya será posible. 4. La familia MPEG El Movina Picture Experts Group (MPEG) es un grupo internacional formado bajo los auspicios de! ISO Yel lEC. Las normas desarrolladas por este organismo se han dividido en dos grupos: MPEG-1 y MPEG-2. Los siguientes documentos recogen la normalizacion MPEG: • ISO/lEC 11172-1 MPEG-1 Systems. • ISO/lEC 11172-2 MPEG-I Video Codina. • ISO / lEC 11172-3 MPEG-I Audio Codina. • ISO/lEC /3818-1 MPEG-2 Systems. • ISO/lEC 13818-2 MPEG-2Video Codina. • ISO / lEC 13818-3 MPEG-2 Audio Codina. El MPEG-1 comenzo en 1988, con la intencion de lograr un procedimiento de codificacion capaz de ubicar imágenes en movimiento en soportes de tipo CD­ ROM. Para esto es necesario rebajar la frecuencia de bits a solo 1,5 Mbits/s. Ésta es la frecuencia de transferencia de datos de un eD de audio, de! cual se deriva e! CD-ROM. En el CD la señal de audio se muestrea a 4-4-, 1 KHz (una reminiscencia de la época en que la señal de audio PCM tenía que grabarse en cintas de vídeo). Cada muestra se cuantifica con 16 bits. Por tanto: 4-4-,IKHz X 16 bits x 2 canales = J ,41 Mbits/s. A esto hay que añadir algunos datos de sincronizacion, identifica­ cion, usuario y proteccion contra errores, lo que conduce a una frecuencia binaria de 1,5 Mbits/s. Con una frecuencia de bits tan baja, el sistema MPEG-1 no puede proporcionar imágenes de calidad broadcast. Probablemente su aplicacion más nor­ mal sea la de mostrar imágenes en movimiento sobre pantalla de ordenador. MPEG~MbiIS/~~ ~ ·.·~f 2 a5 Mbils/s¡;:1II. [SDT~r= dV: .c.r--/ '&1' 5 a 15 Mbits/s r=====!!!!!!!!!! HOTV Figura 8.2. La familia MPEG cubre todo tipo de aplicaciones, desde baja definición (LDTV) hasta alta rlefinición (HDTV). El MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar imáge­ nes y sonidos para receptores, que pueden ir desde LDTV hasta HDTY. En principio el MPEG-2 se ha diseñado para proporcionar imágenes de alta calidad, tanto a nivel de contribución como a nivel de emisión digital. La resolución de las imágenes MPEG-2 se acerca a las de la norma CCIR 601 (720 x 576 píxeles!cuadro en la norma 625/50 y 720 x 480 píxeles/cuadro en la norma 525/60). La frecuencia de bits puede ir desde 2 hasta 100 Mbits!s. El MPEG-2 permite señales de entrada de tipo secuencial y de tipo entrelazado. También soporta la nueva relacion de aspecto 16:9, así como multiples canales de audio y vídeo dentro del mismo tren binario. 4.1. El sistema MPEG-1 MPEG-1 es un sistema que emplea codificacion intercuadro con prediccion y compensacion de movimiento. Para mejorar el proceso de prediccion, los macro­ bloques de 16 x 16 píxeles del campo actual son comparados con todos los posi­ bles bloques de 16 x 16 píxeles del campo anterior, que pueden obtenerse sobre un área de búsqueda dada. El bloque que proporciona la mejor igualacion se selec­ ciona para su codificacion y se resta del bloque del campo actual. Este proceso de igualacion minimiza los valores diferencia transmitidos y compensa el movimiento de los objetos dentro de una imagen. Esto se conoce como compensacion de movi­ miento. Por supuesto, es necesario enviar, además de los valores diferencia, el valor del vector de movimiento. 224 225
  • 112.
    TreNO] OGíA -CTLI:~IDE TfL['I.'iI('P,' 4. J.1. Compensación de movimiento La compensación de movimiento es el proceso que sigue a la predicción y fun­ ciona de la siguiente forma: se envía una imagen "1" (intra-cuadro), la cual es, ade­ más, almacenada para ser comparada con la próxima imagen de entrada y encon­ trar los vectores de movimiento de los diferentes bloques que componen la ima­ gen. La imagen "1" se desplaza de acuerdo a estos vectores yse compara con la pró­ xima imagen para producir los datos diferencia. Tanto los datos diferencia como el valor de los vectores son transmitidos. En el receptor, la imagen original ''I'' se almacena en memoria, se desplaza segun el valor de los vectores y a continuación .~. Resta A desplazado de B ___'"' A. r~l-~ UliJiza los ~', )~[- . vectores para desplaur A )'l~ti~ l:] ,,-~.. ... --"" 1--. 8: Qr:l:] Midefll movimiento entre Ay B Figura 8.3. La compensación de movimiento se basa en la comparación, bloque a bloque, de la imagen actual con la imagen previa. Los bloques de la imagen actual se mueven dentro de un área de búsqueda y se restan de los bloques correspondientes de la imagen anterior. La posicion que dé mínima diferencia generará los vectores de desplazamiento. los datos diferencia se suman para recrear la imagen "P" (predecida). Se puede enviar cualquier número de imágenes "P" (datos diferencia más vec­ tores) entre dos imágenes "1". Tanto las imágenes "1" como las "P" pueden ser some­ tidas a posteriores procesos de compresión. 4.1.2. ImáBenes J, P, B Como ya se ha comentado, en la terminología MPEG las imágenes (o bloques) codificadas intracuadro se denominan imágenes tipo "1", mientras que las imágenes Los sistl'll1il' dt: compn'si('JJl predecidas intercuadro pasan a denominarse imágenes tipo "P", Lógicamente, la primera imagen dc un grupo que deba ser tratado independientemente debe ser de tipo "1", Puede ser necesario disponer de imágenes de tipo "1" con una cierta fre­ cuencia para permitir la edición)' el cambio de canal en el receptor, Aunque la fre­ cuencia de aparición de imágenes '']'' es variable, típicamente una de cada doce (parámetro M) es de este tipo. Esta imagen "1" servirá de referencia para la codifi­ cación y decodificación de las correspondientes imágenes "p", La distancia entre las imágenes "1" y las "P" se denota mediante el parámetro "N", El sistema MPEG proporciona, además, un nuevo tipo de imagen denominada "bidireccional" o, abreviadamente, "B". A diferencia de las "p", las imágenes de tipo "B" pueden predecirse a partir de imágenes que son anteriores o posteriores en el tiempo. Las imágenes "E" tienen una doble utilidad: en primer lugar, la predicción bidireccional proporciona una mejor aproximación al valor real, lo que reduce el error de predicción, a la vez que se reducen también los efectos del ruido. En segundo lugar, cuando un objeto se mueve por la pantalla, el borde anterior del objeto va tapando u ocultando partes del escenario, mientras que el borde poste­ rior va descubriendo o revelando nuevas partes del escenario. En el primer caso la igualación de los bloques de la imagen actual debería hacerse con referencia a algu­ na imagen que la preceda en el tiempo. En el segundo caso la igualaci6n debed. hacerse con referencia a alguna imagen que sea posterior, donde la parte corres­ pondiente del escenario haya sido ya revelada. Cuando no se produce ocultación ni revelado del escenario, se puede utilizar una mezcla de predicción hacia adelante y hacia atrás al 50%. Esto genera el doble de vectores de movimiento, pero reduce PREDICCiÓN HACIA DELANTE 187654321 Bp BBBBB ....... _.... --~ PREDICCiÓN BIDIRECCIONAL Figura 8.4-. Tanto las imágenes ''1'' como las "P" pueden servir para predecir la.-; imágenes "B", aunque estas últimas no se utilizan nunca como predictores. 227 226
  • 113.
    1srF Error de prediCCión deimagen ~r·. ~p~. o "B~ TEC~'()lOGI: :CTLJ:L DI: TEll.'ISf(').'' el error de predicción. Las imágenes "E" pueden obtenerse a partir de imágenes "1" o de imágenes "P", pero ellas mismas no pueden servir de predicción, de manera que no pueden propagar los errores que pudieran contener. Bits 3, 2, 1 Modo 000 No intra OO1 Intra O1 O Hacia delante O1 1 Bidireccional 1 OO Hacia atrás En la codificación de las imágenes "P" y "E", la DCT, RLC, VLC, etc. se aplican sobre la imagen diferencial compensada en movimiento, es decir, sobre los resi­ duos obtenidos al restar la imagen actual de la imagen o imágenes de referencia. En MPEG-l todos los macrobloques (ME) dc una imagen "I" dcben codificarse como "intracuadro". En cambio, los ME de las imágenes "P" pueden codificarse como "intra" o como "no-intra" (temporalmente reconstruidos a partir de una ima­ gen previa). Por su parte, los ME de una imagen "E" pueden seleccionarse entre "intra", "predecidos hacia delante", "predccidos hacia atrás" o "bidireccionales". La cabecera de cada ME contiene, entre otras, la siguiente información: "Macroblock­ type", con una serie de conmutadores (bits) mostrados en la tabla anterior. 4.1.3. Diagrama de bloques del codificador MPEG-f Para conseguir una frecuencia de bits tan baja (sólo 1,5 Mbits/s), el MPEG-1 no debe eliminar sólo la redundancia, sino que necesita eliminar también una buena parte ENTRA.DA ¡CONV.E.RSIÓN 4:2'2 2'1 'O -lo -----+ ELIMINACiÓN 2"'CAMPO Vectores "B" haCia adelanle o hacia atrás Veclores .p~ haCia adelante Figura 8.5. Diagrama de bloques del codificador MPEG-I. Imagen decodificada _ localmenle (s610 "1" o ·P") Lo:-. sistcma::; dc (Omprc;;;jOll de la entropía. La entropía de entrada se reduce submuesb-eando en las tTes dimen­ siones. Si la señal de entrada es del tipo 4: 2: 2, se comienza por descartar uno de cada . dos campos. A continuación la seiial 4:2:2 se convierte en ob'a del tipo 2: 1:0, lo que reduce los datos originales a 3/16. Esto genera lo que se conoce como "famuto de enb'ada fuente" (SIF). Después de esta compresión 5: 1 se forman los macrobloques de 16 x 16 pixeles. Esto genera 6 bloques DCT por cada macrobloque (4 dc Y, I dc CR y 1 de CE, todos ellos de 8 x 8 píxeles). Los procesos posteriores mosb'ados en la figura logran una compresión 21: 1, que, multiplicada por el submuesb'eo previo 5: 1, proporciona una compresión global superior a 105: 1. De esta manera se pasa de los 168 Mbits/s iniciales a 1,5 Mbits/s. Las imágenes submuestreadas SIF son almacenadas en una memoria, la cual per­ mite acceder a ellas "fuera de secuencia", es decir, cn un orden distinto al de entra­ da. Esto es necesario para la codificación bidireccional "E". La primera imagen de un grupo será siempre de tipo "1", A continuación el codificador elige entre pre­ dicción hacia adelante, predicción hacia atrás), predicción al 50% para cada macro­ bloque, codificando la que proporcione el menor erl'Or. El codificador dispone de un decodificador local, al que le sigue un almacén de imagen. Este almacén per­ mite el acceso a imágenes de referencia pasadas y futuras, necesarias para la codi­ ficación bidireccional. En la codificación predictiva algunas veces la predicción con compensación de movimiento es perfecta, de manera que el errO!' de predicción es cero. En este caso MPEG envla al decodificador un código cspecial, diciéndole que no existe error de predicción y que puede obtener los valores del bloque utilizan­ do sólo los vectores de movimiento. MPEG-1 permite la codificación "sólo audio" o "sólo video", La capa II de la especificación de audio, por ejemplo, ha ganado aceptación en la industria del audio para aplicaciones de distribución (enlaces dc contribución, captaciones en localizaciones remotas, ete.). La capa 1II es la base del famoso formato MP3. 4.2. El sistema MPEG-2 El MPEG-1 quedó prácticamente congelado en 1991. Las modificaciones que en el se introdujeron después de esa fecha sólo tuvieron interés académico, ya que ese mismo año se inició el b-abajo de normalización del MPEG-2, el cual se con­ virtió en un estándar en 1995. La meta inicial fue sencilla: puesto que MPEG-l no puede trabajar con vídeo entrelazado), sólo soporta calidad SIF, se necesitaba una norma que incluyera señal de vídeo con calidad de radiodifusión. El MPEG-2 es una superextensión del MPEG-I, en el sentido de que es capaz de decodificar señales comprimidas MPEG-l. Esto hace que la familia MPEG sca adecuada para todo tipo de aplicaciones, desde videoconfercncia hasta alta defini ción. MPEG-2 podda definirse como un MPEG-l al que se han añadido ciertas mejoras, tales como herramientas para trabajar con señales entrelazadas, una sin­ taxis escalable, un conjunto de perfiles y niveles, que permitcn acomodar un rango muy amplio de aplicaciones y una "capa del sistema" que permite generar trenes binarios "multiprograma". Es importante resaltar que las normas MPEG no define la forma en que debe rea 228 229
  • 114.
    TH'NOI nGI;: ACTlI-LD[ rEI E'¡';¡ÓlJ !izarse la codificación o las herramientas concretas que deben usarse, sino la sintaxis y la semántica del tren binario, tal y como debe entenderla el decodificador. La "semán­ tica" es simplemente W1a colección de reglas (en ocasiones llamadas algoritmos) que le dicen al decodificador cómo recomponer la información, mientras que la sintaxis se refiere a las cabeceras, descTiptores, orden de multiplexado de la información, etc. Cualquier tren binario que respete estas normas podrá ser catalogado como MPEG. Esto proporciona una gran flexibilidad al sistema, ya que es posible ir mejorando las herramientas de codificación, obteniendo más calidad ymayores factores de compre­ sión. Lo único que hay que respetar es la sintaxis y la semántica. Un punto fuerte de los sistemas MPEG es su flexibilidad en el nivel de calidad de imagen, principalmente determinado por la n-ecuencia de bits. En MPEG-2 aparece, además, el concepto de "escalabilidad". Este principio supone que lm decodificador MPEG-2 relativamente económico puede decodificar imágenes válidas utilizando solamente una parte del tren binario. Los datos de vídeo consisten en una serie de tre­ nes binarios, Bamados "capas". La primera capa se conoce como "capa base" y siempre puede ser decodificada independientemente de las demás. Las otras capas se denomi­ nan "capas de realce" y pueden utilizarse para mejorar la resolución espacial, la reso­ lución temporal y otras características escalables. Cuando sólo se utiliza una capa se dice que los datos de vídeo no son escalables. Si se emplean dos o más capas se dice que los datos presentan una "jerarquía escalable". Una ventaja adicional de la escalabi­ lidad es que ayuda a que los datos de vídeo sean más resistentes a los errores de gra­ bación/transmisión, reservando las vías con mejores características de error para la capa que contiene la información de base. Las principales características de la norma MPEG-2 pueden resumirse en: • Permite diferentes frecuencias de muestreo de la crominancia (4-:2:0, 4:2:2, 4:4:4). • Permite entradas de vídeo entrelazadas y progresivas. • Contempla el procesado de señales "pulI-dawn 3:2" procedentes de telecine americano (24 ips a 30 fps). , • Permite ventana "pan-and-scan" móvil a partir de imágenes más apaisadas. • Amplio rango de calidades de imagen, desde LDTV a HDTV • Genera canales con tasas de bits fijas y variables. • Contempla modos de "bajo retardo" para comunicaciones bidireccionales. • Acceso aleatorio al tren binario (para decodiflcación rápida, cambio de canal, etc,). • Puede decodificar señales MPEG-I (compatibilidad hacia abajo). • Se puede editar el material codificado (este aspecto debe mejorarse y está en revisión). • Avance rápido y rebobinado del material codificado grabado en cinta, con calidad de visionado. • Tren de bits resistente a errores. NOTA: El "pull-dolYll 3:2"es un método utilizado para convertir las 24- imágenes de la película de cine en los 30 cuadros de televisión del sistema americano NTSC. En este sistema se trabaja con 60 campos. Si cada fotograma se descompusiera en dos campos, tendríamos 48 campos/s. La relación entre 60 y 24 es 2,5: 1, es decir, para realizar la conversión cada fotograma tendría que generar 2,5 campos. Puesto que: esto no es posible, la solución consiste en generar tres campos con el primer fotograma, dos con el segundo. tres con el tercero. dos con el cuarto. etc.• siguiendo una secuenda 3:2:3:2 ...• es decir. con cada cuatro campos de entrada se obtienen cinco campos de salida. por simple duplicadón del segundo campo. de una de cad. dos imágenes. Los sistemas de comnrcsión Puesto que la función del MPEG es reducir la tasa binaria, no tendría sentido codificar dos veces el mismo campo. Por esto, cuando se procesa material de vídeo americano (525/60) procedente de telecinado, el codificador busca e identifica el campo repetido, el cual omite, codificando sólo 24 ips, 'pero añadiendo una indi­ cación para el decodificador: "esto es material vídeo procedente de cine que debe inflarse de 24 ips a 30 ips en el momento de su exhibición". 4.2.1. PedIlesy niveles en MPEG-2 En el apartado anterior ya se ha comentado que uno de los puntos fuertes del MPEG-2 es el concepto de "escalabilidad". Ésta se logra estructurando el tren bina­ rio en varias capas (hasta tres), comenzando por la capa base independiente y aña­ diendo una o dos capas de realce. Así se genera la matriz de perfiles y niveles mos­ trados en la figura 8.6. Los perfiles pueden entenderse como conjuntos de herramientas de codifica­ ción y se refieren a la forma en que se comprimen y codifican las imágenes. Cada perfil es más sofisticado que el anterior y añade herramientas o métodos suple­ mentarios. Los niveles se refieren al grado de calidad y la aplicación y van desde ~625/50 NIVEL SIMPLE No Imágenes B 4:2:0 No escalable PRINCIPAL Imágenes B 4:2:0 No escalable SNR Imágenes B 4:2:0 SNR escalable ESPACIAL Imágenes B 4:2:0 SNR escalable Espacial escalable ALTO Imágenes B 4:2:064:2:2 SNR escalable Espacial escalable ALTO 60 Mb/s (máx.) 100 Mb/s (máx.) 1.920 pixels 1.152 lineas 120 Mb RAM 256 Mb RAM ALTO-1.44D 60 Mbls (máx.) 60 Mb/s (máx.) 60 Mb/s (máx.) 1.440 pixels 1.152 lineas 64 Mb RAM 126 Mb RAM 126 Mb RAM PRINCIPAL 15 Mb/s (máx.) 15 Mb/s (máx.) 15 Mb/s (máx.) 20 Mbls (máx.) 720 pixels 576 lineas 6 Mb RAM 16 Mb RAM 32 Mb RAM 32 Mb RAM . ­ BAJO 4 Mb/s (máx) 4 Mb/s (máx.) 352 pixels 26611noas 4 Mb RAM 6 Mb RAM ..... En los modos escalable SNR. escalable espacialyperfiles altos. se permite como máximo una capa de realce SNR (además de la capa base). ..... En los modos escalable espacial y perfiles altos se permite como máximo una capa de realce espacial escalable (además de la capa de base y la capa de realce SNR). ..... Las líneas porcuadro se refieren al número de líneas activas. ..... Las cifras sobre memoria RAM se refieren a los decodificadores y pueden variar según su implementación. Figura 8.6. Combinaciones de perfiles y niveles aceptados en la codificación MPEG-2. 230 231
  • 115.
    TEC~L¡ :1..'"' U·Inr 1 ,,".I~X"-'.L:I.''''''.!c),--- _ "alta definición" hasta calidad "VHS". Con cuatro niveles v cinco perfiles pueden obtenerse hasta ,einte combinaciones. Sin embar-ao no todas parecen útiles. En la b ' actualidad c;nce de las veinte combinaciones posibles pueden ser consideradas aprobadas. Estas se conocen como "MPEG-2 CanjOrmancc Paints". Las fuerzas del mercado determinarán qué combinaciones terminan por imponerse. Antes de la transmisión, el audio, el ddeo y otros datos ~uxiliares se combinan en un múltiplex llamado "A/PEG-2 Trampart Strcam" (TS). Este es un sistema de paquetes de longitud fija, en el cual cada paquete está formado por 188 bytes, de los cuales 184 contienen datos úti!cs. Finalmente el MPEG-2 añade una informa­ ción de servicio, llamada "Pra8rammc Specific InjOn~atian" (PSI), la cual etiqueta cada servicio de! múltiplex )' comunica al receptor los detalles esenciales, tales como los canales de audio que acompañan al vídeo. Existe un segundo tipo de múltiplex, denominado "Pro,qram Stream ", que utiliza paquetes de longitud variable y está orientado a la distribución multimedia, como se verá más adelante. 4.2.2. Escalabilidad en MPEG-2 Uno de los aspectos más interesantes del MPEG-2 es su estructura de capas, gracias a la cual es posible obtener un sistema escalable. Se define como escalable aCjue! sistema en el que una corriente de bits (denominada información principal o capa base) puede ser decodificada por todo tipo de receptores, desde los más sen­ cillos hasta los más caros)' sofisticados. Esta capa base puede estar submuestreada o subcodificada (menos muestras o menos bits por muestra) con respecto a la ima­ gen original, pero siempre puede ser decodificada individualmente. A partir de aCjuí el tren binario contendrá una o varias capas de realce, Cjue podrán ser añadi­ das a la capa base en los decodificadores más sofisticados, para mejorar de alguna forma la calidad de la imagen. La tabla de combinaciones dc perfiles y niveles de la figura 8.6 propone dos formas o tipos de escalabilidad: espacial y SNR. Veamos con unos ejemplos su utilidad. ' Escalable SNR: Una codificación MPEG convencional que aplique una fuerte recuantificación de los coeficientes de AC generará una imagen con una relación señal/ruido (SNR) moderada. Si esta imagen se decodifica localmente en el pro­ pio codificador y se resta píxe! a píxcl de la imagen original, se obtendrá una "ima­ gen de! ruido de cuantificación frecuencial". Esta segunda imagen diferencial puede ser, a su vez, comprimida y transmitida como sei'íal de realce. Un decodificador sencillo sólo decodificará e! tren binario básico y ruidoso, mientras Cjue un deco­ dificador más complejo puede decodificar ambos trenes binarios )' combinarlos para obtener una imagen de bajo ruido. Éste es el principio de escalabilidad 5NR. Escalable espacial: Como alternativa, se pueden codificar sólo las bajas frecuen­ cias de una imagen HDTV, las cuales generarán el llamado "tren binario básico", suficiente para un receptor SDTV convencional. Decodificando localmente la ima­ gen de baja definición y restándola de la original se obtiene una imagen de realce, la cual puede codificarse como señal de ayuda. Un decodificador adecuado combi­ nará ambas señales para recrear la imagen HDTV Éste es el principio de la escala­ bilidad espacial, ilustrado en la figura 8.7 Lo~-.:&~tJ::.!l1i!_~d~~-º..!.!.l.i..Jrc~0JJ IMAGEN MEJORADA CAPA BASE + CAPA DE~~AL~". ___ ," ~-~";,,.J' t.__ //~ ,~- - . / .... ' " I / , ' í -,. .,- / ( . ( / i,," :', Figura 8.7. Una imagen de alta definición puede lograrse sumando lIna señal dc "capa base" y una señal dc ¡¡realceJl • La mejora, o escalabilidad, puede referirse a la relación señal a ruido, a la reso­ lución de la luminancia, a la resolución de la crominancia o a la resolución tempo­ ral. En los futuros sistemas de alta definición digital puede resultar ventajoso dis­ poner de una señal base, a partir de la cual puedan obtenerse diferentes niveles dc resolución y calidad. Los receptores portátiles suelen disponer de una instalación de antena de menor calidad, de manera que los datos de la capa base deberán transmitirse con mayor protección contra errores. Estos receptores portátiles de pantalla pequeña podrían descartar los coeficientes de las altas frecuencias antes de proceder a la DCT inversa. Las capas de realce se pueden transmitir con menor protección contra errores, ya que serán decodificadas por receptores con antena fija. En el caso de deterioro grave de la señal, la presencia de la capa base fuerte­ mente protegida asegura que la degradación de la imagen se producirá de forma progresiva, lo cual nos acerca un poco al tipo de degradación Cjue se produce en la señal analógica. 4.2.3. Estructura del múltiplex MPEG-2 El elemento más peCjueño del múltiplex MPEG se denomina "bloCjue" )' tiene un tamaño de 8 líneas por 8 píxeles. En la figura 8.8 puede verse que los bloques se agrupan formando "macrobloques" (MB), de acuerdo con alguno de los perfiles 233 232
  • 116.
    Tf.CNOI OdA AClUALf)[ TU EVISIÓN GRUPO-BLoaUE • 4:2:0 >'" DE IMAGEN;yC IMAGEN I ~(j (Gap) /~ IMAGEN00] .;:;«; GRUPO 13Jl2J 8J 0 ~? DE IMAGENI,::íESI IMAGEN I y C, CR o (Gap) GEN MACROBlOQUE 1MB) l , M A GRUPO Figura 8.8. Estructura del tren binado MPEG-2, desde el bloque hasta la secuencia. DE IMAGE;rt! IIVII"I'-"C:'" I(Gap) I IMAGEN I I --BLOQUE -BLOQUE ~ 4:2:2 0[1] 00 0000 y c. cR' MACROBLOQUE (MB) MACROBLOQUE (MBI ; 4:4:4 [Q]IT] 00 lTI[I) 00 0~ LUlm y C. CR MPEG-2. Los macrobloques 4:2:0 están formados por 4 bloques de luminancia, 1 bloque de cn y 1 bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminan­ cia, 2 bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloques de luminancia, 4 de CB y 4 de CR. Como puede verse, los MB 4:2:2 contienen en total 8 bloques, es decir, 512 muestras (256 de "Y" más 128 de "CB" más 128 de "CR"). Los segmentos (slices) son conjuntos de macrabloques que siguen la secuen­ cia de líneas horizontales propia de televisión. Los segmentos pueden variar de lon­ gitud, desde un mínimo de un macrobloque hasta un máximo de una línea de anchura por 16 de altura. El inicio y fin de un segmento deben localizarse dentro de una misma línea. Los segmentos proporcionan un mecanismo adecuado para el tratamiento de errores. Cuando se produce un error en el tren de datos, el decodificador puede saltar al siguiente segmento. Una imagen está formada por un cierto número de segmen­ tos. Las imágenes pueden ser de tipo "1", "P" o "B" y se agrupan para formar "gru­ pos de imágenes" (GOP). Típicamente hay 12 imágenes por GOp' el cual comien­ za siempre con una imagen "1", aunque algunos decodificadores pueden detectar cambios entre campos sucesivos y, si el cambio es sustancial, el codificador supone que se ha producido un cambio de escena y fuerza una nueva imagen "1", acortan­ do el GOP La codificación intercuadro se realiza siempre dentro de un GOP (salvo en GOP especiales, llamados "abiertos"). Finalmente, uno o varios GOP se unen para formar una "secuencia de vídeo", la cual tiene su propio código de inicio y de fin, así como datos que definen el tamaño de la imagen, las frecuencias de mues­ treo y las matrices de cuantificación. Los sislcmJ~ de cOnlnrcsión NOT:: !"llt:ntras 'lUl' f.lPEG-l no IInpOI1(' limitaciollC's en ellJl1lailo dcl segmento, que pu~'dc ir desde llll solo MB hasta una Imagen completa o cualquier otTO tamaño intermedio, MPEG-l ohliga a que todo e} segmento esté contenido en una misma HI.l de MB. PUCc!C' ser una fila completa o menos, pero nunca más. Veamos ahora el múltiplex MPEG, desde el elemento mayor hasta el más pequeño. El tren binario forma una estructura jerárquica que comienza en la secuencia de vídeo y termina con los bloques DCT (figura 8.9). Cada nivelo capa de la estructura posee su código de arranque y su cabecera. Esta última contiene información sobre el contenido de esa capa. Las extensiones son datos adicionales, no básicos, de la capa en que se encuentran. Las informaciones más importantes que contienen las capas y sus cabeceras se muestran en la tabla 8.4 Tabla 8.4 Principales utilidades de cada elemento del múltiplex MPEG-2. SECUENCIA Tamaño de imagen, relación de aspecto y frecuencia de cuadro. Frecuencia binaria y necesidades de memoria del decodificador. GRUPO DE Unidad de acceso aleatorio. IMÁGENES Código de tiempos. IMAGEN Información de tiempo (referencia temporal y llenado del buffer). Tipo de codificación (1, P o B). SEGMENTO Información de direccionamiento intracuadro. (SL/CE) Unidad básica de tratamiento de errores. MACROBLOQUE Estructura básica de codificación. Método de codificación, vectores de movimiento, cuantificación. BLOQUE Coeficientes DCT. Fin de bloque. CAPA DE SECUENCIA ~ SECUENCIA DE ViDEO SECUENCIA DE ViDEO SECUENCIA DE ViDEO"N ro I~ B = CODIFICADA BIDIRECCIONAL DCl = TRANSFORMADA EN COSENO DISCRETO EC = CÓDIGO DE FIN GOP = GRUPO DE IMÁGENES I = CODIFICADA INTRACUADRO P = CODIFICADA POR PREDICCION SC = CÓDIGO DE INICIO Figura 8.9. Cada elemento del múltiplex, desde el bloque hasta la secuencia, dispone de su propia cabe­ cera y datos de identificación adicionales. 234 235
  • 117.
    TLC:''(}.LOllJ- ACTUAL DI:TLl.L·1.'10: 4.2.4. Notas sobre el múltiplex MPEG-2 o La secuencia, que es el elemento de mayor tamaño del múltiplex, se corres­ ponde con el "Elemcntal)' Strcam", "ES" o "corriente básica" (una forma de estructurar los datos que se verá un poco más adelante). o Existen GOP denominados "abiertos", en cuyo caso algunas imágenes "B" del GOP pueden hacer referencia a imágenes 'T' o "P" que no están en ese GOP. o Una "imagen" puede ser un cuadro o un campo. Es posible conmutar dinámi­ camente entre codificación en modo cuadro y codificación en modo campo, de imagen a imagen. La codificación en modo cuadro se prefiere cuando la imagen contiene mucho detalle y poco movimiento, mientras que la codifica­ ción en modo campo es mejor en el caso de rápido movimiento. o En MPEG-2 hay un parámetro denominado "aspca-racio-iriformacion", que defi­ ne la relación de aspecto del píxel. Este mismo parámetw define, en MPEG­ 1, la relación de aspecto de la imagen completa. o En el modo cuadro cada bloque DCT está formado por líneas de ambos cam­ pos entrelazados. Los bloques de crominancia 4:2:0 deben codificarse siem­ pre en el modo DCT-cuadro. o En el modo DCT-campo cada bloque está formado por líneas DCT de un solo campo. Los bloques de crominancia 4: 2:0 no deben codificarse nunca en el modo DCT-campo, aunque está permitida la predicción basada en campo para este tipo de bloquc. o Cuando el primer campo (topjíeld) de una imagen se codifica como "P" o "B", el segundo campo (bottonjícld) debe codificarse de la misma forma. Sin embargo, si e! primer campo se codifica como "1", el segundo podrá codifi­ carse como "1" o como "P" (predecido a partir de! primero). 4.2.5. Reordenación de las imágenes La eficacia de la codificación MPEG depende en gran medida de! tamaño de los GOP. En general, GOP largos, llenos de imágenes "P"y"B", permiten reducir al máxi­ mo la tasa binaria, manteniendo la calidad de la señal. Sin embargo, e! tamaño del GOP no puede ser arbitrariamente largo, puesto que cualquier operacion de monta­ je, conmutación o simplemente de selección de canal debe hacerse en las fronteras del GOP. Cuantas menos imágenes "1" contenga e! múltiplex, más tendrá que esperar el decodificador para poder sincronizarse y comenzar a proporcionar imágenes útiles. En muchas aplicaciones, especialmente en distribución, se utilizan grupos de 12 imágenes (GOP =12), lo que significa que habrá 11 imágenes entre dos de tipo "1" consecutivas, equivalente a 1/, segundo de señal de vídeo. Es una buena solución de compromiso, entre eficacia y retardo. En la figura 8.0 (a) se muestra una secuencia típica de imágenes MPEG-2. Ésta se caracteriza por los llamados "parámetros M y N", siendo "M" el número de imá­ genes comprendidas entre dos de tipo "1" más la imagen "1" inicial, mientras que "N" es el número de imágenes entre una de tipo "1" o "P" y otra de tipo "1" o "P" más la inicial de! subgrupo. En este ejemplo (que es bastante típico), M =12 Y N =3. Lo::; 5i-ítCIJ1c:!l:_~ LU;.I)P~~i.iJJ] Figura 8.10. La reordenaci6n de las imágenes facilita el trabajo del decodificador. En la figura 8. 10 (b) se muestra la misma secuencia que en (a), pero con las imá­ genes numeradas. Éste es el orden en que las imágenes han sido producidas y, por supuesto, el orden en que deben ser mostradas en el televisor. Sin embargo, antes de la transmisión las imágenes son reordenadas, de manera que el decodificador disponga siempre de los predictores antes que de las imágenes diferenciales. En otras palabras, para decodificar una imagen de tipo "B" es necesario disponer pre­ viamente de las imágenes "1" y "P" que han servido para su codificación. La figura 8.10 (c) muestra el orden real de transmisión. Ahora puede cntenderse el relativa­ mente largo retardo asociado con la codificación MPEG-2: la imagen "B-2" no puede se codificada hasta disponer de la "P-4", generando el llamado "retardo de reordenación" de 2 cuadros. Nótese que es el número de imágenes "B" consecuti­ vas y no el tamaño de! GOP el que determina el retardo. En el múltiplex no se envía información especial sobre la reordenación de las imágenes, ya que cada ima­ gen indica en su cabecera cuál es su tipo ya qué otras imágenes hace referencia. La utilización de imágenes "B" obliga a disponer de mayor potencia de cómpu­ to, a la vez que aumenta e! retardo de codificación y el tamaño de! buffer. Por otro lado, la codificación se hace más eficiente, especialmente con bajas frecuencias binarias. También se reducen los efectos del ruido gracias al promediado en la pre­ dicción. 4.2.6. El lanzamiento en MPEG-2 El entrelazado de campos existe desde los inicios de la televisión y se diseño para disminuir el efecto de parpadeo, sin aumentar el ancho de banda de la señal de vídeo. Esta técnica, que ha sido titil durante muchos años, se basa en solapar entre ellos parte de los espectros vertical y temporal. Esto genera artificios cuan do bordes horizontales, o casi horizontales (altas frecuencias verticales), se mue­ 236 237
  • 118.
    I Los sistemas dc"compr<:slon TI-e)'!)1 oci·, ..CTlJ,,'1 DI·TU l'n'¡IO~ ven por la pantalla, es decir, cuando coexisten altas frecuencias verticales)' movi­ miento. Como consecuencia del solapamiento entre el espectro vertical)' el tem­ poral, convertir una imagen entrelazada en otra progresi'a no es una tarea trivial. Los dos campos que componen una imagen representan instantes de muestreo elistintos (separados 20 ms en el sistema 625/50). En presencia de movimiento, un bloque Del' obtenido a partir ele los dos campos presentara líneas alternativas de contenido muy distinto. Esto producirá frecuencias verticales de todo tipo, haciendo ineficaz la codificación. MPEG-2 ofrece herramientas para codificar imágenes entrelazadas en combinaciones altamente eficaces. Aunque son muchos los expertos que creen que el entrelazado de campos debería haber muerto hace tiempo, pruebas visuales de evaluación realizadas en el ATEL (Ad,'anced Telel,jsion Emll/acion Laborator] o Laboratorio de Evaluación de Televisión Avanzada, un labo­ ratorio de evaluación de la calidad de las imágenes EOTV y HOTV, dentro del proyecto ATSC americano, situado en Ottawa, Canadá) con espectadores no expertos demostró que, para una frecuencia binaria determinada, el entrelazado permitía imagenes "subjetivamente mejores" que la exploración progresiva. De todas formas, éste es un debate no cerrado y todo parece indicar que el entrela­ zado tiene los días o, mejor dicho, 105 años contados. Veamos los distintos modos de codificación. Una imagen codificada como "1" puede consistir en una imagen "1" (secuencial) o en un par de campos tipo "1" o un campo "1" seguido de un campo "P" predecido a partir del campo ''I''. Una imagen codificada como "P" puede estar formada por una imagen "P" o por un par de campos "P", mientras que una imagen codificada como "B" puede com­ prender una imagen "13" secuencial o por un par de campos "13", El tipo de codifi­ cación puede elegirse imagen a imagen y se indica en la cabecera de ésta. Como puede verse, MPEG permite afrontar el entrelazado de campos de muchas formas distintas. En una imagen "tipo campo" los campos se procesan secuencialmente, de forma que los macrobloques contienen sólo muestras de un campo concreto y represen­ tan áreas de la imagen de 32 líneas de altura. MPEG-2 define dos tipos de codificación OCT, siempre en base a macrobloques de 16 x 16: OCT-cuadro y OCT-campo, DCT-cuadro es exactamente igual que en MPEG-I. Los pÍxeles de luminancia del macrobloque de 16 X 16 se dividen en cuatro bloques de 8 x 8 simplemente por su posición espacial. En la DCT-campo la division horizontal es la misma, pero la división vertical se hace tomando las ocho líneas del primer campo (aquí llamado "campo superiOl'''), para formar los dos bloque superiores y ocho líneas del segundo campo (o campo inferior), para los dos bloques DCT inferiores (véase figura 8.11). Los bloques diferencia de color (que sólo tienen ocho líneas por el submuestreo 4: 2:0) se asume que pertenecen siempre al campo superior. La DCT-campo es más eficiente cuado hay una diferencia significativa entre los dos campos que componen un cuadro, generalmente como consecuencia del movi­ miento. Las imágenes codificadas como dos campos separados siempre utilizan DCT T ~ 11~l:'- ffl+I-t-J,=--~:•..:,','"~:::==:.... ~,~ t .. _~----. _, '," ;1',' ~ " ---=. __~ I j. • :1 t := -... ','L'_ '" - ú ;11 ,.,•. ' ... , , .<===:-:•............ '-.-1 ~ , ~ . ' , -,;.j., l.. ;,;­ .";;~r ':.:lt·.... --- ---... ',','_ ,; :' ." .. ,-, . ,," Modo DCT-cuadro , ..~:l~I;'1, ---,.....'I:>~,~'J.~.~~~S:··~:/·;I::'1;-1:, r: I ,,' - ... 'fl--".~'~:.I'''F. , ffir':>""- ':<'f~¡-., '-":,F'J ,.r.a"~<'');..l... ,. ~,jf~ ~/":~~ :: fl~,J;· Modo DCT-campo Figura 8.11. DCT-cuadro y DCT·campo en la codificación MPEG-2. basada en campos (como en la parte inferior de la figura 8.11), ya que es la mane­ ra en que se han formado los macrobloques. Por otro lado, las imágenes codifica­ das como cuadros pueden utilizar OCT-campo o DCT-cuadro. En este último caso la seleccion se hace en base a macrobloques, de forma que la cabecera de cada macrobloque debe especificar el tipo de DCT utilizada. Otra herramienta disponible es la elección del patrón de lectura en zigzag de los coeficientes de AC del bloque DCT. En el caso de imágenes entrelazadas suele preferirse la pauta mostrada en la figura 7.20 (b), la cual se ha diseñado para maxi­ mizar la longitud de las cadenas de ceros, en presencia de componentes de energía vertical, resultantes del movimiento. 4,2.7. Estimación y compensación de movimiento Cuanto mas precisa sea la estimación de movimiento, más eficaz será la codifi­ cación. La estimación y compensación de movimiento es un aspecto de la codifi­ cación MPEG, en que las distintas soluciones aportadas por los fabricantes pueden diferir de forma notable. Las técnicas involucradas en estos procesos están sujetas a constante investigacion. En la detección de movimiento prevalecen dos tecnicas: "la igualación de bloques" yla "correlación de fase". En la mayoría de los casos los fabricantes utilizan el algoritmo de "igualación de bloques" (block matehin8), mas sencillo que el de "correlación de fase". Ademas las búsquedas se realizan aten­ 239 238
  • 119.
    Tr.c:-.;ur ()('/: ClltlDI: lLLLY/;-'l):, diendo solamente a la señal de luminancia. Con este metodo la estimación de movimiento no resulta muy precisa, de forma que este es un campo en el que se puede progresar de manera significativa. IstlaJación dc bloqtlcs.-La igualación de bloques es la más simple de las tecnicas empleadas en la estimación de movimiento. En una imagen dada se selecciona un bloque ele píxe!cs y se almacena Como referencia. Si el bloque seleccionado es parte de un objeto en mO'imiento, deberá existir un bloque de pixelcs similar en la siguiente imagen, pero en una localización distinta. La igualación de bloques sim­ plemente mueve el bloque de referencia ele la primera imagen sobre la segunda, buscando una zona ele píxcles que proporcione la igualación. Cuando tal igualación se encuentra, el desplazamiento necesario para obtenerla se codifica como vector de mO·imiento. Aunque conceptualmente simple, la igualación de bloques requie¡-e una gran cantidad de potencia de cálculo, puesto que se debe probar cada posible movi­ miento dentro del área de búsqueda. Por ejemplo, si se asume que el objeto puede haberse movido en un rango de 16 píxeles, será necesario comprobar J6 desplaza­ mientos horizontales para cada uno de los 16 posibles desplazamientos verticales, lo que requiere más de 65.000 comparaciones. Una forma de reducir la cantidad de calculo necesaria es realizar la igualación por etapas. Con este sistema la primera etapa resulta imprecisa, pero cubre un buen rango de desplazamientos, mientras que la última etapa resulta muy precisa, pero cubre un rango de movimiento muy pequeño. La primera etapa de igualación se realiza sobre una imagen fuertemente filtrada y submuestreada que contiene muy pocos píxeles y requiere muy pocos desplazamientos. Cuando se encuentra una igualación el desplazamiento se utiliza como base para una segunda etapa, que se realiza con una imagen menos filtrada. La última etapa se puede realizar con la precisión que se desee. Se puede decir que se trata de un sistema por aproxima­ ciones sucesivas. Corrclación dcJasc.-La correlación de fase se basa en el hecho de que si una señal compleja (formada por diferentes frecuencias) es desplazada en alguna dirección, cada frecuencia COmponente sufrid. un giro de fase proporcional al valor de dicha frecuencia. Por ejemplo, si consideramos una señal unidireccional formada por una frecuencia fO más otra fI-ecuencia 2fO, la cual se desplaza en una cierta magnitud, el cambio de fase experimentado por la frecuencia 2fO será el doble que el corres­ pondiente a la frecuencia fo. En el dominio espacial un cambio de fase correspon­ de a un desplazamiento físico. Si se analizan las diferencias de fase de las compo­ nentes espectrales entre dos campos o cuadros sucesivos es posible medir el movi­ miento del bloque. La correlación de fases trabaja realizando la trasformada de Fourier de dos cam­ pos sucesivos y restando despues las fases de las componentes espectrales. Las com­ ponentes de fase se someten a continuación a una transformada inversa, que direc­ tamente revela unos pieos cuya posición corresponde al movimiento entre los cam­ pos. En la práctica todo el proceso se realiza bidimensionalmente. Se comienza por calcular la transformada de Fourier bidimensional de cada campo. A continuación . _ _ _ _~_Q~)J...tCJllJ·; c¡(....1Q!_~·_'::.¡()11 se restan las fases)' se realiza la transformada bidimensional iIncersa. Como salida se obtiene un campo plano, del cual se eleYan picos tridimensionales. Esto se cono­ ce como superficie de correlación. La posición del pico en la superficie de corre­ lación indica la dirección del movimiento. Sin embargo, existe un principio de incertidumbre en el proceso de correlación de fase: la precisión en el dominio transformado es incompatible con la precisión en el dominio espacial. Aunque la correlación de fase mide con gran precisión la velocidad)' dirección del movimiento, no puede especificar en que parte de la ima­ gen se ha producido dicho movimiento. Resulta necesa¡-io localizar elicha zona de la imagen, en un proceso posterior ele igualación, cuya eficacia se ve dramática­ mente mejorada por la información proporcionada por el proceso de correlación de fase. Este proceso posterior puede ser del tipo de igualación de bloques. 4.2.8. Predicción basada en cuadro y en campo La predicción de movimiento basada en cuadro es el método mas sencillo y el mismo que se utiliza en MPEG-1 . En este caso el estimador de movimiento busca la mejor región de 16 x 16 pixe!es, en la imagen de referencia, pa¡'a igualar las muestras de luminancia de! macrobloque que esta siendo codificado en la imagen actual. La predicción basada en campo separa los campos superior e inferior, tanto del macrobloque que esta siendo codificado como de la imagen de referencia. Aquí la región de búsqueda será aquella que mejor iguale una parrilla de 16 x 8 píxeles correspondiente al campo superior o al campo inferior del macrobloque actual. Es facil notar que una zona de 16 x 8 pixeles de un campo conereto corresponde a 16 x 16 en la imagen entrelazada. En las imágenes tipo "cuadro" se puede elegir entre predicción en base a cuadro o predicción en base a campo, con la posibilidad de conmutar de uno a otro modo a nivel de los maerohloques. Si se elige predicción en base a campo, el vector ele movimiento para el macrobloque del campo superior actual podrá determinarse a partir de la mejor igualación encontrada en el campo superior o en el campo infe­ rior de la imagen de referencia. Igualmente, para el macrobloque del campo infe­ rior actual, la búsqueda se hará en los dos campos de la imagen de referencia (figu­ ra 8.12, abajo). Por otro lado, sólo la mejor de las dos igualaciones es utilizada para generar un único vector de movimiento, el cual se utiliza para predecir tanto el campo supe­ rior como el inferior del macrobloque. La figura 8. 12 muestra los distintos esque­ mas de predicción, tanto en base a cuadros como en base a campos. En la parte inferior no se ilustra la predicción del cuadro 2 por razones de claridad. En MPEG-2 una secuencia de video puede ser codificada como "progresivo" o como "entrelazado". En las secuencias entrelazadas las imagenes pueden codificar­ se como cuadros o como dos campos codificados separadamente. En este último caso se habla de "imagenes-campo" y la predicción busca la mejor igualación para un grupo de 16 x 16 muestras (todas de un mismo campo) en los dos campos pre­ vios. Si se está procesando el primer campo (llamado campo superior), los dos 140 141
  • 120.
    Imagen P r" ~._.Gu{l~ro3 ~~I- --1 &' 1.0 E; ¡ J~ ~.__ 1 I lE '111..... .h' ¡~ Imagen B ~uac!ro_~ __ ~{ j 1..0 01 . N ~[- I ~R J[- ¡ ~ I fÜ Hacia ªdelan el TECNOLOGIA ACTUAL DE TE! E'ISUJN Imagen I Imagen B Imagen B Imagen P Cuadro Oro -----------1 Cuadro 1 ~-.9¿,ªº[Q_L ~=:r------·i 1.0o I I~ I~8.' . ~~' I LJR E-~ ~8. 18.J.__L _ _ ~~ lE0c=---r=------=-~~ 1(3~ ~ Ü L--=: __::Jü PrediccIón haCia adelante PredIcción P'OdiCClón J P,.dicción Cuadr03 ~ -, 8.. I iE ~ -- 1 I hacia adelante haCia adelante haCia aIras Predicción basada en cuadro Imagen J Imagen B Predicción basada en campo Figura 8.12. Predicci6n basada en cuadro y predicción basada en campo. campos previos serán los dos campos que forman la imagen anterior. Por otro lado, si se está procesando el segundo campo (campo inferior), los dos campos previos serán el campo inferior de la imagen anterior (espacialmente cosituado) y el campo superior de la imagen actual (temporalmente cosituado). En cualquier casd, el vec­ tor de movimiento elegido se aplica al macrobloque completo. Las imágenes tipo "campo" pueden utilizar también con compensación de movi­ miento 16 x 8. En este modo se obtienen dos vectores de movimiento separados a partir de los dos campos previos, para las secciones de 16 x 8 superior e inferior de! macrobloque. Los dos vectores son transmitidos y utilizados para la parte correspondiente del macrobloque. La determinación de los campos previos se hace igual que en el párrafo anterior. Existe un modo extra de codificar las imágenes entrelazadas, ya sea para imá­ genes tipo cuadro o tipo campo, denominado "dual-prime" o "doble-básico". La uti­ lización de los vectores de movimiento "dual-prime" sólo está permitida para imá­ genes de tipo "P" y sólo cuando no hay imágenes de tipo "B" entre la imagen actual y la imagen de referencia (la imagen precedente "1" o "P"). En este modo sólo se encuentra un único vector para las 16 x 8 muestras de luminancia de un campo concreto de la imagen-cuadro (16 x 16 en e! caso de imagen-campo), buscando en el campo previo de la misma numeración (superior o inferior). A partir de este vector se deriva un "vector incremental" (con valores -1, O o +1, tanto en "x" Lo~ sj~l('ma.. de compresión como en "y"), buscando la mejor igualación (de las nueve que pueden obtenerse desplazando el bloque ±1 posicion en "x" e "y") para la misma región, pero con respecto al campo de polaridad opuesta. En el decodificador los dos bloques iden­ tificados por el vector completo yel vector incremental son promediados para for­ mar el bloque predictor. Esta tecnica ha demostrado ser altamente eficaz. En muchos casos la utilizacion del modo "dual-prime" con imágenes tipo "P" puede reemplazar, con menores exigencias de cómputo y menor retardo ue codificación, a las imágenes "B". Cada vector tiene una componente horizontal y una componente vertical. La resolución en la medida de! movimiento es de '/2 píxel. En caso de que el valor "x" o "y" de! desplazamiento de un vector sea impar, la predicción real para un píxel será e! valor promediado de los dos valores adyacentes. Está claro que se necesitan un montón de bits para transmitir los vectores de movimiento en los modos de pre­ dicción "campo" o "16 x 8". Por tanto, estos modos de predicción sólo se utilizarán cuando la predicción basada en cuadro no proporcione resultados satisfactorios. La figura 8.13 muestra el diagrama de bloques del codificador MPEG, cuando este trabaja en el modo intracuadro, es decir, cuando está codificando imágenes "1". La señal de entrada es dividida en bloques y sometida a los procesos típicos: OCT, VLC, etc. En esta figura el bloque marcado con una "Q" representa la recuantifica­ ción de los coeficientes frecuenciales. Por su parte, la figura 8.14 muestra e! traba­ jo del codificador MPEG en los modos "P" y "B". Puede apreciarse, a la entrada del circuito, la presencia de un almacen para la reordenación de las imágenes de entra­ da. Esto es consecuencia de que el codificador necesita disponer de las imágenes de referencia antes de poder procesar la imagen diferencial. Puede verse también que la OCT y procesos posteriores no se realizan sobre la imagen de entrada, sino sobre una imagen diferencial compensada en movimiento. Una cuestión interesante es que la imagen predecida no se compara con la imagen de referencia tal como llega al codificador, sino con la imagen de referencia localmente reconstruida, ya que es esta imagen reconstruida la que e! decodificador del receptor podrá utilizar como refe­ rencia. Esta reconstrucción local la realizan los bloques QI y OCT'. Modo I Para reordenaciónJ ' del GOP Reordenado Figura 8. 13. Diagrama de bloques del codificador MPEG·2 trabajando en el modo "¡". 242 243
  • 121.
    TU_¡'iOLOGj" ACr)[!lALI-1IJCLI.,"I-1LLUc.:.'-!'I.~q!..'():,:,,, ~ _ Almacén de ¡magenes Figura 8,14. Diagrama oe bloques del codillcador MPEG-2 trabajando los modos de codificación intercua­ dro "P" o I'B". 4.2.9. MPEG-2 en entorno prifesional La codificaci6n MPEG-2 se pensó, sobre todo, para la distribución de material audiovisual, ya sea por radiodifusión o mediante soportes tipo CD-ROM o DVD. Aunque el MPEG-2 es ya una norma bien definida y aceptada, presenta importan­ tes limitaciones en su uso en el entorno profesional. En MPEG-2 las posibles val'ja­ ciones del tren binario segun las combinaciones de niveles y perfiles son enormes. Como resultado, el procesado y la edición del tren binario MPEG-2 codificado resulta prácticamente imposible. Esto significa que las señales MPEG-2 convencio­ nales deberán ser, las más de las veces, decodificadas a banda base R-Gü1, en cada etapa de procesado, incluso para una simple edicion por corte, Por supuesto, las operaciones de posproducción complejas, como cortinillas, fundidos y efectos especiales, necesitarán siempre la decodificación previa a banda base, ya esten codi­ ficadas en M-JPEG o en MPEG-2. Esto es consecuencia de que el contenido del tren binario no representa directamente la señal de vídeo. Los más importantes "puntos flojos" de las normas MPEG-2, en su aplicación en el estudio, podrían resumirse como: o El MPEG-2 se optimizó para aplicaciones de distribución punto-a-multipun­ to, con codificación de un solo paso, pero no se consideró las características en multigeneraci6n. o No se tuvo en cuenta las necesidades de ciertos procesos, tales como el croma­ key. Para procesos de este tipo la estructura mínima necesaria es la 4:2:2. o Sólo se codifican las líneas activas de la señal de vídeo; no se ha previsto la codificación de las líneas de borrado vertical, algunas de las cuales contienen informaci6n vital, como, por ejemplo, el "c6digo de tiempo". o El límite superior de la frecuencia binaria del MP@ML es de 15 Mbits/s. Las evaluaciones del grupo MPEG han demostrado que una imagen de calidad subjetiva similar a CCIR R-601 se puede alcanzar con frecuencias binarias de unos 9 Mbits/s para aplicaciones de primera generación, pero esto sólo se _ ---'Lu!' ,~i~tcma.:; Jl: Cur!.lJ2lS;.~H)JJ logra con GOP de 12 cuadros, lo que significada una precisión en la edición de ±6 cuadros; válido para la radiodifusión, pero no para su aplicación en estudio, Estas evaluaciones han demostrado también que después de la terce­ ra generación las imágenes no mantienen la calidad necesaria para aplicacio­ nes de estudio, En la actualidad muchos sistemas de edición no lineal utilizan una variante de la norma JPEG diseñada para imágenes estáticas, Esta va¡-iante se conoce como M­ JPEG (Motion-JPEG). Sin embargo, esta solución presenta las siguientes desventajas: o El M-JPEG no está normalizado, de forma que las aplicaciones de distintos fabricantes no son compatibles entre ellas. La mayoría de las aplicaciones M-JPEG producen trenes binal-ios de frecuen cia variable, lo cual es apropiado para almacenamiento en disco duro, pero no para grabación en cinta magnética y distribucion por canales de ancho de banda estable. o El M-JPEG no define la codificación de señales de audio y su multiplexado con señales de vídeo. Teniendo en cuenta estas deficiencias, algunos fabricantes propusieron la determi­ nación de unos parámetros especiales para la aplicación del MPEG-2 en estudio. Esto llevó a la creación de un subgrupo MPEG, con el objetivo de crear un "perfil de estu­ dio". Una posibilidad consistía en usar el "perfil alto/nivel 1.440" (que sí permite la codificación 4: 2: 2), pero esto dispara la velocidad de procesamiento y las necesidades de memoria y excede los requisitos de una señal de definición estándar. En lugar de esto se optó por la creación de un nuevo perfil, denominado 4:2:2P@ML(perfil prin­ cipal/nivel principal, con estructura de codificación 4:2:2). Las ventajas de la variante MPEG 4:2:2P@ML pueden resumirse en: o Se mantiene un ancho de banda total de la crominancia (4:2:2 en lugar de ;;;;: SIMPLE PRINCIPAL SNR ESPACIAL ALTO Imagenes-B Imágenes-B 625/50 No imágenes-B Imágenes-S Imágenes-B ~:2:0 ~2:0 Ó ~:2:2 NIVEL ~:2:0 4:2:0 4:2:0 SNR escalable SNR escalable No escalable No escalable SNR escalable Espacial escalable Espacial escalable ALTO 80 Mbls (máx.) / 100 Mb/s (milx) , .920 pixeles 120MbR~ 4:2:2 256 Mb RAM 1.152 lineas SO Mb/s (máx.) ALTO-1.440 ;Z:m~.) 32 Mb RAM ) 80 Mbfs (máx.) 1.440 plxeles 1.152 lineas 4 MbRAM 128 Mb RAM ./ -­PRINCIPAL 15 Mbls (max) ~ ~----­ 20 Mb/s (máx.) 720 plxeles 576 Uneas 8 Mb RAM MbRAM RAM 32 Mb RAM BAJO 4 Mbls (máx.) 4 Mbls (máx.) 352 plxeles 4Mb RAM 8 MbRAM288 lineas Figura 8.15. El "4:2:2P@ML" es una extensión del "MP@ML", especialmente diseñado para aplicaciones profesionales, 245 244
  • 122.
    TLC~OI_()(;iA .t 'TtlllDE·1 H.E'I'11 ()!: 4:2:0). Un único paso por los filtros de submuestreo raramente presenta pro­ blemas de limitación de! ancho de banda de la croma, aunque en algunos casos puede apreciarse una cierta pérdida de detalle en imágenes críticas. De todas formas, el proceso de submuestreo implica una operación previa de filtrado, lo que genera una pérdida aún mayor de ancho de banda en la multigenera­ ción. Se podría considerar la utilización de filtros de corte abrupto, pero la experiencia ha demostrado la aparición de rizado de croma, asociado a la uti­ lizacion de este tipo de filtros. La solucion más directa es preservar el ancho de banda de la crominancia original del nivel +:2: 2. • Aumento de las líneas codificadas para incluir algunas de las correspondientes al borrado vertical. En concreto, se aumentan 32 líneas por cuadro, lo que eleva la cuenta de 480 a 512 por cuadro en paises 525/60 y de 576 a 608líne­ as por cuadro en países 626/50. • Aumento de la frecuencia binaria del tren codificado hasta 50 Mbits/s. Ellími­ te de 15 Mbits/s de! MP@ML es una Iimitacion demasiado severa cuando se desea buena calidad en multigeneracion. En particular, resulta deseable man­ tener e! GOP en un valor lo más bajo posible y esto sólo puede lograrse si se desea un resultado de calidad, con frecuencias binarias relativamente altas. • Compatibilidad hacia atrás con e! nivel principal. Como consecuencia del incremento de la frecuencia binaria, se necesitan btiffers de Video más grandes, pasando de 16 a 32 Mbits de RAM en el decodificador. Resulta interesante el hecho de que el grupo 4:2:2 no ha afrontado todavía los problemas de multi­ generación de la señal de audio comprimida. Una vez que la señal de Video alcanza una frecuencia binaria relativamente alta, resulta justificado permitir la multiplexación de las señales de audio MPEG sin compresión; el audio sólo representa una pequeña parte del tren binario global (muy inferior al 10%). 4.2.10. Calidad de la imagen 4:2:2P@ML El subgrupo MPEG responsablc del perfil 4: 2: 2 ha realizado una serie de prue­ bas para determinar el nivel de calidad que puede obtenerse con el nuevo perfil. Las prucbas incluyeron compresión-descompresión de primera y octava genera­ ciones. Para simular los problemas que puedcn producirsc en una posproduccion com­ pleja en "cascada", se realizaron los siguientes análisis de secuencias: • Caracterlsticas de multigeneración con desplazamiento espacial alternado de la imagen en cada generación. El desplazamiento espacial significa que la ima­ gen se desplaza horizontal y verticalmente dos píxeles y dos IIncas entre las primeras y segundas generaciones, no se altera en las terceras y cuartas y vuelve a su lugar en las quintas y sextas. Este desplazamiento espacial simula el reposicionamiento de la imagen cuando ésta pasa por un generador de efec­ tos digital (DVE). • Características de multigeneración con un desplazamiento temporal del GOP (grupo de imágenes) entre generaciones. El desplazamiento temporal significa que la estructura GOP se desplaza un cuadro entre la primera y la segunda gene- Los sistemas de comoresión DESPLAZAMIENTODESPLAZAMIENTO TEMPORALESPACIAL ORIGINAL B -----,SECU~IP , ' B -----. P I I of­ Z '!!;i I ~ g=i~ 1 I L I I L­ ~P.J~NCI'MODIFICADA5ffi I 0..>(/) w LAS FRONTERAS DEL NUEVO UNA IMAGEN PUEDE SER Cl BLOQUE DCT NO COINCIDEN "1" ANTES DEL DESPLAZA­ CON LAS DEL ANTIGUO MIENTO Y "P" O "B" DESPUÉS Figura 8.16. Condiciones de prueba de calidad de las imágenes codificadas MPEG-2 4:2:2P@ML. raciones y de nuevo entre la quinta y la sexta generaciones. El desplazamiento temporal simula el efecto de diferentes realineamientos del GOP, que pueden prodUcirse después de la multigeneracion. Este desplazamiento de un cuadro es una simulación realista, ya que sería pura casualidad que dos generaciones de codificacion comenzaran con el mismo cuadro. Con este tipo de desplazamien­ to un cuadro determinado podría ser codificado como "P" en la primera genera­ cion, como "B" en las generaciones 2, 3 Y5 Ycomo "1" en la cuarta. Resuhados.-Con 50 Mbits/ses posible utilizar GOP muy cortos (sólo "1" o "l­ B") mientras se mantiene una calidad excelente en multigeneración. A 30 Mbits/s es necesario usar GOP de tipo "I-B" para lograr calidad "excelente" (equivalente a grado 5 CCIR). A 20 Mbits/s es necesario usar GOP más largos del tipo "I-B-B-P" y se reduce el número de generaciones que proporcionan "calidad excelente". Esto sugiere que, aunque se pueden usar frecuencias binarias tan bajas como 20 Mbits/s para la etapa inicial de adquisicion, los trabajos de multigeneración deberían reali­ zarse entre 30 y 50 Mbits/s. Una pregunta que surge a menudo es: ¿qué calidad puede obtenerse a una fre­ cuencia binaria determinada? Aunque esto depende del tipo de material de programa que se desee codificar, en lo que sigue se dan algunas indicaciones orientativas. La relacion entre la frecuencia binaria y la calidad de Video depende del tipo de compresion empleado. Aqul se comparan tres tipos de compresión MPEG: la apli­ cada sobre imágenes SIF (imágenes previamente submuestreadas a 352 plxeles1288 líneas), imágenes con formato de entrada MP-ML (720 píxeles/576 líneas) y 4:2:2P@ML (como en MP-ML, pero sin submuestreo extra de la crominancia). El formato SIF ofrece la mejor calidad de imagen para frecuencias binarias por debajo de 5 Mbits/s, aunque si la fuente de imagen es una película de cine, toda­ vía el MP-ML se muestra superior. En este caso el SIF resultaría ventajoso por debajo de 3,5 a 4 Mbits/s. El SIF proporciona una calidad aceptable para aplica­ ciones interactivas y multimedia. 247 246
  • 123.
    11 CNOL(lí;l." :CfU1)1 TLI.[·n....[o.' o w O S O <l: O -.J <l: U " 4:2:2 SÓLO I "", ", 4:2:2 SÓLO lB / / ", / ", ", / MEJOR MP-IPB " MEJOR SIF-IPB 10 20 30 40 FRECUENCIA BINARIA MPEG~2 (Mbits/s) Figura 8.17. Relación entre frecuencia binaria)' calidad de imagen para varios tipos distintos de codificación. El MP-ML (perfil principal~nivcl principal) proporciona la mejor calidad para frecuencias binarias entre 5 y 15 Mbits/s. Este formato proporciona una calidad adecuada para la radiodifusión e incluso la transmisión punto a punto de progra­ mas de televisión donde no es necesaria la multigeneración. El nuevo perfil 4:2:2 ofrece alta calidad en aplicaciones de multigeneración. En este caso la relación entre la frecuencia binaria y la calidad obtenida depende del tipo de imágenes codificadas (1, Po B). Según la combinación elegida, la codifica­ ción 4:2:2 puede ser hasta dos o tres veces menos eficaz que la MP-ML Existe una asociación profesional abierta, establecida en julio de 1988, que agrupa a más de 70 empresas u organismos, desde fabricantes de equipos hasta radiodifusores y otros usuarios finales, denominada "Pro-MPEG Forum", creada para asegurar la interoperatividad de los productos MPEG-2 en el entorno profe­ sional. El Fórum incluye también a diseíiadores y fabricantes de circuitos VLSI. Aunque no se trata de un organismo generador de normas, el Fórum trabaja en estrecha colaboración con organismos tan importantes como SMPTE y EBU. El Forum proporciona un puente entre las nuevas normas de televisión digital publi­ cadas por estos yotros organismos y su implementacion práctica e interoperativa. E-mail: admin@pro-mpeg.org; web: www.pro-mpeg.org. 4.2.11. Transporte de los datos en MPEG-2 Se dispone de dos sistemas distintos para multiplexar corrientes binarias bási­ cas (elemental)' bit streams) procedentes de distintas aplicaciones en un mismo canal de transmisión. Uno de estos métodos se basa en el uso de paquetes de longitud L()..~~lna~s.1L~,:_~!~¡2!:!:'~:~).!~ CORRIENTE DE PROGRAMA vs CORRIENTE DE TRANSPORTE PES DE viDEO ~ DATOS DE ViDEO CODIFICADOR I • GENERADOR DE VIDEO DE PAQUETES CORRIENTE x DE PROGRAMAw -' (PROGRAM STREAM) Cl(l) •5n. ::>DATOS DE ¿ AUDIO I[ CODIFICADOR GENERADOR -----.• AUDIO DE PAQUETES l CORRIENTE PES: PACKETIZED ELEMENTARY STREAMS x DE TRANSPORTE (CORRIENTES BÁSICAS EN PAQUETES) ~ (TRANSPORT STREAM) ~~ ----..PS: PROGRAM STREAM -' ::> (CORRIENTE DE PROGRAMA) ¿ TS: TRANSPORT STREAM (CORRIENTE DE TRANSPORTE) Figura 8.18. A partir de los paquetes "PES" de video), audio se pueden formar "corrientes de programa" o "corrientes de transporte". fija y el otro en paquetes de longitud variable. En ambos casos se comienza por formar los "PES" (corrientes básicas en paquetes) de longitud variable. La diferen­ cia entre los dos métodos se produce en la etapa final de multiplexado. Se trata aquí de definir las siguientes utilidades: • Un protocolo para la transferencia de datos en forma de paquetes. • Un método para sincronizar el codificador y el decodificador. • El multiplexado y demultiplexado de los datos que representan los distintos servicios. • La posibilidad de enmascarado para acceso condicional. La necesidad de disponer de dos métodos distintos de multiplexado es conse­ cuencia de los diferentes entornos de aplicación. Las "corrientes de transporte" (TS) se han definido para entornos ruidosos (con mala SNR), en los que se pueden producir pérdidas de datos. tstos incluyen sistemas de almacenamiento y, sobre todo, canales de radiodifusión, ya sean terrenos, por satélite o cable. Los paquetes TS tienen una longitud fija de 188 bytes. Los errores o la pérdida de datos en los paquetes PES pueden suponer una pérdida completa de sincronización en el pro­ ceso de decodificación. Las "corrientes de programa" (PS), por otra parte, se han diseñado para medios relativamente libres de ruido, como, por ejemplo, CO-RüM. Los paquetes que forman el PS presentan longitudes variables. La definición del sistema PS en MPEG-2 viene también motivada por la necesidad de compatibilidad con el siste­ ma MPEG-I. La transcodificación entre los dos formatos o sistemas de multiplexado es de todas formas, viable y se pueden construir interfaces que conviertan TS en PS y viceversa. En la práctica la mayoría de las aplicaciones ATV (televisión avanzada), 248 249
  • 124.
    ~ VIDEO-2 I 1I 1 I 1 I ' .' , " . ... ... .. ..[ffiJrr::::::Jrr::::::JDrr::::::Jrr::::::J (DOS CORRIENTES ELEMENTALES) ~ vIDEO-' I I I I I 1 I I I J!.~'~ [lliJ D rr::::::J_P rr::::::J D TfCNOI OCJA ACTUAL DE ·llL~'ISIÓr--.· úl FORMACiÓN DE TSs y PSs A PARTIR DE PESsw oS wW 1-1­ zO:: wO ir fuO::z 8;? 1­ wiñ" °!O.w", 1-::; ~;? 0::" 0::0 00:: 0n. ~úi' °wüie:. ~~ 11>1­ ww ~a !!!.: 0::0: O::z 8w tales como DBS (radiodifusión directa por satélite) y CATV (televisión por cable) se basan en normas deJacto, que utilizan paquetes de longitud fija. Ya se utilicen TS o PS, el nivel más elemental del multiplexado consiste en la formación de los PES, los cuales transportan información de una fuente de datos determinada (vídeo, audio-1 , etc.) y presentan longitudes variables. Cada codifi­ cador genera su propio tren de PES, los cuales se multiplexan de la forma más ade­ cuada. Aunque los PES se pueden usar para conectar directamente un codificador y un decodificador, generalmente forman la base de corrientes de datos más com­ plejas: las corrientes de programa (PS) y las corrientes de transporte (TS) de las que se ha hablado en párrafos anteriores. Una corriente de programa (PS) permite el uso conjunto de varias corrientes elementales de vídeo y audio. Con los PES se forman paquetes que a continuación se organizan en "paquetes de corriente de programa" de longitud variable. Estos paquetes, que suelen ser bastante largos, disponen de una cabecera que proporcio­ na toda la información necesaria. Por tanto, los paquetes de corriente de programa son simples colecciones de paquetes PES. Por otro lado, la mayoría de los esquemas de corrección de errores se han diseñado para trabajar con bloques de datos de lon­ gitud fija. Por esta razón las corrientes de transporte (TS), que se han pensado para entornos "ruidosos", donde la posibilidad de degeneración de los datos es mayor, trabajan con paquetes de datos de longitud fija. En MPEG-2 estos paquetes tienen una longitud total de 188 bytes, de los cuales 184 corresponden a la carga de datos y 4 a la cabecera. Como losTS pueden transportar varios programas multiplexados, una suposición obvia, pero incorrecta, sería que los TS se forman a partir de colec­ ciones de PS. No es así; losTS se forman a partir de los más elementales PES. Los sistt:mas de coml)n..~sióll Hay una relación entre los paquetesTS dc 184 bytes y las celulas ATM. Estc últi­ mo es un sistema de transmisión de datos de alta velocidad no sincrónico, útil tanto para operación en áreas locales como en grandes áreas. De los 188 bytes del paque­ te TS, cuatro bytes se utilizan como cabecera y 184 como carga útil para transpor­ tar información de audio, vídeo, etc. Por otro lado, las células ATM ticnen un tamaño de 53 bytes, de los cuales 48 bytes representan la carga útil y 5 la cabece­ ra. De esta forma un paquete TS puede ser transportado en cuatro células ATM. 4.2.12. Corriente de transporte multiproBrama En la terminología MPEG "un programa" consiste en una o varias corrientes elementales (en ocasiones denominadas "servicios"), que comparten una misma referencia temporal. Por tanto, aquí programa se refiere a los distintos servicios (audio, vídeo, datos, teletexto, ete.), que están relacionados con un mismo conte­ nido y que deben ser presentados al espectador simultáneamente. Para esto un único y común PCR (Pro8ram Clock Rifercnce) proporciona información de referen­ cia temporal a todas las corrientes elementales del programa, de manera que el decodificador usará el mismo reloj master para la decodificación de las todas las señales de audio, vídeo y datos que componen un programa. Una de las características interesantes de la corriente de transporte es su capa­ cidad para transportar datos correspondientes a diferentes programas. Esto resul­ ta de gran utilidad en los nuevos servicios de distribución de la señal de televisión, tales como el "vídeo a la carta", "vídeo casi bajo demanda", etc., donde es necesa­ rio enviar al espectador varios programas en un único tren de datos comprimidos. Para esto lo que se hace es intercalar los paquetes de corriente de transporte de varios programas en el mismo tren binario. En la figura 8.20 el programa-l está formado por dos corrientes elementales (una de vídeo y una de audio), mientras I - AUDIO-1 ~ PROGRAMA·2 é71'~''~: (UNA CORRIENTE ~ "'r .... "f ELEMENTAL) PCR PROGRAMA-l [ffiJ rr::::::J lI:J lI:J rr::::::J rr::::::J I DOS PROGRAMAS EN LA MISMA CORRIENTE DE TRANSPORTE Figura 8.20. En MPEG-2 es posible transportar varios programas en una misma corriente de transporte. Todos los componentes de un programa comparten un mismo reloj. 250 251
  • 125.
    Lus ~i~tcm,)_~ d('tomprniÚn TU"~UlOGI' ..CTU;L DI.: ITL['-¡SI(¡:, que el programa-2 contiene una única corriente elemental de delco. En cualquier caso, cada programa tiene su propio reloj de referencia de 27 MHz, común a todos los servicios del programa)' que está representado en la figura mediante un cro­ nómetro. La frecuencia binaria de la corriente de transporte completa es constante, y ello a pesar de que las frecuencias de cada corriente elemental, e incluso de c<ld<l pro­ grama, pueden ser variables. Para asegurar la total ocupación del canal, a nivel de la corriente de transporte, se utilizan "paquetf's nulos" o "paquetes baslll-a" siempre que es necesario. El Transport-5tream puede transportar uno o varios programas. Al mismo tiem­ po la norma permite añadir programas a un tren binario ya codificado. De forma similar se pueden extraer uno o más programas de un tren codificado en el modo TS. Cada programa contenido en un TS tiene su propio reloj, mientras que un PS sólo puede contener material relacionado con un único reloj del sistema. 4.2.13. Cabeceras e identificadores Cada paquete de transporte incluye una cabecera mínima formada por 32 bits (4 bytes). Los dos datos más importantes de esta son el "Sinc Byte" o byte de sin­ cronizacion, de valor fijo (47H o 8811) y el PID (Facket Identtfication o número de identificacion de paquete). El PID sirve para identificar cada una de las posibles corrientes elementales o cada uno de los programas. Puesto gue el PID se forma con 13 bits, se dispone de 2'1 =8.192 números de identificación diferentes, de Jos cuales MPFG se reserva el "O" para la PAT (Proaram AssocJOtÍon Table), el "1" para la CAT (ConditionaI Access Table) y el 8.191 para los paguetes nulos o de relleno_ El receptor dispone del llamado "PSI" (Proaram Spectfic Ir:formation) , que le per­ mite determinar qué identificadores tiene que buscar y decodificar para cada pro­ grama. Esto se logra mediante la consulta de cuatro tablas básicas: , PAT: La "Pro8ram Association Toble"o "tabla de asociación del programa" tiene siem­ pre un identificador (PID) de valor cero. Es lo primero que tiene que decodificar el receptor, ya que contiene informacion gue relaciona un programa específico (identificado por un número) con el PlD de la PMT. PMT: Cada programa dispone de un "Program Map TabIe" o "tabla de contenidos del programa", que lista informacian de todos los elementos (vídeo, audio, tele­ texto, etc.) que pertenecen al programa. NIT: El contenido del "Network lriformation rabIe" o "tabla de información de la cadena" esta definido en MPEG como "privado" en el sentido de que no lo define la norma, sino que se deja que sea el radiodifusor o el proveedor del servicio quien decida su contenido. La intención del NIT es p¡-oporcionar información sobre los parámetros físicos de la cadena, tales como frecuencia FDM, número de transpon­ dedores, etc. CAT: La "ConditionaI Access Table" o "tabla de acceso condicional" es un enlace que permite al decodificador encontrar los trenes binarios que contienen las llaves electrónicas necesarias para decodificar un programa enmascarado. La informacian de referencia temporal de programa se transporta mediante el ICABECERA I CARGA I VARIABLE (TIENE SU PROPIA PROPIA CABECERA) CABECERA) Figura 8.21. Organización de la cabecera de la corriente de transporte. PCR, que se encuentra en los campos opcionales del campo de adaptación yse usa para la sincronización del decodificador. Otros campos importantes son: Contador de continuidad (Continuity CouBter): Campo de 4- bits gue cuenta cíclica­ mente de Oa 15. Este campo se usa para detectar paquetes repetidos o perdidos. Indicador de discontinuidad (Discontinuity Indicator): Indica tanto una discontinui­ dad en la base de tiempos como una discontinuidad en el contador. Indicador de acceso aleatorio (Random Access Indicator): Indica que el próximo paquete PES, con el mismo PID que el actual, contiene una "cabecera de secuen­ cia de video" o el primer byte de un cuadro de audio. Cuenta atrás para corte (Splice Contdown): Campo de 8 bits que especifica el núme­ ro de paquetes del mismo PID antes de que se produzca un punto de corte, es decir, se alcanza un punto de corte cuando este campo vale O. Tal paquete contie­ ne el último byte codificado de una imagen o de un cuadro de audio. Además de los explicados anteriormente, la cabecera puede incluir los siguien­ tes campos: CABECERA PRINCIPAL: Indicador de error en el transporre.-lndica si el paquete es erróneo: O =no-error; 1 =error. Indicador de inicio de unidad de caraa.-Indica si la parte de carga de este paquete contiene una cabecera de paquete PES o el comienzo de una tabla que contiene información específica del programa (PSI). Prioridad de transporte.-Nivel de prioridad en canaleslredes que soporten prio­ rización: O=baja prioridad; 1 =alta prioridad. Control de Ja JIave de enmascarado_-Indjca el tipo de llave de desenmascarado que 252 253
  • 126.
    TI:C.~I;1 0(;1: ACllL!1)1: Tll T: 'l'il 0:'-,' IndIcador de comienzo de unidad de carga Bandera de dato5 pnvados IndIcador de dlscontlnuidad Bandera OPCR Campos opcIonales IndIcador de acceso aleatorio Bandera de extensión de campo de adaptación Bandera PCR Bandera de punto de corte Reservado Longilud del campo (1) Datos privados o I 33 bits 1 6 bits EJ I-1 byte- extensiones del campo de adaptación Base de Extensión de "1" bytes referencia del referencia del .. .reloj de programa reloj de programa FORMATO DECABECERA DE DATOS PRIVADOS FORMATO DEL (O)PCR O EXTENSiÓN DEL CAMPO DE ADAPTACiÓN Figura 8.22. Detalle del formato de la componente de longitud fija de la cabecera de adaptación. se ha de usar para este paquete. Ejemplo: 00 =no enmascarado; 10 =llave par; 11 =llave impar; 01 =otros usos. Control del campo de adaptación.-Indica si a continuación aparece un campo de adaptación: 00 =reservado; 01 =sin campo de adaptación, sólo carga; 10 =sólo campo de adaptación, no carga, 11 =campo de adaptación seguido de carga (un campo de adaptación son identificadores y parámetros que definen un servicio, pero que no se consideran básicos). CAMPO DEADAPTAClÓN Longitud del campo de adaptación.-Especifica el número de bytes que siguen en la cabecera de adaptación. Puede servir también para que e! decoder se salte el campo de adaptación y vaya directamente a la parte de datos de carga. Indicador de prioridad de la corriente elemental.-Indicación de prioridad de los datos que están siendo transmitidos en este paquete (es independiente de ¡Ipriori­ dad de transporte" de la cabecera mínima). CAMPOS OPCIONALES: PCR J OPCR.-Se utilizan para la sincronización de! receptor. Mientras que el PCR puede ser alterado durante la transmisión, el OpeR (Optional PCR) no. Datos privados.-Indica que la carga está formada por datos privados no recono­ cibles por un decoder MPEG. Extensión del campo de adaptación.-Para futuras extensiones de la cabecera de adaptación aún no determinadas. 4.2.14. Control del reloj del sistema En un sistema (tren binario) donde pueden convivir varios programas y donde cada programa puede estar formado por varios servicios la sincronización y pues­ ta a tiempo de las señales multiplexadas puede resultar complicada. La figura 8.23 muestra la idea global de! sistema de sincronización. 254 I I Los sistemas de compresión I ... .N BIT!' __o> ~gU 1,-_Jif1JD ~ ~ , I PCR;X PCR;X , TIEMPO DE -N- BITS CODIFICACiÓN TRANSMISIÓN DESCODIFICACIÓN .. -RETARDO VARIABLE- ... -RETARDO FIJO· ... ·RETARDO VARIABLE· • .. RETARDO TOTAL CONSTANTE • Figura 8.23. Sincronización de los distintos componentes del múltiplex. A partir de la señal principal (en este caso la señal de video) se extrae la refe­ rencia temporal (reloj del sistema) que servirá como patrón para todos los servi­ cios asociados a ese programa (canales de audio, datos, te!etexto, ctc.). Esta refe­ rencia temporal está formada por muestras de un reloj de 27 MHz, que se inser­ tarán en los paquetes de transporte al menos 10 veces por segundo. Nótese que se parte de dos presupuestos: primero, que el retardo total de! sis­ tema es constante (desde el envio del cuadro o campo hasta su llegada) y segundo, que e! retardo de transmisión es también constante (cada byte invierte la misma cantidad de tiempo desde la fuente hasta el destino). En el demultiplexor se reconstruye el reloj de! programa. Cada PCR que llega se utiliza para reiniciar (reset) el reloj local en caso de discontinuidad (el indicador de discontinuidad está a "1") o para corregir (poner en fase) dicho reloj. Esta corrección es similar a la utilización de un PLL (Phase Lock Loop). La idea es pro­ porcionar una sincronización con la precisión necesaria en cada aplicación, con las siguientes limitaciones: • Sólo sincronización vertical. • Las señales de sincronización pueden aparecer sólo 10 veces por segundo. • La sincronización se logra mediante datos siftware, que puede presentar erro­ res de hasta 500 ns. • Se necesita una rápida fijación de la imagen durante la búsqueda de canales. La organización de los paquetes de datos en MPEG, ya sea formando TS o PS es realmente muy complicada. Esta se define en la llamada "capa del sistema" y, en el caso de! MPEG-2, está especificada en la norma ISO/lEC 13818-1. Decenas de parámetros y variables aparecen en ella. Un estudio exhaustivo de cada uno de los parámetros ocuparía un libro completo. 255
  • 127.
    TLC;,OI ()(jl: AC¡LI.:¡L 111: ru Ln"'j( ), 4.3. El sistema MPEG-4 La labor de normalización no se detuvo con el MPEG-2. El MPEG-4 es un grupo de trabajo, dentro de la familia MPEG, totalmente remodelado, cuyo pro­ pósito es lograr altos factores de compresión, utilizando solamente información contextua!. El algoritmo de compresión se basará en OCT y IIme/ets y su aplicación será la de teleconferencia )' similares, aunque se contempla un perfil de estudio, para aplicaciones profesionales dC' cine y tc!C'"isión, capaz de soportar hasta 100 Mbits/s. MPEG-4 no pretende sustituir a MPEG-l o a MPEG-2, sino basarse en ellos para mejorar las capacidades de interactividad. Según argot de comité de expertos, MPEG-4 "proporciona un marco de distri­ bución multimedia integrada para acceso universal e interactividad basada en con­ tenido". Traducido, esto significa que las nuevas herramientas permitiran a los autores multimedia ya los usuarios acceder, manipular, almacenar y presentar todo tipo de elementos audiovisuales de la forma que mejor se adapte a sus necesidades del momento, sin preocuparse de las características y parafernalias técnicas. Si la tecnología MPEG-4 se impone, puede ser una forma de acabar con la maraña de sistemas de codificación y compresión propietarios e incompatibles entre ellos, que proliferan en Internet y otms sistemas de comunicación sin hilos. Lo real­ mente nuevo de MPEG-4 son sus posibilidades de interactividad. Elemento central de esta nueva prestación es la capacidad de codificar de mane­ ra separada los distintos elementos visuales y sonoros. No sólo es capaz de codifi­ car imagenes rectangulares de distinto tamaño y canales individuales de audio, sino que dispone, además, de herramientas para codificar imagenes y objetos grMicos de cualquier forma y objetos de sonido independientes. Un presentador de informativos puede codificarse de forma independiente del set de decorado que tiene detrás. Los sonidos pueden localizarse de forma inter­ activa en el espacio. Una vez que los objetos de imagen, sonido, gráfico y texto han sido codificados, el usuario puede interactuar con cada uno de ellos dé manera independiente. Dentro de la pantalla los objetos pueden sumarse, restarse, mover­ se, deformase, escalarse... Pueden codificarse tanto objetos como animaciones ytanto 2D como 3D, sobre los cuales se pueden "mapear" texturas reales o sintéticas. Herramientas especiales facilitaran la animación facial y corporal. Otras herramientas permitiran la con­ versión texto-a-voz, voz-a-texto y diferentes niveles de sonido sintetizado. Se dispone de un sistema de coordinación que dispone los objetos en el espacio entre ellos y en relación con el fondo y con el usuario. Las capacidades de compo­ sición de "escenarios multimedia" del MPEG-4 estan fuertemente influenciadas por el trabajo previo realizado para Internet por el Virtual Reality Modeling Lenguaje (VRML) y existe una relación formal entre MPEG-4 y el Consorcio Web3d para asegurar que MPEG-4 yVRML evolucionan de manera consistente. La codificación y manipulación de objetos de formas arbitrarias es una cosa. Extraerlos de escenas y contextos naturales es muy distinto. Hasta la fecha la mayo­ ría de las demostraciones se han basado en composiciones de croma-key y mucho trabajo manua!. ______L,l" SlSJCIl1.ª~--SJ_~.Lll.!l4!.r~nÓ!J Otro punto fuerte del MPEG-4 es la escalabilidad. Los objetos menos impor­ tantes pueden transmitirse con menor resolución o con menos redundancia para protección contra errores. Los objetos visuales y sonoros pueden codificarsf en una sola capa base que contenga suficiente información como para proporcionar una resolución pobre, aunque aceptable, a la que se añade una o mas capas de real ce que, al sumarse a la capa base, proporcionan más resolución, un mayor rango ck frecuencias, mayor relación de aspecto, sonido envolvente o tridimensionalidad. La transformada basica del MPEG-4 sigue siendo la OCT, bastante similar al MPEG-l y al MPEG-2, aunque se han hecho algunas mejoras en la eficacia de codi­ ficación y en la robustez de transmisión. Se incluye, ademas, un algoritmo wal'elet para la codificación de texturas e imagenes estaticas. La codificación MPEG-4 comienza con un núcleo VLBV (VeJ)' LOII' Bitrate Video o video a muy baja frecuencia binaria), que incluye algoritmos y herramientas, para proporcionar entre 5 Kbits/s Y64 Kbits/s. Para que el sistema funcione a frecuencias binarias tan bajas, se han mejorado la compensación de movimiento y la corrección y cancelación de erro­ res, manteniendo la frecuencia de refresco muy baja (entre Oy 15 fps) Ylos rangos de resolución desde unos pocos pixeles por linea hasta SIF (352 x 288). El MPEG-4 no se preocupa directamente de la protección de errores necesaria en canales especificas, tales como radiodifusión móvil, pero ha mejorado la distri­ bución del tren binario de forma que la recuperación de la información sea mas robusta. Para canales de mayor calidad, generalmente entre 64 Kbits/s Y2 Mbits/s, se dispone del HBS (High Bitrate Video o video dc alta frecuencia binaria), capaz de soportar resoluciones que pueden llegar hasta Rec-601 (720 x 576). Aunque MPEG-4 tiene ventajas evidentes en la producción y distribución de pro gramas interactivos, no esta claro qué efecto tendra en la distribución y radiodifusión de programas convencionales de televisión. En estas arcas el MPEG-2 esta fuerte­ mente establecido gracias a su inclusión en normas tan importantes como ATSC, OVB y OVD. En las funciones avanzadas tanto el codificador como el decodificador MPEG-4 resultan bastante mas cams que sus compañeros MPEG-l y MPEG-2. De todas formas, existe un "Studio Pre:file MPEG-4" que puede tene,- un gran impacto en producciones de alta calidad para cine y televisión en alta resolución. 4.3.1. MPEG-4 peifl1 estudio Es un perfil especial del sistema de codificación MPEG-4 para aplicaciones de alta resolución en cine o en televisión. A primera vista la eficiencia en la compre­ sión, la interactividad y la codificación de elementos sintéticos (que son las bases del MPEG-4) tienen poco que ver con las imagenes de alta resolución y el trabajo en estudio. Sin embargo, el comité MPEG-4 atendió muy pronto las demandas ele las empresas interesadas en llevar la compresión a los productos audiovisuales de mayor calidad. Cuando se considera la manipulación electrónica en tiempo real de imagencs de alta resolución, los números se hacen enormes. Una imagen de 4.000 x 4.000 píxeles, con codificación 4:4:4 YUV/RGB, 10 bits/muestra y 24 ips con un canal 256 257
  • 128.
    TEC!.'OI OGf: :'CTlHIDI, TU n'I'/(iN alfa, genera una frecuencia binaria por encima de 16 Gbits/s. Incluso la televisi6n en alta definici6n actual (HDTV), que en la norma americana de la ATSC puede proporcionar 1.920 x 1.080 píxeles, 60 cuadros progresivos con codificaci6n 4:2:2 y 10 bits/muestra, genera la nada despreciable frecuencia binaria de 2,5 Gbits/s; actualizada a RGB/YUV 4:4:4 y complementada con un canal alfa, nece­ sitaría 5 Gbits/s. La norma europea de 1.920 X 1.152 píxeles y 50 imágenes por segundo no entrelazadas generaría tasas similares. Es fácil ver por qué resulta Mil una norma de compresi6n para este tipo de imágenes. MPEG-4 permite romper la barrera superior de la codificaci6n MPEG-2, que está en 100 Mbits/s para imágenes de 1.920 X 1. 152 píxeles en Europa (1. 920 X 1.080 en USA), con codificaci6n 4:2:2 y 8 bits/muest,-a. MPEG-4 se estructura en tres niveles: LoH' (bajo), Main (principal) y HiBh (alto). El nivel bajo del MPEG-4 es esencialmente equivalente al nivel alto de! MPEG-2. El nivel principal del MPEG-4 permite acomodar hasta 60 imágenes progresi­ vas con muestreo 4:4:4 y 2.048 X 2.048 píxeles. El nivel alto eleva el número de bits/muestra a 12 y la resoluci6n a 4.096 X 4.096, permitiendo resoluciones tem­ porales hasta 120 cuadros no entrelazados por segundo. Se espera que la norma definitiva incluya especificaciones para el canal alfa, aunque los expertos no acaban de ponerse de acuerdo en el número de bits/muestra para este canal. Al igual que las demás normas MPEG, esta norma define la sintaxis de tren binario codificado y fija la forma en que el decodificador debe entender los pará­ metros de codificaci6n, sin entrar en la forma concreta en que debe realizarse la codificaci6n. Por ejemplo, un decodificador que cumpla con las especificaciones del nivel alto podría reproducir una imagen de 4.096 X 4.096 píxeles a 24 ips u otra de 1.920 x 1.152a 100ips.Enelnivelprincipalunaimagende 1.920 x 1.152 podría proporcionar hasta 50 cuadros no entrelazados, mientras que otra de 2.048 X 2.048 se limitaría a un máximo de 25 ips. Como parte de la norma MPEG-4, el perfil de estudio puede utilizar todas las herramientas de composici6n de escenas e interactividad incluidas en los perfiles más bajos, aunque la producci6n de alta calidad ya dispone de un elevado número de herramientas sofisticadas para la composici6n y manipulaci6n de imagen. Un beneficio colateral del perfil de estudio del MPEG-4 es que los elementos básicos de codificaci6n, tales como la colorimetría, el alineamiento de los macro­ bloques y otros parámetros podrán mantenerse durante todo el canal de pro­ ducci6n. Esto ayudará a mantener la calidad a medida que el material vaya pasan­ do, desde los niveles más altos de producci6n hasta los receptores de más bajo precio. 4.4. El MPEG-7 Es el penúltimo miembro de la familia MPEG. Esta vez no se trata de un siste­ ma de compresi6n, sino más bien de descripción y catalogacian de los contenidos multimedia. MPEG-7 se describe como Mulcimedia Content DeSCTiption Integace (MCOI) o interfaz de descripci6n de los contenidos multimedia. Con él se preten­ de normalizar un método de descripci6n de los elementos multimedia. Su inten­ 258 Lo!'- ~istcl1la ... de comllrcsión ci6n es construir un conjunto normalizado de descriptores, esquemas y un len­ guaje estándar que pueda ser utilizado para describir los contenidos multimedia. A diferencia de los métodos actuales, que se basan en la utilizaci6n exclusiva de texto, el nuevo lenguaje permitiJ-á al usuario buscar escenas por su color o por las texturas que contiene o por la acci6n que se desarrolla. Se podrá "tocar unas notas" en el teclado o introducir una muestra de la voz de un cantante y obtener una lista de piezas musicales similares del cantante preferido. 4.5. El MPEG-21 Éste sí es e! último miembro (por ahora) de la familia MPEG, cuya finalidad es afrontar e! problema global de la distribuci6n de contenidos multimedia. El grupo MPEG- 21 espera comprender c6mo los distintos componentes multimedia se rela­ cionan unos con otros e identificar los huecos que puedan quedar en la infraes­ tructura que pudieran dar lugar a la aparician de nuevas normas. Los aspectos que se están investigando se solapan e interactúan unos con otros. Hay temas relacionados con la red, como la velocidad, la fiabilidad, el retardo, el coste, etc. Otros aspectos relacionados, por ejemplo, con la calidad incluyen cosas como la autenticidad (¿es esto lo que pretende ser?), la escala de tiempo (¿puedo disponer de ello cuando quiera?), así como aspectos técnicos y atributos artísticos. Los modos de utilizaci6n, los modelos de pago, las técnicas de búsqueda, las opciones de almacenamiento, todas ellas son objeto de estudio, así como los dere­ chos del usuario y la privacidad. ¿Qué derechos tiene el usuario para utilizar, copiar y pasar la informaci6n? ¿Ha entendido el usuario correctamente cuáles son sus derechos sobre la informaci6n audiovisual? ¿C6mo protegerán los usuarios sus datos personales?Y ¿c6mo podrán negociar la privacidad con el suministrador de contenidos? 4.6. Los miembros de la familia perdidos Puesto que se han definido (o se están definiendo) normas MPEG 1, 2, 4, 7 Y 21, cabe preguntarse que ha sucedido con el 3, 5, 6 Yel resto de los números. MPEG-3 iba a ser la norma de compresión para alta definición, pero muy pronto se vio que MPEG-2 cubría perfectamente este campo, por lo que MPEG-3 murió antes de nacer. No fue fácil decidir que la siguiente norma se llamaría MPEG-4 (a veces las discusiones sobre los nombres de las normas, por parte de los comités técnicos, son como la discusión sobre la forma de la mesa en las reuniones de los diplomáticos). Estando ocupados el 1, 2 Y4, parecía lógico seguir la secuencia binaria de las potencias de 2, aunque, finalmente, se despreci6 el 8 a favor del 7, tal vez porque hasta éste todos se pueden codificar con tres bits. ¿Por qué se ha sal­ tado directamente al 21? ¡Ni idea! Tal vez sea porque coincidia con la entrada del nuevo siglo. 259
  • 129.
    TEC:-JOI O(;J.- ,eltI.-'1 DE HU 'I~¡() 5. El sistema DV DV es una familia de magnetoscopios digitales que abarca DY, DVCAM, DVCPRO-25 y DVCPRO-50. A éstos habría que añadir el recién aparecido DVCPRO-1 00, que trabajará a 100 Mbits/s y está adaptado a las necesidades de la HDTV, especialmente a la captación de noticias (ENG) en HDTV para el sistema americano de la Gran Alianza, ahora denominado ATSC. DVC-PRO está basado en el mínimo chip-set que el resto de la familia DV. Los tres primeros formatos (DV, DVCAM y DVCPRO) generan, después de la compresión una tasa binaria de 25 Mbits / s. La diferencia entre ellos está más en el campo de aplicación que en la forma en que codifican las señales de video y audio. Como puede deducirse, DVCPRO-SO produce, después de la compresión una tasa binaria de 50 Mbits/s, por lo que comprime la mitad que los anteriores. Hay otro formato, el llamado DlGITAL-S de ]VC, que también genera 50 Mbitsls y se basa en los mismos prin­ cipios de codificación que el DVCPRO-50. En cualquier caso, todos ellos utilizan la DCT como núcleo básico; todos ellos son de tipo intracuadro y todos ellos uti­ lizan los mismos chips básicos de codificación. En los magnetoscopios digitales los usuarios, que son los montadores de vídeo, quieren disponer de una precisión total a la hora de definir los puntos de inserto durante el montaje. Esta precisión "al cuadro" obliga a despreciar la posibilidad de compresión temporal, intercuadro o tridimensional, que de las tres formas se cono­ ce. Para ser precisos, hay que puntualizar que existe un formato, el BETACAM-SX, que no respeta este principio. El algoritmo de compresión del BETACAM-SX, que está basado en una extensión de la norma MPEG denominada MPEG-2 4:2:2 prrifile at Main Level, utiliza compresión intercuadro con GOP = 2 de tipo 1,8,1,8,8... , se ha diseñado para aplicaciones ENG y mantiene un cierto grado de compatibilidad con el Betacam analógico. Con GOP = 2 Y secuencias I,B,I,B ... es posible, sin embargo, la edición con precisión de cuadro del tren binario comprimido. Las imá­ genes B se obtienen dinámicamente a partir de las imágenes 1 anteriores o poste­ riores al punto de edición y pueden ser convertidas "al vuelo" en imágenes "1" grao cias a que el DVTR Betacam-SX incorpora varias memorias de cuadro. Probablemente la característica más novedosa e interesante de la codificación DV sea el proceso de '1)arajado de bloques intracuadro" que, como se verá, mejora la cali­ dad obtenible para una cierta frecuencia binaria y facilita la obtención de trenes bina­ rios de frecuencia estable. Para lograr la meta de 25 Mbits!s, los formatos de la fami­ lia DV comienzan por submuestrear la crominancia según la tabla 8.5 Tabla 8.5 Sólo la variante DVCPRO-SO no submuestrea la crominancia antes de proce­ der a la compresión. FORMATO NORMA DE TELEVISIÓN 525/60 625/50 DV 4:1:1 4:2:0 DVCAM 4:1:1 4:2:0 DVCPRO-25 4:1:1 4:1:1 DVCPRO-SO 4:2:2 4:2:2 ~ L_().') :;i~l"-·In.I~~qilllJ-~&~.!iu.! Como puede verse, los fOI-matos DV y DVCAM, que están destinados al mero cado doméstico o al rango bajo del sector profesional, utilizan suhmuestreo 4: 1: J en América (y paises afines), mientras que en Europa y otras zonas de 625 líneas emplean submuestreo 4:2 :0. Las razones de esta diferenciación regional no han estado nunca muy claras. Tal vez sea porque una codificación 4: 2:0 se adapta mejor a la señal PAL (por lo del promediado ycrtical de la crominancia), mientras que 4: 1: 1 es más adecuado para NTSC (que limita más el ancho de banda de las señales diferencia de color y, por tanto, la resolución horizontal dc la crominan­ cía), ya que, aunque sean formatos digitales en componcntes, en muchos casos el usuario verá las grabaciones en un receptor analógico compuesto. También podría ser quc en América se considerara que el DY, aunquc esencialmente domestico, podria constituir una fuente de imágenes importante para las cadenas de infor­ mativos. En Europa siempre se ha sido más exigente en este sentido. Además la codificación 4:2:0 enlaza fácilmente con MPEG, que es el nueleo de la codifica­ ción DVB o "Diaital Video Broadcastina", que es, a su vez, el sistema de televisión digital vía satélite, cable o difusión terrcna para Europa. Por otro lado, el DVCPRO, más orientado hacía el mundo de los informativos profesionales, utili· za compresión 4: 1: 1, tanto en Europa como en América. Se facilita así la transco­ dificación y el intercambio de programas. Sca como sea, tanto 4: 1: 1 como 4:2:0 reducen la tasa binaria de 168 Mbits/s a 125 Mbits/s. Ésta es la señal de entrada a los compresores DV. 5.1. Entrelazado de campos en DV Los sistemas DV utilizan compresión intracampo/intracuadro, lo que quiere decir que pueden conmutar dinámicamcnte entre uno y otro modo. Como en otros sistemas, la imagen sc divide en bloques de 8 X 8 pixeles, sobre los que se realiza la DCT. Cuando la señal de entrada es una imagen de vídeo entrelazada, filas consecutivas en el bloque de 8 x 8 pertenecen altcrnativamente al primero y segundo campos entrelazados. En tal caso hay dos opciones: procesar cuadros o procesar campos. El procesado de cuadros convierte el bloque de 8 x 8, formado por filas corres­ pondientes a ambos campos, al dominio de la DCT. En el caso del procesado en base a campos, el bloque de 8 x 8 píxeles se divide cn dos bloques de 4 x 8 píxe­ les, uno para cada campo. Ambos bloques son a continuación convertidos a DCT por separado. El procesado en base a campos funciona mejor que el basado en cuadros en las zonas muy detalladas y con movimiento. En este caso el movimiento deshace la correlación entre pÍxeles correspondientes a filas alternadas. Por su parte, el pro­ cesado en base a cuadros es más eficaz cuando no hay movimiento o éste es muy pequeño. En este segundo caso la redundancia dentro del bloque de 8 x 8 es mayor, proporcionando e! doble de muestras por zona local que el modo campo. En las zonas lisas de la imagen o de muy poco detalle e! procesado en base a cua­ dros es también mejor que el basado en campos. Los sistemas DV combinan las ventajas de! procesado basado en cuadro (denominado 8-8) y el procesado basado 261260
  • 130.
    - - TECNO! oct'.ACTU.I nI: TEI n'I~U)N _ _ o - ­DCT 8·8 I POSICIón hOllzonlat --.. ,0.0 ,,O 2,0 3.0 4.0 5,0 6.0 7,0 Campo 0,1 1,1 2,1 3.1 4,1 5.1 6,1 7,1 Campo t0,2 1.2 2.2 3,2 4.2 5.2 6,2 7.2. Campo ..E 0,3 1,3 2,3 3,3 4.3 5,3 6,3 7.3 "'Campo 0,0 1,0 2,0 3.0 4.0 5.0 6.0 7.0 0.1 1,1 2,1 3.1 4.1 5.1 6,1 1.1 0,2 1,2 2.2 3.2 4.2 5.2 6.2 7.2 0.3 1,3 2,3 3.3 '.3 5.3 6.3 7.3 0.4 1,4 2'< 3.< 4,4 5.4 6.4 7,4 0.5 1.5 2.5 3.5 4,5 5,5 6.5 7.5 0,6 1,6 2.6 3.6 '.6 5.6 6,6 7,6 0,7 1.7 2,7 3.7 .., 5.7 6,7 7,7 . OCT 2·4-8 ~ 0.4 1,4 2,4 3,4 4,4 5.4 6,4 7,4 +-Campo !! 0,5 1,52.53,54,55,56.5 7,5 +-Campo 0,0 1,0 2.0 3.0 4.,0 5,0 6,0 7.0 0,2 1,2 2.2 3.2 4,2 5,2 6.2 7,2 0,4 1.4. 2.< 3'< 4.4 5,4 6,4 7,4 0,6 1,6 2.6 3.6 4,6 5,6 6.6 7.6 -~ 0.6 1.6 2.6 3.6 4,6 5,6 6,6 7.6 +-Campo ~ el,0.7 1,1 2.7 3,1 4,7 5.7 6.7 7,7 ... Campo 0,1 1,1 2,1 3.1 4.1 5.1 6,1 7.1 1 0,3 1,3 2,3 3,3 4,3 5,3 6,3 7.3 0.5 1.5 2.5 3.5 4,5 5.5 6.5 7.5 0,7 1,7 2.1 3,7 4,7 5,7 6.7 7,1 N & E el Video In DETECCiÓN DE I,-:====~=~· MOVIMIENTO ¡- ¡ . / OCT HVLc·.. 1 Figura 8.24. Selección de los bloques intracampo o intracuadro según el movimiento. en campo (denominado 2-4-8), los cuales se seleccionan bloque a bloque en fun­ ción del movimiento. 5.2. Bloques, macrobloques y superbloques Los bloques DCT, ya sean 8-8 o 2-4-8, descritos en los párrafos anteriores se agrupan para formar macrobloques. Éstos son similares a los MB del MPEG-2, sólo que adaptados a una estructura de muestreo 4: 1: 1. Puede verse en la figura 8.25 que un macrobloque está formado por cuatro bloques DCT de luminancia dispuestos en fila, más un bloque DCT de CS, más un bloque DCT de CR, abarcando una zona de 32 píxeles por ocho líneas. Un solo blo­ que CS o CR abarca 32 píxeles de anchura, ya que estas señales están sub­ muestreadas 4: l. Se utilizan seis bloques DCT de 64 bytes (384 en total) para formar un macrobloque. Este proceso es básicamente doblado en el caso del DVCPRO-Sü. A continuación se agrupan cinco macrobloques, seleccionados de distintas par­ tes de la imagen, para formar un "segmento de vídeo", el cual tendrá un tamaño de 384 X 5 ::: 1.920 bytes (flgura 8.25). Hay que notar que hasta este punto no se ha producido ningún tipo de compresión. Se trata más bien de una reordenación pre­ via a la compresión. El proceso de formar segmentos agrupando macrobloques de distintas partes de la imagen se denomina "barajado" (shriffling) y se realiza con la intención de "igualar la dificultad" de los segmentos. Los sistl'nJ.J. ele cOlllllret>ioll MACROBLOQUE 4: 1:1 - I .ó-.-.":~':n'~:;'H 1 IImltl;SiáI '-<"-~ElII /~¡jlj~ TITIII &i". ~T6~64b:~~_= :~:YI:~T ',) l ~~~xej;~;~l~~ov~~~~.. ~I Figura 8.25. Barajado intracuadro de los macrobloques en el sistema OY. Puesto que cada uno de los cinco macrobloques procede de una zona distinta de la pantalla, su contenido será distinto y variado, de manera que un macrobloque determinado contendrá mucho detalle y poca redundancia espacial, mientras que otro macrobloque del mismo segmento pertenecerá a una zona lisa con mucha redundancia. La ventaja del barajado, previo a la compresión, es que, como pro­ medio, los grupos de macrobloques contienen aproximadamente la misma canti­ dad de redundancia. En DV se utilizan las mismas tablas de recuantiflcación para todos los bloques del mismo macrobloque. Por otro lado, distintos macrobloques pueden utilizar dis­ tintas tablas de recuantificacion, dependiendo del análisis espectral en esa zona de la imagen. 5.3. Análisis previo a la DCT Una de las particularidades más interesantes de la compresion DV es que permite un análisis de los bloques DCT de vídeo antes de que se realice la compresion. La idea es optimizar el proceso DCT para conseguir la máxima calidad con una tasa de datos de salida estable. El concepto es similar, aunque se realiza a la inversa que en el casO del MPEG-2. Hay que recordar que el proceso de recuantificación de los componentes frecuenciales DCT en MPEG-2 está controlado por un mecanismo de realimentación. Es la tasa de datos de salida ya comprimidos la que determina la dureza del proceso de 263 262
  • 131.
    __ TLC,UI (H.;!. :(1U:L IH- 1I,1I.UID" rccuantificación. Puede decirse que mientras que OV "mira hacia delante", MPEG-2 "mira hacia atrás". En OV el p¡'eanálisis se realiza separadamente para cada uno de los segmen­ tos de' vídeo de 1.920 bytes formados con cinco macrobloques. Como en otros sistemas basados en OCT, la recuantificación se logra aplicando factores de ponderación a cada coeficiente OCT. La matriz de 64 coeficientes frecuencia­ les se multiplica por una tabla de factores predefinida. En OV se puede selec­ cionar entre 64 tablas de' recuantificación distintas. Este proceso de selección se hace' para adaptar la importancia de los coeficientes de frecuencia al sistema de percepción visual humano, a la vez que se logra una tasa binaria por cuadro estable. Las 64 tablas de recuantificación se organizan en cuatro grupos de 16 tablas cada uno. El grupo 1 contiene las 16 tablas de recuantificación optimizadas para las más bajas frecuencias espaciales. El grupo 4 está optimizado para los detalles de más alta frecuencia espacial, mientras que los grupos 2 y 3 lo están para las frecuencias medias. Para comenzar, el proceso de compresión selecciona uno de los cuatro grupos de 16 tablas cada uno midiendo "la energía de AC", que no es otra cosa que la suma ponderada de los valores absolutos de los coeficientes AC (todos excepto el de OC). Este valor es una indicación de la cantidad de detalle espacial que contiene esa zona de la imagen. A continuación el proceso de compresión selecciona entre las 16 posibles la "lperbloqUll'·¡7m8<;:,.ot.l.¡qves < J ll4 ~(S8!..:,:, o~ ~ , " /, ~--=---­ 6 MBsdi! llpiJeles , -- - . ~.8p;.Gln 2 ---- -- l' ~ _~~~_:~~/p~~:~~eles~ ,1 5 ~¡se!.:U ~ ~ 1.,. I~f+tl-H~I )'JM~s4~e~::..~:ll'1"~ . ­ 1 e.-"l1f1Ó:"J.lUfO"PAl 0 fl'SIIII en NTSC) - -) / ~.,e:'~ ,·,.,,.,e] ,.¡", " , ."~ Figura 8.26. En DV la compresion esta flanqueada por un proceso dc barajado y otro de desbarajado, de forma que la cantidad de datos sca constante después dc la codificación de longitud variable (VLC). ________________________Lo.c; ~i:'l{'ma~ dc ("n.!l1p,.c~i~Hl tabla definitiva de cuantificación. Esta selección se hace probando las 16 posibles tablas)' contando el número de bytes que proporciona cada una de ellas por seg­ mento de vídeo. La tabla que proporCione una cuenta más cercana, pero sin exce· der a 385 bytes, es la que se selecciona definitivamente. Puesto que un segmento de vídeo estaba formado por 1.920 bytes, el factor de compresión logrado será: 1.920: 385 = 5: 1. Este proceso de preanálisis garantiza una tasa binaria por cua­ dro de televisión estable, lo cual es necesario en el caso de Jos magnetoscopios digitales. La figura 8.26 muestra un resumen de la codificación OV Tanto si Se trata de señales 4: 1: 1 como si son 4:2:0, un MB se forma con seis bloques OCT, cuatro de luminancia, más uno de CB y otro de CR. La diferencia está en que los MBs 4: 1: 1 son alargados y tienen unas dimensiones de 32H x 8V, mientras que los MBs 4:2:0 son cuadrados, con un tamaño de 16 x 16. También en ambos casos un superblo­ que (SB) se forma con 27 MB, aunque la forma de la zona abarcada cambia ligera­ mente en función de si se trata de señales 4:1:10 de señales 4:2:0 (figura 8.26). Una imagen completa está formada, en la norma de 625 líneas y 50 campos, por 60 SB (5 en la dirección horizontal y 12 en la vertical). En las imágenes 525/60 sólo hay 10 SB por altura de imagen. Con 5 MB tomados de SB distintos se forma un segmento de 1.920 bytes, los cuales son sometidos a compresión OCT. Después de la codificación de longitud variable, los 1.920 bytes de un segmento se con­ vierten en 385, lográndose una compresión de 5: 1.Todos los macrobloques de una misma fila de SB se graban en una misma pista en la cinta magnética. Se necesitan, por tanto, 12 pistas para grabar una imagen completa en la norma 626/50, que se convierten en lO en 525/60. Resumen • Los principales sistemas de compresión pal-a imagen son: JPEG para reto­ que fotográfico de imágenes estáticas; M-JPEG para compl'esión intracua­ dro de imágenes en movimiento; MPEG-l y MPEG-2, que forman una familia completa de normas de compresión, para todo tipo de aplicaciones, y grupo OV para compresión intracuadro aplicada a los magnetoscopios digitales. • JPEG utiliza dos modos de compresión: compresión sin pérdidas basada en codificación predictiva, seguida de codificación aritmética o codificación Huffman, y compresión con pérdidas (pcrceptual) basada en OCT progresiva o secuencial. • M-JPEG es básicamente lo mismo que JPEG, pero adaptado a las imágenes de televisión (tamaño del raster, espacio de color, etc.). Al igual que JPEG, el Motion-JPEG es un sistema de compresión intracuadro. • Los codificadores con pérdidas M-JPEG para aplicaciones profesionales de edición no lineal suelen utilizarse factores de compresión entre 3: 1 y 6: 1. Por su lado, los compresores M-JPEG sin pérdidas no superan factores de com­ presión de 2: l. o El MPEG-l comenzó en 1988 con la intención de lograr un procedimiento 264 265
  • 132.
    T¡.('NOI O(;¡-. AC"¡"lIUDE TU EVI"iIÓ"-! de codificación capaz de ubicar imágenes en movimiento en soportes de tipo CO-ROM. Para esto es necesario rebajar la frecuencia de bits a sólo 1,5 Mbits/s. Con una frecuencia de bits tan baja e! sistema MPEG-l no puede proporcionar imágenes de calidad broadcast. Probablemente su aplicación más normal sea la de mostrar imágenes en movimiento sobre pantalla de ordena­ dor. • La compensación de movimiento funciona como sigue: se envía una imagen "1", la cual es, además, almacenada para ser comparada con la próxima ima­ gen de entrada y encontrar los vectores de movimiento de los diferentes blo­ ques que componen la imagen. La imagen ''['' se desplaza de acuerdo a estos vectores y se compara con la próxima imagen para producir los datos dife­ rencia, Tanto los datos diferencia como el valor de los vectores son transmiti­ dos. • Las imágenes "B" tienen una doble utilidad: en primer lugar, la predicción bidireccional proporciona una mejor aproximación al valor real, lo que reduce el error de predicción, a la vez que se reducen los efectos de! ruido. En segundo lugar, cuando un objeto se mueve por la pantalla, e! borde anterior del objeto va tapando u ocultando partes del escenario, mientras que el borde posterior va descubriendo o revelando nuevas partes del esce­ nario. • El MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar imágenes y sonidos para receptores, que pueden ir desde LDTV hasta HOTV. En principio, el MPEG-2 se ha diseñado para proporcionar imáge­ nes de alta calidad, tanto a nivel de contribucion como a nivel de emisión digital. • Un punto fuerte de los sistemas MPEG es su l1exibilidad en el nivel de cali­ dad de imagen, principalmente determinado por la frecuencia de bits. En MPEG-2 aparece, además, el concepto de "escalabilidad". Este principio supone que un decodificador MPEG-2 relativamente económico puede decodificar imágenes válidas, utilizando solamente una parte de! tren bina­ rio. • En MPEG-2 los perfiles pueden entenderse como conjuntos de herramientas de codificación y se refieren a la forma en que se comprimen y codifican las imágenes. Cada perfil es más sofisticado que el anterior y añade métodos suplementarios. • Los niveles se refieren al grado de calidad y la aplicación, y van desde "alta definición" hasta calidad "VHS". Con cuatro niveles y cinco perfiles pueden obtenerse hasta veinte combinaciones. Sin embargo, no todas parecen úti­ les. • El elemento más pequeño del múltiplex MPEG se denomina "bloque" y tiene un tamaño de 8 líneas por 8 píxe1es. Los bloques se agrupan formando "macrobloques" (MB), de acuerdo con alguno de los perfiles MPEG-2. Los macrobloques 4:2:0 están formados por 4 bloques de luminancia, 1 bloque de CB y l bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminancia, 2 Los sistemas dt' compresión bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloqucs dc hnni­ nancia, 4 de CB )' 4 dc CR. • Los segmentos (slices) son conjuntos de macrobloques que siguen la secuencia de líneas horizontales propia de televisión. Los segmentos pucden variar dc longitud, desde un minimo de un macrobloque hasta un máximo de una línea de anchura por 16 de altura. • La eficacia de la codificación MPEG depende en gran medida del tamaño de los Gap. En general, Gap largos, llenos de imágenes "P" y"B", per­ miten reducir al máximo la tasa binaria, manteniendo la calidad de la señal. • En la detección de movimiento prevaleccn dos técnicas: "la igualación de blo­ ques" y la "correlación de fase". En la mayoria de los casos los fabricantes uti­ lizan el algoritmo de "igualacion de bloques" (block matchinB), más sencillo que el de "correlación de fase". • La codificación MPEG-2 se pensó sobre todo para la distribución de material audiovisual, ya sea por radiodifusión o mediante soportes tipo CD-ROM o DVD. Por esto se creó un nuevo perfil, denominado 4:2:2P@ML (perfil prin­ cipal/nivel principal, con estructura de codificación 4:2:2). • 4:2:2P@ML permite utilizar una estructura de muestreo 4:2:2, aumenta el númcro de líneas codificadas hasta 608 (512 en la norma 525/60) Ypermite frecuencias binarias del tren comprimido hasta 50 Mbits/s • Se dispone dc dos sistemas distintos para multiplexar corrientes binarias básicas. Uno de estos métodos, denominado "Transpore Stream" o "TS", se basa en el uso de paquetes de longitud fija, y el otro, conocido como "Program Stream" o "PS", en paquetes de longitud variable. En ambos casos se comienza por formar los "PES" (corrientes básicas en paquetcs) de lon­ gitud variable. La difcrencia entre los dos métodos se produce en la etapa final de multiplexado. Los paquetes TS tienen una longitud fija de 188 bytes y se han pensado para entornos ruidosos, tales como radiodifusión, donde la integridad de los datos pucde quedar afectada durante la transmisión. Los paquetes PS no tienen una longitud definida, suelen ser bastante largos y se han pensado para entornos libres de errores, tales DVD. El MPEG-4 es un grupo de trabajo dentro de la familia MPEG, totalmente remodclado, cuyo propósito es lograr altos factores de compresión utilizando solamente información contextual. El algoritmo de compresión se hasará en DCT y wavelets y su aplicación será la de teleconferencia y similares, aunquc se contempla un perfil de estudio para aplicaciones profesionales de cine y televisión capaz de soportar hasta 100 Mbits/s. • MPEG-7 es un sistema de descripción y catalogación de los contenidos mul­ timedia. Su intención es constTuir un conjunto normalizado de descriptores, esquemas)' un lenguaje estándar que pueda ser utilizado para describir los contenidos multimedia. • DV es una familia de magnetoscopios digitales que abarca DV, DVCAM, 266 267
  • 133.
    TLC,lllUJcL ;CTU:1 nlHJ.l"l';;f(., DVCPRO-2S y DVCPRO-SO. A éstos habría que añadir el recién aparecido DVCPRO-100, que trabajará a 100 Mbits/s y está adaptado a las necesidades de la HDTV • Probablemente la característica más novedosa e interesante de la codifica­ ción DV sea el proceso de "barajado de bloques intracuadro", que mejora la calidad obtenible para una cierta frecuencia binaria y facilita la obtención de trenes binarios de frecuencia estable. CAPÍTULO 9 El audio analógico 1. Naturaleza del sonido El sonido se define como las variaciones u oscilaciones en la presión, en e! despla­ zamiento o en la velocidad de las particulas en un medio elástico. Para nosotros los humanos e! sonido es una sensación producida en e! oído por las mencionadas oscila­ ciones. Tres son las características que definen al sonido: intensidad, tono y timbre. 1.1. Intensidad del sonido Es la característica de! sonido relacionada con la amplitud o altura de la vibración y que nos permite distinguir entre sonidos débiles, medios o fuertes. La intensidad de! sonido depende de la cantidad de energía que se utiliza para producir la vibra­ ción o variación de presión de! aire. Cuanta más energía se utilice, mayor será la variación de presión y más alta la intensidad de! sonido producido. Nosotros pel-ci­ bimos la intensidad como volumen o potencia del sonido. El oído humano no es capaz de medir la intensidad de un sonido de forma absolu­ ta. En lugar de esto, el oído humano trabaja por comparación, es decir, comparando la intensidad o volumen de un sonido con otro. Por tanto, nuestra sensación de volu­ men es más una medida relativa que una escala absoluta, de tal forma que lo que per­ cibimos son realmente relaciones de intensidad de un sonido con respecto a otro. Estas relaciones de intensidad se miden en decibelios (dB). De forma simple podemos decir que un decibelio no es otra cosa que la com­ paración entre la intensidad de dos sonidos. Se trata de una escala logarítmica que nos permite expresar valores físicos muy altos mediante una escala de números relativamente pequeña. Por ejemplo, la escala de decibelios está diseñada de tal manera que doblar la intensidad (potencia) se expresa mediante un incremento de 3 dB. En otras palabras, cuando doblamos o dividimos por dos la intensidad de un 268 269
  • 134.
    l:I audio analógico ·rrc'-!(H 0(;1 ACTll.l,, nr lT n·¡....t();" sonido producimos una "ariacion de 3 dB. Por tanto, un cambio de 3 a 6 dR signi­ fica doblar la intensidad de sonido, de la misma forma que sucede con un cambio de 6 a 9 dB o de 15 a 18 dB. Es necesario familiarizarse con la escala de decibelios, puesto que es la que se utiliza más frecuentemente en las producciones de audio para refcl-jrse al nivel de los sonidos y para describir las características de los equi­ pos. Por ejemplo, los indicadores de sonido (medidores VU) que se emplean para medir la intensidad de la seiial de audio están calibrados en decibelios. 1.2. Tono de un sonido El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, un vio­ lín o un pÍcolo, por ejemplo, produce muchas ondas sonoras por segundo, es decir, un sonido de alta frecuencia. Por contra, un bajo o una tuba producen muchas menos ondas sonoras por segundo, esto es, sonidos de baja frecuencia. Nosotros medimos la frecuencia de los sonidos en hercios (Hz), que significa número de ciclos por segun­ do. En audio, a la frecuencia fundamental o básica de un sonido se le suele ]Jamar tono. Las personas podemos oír frecuencias comprendidas entre 15 y 15.000 Hz (algunos afortunados hasta 20.000 Hz), pero esto depende de cada persona y varía con la edad. A medida que nos hacemos viejos la sensibilidad a las frecuencias extremas, es decir, a las más altas y las más bajas, disminuye. Además para una per­ sona normal de cualquier edad la sensibilidad a Jos sonidos de frecuencia media, comprendidos entre unos 500 y 4.000 Hz, es muy superior a la correspondiente a las frecuencias extremas. Estas frecuencias medias son precisamente las más impor­ tantes para entender una conversación. Los equipos profesionales de audio son capaces de reproducir frecuencias sono­ ras entre 15 Hz y 20.000 Hz, lo cual comprende todo el espectro de audio nece­ sario para reproducir con precision y nitidez cualquier tipo de música. Los sonidos con frecuencias superiores a los 20.000 Hz se denominan ultrasonidos y. aunque algunos animales pueden oírlos, carecen de interés a nuestl"OS efectos. 1.3. Timbre del sonido Es la característica del sonido relacionada con el número, amplitud y orden de los armónicos de la frecuencia fundamental que un sonido determinado contiene y que nos permiten diferenciar el matiz de cada instrumento. Supongamos que dis­ ponemos de un violln y un piano que producen exactamente la misma nota musi­ cal y con la misma intensidad, esto es: producen dos ondas sonoras de igual inten­ sidad y frecuencia. La pregunta es: ¿producen la misma sensación sonora ambas notas musicales? Evidentemente, no. Ambas notas se diferencian en su timbre. Tanto el sonido del violín como el del piano son producidos por la vibracion de una cuerda a una frecuencia determinada, por ejemplo, 400 Hz, pero a partir de aquÍ todo lo demás es diferente. La nota del violín resuena en el interior de la caja de madera de tal forma que se producen, por interferencia, ciertas frecuencias armónicas, es decir, frecuencias múltiplo de la original (800 Hz, 1.200 Hz, 1.600 Hz, etc.). Dependiendo de la forma, tamaño e incluso tipo de madera con que está construida la caja del violín, ciertas frecuencias armónicas salen más favorecidas que otras, de tal forma que lo que realmente olmos es la suma de la frecuencia ori­ ginal (400 Hz) y ciertas proporciones de frecuencias armónicas. En el interior de la caja del piano se produce el mismo efecto de generación de frecuencias annoni­ cas, pero en este caso la caja es mucho más grande y tiene una forma muy dife­ rente. De hecho, puesto que no es posible construir dos instrumentos absoluta­ mente idénticos aunque sean de! mismo tipo (por ejemplo, dos violines), cada ins­ trumento tendrá su propio sonido aunque ambos estén perfectamente afinados. 1.4. Nivel de presion sonora La presión sonora se mide en dinas por centímetro cuadrado (d/cm'), en microbares (mb), en newtons por metro cuadrado (N/m') o en pascales (pa). Puede establecerse la siguiente relacion entre estas unidades de medida: 1 d/cm' =1 microbar =0,1 N/m' =0,1 pa Existe un "nivel de presion sonora" (SPL o Sound Pressure Leve!) de referencia, establecido en 0,0002 d/cm', que corresponde al umbral de audición de una per­ sona media, de edad inferior a los treinta años y para una frecuencia de 1 KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel umbral de referencia, de acuerdo con la siguiente fórmula: SPL(dB) = 20 log10 (P/P.,,) Donde: • SPL(dB) es e! número en decibelios de la señal medida. dlcm2 dB 10.000 15D Avión despegandO 140 1.000 130 2 100 120 Umbral de molestia 110 Martillo neumatlco - -120Nlrrf;;; 200 d/cm 100 Metro 10 90 Trafico .eo Cantanle profeSIOnal 70 Fábnca Q 1.000.000 : 1 O.L, 60 Conversación normal , 50 Ofictna V 40 r Susurro0.01~ 30 Sala de estar 20 0.001 1-'0 20 ~NJm2 =. 200 IJd/Cm 2 Umbral de audiCión0.0002 Figura 9.1. Algunos niveles de presión expresados en d/cm' y en decibelios. 271 270
  • 135.
    Il:::OC(llir;;-:-,t"·--ru.-1. rJI 1ti.!.·',10:--' • P es la presión del sonido medido en di cm' . • PREF es la presión del umbral de referencia =0,0002 di cm' =0,0002 mb = 2 x 10-5 N/m' = 20 micropascalcs. La figura 9.1 mucstra algunos niveles de presión sonora encontrados en la vida cotidiana, cxpresados en dI cm', así como en decibelios, siempre en comparación con el umbral (k audición. 1.5. Niveles de sonoridad La sonoridad o intensidad aparcnte de un sonido es algo subjetivo. Es el atri­ buto por el cual pueden ordenarse, en una escala, las sensaciones audibles en términos de "flojas" o "fucrtes". La sonoridad depcnde no sólo de la intensidad del sonido, sino también de su frecuencia. El decibelio exprcsa intensidades sonoras en términos absolutos. Esto tienc el inconvcniente de que, siendo el nivel percibido variable con la frecuencia, una cierta cantidad de decibelios supondrá un sonido que parecerá más o mcnos intenso dependiendo de su fre­ cuencia. Para evitar este inconveniente aparece el "fon", que es una unidad de apreciación subjetiva, es decir, que en las curvas isofónicas el número de fonos se mantendrá constante. El fon es, por tanto, una unidad de nivel sonoro que, juzgado por un obscrvador mcdio, resulta numéricamente igual al nivel de intensidad de un tono puro de 1 KHz, es decir, a 1 KHz el número de fonos y e! de decibelios coinciden; a otras frecuencias distintas harán falta más o menos decibelios para producir una cantidad de fonos constante. Por ejemplo, un tono puro de 125 Hz y 40 dB produce la misma intensidad percibida que otro de 4 KHz y 25 dB, aunque en ambos casos el nivel subjetivo es de 30 fonos. Por su parte, la medida de la intensidad de! sonido basada en fonos presenta también algunos problemas, ya que se trata de una escala de medida subjetiva, de forma que en la mayoría de los casos se sigue utilizando el decibelio para expresar niveles de sonoridad o de ruido en instalaciones industriales, etc. Además los fonos no pueden sumarse directamente. Por ejemplo, una señal de 200 Hz y 70 fonos más otra de 4 KHz)' también de 70 fonos no producen, al sumarse, una intensidad de 140 fonos, sino que la sonoridad total percibida es de unos 80 fonos. Debido a esto y a otras imprecisiones, Fletcher, Munson, Robinson, Stevens y otros elabo­ raron una serie de curvas de apreciación subjetiva de las intensidades, denominas escalas del son o "sonios". El son se define como la sonoridad de un tono de 1 KHz y 40 dB Ytiene la característica de que un aumento del nivel sonoro de 10 fonos es aproximadamente equivalente a doblar el nivel de sonoridad en sanos, mientras que un aumento de medio fono corresponde al cambio mínimo perceptible del nivel sonoro. El son está mejor adaptado que el fon a la apreciación subjetiva del oído humano. Puede establecerse la siguiente relación entre fonos y sonios: Ns =2(L.4UjIW Sicndo "Ns" la sonoridad en sonios y "L" el nivel en fonos. Igualmente sc puede establecer la relación inversa: L=40+ 10 lag, Ns La figura 9.2 muestra las curvas o contornos de igual sonoridad en fonos para _____________________________________--""'E'--I.",'U",dIU .1!)'1.lljgM 120 '101onl)!: 110 t100 ! i 90 ro ái 80 íji ~ 70 ~~ 60 § ~ 50 ~ "ii 40 ~ 30 20 10 _ 100 ronos 90 fonos 30 lonos. 40 lonos ~ ~~~0 7010"'!!~0 --------:f~no~-~ ~ i i ,. ,. . .. , .... ','-, ­ , , ,­ , ,, ;~~'i~: -1-:- L_ !·10 I : I l; I 20 :H.5 63 125 250 500 1.000 2.000 4.000 8000 12500 FTI~cuencta en Hz ________ Figura 9.2. Contornos de nivel de presión sonora de igual sonoridad. tonos puros según la norma ISO 226 de 1987. Estas curvas pueden entenderse como las curvas inversas a las de respuesta a las distintas frecuencias por parte del oído humano y para dife¡"entes niveles de presión sono¡"a (Sound Pressure Leve! O SPL). Un tono de 1 Khz que tiene una presión sonora de 40 dB produce un nivel de sonoridad de 40 fonos. Para que otro de 63 Hz produzca la misma sensación sonora, su SPL dcbc incrementarse en 20 dB. Los contornos de igual intensidad tienen diferentes formas a diferentes SPL. A medida que la intensidad del sonido aumenta, la respuesta a frecuencia del oído mejora y se vuelve razonablemente plana, con una variación de ± 10 dB a un SPL de 110 dB. Puede verse, a partir de la figura 9.2, que el umbral de audición para bajas fre­ cuencias esta en torno a los 60 dB. Igualmente puede apreciarse que la maxima sensibilidad del oído humano se cncuentra hacia los 3 KHz, superados los cuales la sensibilidad vuelve a decrecer. 1.6. Rango dinámico audible El rango dinámico del sistema de audición humano está limitado en su parte alta por el nivel de dolor y en su parte baja por el umbral de audición. Aunque varía de un individuo a otro, el valor típico es de 120 dB. Sin embargo, una cxposición per­ manente o habitual a niveles de presión sonora por encima de 90 dB, puede causar pérdida de audición. Niveles SPL de 120 dB o más pucden producir dolor o pérdi" 272 273
  • 136.
    TECNOLOGíA ACTUAL llLTl:LEVISION i "0 110 roo 90 <D ¡ BO .. ~ 70 ~ 60 jj ~ 50 ~ ;; 40 z• 30 20 lO O Figura 9.3. -10 20 31,S 63 '25 500 250 1.000 2.000 Frecuencia en H,z-------. 4.000 6.000 12_500 La curva exterior muestra la zona de audición humana en función de la frecuencia y del nivel de presión sonora. Las curvas interiores muestran las zonas ocupadas por la música y la pala­ bra, respectivamente. da temporal o permanente de audición, incluso aunque la exposición no sea muy prolongada. Con la edad, y sobre todo a partir de los treinta años, la audición se deteriora, en términos del umbral de audición y de la sensibilidad a las altas fre­ cuencias. El umbral de audición depende también del nivel de ruido ambiente, el cual produce un efecto enmascarador. Este efecto de enmascaramiento por parte de! ruido se define como el proceso por e! cual el umbral de audición de un sonido deseado es elevado por la presencia de otro sonido no deseado, en este caso el ruido. 1.7. Resolución espectral del sistema de audición El sistema de audición humano se caracteriza por presentar una capacidad de resolución que puede equipararse con una batería de filtros paso-banda que se sola­ pan entre sí, llamados "bandas críticas". Son estas bandas críticas las responsables de los fenómenos de enmascaramiento del sonido. Este fenómeno de enmascara­ miento se define como la medida en que debe elevarse el umbral de audición de un sonido en presencia de otro sonido enmascarador. Dado un sonido dominante de una cierta frecuencia, otros sonidos de nivel inferior cuyas frecuencias caigan dentro de la misma banda crítica son enmascarados, hasta el punto de que pueden resultar inaudibles. Este aspecto psicoacústico es una de las bases de los sistemas de compresión en audio digital, tal como se verá en el capítulo 11. El audio analú2'ico 2. Características eléctricas del sonido Una 'ez convertido a seJ'íal eléctrica, el sonido se caracteriza por variaciones constantes de amplitud. El rango de amplitudes, niveles o voltajes que puede pre­ sentar la señal de audio es tan grande que se acostumbra a expresar en decibelios, con respecto a un valor de potencia o de voltaje predeterminado. 2. 1. Medidas de nivel En general se utilizan tres o cuatro unidades de medida para definir los niveles de audio. 2.1.1. E1dBm Es la abreviatura utilizada para expresar la "potencia cuadrática media" (RMS) de una onda senoidal con respecto a una potencia de referencia de 1 milivatio. Esta poten­ cia de 1 milivatio, cuando es disipada por una carga de 600 ohmios, produce un vol­ taje RMS de 0,775 V. En cambio, si esta misma potencia es disipada por cargas de otros valores, el voltaje resultante será distinto. La potencia de referencia de 1 mW se defi­ ne como OdBm. Cualquier otro nivel de potencia de audio se expresará en dBm con respecto al nivel de OdBm, según la fórmula: N(dB) =10 10glO (P/P.EF) Donde N(dB) es el número de decibelios. P es el nivel de potencia medido. p.EI es el nivel de potencia de referencia de 1 mW. También puede utilizarse la fórmula anterior para medir voltajes o corrientes, sólo que en este caso cambia ligeramente: N(dB) =20 10glO (VIV"",); N(dB) =20 10g¡0 (111,1,) En las dos últimas fórmulas el factor "10" que multiplica al logaritmo decimal del quebrado, en el caso de las potencias, ha sido cambiado por "20", como consecuencia de la relación cuadr¡itica que hay entre la potencia y el voltaje, así como entre la poten­ cia y la intensidad (W =1" R; W =V2 IR). En cualquier caso, se asume que los volta­ jes y las corrientes están medidos sobre impedancias idénticas, es decir, sobre 600 Q. 2.1.2. EL dBu Una forma alternativa de medir los niveles de la señal de audio es el dBu. En este caso se asume que la impedancia de la fuente es "casi-cero" y que la impedancia de la carga es "casi-infinito". En estas condiciones idealizadas de carga abierta la fuente no disipa ninguna potencia medible en la carga, de manera que el voltaje de la fuente de carga abierta no queda afectado en absoluto por dicha carga. El nivel de señal de refe­ rencia sigue siendo O,775V RMS. A efectos prácticos, el concepto dBu requiere impe­ dancias de la fuente del orden de 50 ohmios o menos y que la impedancia de la carga iguale o exceda a 10 K Q. En ocasiones se emplea también la abreviatura dBfl. 274 275
  • 137.
    T[CNOLOGI:' :CTU:L 1)[:TEl.['"I,I;¡Ó:-,,: 2. 1. 3. EL dB V Literalmente se refiere a cambios de nivel con referencia a 1V RMS. Es una utiliza­ ción poco afortunada, ya que los decibelios no pueden referirse a simples voltajes. Para superar este escollo se asume que los voltajes se desarrollan sobre cargas totalmente abiertas. El dBV suele ser utilizado por los fabricantes de mio-ófonos. 2.1.4. EL dBW Hay una cuarta unidad: e! dBW o decibelio-vatio. Se utiliza para medir la poten­ cia a la salida de los amplificadores. Se dice, por ejemplo, que un amplificador de 100 vatios tiene una potencia de 20 dBW El valor de potencia medido en dBW es numéricamente igual a diez veces el logaritmo decimal de la potencia de salida expresada en vatios. 2.2. LÍneas equilibradas y no equilibradas Las líneas de audio "no equilibradas", también conocidas como "no balanceadas" se encuentran en la mayoría de los equipos domésticos e incluso en algunos profe­ sionales. Se caracterizan por utilizar un solo hilo conductor interno, recubierto por una malla de blindaje. El conductor interno o "alma" constituye el "camino de ida", mientras que la malla forma e! camino de retorno. La malla o pantalla reduce consi­ derablemente los efec1:os de interferencia externa, aunque no las elimina totalmen­ te. Cuando la longitud de! cable es considerable (por ejemplo, mas de cinco metros), la acumulación de interferencias puede distorsionar la señal de audio hasta hacerla inservible. Las líneas no balanceadas terminan en conectores de tipo "Jack", "RCA", "DIN" y similares. La figura 9.4 muestra la conexión no balanceada entre una fuente de señal y un equipo de destino. Salida de señal Entrada Cable conductor Malla de apantallamiento Tierra AiSla~~le) Cubierta de plástico Malla - Conductor central Figura 9.4. Conexión entre dos equipos "no equilibrada". 276 El auJiu art®~Q Las lineas equilibradas se basan, en cambio, en la utilización de dos cables con­ ductores centrales (figura 9.5) en Jugar de uno solo. Como en e! caso anterior, estos cables están recubiertos por una malla de apantallamiento. Así se mejora el rechazo a las interferencias externas. En cada extremo del cable se coloca un trans­ formador que actúa como equilibrador. El primario del transformador está conec­ tado a la salida de la fuente. Las variaciones de tensión del primario aparecen indu­ cidas en e! secundario. Los dos conductores constituyen los caminos de ida y retor­ no de la señal de audio. La malla no forma parte del circuito, en e! sentido de que la señal no circula por ella y sólo actúa como pantalla de aislamiento. Si una señal interferente atraviesa la pantalla, se inducirá en los dos conductores por igual. Esta corriente interferente llegara a los dos terminales del primario del segundo trans­ formador, donde será cancelada, ya que dos señales idénticas que circulen en sen­ tidos opuestos se cancelan al encontrarse. Este tipo de circuito se conoce como "modo común", ya que la interferencia es igualo común para los dos conductores. La cancelación de las interferencias en e! transformador se denomina "rechazo en modo común" (CMR). Suelen lograrse factores de rechazo en torno a los 80 dB. Salida de señal Enlrada eQUilibrad{> Transformador Transformador rv;­ M.r4­ Señal de audio '"'¡:.~~III~JI'-- TIerra Dos conductoresCubierta de plástico aislados oConector macho visto desde el lado de las patillas Figura 9.5. Conexionado de dos equipos utilizando transformador y Hnea equilibrada. Por su parte, la señal de audio en un terminal determinado, a la salida del secun­ dario de! primer transformador, se encuentra en contrafase con respecto al otro terminal. Dos señales en contrafase circulando en sentido contrario equivalen a dos señales en fase circulando en el mismo sentido, de forma que se suman al encontrarse. Este tipo de señales se denomina "señal diferencial", mientras que la entrada equilibrada se denomina "entrada diferencial", porque acepta "señales dife­ renciales" mientras rechaza las "señales comunes". Las líneas equilibradas o balan­ ceadas se utilizan en aplicaciones profesionales, ya que son mucho más resistentes 277
  • 138.
    Tr-CNOIDCiA ACTU.-I DFnJ I-ShIO.: a las interferencias. Esto es especialmente importante en el caso de encaminar sei'íales de muy bajo nivel, ya que, como siempre, lo importante no es el nivel de las interferencias o del ruido en sí mismo, sino de la relación señal-a-ruido. El conector balanceado más utilizado en equipos profesionales es el XLR-3 (también conocido como "tipo CANON"). XLR significa eXternal, Live, Return, o externo, vivo, retorno, e indica que la patilla 1 es la pantalla, la patilla 2 es el "vivo" o "caliente" y la patilla 3 es el "retorno" o "frío" . En la mayoría de los equipos el conector macho es el que entrega la señal de audio, mientras que el conector hembra es el que la recibe. Sin embargo, en algu­ nos casos muy concretos se utiliza el principio contrario, por lo que este extremo deberá comprobarse en cada ocasión. 2.3. Señales de alto y hajo nivel Son muchos los equipos de audio que pueden encontrarse en el estudio de grabación o en las prodUCCiones en exteriores. Sin embargo, en lo que al nivel de señal que entregan se refiere, éstos pueden dividirse en dos grandes gru­ pos o categorías: los quc entregan niveles de salida bajos y los que dan un nivel de salida alto. A la primera categoría corresponden, de forma casi exclusiva, los micrófonos (y otros transductores similares). Todos los demás equipos ~rop~rcionan un nivel de salida alto, que suele etiquetarse como "nivel de lmea . 2.3.1. Micrijonos: sensibilidad e impedancia La sensibilidad de los micrófonos suele expresarse en microvoItios, o dBY, mcdidos sobre una carga abierta y para un nivel de presión sonora de 74 dB, Yes una medida de la eficacia con que un micrófono convierte la presión sono;a (ener­ gía mecánica) en señal de audio (energía eléctrica). Otra forma de expresar la sensibilidad de los micrófonos es indicando la tensión que entregan en circuito abierto en funcian de la unidad de presión incidente: Tension de salida Vs Sensibilidad (S) == Presión incidente de njerencio p La tensión de salida se mide sobre circuito abierto. La presian incidente de refe­ rencia puede ser un pascal (pa) o un microbar (mb), por lo que la sensibilidad que­ dará expresada en milivoltios por pascal o en milivoltios por microbar, siendo 1 pascal = 10 microbares. El pascal es la unidad de presión en el Sistema lnternacional (SI), se abrevia "pa" y es igual a 1 newton por metro cuadrado. La presión de referencia equivalente a un sonido de 20 dB es de 20 micropascales (mpa). Los micrófonos de condensador, que son los más sensibles, proporcionan, típi­ camente, 20 mVIpa, mientras que los micrófonos de bobina móvil dan, aproxi­ madamente, 2 mV Ipa. El audio analópico A menudo la sensibilidad de los micrófonos se expresa en decibelios. Esta forma de medir la sensibilidad se refiere a cuántas veces la tensian de salida del micrófo­ no es inferior a un voltio cuando la presión mecánica es de un pascal)' siempre en circuito abierto: SensibiJidad (S) =201 Tensión de salidaog dB 1 voltio La tensión de salida de los micrófonos es siempre muy inferior a un voltio, de manera que la fraccian será necesariamente inferior a la unidad, y ya se sabe que el logaritmo de una cifra menor que 1 es siempre negativo. Así tendremos que: -20 dE == 100 mVIpa; -30 dE == 32 mVIpa; -40dBf 10 mVIpa; ---{iD dE == 1 mVIpa... La impedancia de los micrófonos de calidad profesional está normalizada a 1SO ohmios, aunque pueden encontrarse, en la práctica, otros valores. Un micrófono típico de bobina móvil, con una impedancia fuente de 1SO ohmios, genera un voltaje en circuito abierto de 100 mV (-SO dB) al aplicarle una pre­ sión sonora de 74 dB. La impedancia de la entrada del preamplificador se adap­ ta a la de salida del micrófono, esto es, tiene un valor de 1.500 Q o superior, para evitar que la señal del micrófono se atenúe y se degrade la relación señal­ a-ruido. La figura 9.6 muestra la configuración típica de un circuito de entrada de micrófono. Puede apreciarse que la señal entregada por el micrófono está balance­ ada con respecto a tierra y que se utiliza un cable de dos conductores activos, más una malla de blindaje conectada a tierra. Micrófono Preamplificador 1.500 ohmios~ .- Malla de blindaje r---.J Figura 9.6. Circuito de entrada de preamplificador de micr6fono. Puesto que la impedancia de entrada del preamplificador no es infinita, el micrófono disipará una pequeña energía en esta carga. Esta situación es típica en los micrOfonos de bobina móvil o de cinta. La tabla 9.1 muestra los niveles típicos entregados por los micrófonos de bobina móvil para tres niveles distintos de SPL. Las medidas en my, dBV y dBu se refieren a los niveles de salida en circuito abier­ to. La columna de más a la derecha se refiere al nivel de señal entregado por el micrófono, conectado a una carga de 1.500 Q y expresado en flV RMS. 278
  • 139.
    ~D~L:--';(JlJ)(.;i.- :CTlL-1 IHrUL"[]O:'-.' Tabla 9.1 Niveles de señal t/picos de los micrófonos. En circuito abierto Con carga de 1,5 KW SPL (dB) mV dBV dBu mV 120 20.000 -34 -31.8 18.000 74 100 -80 -77.8 91 34 1 -120 -117,8 0,91 Los micrófonos electrostaticos disponen de preamplificadores internos, montados en el propio micrófono, de manera e¡ue entregan niveles de salida mucho mas altos. Las mesas de mezcla)' control de audio disponen de atenuadores variables e¡ue actú­ an sobre la señal de entrada, para afrontar así distintas situaciones. En cuale¡uier caso, la impedancia de entrada del preamplificador de micrófono es de 1.SOOW o mas. 2.3.2. Nivel de línea: sensibilidad e impedancia Las señales entregadas por los micrófonos y otros transductores similares son demasiado débiles como para distribuirlas entre los equipos de producción con segu­ ridad. Por esto tan pronto como es posible son amplificadas a "nivel de línea". En 1939 se adoptó en los Estado Unidos de América una impedancia característi­ ca de 600 Q para las líneas de transmisión. Así puede verse e¡ue en equipos como mesas de mezcla, magnetófonos, amplificadores de micrófono y otros equipos con salida de linea se mcnciona frecuentemente: "Impedancia = 600 Q". Este valor no tiene ninguna propiedad especial o milagrosa. Se eligió por ser una imperlancia relati­ (a) Fuente Carga300ll /Iv f +4d Bm.JL!J 2,4'6 V =1.23 V ooo~Ll>300ll 1!j-----­ (b) CargaFuente 25n Figura 9.7. En (a) puede observarse el principio de igualación de potencias, mientras que en (b) puede verse el concepto de igualación de voltajes. Uª-l-....Ji_lJ.¿",!lhll("L_·¡gI yamente alta, por lo que reqtúere poca corriente, pero a la "ez lo suficientemente haja como para no permitir muchas interferencias. Aunque esta impedancia se escogió pensando en los circuitos de telecomunicaciones, fue posteriormente adoptada por la industria de la radio)' la televisión. En una primera época la conexión entre los distintos equipos de producción clP audio, así como la conexión a los equipos de transmisión, se hizo siguiendo el prin­ cipio de "igualaCión de potencias". La figura 9.7 (a) muestra una configuración típi­ ca. Este modo de conexión se basa en los siguientes principios: 1. La fuente de audio, ya sea un magnetófono, una mesa de mezclas, la salida de un amplificador de micrófono, etc., presenta una impedancia de salida de 600 W balanceada. 2, Igualmente la impedancia de entrada del equipo receptor es de 600 W y balanceada. El nivel de la señal de audio se expresa en dBm, adoptándose un nivel de ope­ ración normalizado (Standard Operating Leve] o SOL) de +4dB, correspondiente a + 1,23V RMS sobre una carga de 600 Q, aun­ que tambicn pueden utilizarse niveles más Voltios altos, como, por ejemplo, 6 dBm u 8 dBm. El mW dBm sobre 600 D SOL representa el nivel maximo, o nivel de 1.000 --.--­ 30 24,5 pico de una señal sostenida, tal como es medi­ 29 21,8800 da con un "vúmetro" (medidor de unidades28 19,5600 27 17,3 VU). La figura 9.8 muestra la relación entre el 26 15,5 nivel dBm, el voltaje desarrollado sobre una 25-1-- 13.8 carga de 600 Q y los niveles de potencia en300 24 12,3 m W de las señales de audio. 23 10,9 Hay otro concepto o sistema de conexión 22 9,75 150 más moderno, basado en la igualación de vol­ 21 8,69 tajes. En este caso el nivel de la señal se expre­100 20 7,75 sa en dBu y el SOL puede ser de 4 dBu, 6 dBu80 19-f--- 6,90 18 6,15 u 8 dBu. De esta forma se reducen considera­60 17 5.48 blemente las necesidades de potencia de la 1 6 - - 4,89 fuente de audio, ya que sólo se precisa disipar 30 20 ---f--- 50 ----=t--­ 40 ==1--- 500 -t­ 400 ==1---- 200 ---f--- - ~ ~ - 1 5 - - 4,36 una mínima cantidad de potencia sobre la 14 3,88 carga. Una ventaja adicional es la mejor res­ 13 3.46 puesta, tanto a las distintas frecuencias como a12 3,0815 los transitorios, ya que la carga capacitiva del 10 2,45 cable blindado y balanceado tiene menos efec­ 9 - f - - 2,18 to sobre una impedancia de la fuente pequeña 8 - - 1.95 11 2.75 de sólo SO Q, que la que presentaría sobre una 7 - f - - 1,73'¡I impedancia de la fuente de 600 Q, Este siste­ 6 1.55 ma puede verse en la figura 9.7 (b),5 1,383 4 1.23 2 ---f--­ 3 1.09 2 0,975 1.5 Figura 9.8.1 0,869 o 0,775 Rclaeion entre mW, dBm y voltios. 280 281
  • 140.
    TECN()LOc;l" ACTll:L DL·n:LE'ISIÚ:'-J 2. Medición y monitorizado de nivel Los niveles de la señal de audio son cuidadosamente controlados por los opera­ dores, pal-a asegurar que picos momentáneos o niveles sostenidos no causen sobre­ carga y distorsiones en los distintos equipos de! estudio. Se dispone de medidores normalizados de varios tipos, aunque los más importantes son el "medidor YU" o "vúmetro" y el "PPM" o "picómetro"_ A éstos habría que añadir el "modulómetro". 2. 1. El vúmetro El "vúmetro" o "medidor YU" fue desarrollado por los laboratorios de la Bell Telephone en Estados Unidos en 1939 y se utiliza para controlar ymonitorizar el audio de programa. Las especificaciones del vúmetro reflejan la filosofía de los años 30. Este medidor está formado básicamente por un galvanómetro y un rectificador en puente de onda completa. Dispone de una escala graduada en dB y en tanto por ciento. La figura 9.9 muestra el tipo de escala más utilizado en los medidores tipo vúmetro, sobre todo en aplicaciones de grabación y con­ trol. El nivel cero en el vúmetro debería corresponder al nivel de referencia de 1 mW sobre una carga de 600 W. Por tanto, e! medidor debería indicar "O VU" cuan­ do el voltaje de la línea que se está midiendo fuera de 0,775 V. Por otro lado, se considera que para que el instrumento de medida no suponga una carga significativa sobre el circuito, su impedancia debe ser unas diez veces superior a la de éste. Por tanto, si la impedancia del circuito es de 600 Q, la impe­ dancia del instrumento debería ser, al menos de 6 KQ. Sin embargo, los medidores YU tienen una resistencia interna normalizada a 3,9 KQ, por lo que normalmente disponen de una resistencia extra en serie de 3,6 KW, presentando una resistencia global de 7,5 KQ. Esta resistencia ocasiona una caída de 4 dBm, de manera que cuando en la línea tengamos la tensión de referencia de 0.775 mV, la indicación del -3 -2 -1 O a -1 -~ ~~-L~, .. ~_' ~ -~ ~~... "f..J.7-'J J.--.---.----.:0 10080 .'""'~ "«f¡';;;"vI '0/. • Aa +•a 7-'J vu Figura 9.9. Escala graduada del medidor tipo vumetro. El audio analó[!ico medidor será de -4 lSdB (equiyalente a un 65%). Dicho de otra forma, cuando el medidor indica nivel "O YU", en la línea habrá +4 dBm (1,23 Y). Tal como puede verse en la figura 9.9, el indicador vúmetro dispone de dos escalas: o Una escala VU en la que el nivel de referencia "O" se sitúa aproximadamente en el 71 % del máximo de escala, con un rango total entre -20 (mínimo) y +3 (máximo). o Una escala de porcentaje, en la que el nivel de 100% corresponde al nivel "O" de la escala anterior. El mediclor ,,'Úmetro debe, además, respetar una serie de características dinámicas: o Si se aplica de [arma rápida un voltaje senoidal de frecuencia comprendida entre 35 Hz y 10KHz y de una amplitud tal que corresponda al nivel de refe­ rencia "O", la aguja indicadora mostrará la deflexión adecuada en un tiempo de 0,3 segundos, con una tolerancia de ±I0%. Este valor se eligió para igua­ lar la respuesta elel sistema de audición humano. o En las mismas condiciones que en el punto anterior, la aguja no sobrepasará la indicación "O YU" más de un 1,5%. o La respuesta en frecuencia del indicador no debe desviarse más de 0,2 dB entre 35 Hz y 10 KHz, ni más de 0,5 dB entre 25 Hz y 16 KHz, siempre en relación a la respuesta a 1 KHz. El tiempo de elevación de 0,3s. del medidor vúmetro introduce un efecto de enmascaramiento. El instrumento es incapaz de dar indicaciones de nivel de audio precisas para formas de onda complejas con tiempos de elevación rápidos. El nivel instantáneo de la palabra o de la música podría realmente situarse hasta 10 VU por encima de la lectura proporcionada por el instrumento. Si se utilizan medidores vúmetro para controlar la grabación, es necesario dejar mucha tolerancia, en los niveles máximos, para evitar el recorte en transitorios o en ráfagas cortas de la señal de audio. Por esta razón el medidor vúmetro se utiliza relativamente poco en los estudios de grabación y radiodifusión. 2.2. El picómetro El picómetro es un medidor capaz de mostrar "picos" rápidos en la señal, tales como transitorios y subidas rápidas de nivel. Utiliza un amplificador logarítmico y un sistema de indicación luminoso, que puede estar formado por una barra de LEO o por un punto de luz que se mueve gracias a la deflexión de un pequeño espejo montado sobre un galvanómetro, o por un mecanismo de aguja rápido. El picóme­ tro presenta una impedancia equivalente a más de cincuenta veces la de la fuente. La "balística" o respuesta dinámica del picómetro es tal que responde de mane­ ra casi inmediata a los picos transitorios de la señal. Por otro lado, estos picos sue­ len extinguirse casi tan rápido como se forman. La balística del picómetro se ha diseñado para que proporcione una muy rápida respuesta a la elevación de la señal, mientras retiene la medida durante un tiempo suficiente como para que el opera­ dor pueda apreciarlo con claridad. En este sentido el picómetro se comporta como un circuito de muestreo yretención. 283' 282
  • 141.
    (b) +6 (e) o 000000 100 00~O 7 O 'l-O~ 5 3 2 1 88 .~ 8 -6 O ..<:J )(~ 8 ":>~ PEAK LEVEL .; -12 dB -18 TLCNOUJ(¡IA AClll:1 IJI: TrU'I<.;Il>:" 1.:1 J UdE~~!.E!tºgi~ -24 ·30 -36 Aunque no hay una norma universal, el tiempo de subida o elevación puede estar en torno a los 10 ms, mientras que el tiempo de extinción puede alcanzar los 3 s. Como puede deducirse, el indicador VU y el picómetro proporcionarán esen­ cialmente la misma medida, mientras el contenido del programa se base en seña­ les de nivel sostenido. Sin embargo, cuando la señal de audio presenta un número importante de transitorios, como, por ejemplo, cuando suenan los instrumentos de percusión, el picómetro puede indicar hasta 10 dB mas que el medidor VU. La figura 9.10 muestra cuatro tipos distintos de picómetros. En concreto, la figura (d) muestra el tipo conocido como "PPM-I1A", muy utilizado por las cadenas de radio­ difusión europeas. En este indicador cada intervalo corresponde a 4 dB. Un tono de OdBu colocaría la aguja en el centro, es decir, en la posición "4". Un tono de +8 dBu sería indicado como "6". Los picómetros se utilizan preferentemente en Europa, mientras que en Estados Unidos se prefieren los medidores VU. 3. Ruidos y distorsiones Las características de un equipo de audio, ya sea una mesa de mezclas, un mag­ netófono o cualquier otro aparato, o incluso de un sistema completo de audio, se expresa en términos de una serie de parámetros de calidad medibles. La figura 9.11 muestra un esquema de los tipos de distorsiones mas importantes. Figura 9.10. Cuatro tipos de picómetros: (a), de formato vertical con LEO; (b), de formato vertical mediante haz luminoso; (e), de arco con LEOs; (d), de aguja tipo !lA. -t AlflatoriD Zumbido Ruien Peri6diW--{ otros IntefE!rencias Alinsalidad dQ Distorsi6~ Frecuencia Elé,).ri~ Une;¡1 LAljll~8lidad de Fase InteTIlodulació n Distorslonf)ISTORSIÓN .. -l Total - No-Lineal ArMénica - { 3 Ar1'ónieoer WCJw Mec;ánica --FIUGtuaCitin~FIUller Figura 9.11. Distorsiones y empeoramientos que pueden afectar a la señal de audio. Como puede verse, las distorsiones de origen eléctrico pueden agruparse en tres categorías básicas: ruido, distorsiones lineales y distorsiones no lineales. El otro grupo de distorsiones lo forman las de origen mecánico y se deben a imper­ fecciones en los sistemas de desplazamiento de los magnetófonos y otros repro­ ductores. Las primeras mediciones se realizan (o se deben realizar) cuando los equipos son instalados pOI' primera vez, para comprobar que cumplen las especificaciones indicadas por el fabricante y que se adaptan a la instalación. Igualmente deben rea­ lizarse pruebas y mediciones de forma periódica y después de una intervención de mantenimiento. Para estas pruebas se utilizan instrumentos de medida de alta pre­ cisión, tales como generadores de audio de frecuencia variable de alta estabilidad y muy baja distorsión, analizadores de frecuencia de audio de muy alta precisión o medidores de fase. 3.1. Ruido A toda señal de audio le acompaña, inevitablemente, una cierta cantidad de ruido. En general, se puede decir que el ruido es consecuencia de imperfecciones o irregularidades en la materia, tales como una distribución irregular de las part!­ culas de óxido en la cinta magnética o en la estructura granular del carbón de una resistencia. El ruido se define como cualquier señal indeseable que se añade a la seiíal de audio útil. El nivel del ruido suele expresarse en dB, con referencia al nivel de la señal útil, es decir, como "relación señal a ruido" (SNR). En los equipos utilizados en estudios de grabación y radiodifusión el nivel de la señal útil que sirve como referencia para medir la SNR es el "MOL" (Maximum Operatina Leve] o nivel máxi­ 284 285
  • 142.
    TI-c.,'( JI ()(;I:rCTlIAL DE rl:llVISIÓ.,' mo de operación), el cual está unos 10 dB por encima dd SOL (Standard Operatina Lel'elo nivel normal de operación). En el caso de los grabadores de audio analógi­ cos, el nivel de referencia es el correspondiente a la saturación de la cinta. Este nivel de saturación suele calcularse como aquel en el que la distorsión del tercer armónico (clue se verá un poco más adelante) se sitúa entre el 1% y el 3% (segun el equipo). Esto coloca el MOL típico de un magnetófono en unos 6 dB por enci­ ma del SOL. 3.3.1. Ruido aleatorio Tambien conocido como ruido termico, es generalmente el más importante y tiene su origen en la agitación o movimiento caótico de los electrones en los com­ ponentes electrónicos. Presenta una densidad espectral de igual potencia en todo el ancho de banda, por lo que se suele denominar "ruido blanco", ya que una dis­ tribución espectral de este tipo, pero en la banda visible de las ondas electromag­ neticas, produciría luz blanca. Existen tambien otros ruidos "coloreados" de los cuales el más popular es el ruido rosa, utilizado para hacer mediciones, cuya poten­ cia decrece a ritmo de 3 dB por octava. La magnitud del ruido termico es proporcional a la temperatura, de manera que desaparece cuando se alcanza el cero absoluto (-273° C). Si la impedancia "z" de un circuito presenta una componente resistiva "R", el valor cuadrático medio del ruido termico expresado como voltaje viene representado por la fórmula: E 2 =4kTBR; E = 2.JkTBR" fl Siendo: Eu =voltaje RMS del ruido. k = constante de Boltzmann = 1,38 x 10-23 joules/grado. T =la temperatura absoluta en grados Kelvin. B = el ancho de banda en Hz. R =resistencia en ohmios. La fórmula anterior suele simplificarse dando a "T" un valor de 3000 K (equi­ valente a unos 27° C). En tal caso puede escribirse: E2 = 16 '10-20 BRn ' Aplicando la fórmula anterior se puede demostrar que una elevación de la tem­ peratura de 20 grados eqUivale a un incremento en el nivel de ruido de 3 dB, mientras que multiplicar por diez la resistencia (por ejemplo, pasar de 1 KQ a 10 KQ) supone un incremento de 10 dB en el nivel de ruido. La SNR a la salida de un sistema depende del ruido generado por la compo­ nente resistiva del generador de señal, como, por ejemplo, el micrófono y de las primeras etapas amplificadoras. Suponiendo que el ancho de banda "B" de un micrófono sea de 20 KHz y que tenga una componente resistiva de 150 Q, "En" será = 0,219 mV La tabla 9.2 muestra las SNR típicas de los micrófonos, para diferentes niveles de presión sono­ ra (SPL), medidas en condiciones de circuito abierto. El audio analórico Tabla 9.2 Relación señal a ruido a la salida de un micrófono en circuito abierto, para diferentes niveles de presión sonora. Nivel de presión sonora (dB) Salida del micrófono (mV) SNR (dB) 120 74 61 34 20.000,00 100,00 22,40 1,00 99,21 53,19 40,19 13,19 Por su parte, el preamplificador de micrófono (por ejemplo, en la mesa de mez­ clas) contribuye con su propio ruido aleatorio, lo que empeora considerablemen­ te la SNR del sistema. La situación real puede entenderse como si se dispusiera de un generador ideal, que no genera nada de ruido, cuya entrada es alimentada con un generador de ruido. Este ruido ficticio se denomina "ruido de entrada equiva­ lente". La diferencia entre el "ruido de entrada equivalente" y el nivel de "ruido ter­ mico teórico" de la señal de audio de entrada se denomina "factor de ruido del amplificador". La medida de la relación señal a ruido de un equipo es una rutina bastante com­ plicada, cuyos resultados dependen del grado en que se respeten una serie de nor­ mas y procedimientos. A continuación se muestran los pasos a seguir para medir la SNR de un mezclador de audio: • Alimentar la entrada de micrófono del canal a medir con una señal de 1 KHz, al nivel de entrada normalizado (por ejemplo, -70 dB). • Desactivar todas las entradas, excepto la que se está midiendo. • Desactivar todos los compresores y las ecualizaciones. • Conectar el analizador de audio a la salida del mezclador. • Ajustar los potenciómetros "lmput-Cain" y "Channef-Cain" del circuito de entrada, así como el "Master-Cain" en el circuito de salida, hasta obtener en el analizador el nivel de operación estándar (SOL = +4 dB o + 8 dB). • Sustituir la señal de entrada por una resistencia de 150 Q de bajo ruido. • Medir el ruido a la salida del equipo con el analizador calibrado en dBu y el ancho de banda fijado a 20 KHz. • La relación señal a ruido vendrá dada por la diferencia en dB entre el SOL Y el ruido medido. Por ejemplo, si el SOL (nivel normal de operación) se ha fijado a 8 dB Yse ha obtenido una lectura del ruido de -95 dB, la SNR del equipo será de 103 dB. Un metodo alternativo y más sencillo para medir la calidad de un equipo, en lo que al ruido se refiere, consiste en medir el ruido cargando la entrada con la resis­ tencia nominal (150 Q) Yluego en cortocircuito. Si la segunda medida es clara­ mente mejor que la primera (5 dB o más), el preamplificador será de muy buena calidad, mientras que si las dos medidas son aproximadamente iguales, la calidad del preamplificador será baja, ya que serán los circuitos internos del preamplifica­ dor los que habrán contribuido principalmente al ruido y no la resistencia exter­ na. Los potenciómetros de regulación de nivel (entrada, ganancia y máster) debe­ rán estar en una situación de operación típica (SOL) o unos pocos dB por encima. 286 287
  • 143.
    TI.C.'OIJH,;!~JI11 PI 1_,I"'U".,,""",,"'-':'.:_ 3.3.2. Ruido periódico Este tipo de ruido suele generarse fuera del equipo, al que se acopla de alguna forma. A diferencia del ruido aleatorio, el peri6dico puede ser totalmente elímina­ do mediante un adecuado diseño del equipo), una instalación adecuada. El tipo más frecuente de ruido peri6dico es el llamado "zumbido", consistente en oscilaciones de 50 Hz y sus arm6nicos, provenientes de la red eléctrica. Suele deberse a induc­ ciones o a defectos en la puesta a tiena de los circuitos. La medida del ruido peri6dico es similar a la del ruido aleatorio, excepto que se necesita disponer de un osciloscopio o de un analizador de espectros para iden­ tificar la frecuencia de! ruido periódico. Este tipo de medidas sólo se realiza por parte de los técnicos de mantenimiento. En el apartado de "otros ruidos" habria que citar el "ruido de granalla" que se pro­ duce en los semiconductores por la generación y recombinación aleatoria de algu­ nos pares elech·6n-hueco. El ruido de granalla presenta, al igual que el térmico, un espectro plano dentro de la gama de frecuencias. Este tipo de ruido no suele encon­ trarse en las especificaciones de los equipos actuales, ya que es de muy poco valor en los semiconductores modernos. Debe citarse también el "ruido digital", que se produce cuando la señal anal6gica es cuantificada después del muestreo, pero éste es un tema que se verá en el apartado del audio digital en e! capítulo siguiente. 3.4. Distorsiones lineales Se denominan distorsiones lineales aquellas que son independientes de la ampli­ tud de la señal de audio. Se asume que la amplitud de la señal de audio no supera el nivel de recorte del equipo, ya que tal recorte sería en sí mismo una forma de distorsión, consecuencia de la propia amplitud de la señal. Las dos principales dis­ torsiones lineales son la "alialidad en la respuesta a frecuencia" y la "alinealidad en la fase". La primera se define como las variaciones, medidas pico-a-pico, de la amplitud de la señal, sobre el ancho de banda considerado, es decir, la compara­ ci6n de la amplitud de todas las frecuencias del ancho de banda de interés, toman­ do como referencia, en el caso de! audio, la frecuencia de t KHz. El ancho de banda considerado suele estar entre 20 Hz y 20 KHz. La alinealidad de fase se define como las variaciones o desplazamientos de la fase de la señal, en funci6n de la frecuencia, dentro del ancho de banda de interés. Esta medida es bastante infrecuente y tiene más interes para los fabricantes de equipos que para los usuarios. 3.5. Distorsiones no lineales Las distorsiones no lineales se refieren a las desviaciones en la relación lineal que debe existir entre la entrada y la salida de un equipo y se dividen, básica­ mente, en: distorsi6n armónica y distorsi6n por intermodulaci6n. La distorsión arm6nica se produce cuando, al inyectar en un sistema una onda senoidal pura de 1.L1~.ªJ.!_;Jl0J2J~ frecuencia "f", se obtiene a la salida una señal en que, además, de la frecuencia ''1"'', están también presentes frecuencias múltiplo de "f", es decir, 2f, 3f, 4f. .. Se deno­ mina "factor de distorsión armónica" a la relación entre el "Oltaje RMS de todos Jos armónicos (separados de la señal principal y sumados) y e! voltaje RMS total de la señal distorsionada. Esta medida es muy importante en los equipos de audio )' suele especificarse como el tanto por ciento que supone la señal arm6nica con respecto al total de señal para una potencia de salida dada. La distorsi6n del tercer arm6nico se ha venido utilizando para medir la calidad de los magnetófonos. Para ello se utiliza una señal de prueba de 333 Hz y se extrae a la salida, mediante un filtro, la componente de 999 Hz. En el caso de los grabadores de audio, la amplitud de las distorsiones de orden mayor es irrelevante, como conse­ cuencia del preénfasis que sufre la señal antes de la grabaci6n. La distorsi6n por intermodulación se produce cuando un sistema que es alimen­ tado con dos señales de frecuencias distintas (f1 y f2) genera a su salida, además de dichas señales fI y f2, otras iguales a la suma y la diferencia de fI y f2 o a la suma y diferencia de múltiplos de estas señales. Una de las normas o procedimientos de medida especifica la utilización de 60 Hz para fI y 7 KHz para f2, siendo la ampli tud de la primera cuatro veces superior a la de la segunda. 3.6. Lloro y fluctuación El "wow" o lloro es una variaci6n relativamente lenta de la frecuencia del sonido, causado por variaciones en la velocidad de grabaci6n y1o reproducción de los mag­ net6fonos, giradiscos u otros dispositivos mecánicos. La menor cantidad de lloro, es decir, la mínima variación de frecuencia que es percibida como tal por el oyente, está en torno a t 125 de semitono en el rango de las frecuencias medias. En las frecuencias extremas el intervalo es mucho mayor, lo que significa que la variación de frecuencia debe ser relativamente alta para ser percibida. Las variaciones cuya frecuencia es de uno, dos o menos ciclos por segundo se denominan lloro o "wow", mientras que las variaciones más rápidas se denominan 'JIutter" (fluctuación). El termino lloro se introdujo en los primeros días de! cine sonoro, cuando al enhebrar la película en el proyector y moverla manualmente se producía un sonido que recuerda al lloro humano. También se denomina "lloro" al resultado audible de poner en el aire un disco antes de que el giradiscos haya alcan­ zado la velocidad correcta de reproducción. La fluctuaci6n es mucho más rápida que el lloro; es suficientemente rápida como para imponer un cambio en la calidad del sonido y, al igual que sucede con el lloro, se nota más en las notas sostenidas que en las de corta duraci6n. Resumen • Tres son las características que definen al sonido: intensidad, tono y timbre. La intensidad es la característica del sonido relacionada con la amplitud o altu­ ra de la vibraci6n y que nos permite distinguir entre sonidos débiles, medios 288 289
  • 144.
    Trc",",ol OC1: .J"CTUUDE TU rq....¡(l:': o fuertes. Nosotros percibimos la intensidad como volumen o potencia del sonido. • El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, por ejemplo, produce muchas ondas sonoras por segundo, es decir, un sonido de alta frecuencia. Por contra, un bajo o una tuba producen muchas menos ondas sono­ ras por segundo, esto es: sonidos de baja frecuencia. Nosotros medimos la fre­ cuencia de los sonidos en hercios (Hz). Las personas podemos oír frecuencias comprendidas entre 15 y 15.000 Hz (algunos afortunados hasta 20.000 Hz). • El timbre es la característica del sonido relacionada con el número, amplitud y orden de los armónicos de la frecuencia fundamental que un sonido determinado contiene y que nos permiten diferenciar el matiz de cada instrumento. • Existe un "nivel de presión sonora" (SPL o Sound Pressure Level) de referencia, establecido en 0,0002 dicm', que corresponde al umbral de audición de una persona media, de edad inferior a los treinta años y para una frecuencia de 1 KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel umbral de referencia, de acuerdo con la siguiente fórmula: SPL(dB) =20 10glO (PIPRH) • La sonoridad o intensidad aparente de un sonido es algo subjetivo. Es el atri­ buto por e! cual pueden ordenarse en una escala las sensaciones audibles en términos de "flojas" o "fuertes". La sonoridad depende no sólo de la intensi­ dad de! sonido, sino también de su frecuencia. El fon es una unidad de nivel sonoro que, juzgado por un observador medio, resulta numéricamente igual al nivel de intensidad de un tono puro de 1 KHz. • El son se define como la sonoridad de un tono de 1 KHz y 40 dB Ytiene la característica de que un aumento de! nivel sonoro de 10 fonos es, aproxima­ damente, equivalente a doblar e! nivel de sonoridad en sanos, mientras que un aumento de medio fono corresponde al cambio mínimo perceptible del nivel sonoro. • El rango dinámico del sistema de audición humano está limitado en su parte alta por e! nivel de dolor y en su parte baja por e! umbral de audición. Aunque varía de un individuo a otro, el valor típico es de 120 dB. El sistema de audición huma­ no se caracteriza por presentar una capacidad de resolución que puede equipa­ rarse con una batería de filtros paso-banda que se solapan entre sí, llamados "bandas críticas". Son estas bandas críticas las responsables de los fenómenos de enmascaramiento del sonido. Este fenómeno de enmascaramiento se define como la medida en que debe elevarse el umbral de audición de un sonido en pre­ sencia de otro sonido enmascarador. • "dBm" es la abreviatura utilizada para expresar la "potencia cuadrática media" (RMS) de una onda senoidal con respecto a una potencia de referencia de 1 milivatio. Esta potencia de 1 milivatio, cuando es disipada por una carga de 600 ohmios produce un voltaje RMS de 0,775 V La potencia de referencia de 1 m W se define como OdBm. El "dBu" es una forma alternativa de medir los niveles de la señal de audio. En este caso se asume que la impedancia de la fuente es "casi-cero" y que la impedancia de la carga es "casi-infinito". Existen otras medidas, como el "dBV" y el, "dBW". El ¡,udlo ,lIlalÚPICo • Las lineas de audio "no equilibradas" se caracterizan por utilizar un solo hilo conductor interno, recubierto por una malla de blindaje. El conductor inter­ no o "alma" constituye el "camino de ida", mientras que la malla forma el camino de retorno. • Las líneas equilibradas se basan, en cambio, en la utilización de dos cables con­ ductores centrales, en lugar de uno solo. Así se mejora el rechazo a las inter­ ferencias externas. En cada extremo del cable se coloca un transformador, que actúa como equilibrado!". Las lineas equilibradas o balanceadas se utilizan en aplicaciones profesionales, ya que son mucho más resistentes a las interfe­ rencias. • En lo que al nivel de señal que entregan se refiere, los equipos de audio pue­ den dividirse en dos grandes grupos o categorías: los que entregan niveles de salida bajos y los que dan un nivel de salida alto. A la primera categoría corres­ ponden, de forma casi exclusiva, los micrófonos (y otros transductores simi­ lares).Todos los demás equipos proporcionan un nivel de salida alto, que suele etiquetarse como "nivel de línea". • La sensibilidad de los micrófonos suele expresarse en microvoltios o dBV, medidos sobre una carga abierta y para un nivel de presión sonora de 74 dB, Y es una medida de la eficacia con que un micrófono convierte la presión sonora (energía mecánica) en señal de audio (energía eléctrica). Los micrófo­ nos de condensador, que son los más sensibles, proporcionan, típicamente, 20 m VIpa, mientras que los micrófonos de bobina móvil dan, aproximadamen­ te, 2 mV/pa. La impedancia de 600 Q se eligió para las señales de línea porque es relativa­ mente alta, por lo que requiere poca corriente, pero, a la vez, lo suficientemen­ te haja como para no permitir muchas interferencias. Aunque esta impedancia se escogió pensando en los circuitos de telecomunicaciones, fue posteriormente adoptada por la industria de la radio y la televisión. • Se dispone de medidores normalizados de varios tipos, aunque los más impor­ tantes son el "medidor VU" o "vúmetro" y el "PPM" o "picómetro". A éstos habría que añadir el "modulómetro". • El vumetro dispone de una escala graduada en dB y en tanto por ciento. Es el más utilizado, sobre todo en aplicaciones de grabación y control. El picóme­ tro es un medidor capaz de mostrar "picos" rápidos en la señal, tales como transitorios y subidas rápidas de nivel. El picómetro presenta una impedancia equivalente a más de cincuenta veces la de la fuente. El indicador VU y e! picómetro proporcionarán esencialmente la misma medida mientras el con­ tenido de! programa se base en señales de nivel sostenido. • Las distorsiones de origen eléctrico pueden agruparse en tres categorías bási­ cas: ruido, distorsiones lineales y distorsiones no lineales. El otro grupo de distorsiones lo forman las de origen mecánico y se deben a imperfecciones en los sistemas de desplazamiento de los magnetOfonos y otros reproductores. El ruido se defille como cualquier señal indeseable que se añade a la señal de audio útil. El nivel del ruido suele expresarse en dB, con referencia al nivel de la señal util, es decir, como "relación señal a ruido" (SNR). En los equipos utiliza­ 290 291
  • 145.
    "'tEC"iOJ Os..I. ACTlIAl"JI. "1 [L1.'I....,{),'! dos en estudios de grabacion )' racliodifusion el ru"el de la señal útil que sine como referencia para medir la SNR es el "MOL:' (Maximum Operatin8 Lel'el o nivel máximo de operación), el cual está unos 10 dB por encima del SOL (Standard Operating Lere! o nivel normal de operacion). • El ruido periódico suele generarse fuera del equipo, al que se acopla de algu­ na forma. A diferencia del ruido aleatorio, el pe¡-iódico puede ser totalmente eliminado mediante un adecuado diseño del equipo y una instalación adecua­ da. El tipo más frecuente de ruido periódico es el llamado "zumbido", consis­ tente en oscilaciones de 50 Hz y sus armónicos, pwvenientes de la red eléc­ trica. • Se denominan distorsiones lineales aquellas que son independientes de la amplitud de la señal de audio. Las dos principales distorsiones lineales son la "alialidad en la respuesta a frecuencia" y la "alincalidad en la fase". La primera se define como las variaciones, medidas pico-a-pico, de la amplitud de la señal, sobre el ancho de banda considerado. La segunda se refiere a las varia­ ciones o desplazamientos de la fase de la señal, en función de la frecuencia, denh'o del ancho de banda de interés. • Las distorsiones no lineales se refieren a las desviaciones en la relación lineal que deben existir entre la entrada y la salida de un equipo, y se dividen, bási­ camente, en: distorsión armónica y distorsión por intermodulación. La dis­ torsion armónica se produce cuando al inyectar en un sistema una onda senoidal pura de frecuencia "f" se obtiene a la salida una señal en que, ademas de la frecuencia "f", están también presentes frecuencias múltiplo de "f", es decir, 2f, 3f, 4f. .. La distorsión por intermodulación se produce cuando un sistema que es alimentado con dos señales de frecuencias distintas (fl y f2) genera a su salida otras frecuencias iguales a la surna y la diferencia de fl y f2 o a la suma y diferencia de múltiplos de estas señales. CAPÍTULO 10 El audio digital 1. Conceptos generales Todos los conceptos, principios y teorías sobre vídeo digital, tratados en capítu­ los anteriores, son perfectamente aplicables al audio digital. En el fondo se trata de lo mismo: coger una información analógica, que fluye de manera continua en el tiempo, y trocearla para convertirla a continuación en una hilada de dígitos binarios. Hay, sin embargo, diferencias importantes entre las señales de audio y vídeo ya desde su estado analógico, las cuales obligan a utilizar distintos parametros y dis­ tintas estrategias a la hora de proceder a la digitalización. En prime¡-lugar, el ancho de banda de la señal de audio es muy inferior al de la señal de vídeo. Una señal de audio de calidad alta no excede los 20 KHz de ancho de banda, mientras que una señal de vídeo analógica de calidad media, como la señal compuesta PAL, presen­ ta un ancho de banda en torno a los 5 o 5,5 MHz. La relación, en lo que al ancho de banda se refiere, es, por tanto, de 1 a 250. Consecuencia: habrá que tomar 250 veces más muestras de vídeo que de audio. Hay otra diferencia entre ambos tipos de señal (menos evidente, pero no menos importante) y es el hecho de que la señal de audio es unidimensional, mientras que la de vídeo es tridimensional. En efecto, en el caso de la señal de vídeo la infor­ mación cambia o fluye en tres dimensiones separadas: la horizontal, la vertical y la temporal. Puesto que la señal eléctrica que se ha de digitalizar sólo puede variar en una dirección, es necesario descomponer, ya en el estado analógico, dos de las tres dimensiones de la señal de vídeo; la dimensión vertical se descompone en líneas, que se colocan una a continuación de otra, mientras que la dimensión temporal se descompone en cuadros que se suceden en el tiempo. En el caso de la señal de audio, esta descomposición previa (que puede entenderse como un proceso de muestreo) no es necesaria, ya que el audio sólo fluye o varia en una dirección: el tiempo. 292 293
  • 146.
    T¡·CNOLqCIA -C1 UAInI: THLVhlÓN Por otro lado, esta característica unidimensional de la sel1al de audio la hace en cierto sentido más delicada. Se trata de una cuestión de tipo perceptivo: puesto que la señal de vídeo muestra cambios de información en tres dimensiones, el espectador estará entretenido analizando un gran flujo de información, de manera que cualquier error o perturbación de muy corta duración no será percibido (efec­ to de enmascaramiento). Concretando, si un bit o un byte fallan en la señal de vídeo, pasarán inadvertidos para el espectador, si Jo hacen en la señal de audio, el efecto será un "dic" claramente audible por el oyente. Oc lo anterior se deduce que la señal de audio no precisa de una frecuencia de muestreo tan alta como la señal de vídeo, pero, por otro lado, la cuantificación de las muestras, es decir, la precisión con que se mide y expresa e! valor instantáneo, ha de ser mucho más elevada. En concreto, si para representar la señal de vídeo se utilizan (en la norma básica) en torno a 250 niveles, en el caso de la señal de audio cada mues­ tra necesita de unos 65.000 niveles, es decir, 250 veces más que la señal de vídeo. Vemos que se produce la siguiente situación (bastante curiosa): la señal de vídeo precisa 250 veces más muestras por intervalo de tiempo que la señal de audio, pero esta última necesita 250 veces más niveles de cuantificación por muestra que la pri­ mera. En esta paradoja hay algo que trabaja a favor de la señal de audio: mientras que la frecuencia binaria (cantidad de bits generados por segundo) es directamente proporcional a la frecuencia de muestreo, e! número de niveles o peldaños de cuan­ tificación no se relaciona de forma tan simple con el número de bits empleados. En concreto, con cada bit que añadimos doblamos el número de niveles. Por ejemplo, si con 8 bits/muestra se obtienen 256 niveles (caso de la señal de vídeo), con 16 bits/muestra se logran los más de 65.000 niveles necesarios para la señal de audio. Por tanto, si tenemos 250 veces menos muestras y el doble de bits por muestra, la frecuencia binaria final de la señal de audio será unas 125 veces menor que la señal de vídeo. Un ejemplo: en la norma 4:2:2 de vídeo se producen unos 170 Mbits/s; un CO de audio estéreo genera una frecuencia binaria de 1,4 Mbits/s. La relación es 121: l. La comparación es un tanto heterodoxa porque se trata de una séñal de vídeo por componentes y /R - Y/B - Y de tipo SOTV comparada con una señal de audio estéreo de alta calidad, pero da una idea de los órdenes de magnitud. Otra cuestión a considerar es la forma de onda de la señal analógica. La señal de audio analógica es simétrica, en e! sentido de que sus valores de voltaje se cen­ tran en e! valor cero, con excursiones hacia positivo y hacia negativo. Las formas de onda por encima del valor nulo son prácticamente copias especulares de las for­ mas de onda negativas. En el caso de la señal de vídeo la forma de onda analógica no es simétrica ni está centrada en el valor nulo. Por el contrario, se extiende desde cero hasta un cierto valor máximo. Lo anterior condiciona, como se verá, la forma en que se codifican las muestras de audio. Como se ha visto en e! capitulo anterior, el sonido no es más que variaciones de la presión de! aire que rodea al tímpano y que son capaces de producir sensaciones auditivas. El audio digital pretende, por tanto, convertir tales variaciones de pre­ sión en digitos binarios. Igual que sucede con e! video, la ventaja de! audio digital está en su naturaleza discreta o discontinua. Las señales analógicas presentan infi­ nitas variaciones continuas, que son difíciles de grabar y reproducir con precisión; El audio dieital las digitales sólo permiten un cierto número de estados discretos. Para ver la dife­ rencia entre ambos casos, pongamos un ejemplo: queremos medir (por supuesto con la máxima precisión) la cantidad de agua que fluye por un río. Podríamos dis­ poner de un montaje similar a una presa de central hidroeléctrica. El agua, al salir de la presa por un orificio, movería un mecanismo contaclor calibrado en litros, en metros cúbicos o en cualquier otra unidad de volumen. Por muy bien que se dise­ ñe y se fabrique tal mecanismo, es inevitable que se produzcan errores de medi­ ción. Hay problemas de rozamiento, inestabilidades mecánicas, agua que rebosa, turbulencias, etc., que trabajan siempre contra la precisión del proceso. El caso expuesto en el párrafo anterior puede entenderse como un proceso ana­ lógico, ya que se trabaja con magnitudes fisicas continuas. Por otro lado, suponga­ mos que queremos contar las ovejas que entran en un redil. Éste sería un proceso digital, puesto que la magnitud (la cantidad de ovejas) está discretizada. No puede haber fracciones de oveja: o hay 86 o hay 87. Es cierto que se pueden cometer errores y contar una misma oveja dos veces o dejar de contar alguna, pero tales errores no son propios de! sistema. Por tanto, los sistemas digitales son más preci­ sos. También son más predecibles; es seguro que si se repite el proceso tendremos la misma cuenta para las ovejas. Por otro lado, es casi seguro que si se realizan dos medidas separadas del agua del rio habrá alguna diferencia entre ambas. Un canal de audio analógico podda estar formado por un micrófono, un pre­ amplificador, una mesa de mezclas, un magnetófono, una máster en casete o LP, la copia de distribución, el reproductor doméstico, el amplificador y los altavoces. Todos ellos forman la cadena analógica, la cual funciona de manera que cada vez que se pasa de un dispositivo al siguiente se mantiene la relación entre los cambios de amplitud y e! tiempo. Podemos decir, por tanto, que cada etapa es "análoga" a la anterior. Pero análoga no significa idéntica, sino parecida. En efecto, cada disposi­ tivo que atraviesa la señal de audio añade su propia distorsión o deformación. Además añade también ruido. A la salida la distorsión total de la señal será igual a la suma de las distorsiones añadidas en cada etapa. Lo mismo sucede con el ruido. Por otro lado, la cadena o secuencia que sigue la señal digital es: micrófono, con­ versor A/O, etapas que copian o procesan numeras, conversor O/A, amplificador y altavoces. En efecto, tan pronto como la señal de audio abandona e! micrófono, es inmediatamente convertida en un tren de bits. Todos los procesos de mezcla, ampli­ ficación, efectos, etc. son, en e! dominio digital, meras operaciones matelmiticas. El error (salvo que falle e! sistema) es, sencillamente, imposible. Puesto que la señal de audio se mantiene como una información numérica, los efectos ele distorsión y ruido no pueden producirse o, mejor dicho, si que se producen, pero no tienen nin­ gún efecto sobre los dígitos binarios. El necesario cambio a analógico se produce sólo en la etapa final, cuando el oyente reproduce el sonido original. 2. Conversión A/ D La relativamente baja tasa binaria que se produce al digitalizar una señal de audio hizo que el audio digital se desarrollara bastante pronto, tanto en e! ámbito doméstico como en el profesional. Un hecho clave fue sin duda la introducción, 294 295
  • 147.
    TLC:J(llOG1: :CTU:L DLTEll"¡SIO: por parte de Sony y Philips (1979), del "compact disc"; una verdadera revolución que ha dado paso al versátil CO-ROM. Desde entonces la mayor parte del equipa­ miento analógico ele los estudios ha ido sustituyéndose por equipos digitales, pro­ ceso en el cual marca un hito la aparición de una norma de comunicación digital, o interfaz digital para audio, conocida como AES/EBU (1985). Las ventajas más importantes que presenta la señal digital con respecto a la analógica son: multige­ neración sin límites, fiabilidad y, más recientemente, integración en entornos de ordenador y redes. Incluso hoy en día los equipos digitales siguen teniendo conectores de entrada y de salida analógicos, ya sea de tipo RCA en los domésticos o de tipo XLR (Canon) en el caso de los profesionales. Hoy por hoy los llamados transductores, es decir, el micrófono y el altavoz, son dispositivos analógicos que generan y se alimentan de señales que fluyen de mane­ ra continua, las cuales son una analogía de hecho físico que las ha producido. Es necesario, por tanto, convertir la señal eléctrica analógica, que es continua en el tiempo, en otra digital, cuya principal característica es ser discontinua en el tiem­ po y estar expresada mediante números. Esto se logra en la etapa de conversión A/O, la cual es el factor más importante y el que más determina la calidad de la señal digital, tanto en el contenido de frecuencias como en el rango dinámico y la distorsión armónica. Igual que sucede con cualquier señal analógica, la digitaliza­ ción o conversi6n A/D se logra mediante dos etapas separadas: el muestreo y la cuantificación. 2. 1. El muestreo Digitalizar es convertir la señal anal6gica en números. Por tanto, hay que deci­ dir cómo se obtienen estos números. En la primera etapa (el muestreo) la señal analógica es medida o muestreada a intervalos regulares, para, a contil1l-:aci6n, durante la segunda etapa (la cuantificación), expresar cada una de estas medidas con un número limitado de dígitos binarios. Aquí nos centraremos en el muestreo y lo primero que hay que determinar es cuántas muestras debemos tomar de la señal analógica por unidad de tiempo, es decir, la frecuencia de muestreo. Un concepto importante, aunque nada intuitivo, es que, si se elige cuidadosa­ mente la frecuencia con que se toman las muestras, el muestreo es un proceso sin pérdidas. La figura 10.1 ilustra el principio del muestreo. El proceso de muestreo puede entenderse como la multiplicaci6n de la señal analógica de entrada por una señal muestreante formada por impulsos instantáne­ os, que vale cero en todo momento, excepto en los instantes puntuales de mues­ treo en que vale uno. Por tanto, se trata de una variación o modulación de la ampli­ tud de la señal de audio por parte de los impulsos muestreantes. Esto se conoce como "PAM" (Pulse Amplitudc Modulatian) o modulación de amplitud de impulsos. Aunque sea una simplificación, se asume que en este proceso la duración de los impulsos muestreantes es nula o casi nula. Llegados a este punto, lo que tenemos son una serie de valores puntuales de la señal original y nada en absoluto entre dos valores cualquiera. Intuitivamente puede apreciarse que a partir de los impulsos ____U_<LU.sJ~~~J 'tl '" (a) Señal=ª15. E de audio < Tiempo -~ (b) Señal muestreante '" _1 J. -* Tiempo Figura 10.1. La señal de audio analógica se multiplica por un tl'en de impulsos equiespacíados para generar la señal muestreana (PAM). PAM de la figura 10.1 (c) se podrá, durante la conversión digital a analógico, reconstruir la señal original de (a), pero ¿sería posible reconstruir la scilal original a partir de los impulsos de la figura 10.2 (a). ¿Y a pa¡-tiJ- de la figura 10.2 (b)? ¿Qué pasa con los valores de la señal original comprendidos entre dos instantes de muestreo? ¿Se han perdido para siempre? Sorprendentemente, la respuesta es ¡no! Siempre que se tomen las precauciones necesarias, ¡no pasa nada! Para enten­ der esto puede ser útil analizar la diferencia entre un reloj analógico y otro digital. El analógico muestra el paso del tiempo gracias a unas manecillas que se mueven de forma continua por la esfera. Podemos entender que, a medida que "barren" la superficie de la esfera, adoptan infinitas posiciones distintas. Un reloj digital indi­ ca también la hora, pero lo hace mediante valores discretos, que cambian instantá­ neamente, sin que haya nada por medio. Ahora bien, si asumimos que la máxima precisión que es capaz de "leer" el usuario humano en el reloj es un segundo, podrí­ amos decir que el reloj digital no introduce pérdidas de información, con respec­ to al analógico; si suponemos que es posible apreciar hasta décimas de segundo en el movimiento del segundero del reloj analógico, habrá que pedir al digital que cambie de estado y muestre la lectura diez veces más rápido. En definitiva, necesi­ taremos que la frecuencia con que se suceden las muestras en el reloj digital, se adapte a la resolución que queremos obtener. Para responder a la pregunta sobre la figura 10.2 habría que analizar qué fre­ cuencias componen la señal analógica de entrada: si sabemos cual es la frecuencia 296 297
  • 148.
    TI~CN~)l t)GiA ,,(:-1UAI. DE lTLE'I"ION .;. (a) .. (b) "O Ji tll I I ~l l' , LLL,_I.Tiempo Tiempo Figura 10.2. ¿Cuántas muestras hacen falta para representar una forma de onda sin ambigüedad? más alta en la señal de entrada, podremos determinar una frecuencia de muestreo que no introduzca pérdidas de información. El análisis de las frecuencias de las señales eléctricas se hace mediante representaciones gráficas llamadas "espectrales" en las que el eje horizontal muestra un determinado rango de frecuencias mientras el vertical representa las amplitudes o la energía de dichas frecuencias. La figura 10.3 es un ejemplo de representación frecuencial. 2.1.1. Muestreo idealy muestreo real En la figura 10. 3 (a) se representa el espectro de la señal de audio "en banda base", es decir, en su estado analógico normal. Nótese que se ha intentado repre­ sentar una señal con un ancho de banda ligeramente inferior a 20 KHz. El trape­ cio que forma el espectro de la señal de audio analógica se ha rellenado de gris para reflejar el hecho de que están o pueden estar comprendidas todas las frecuencias, desde cero hasta un cierto valor máximo. Además la caida en la zona de altas fre­ : Modulador el. amplitudr~ (a) Especlro Á d;·I~e.C:~~1 (e) 1 -~ ~ d:,I~~:~oal 1m.... 1-LHH ¡-¡ j-j t-j-1++-1 t-H H~ ;n-':-" l. 211 3~O 1D 20KHz Frecuencia 1 (I-rrL1-t. lb),,, / 3" .. ..,¡ j J tJJILUl'~lj~ o 20.tO j60' 80 J'1DD')'2DKH:l' 11 Es••clro.2 delaeeña' t••lmb..) fs+fmax '¡ 3f.-Imb.. 3f¡+fmáx. d. mu••treo 2f.·1m'•. 2t..fmb. Frecuencia ... ~~+HI-'¡¡ Hi-~,++H+HH' H '1-1 H O 20 40 60 lO 1(10 120 KHz Frecuencia Figura 10.3. Espectros de las señales de audio, de la señal impulsiva de muestreo y de la señal muestreada. El audio dirit, cuencias no es abrupta, sino que muestra una cierta pendiente, tal como sucede con las señales reales. La figura 10.3 (b) representa el espectro de la señal mues­ treante, es decir, de los impulsos de muestreo que miden la señal analógica de entrada. En este ejemplo se ha elegido una frecuencia de muestreo de 40 KHz (fs o jl-equenc)' eifsamplina). Se trata de una señal que posee una frecuencia única (40 KHz) y no un rango de frecuencias. Por esto aparece como una raya sin espesor en el espectro. Por otro lado, no es una señal senoidal, sino un pulso instantaneo que se sucede 40.000 veces por segundo. El análisis de Fourier permite conocer qué contribuciones senoidalcs y cosenoidales son necesarias pal-a obtener cualquier forma de onda. En el caso de una señal impulsiva de duración nula, el espectro con­ tiene, además de la frecuencia fundamental (en nuestro ejemplo, 40 KHz), múlti­ plos de dicha frecuencia que se extienden hasta el infinito. Por tanto, la primera linea del espectro corresponde a la frecuencia de muestreo; el resto son armóni­ cos, todos ellos de igual amplitud, que se extienden, al menos en teoría, hasta el infinito. Siendo e, la frecuencia mas alta de la señal de audio analógico y siendo fs la fre­ cuencia de muestreo (figura 10.3-c), se producen, en torno a fs bandas laterales, con valores = f.-C, y f.+C.. La primera se llama "banda lateral inferior", mientras que la segunda se denomina ''banda lateral superior". Esto es consecuencia de la multiplica­ ción o modulación de la amplitud de los impulsos por parte de la señal analagica ele entrada. Además el espectro de la señal de audio analagica aparece como banda late­ ral superior de la "frecuencia cero", ya que la señal impulsiva de muestreo posee una componente continua, también llamada componente de OC. A partir de la f'¡gura 10.3 vemos que el espectro de la señal analógica de entra­ da ha producido, durante el proceso de muestro, múltiples copias de sí mismo. La primera desde DC hasta e" luego de f-Ch a f.+(," después desde 2(-f,,,,, hasta 2f,+C.... Estas copias se denominan "alias" y, aunque son inevitables y existen mientras la señal se mantenga en el dominio digital, serán eliminadas, por indese­ ables, en la conversión digital-a-analógico. La figura 10.3 (c) demuestra también que si la frecuencia de muestreo fuera inferior a dos veces C" entonces se produ­ ciría un cierto solapamiento cntre la banda superior de una determinada f¡-ecucn­ cia y la inferior de la siguiente, es decir, ¡las alias se pisan unas a otras! Esto se cono­ ce como "aliasina". 2.1.2. Criterio de NJquist Aunque esta teoria fue inicialmente descrita por Shannon, en los documentos sobre audio y video digital casi siempre se conoce como teorema ele Nyquist o cri­ terio de Nyquist. En la antigua Unian Soviética esta teOl-Ía es atribuida a Kotelnikov, cuyo trabajo fue casi simultáneo al de Shannon. En breve esta teoria viene a decir que, suponiendo que se disponga de filtros ideales, la frecuencia de muestreo debe ser al menos dos veces mayor que el ancho de banda de la señal a muestrear. Puesto que en las señales de audio y video la frecuencia más baja a tra­ tar es cero o casi cero, el término "ancho de banda" puede cambiarse por "fre­ cuencia más alta". 298 299
  • 149.
    Tiempo Impulsos PAM~: / JI I • Tr.:CNOUJGI: .'CTU,l IH n.U·qS!n,"" Precisamente para respetar el criterio de N),CJuist, el primer paso que sufre la señal analógica durante su conversión a digital es un "filtrado-pasa-bajo", que ase­ gura que en la señal de entrada no estará presente ninguna frecuencia mayor que .' la mitad de la frecuencia de muestreo o, dicho de otra forma, que elimina todas las frecuencias por encima de la mitad de la frecuencia de muestreo (límite de N)'quist). Igualmente a la salida, durante el proceso de conversión cligital-a-analó­ gico, el último paso consiste en un filtrado paso bajo mediante un filtro muy simi­ Jar al empleado en el proceso de conversión a digital. Este último filtro elimina las altas frecuencias creadas internamente por la digitalización y suaviza el efecto de escalones que presenta la señal analógica, reconstruida a partir de los impulsos PAM. Ahora si la señal de entrada no incluye frecuencias por encima del límite de Nyquist, las hanclas laterales no se solaparán y no se producirá a!iasina. En la prác­ tica la frecuencia de muestreo es siempre un poco superior al criterio de Nyquist. En primer lugar, si nos ajustáramos a dicho criterio, la frecuencia más alta presen­ te en la señal de entrada generaría exactamente dos muestras por ciclo, las cuales podrían coincidir con los dos pasos por cero de la señal (figura 10.4). Esto gene­ raria incertidumbre, ya que, a la hora de reconstruir la señal Q1'iginal, igual podrí­ amos obtener fm" o Oc. Puede verse, a partir de la figura 10.4 (a) que, si se emplea una frecuencia de muestreo exactamente igual al doble de la frecuencia de entrada, es posible que los instantes de muestreo se situen en los cruces por cero, lo cual podría inter­ pretarse como una señal de frecuencia cero, es decir, una forma de onda plana. J::l ." ii ~ f i li~ ~-~, <11(2 fmax) ) Figura 10.4. Muestreo a exactamente dos veces la frecuencia de entrada (a) y muestreo con una frecuen­ cia ligeramente superior. _.__ . ~ ti.~_t)Ji{)_~0:1j~1J Por otro lado, si la frecuencia de muestreo es ligeramente superior al eloble ele la frecuencia de la señal de entrada, las muestras delimitan perfectamente la forma de onda original; no hay ambigüedad y, por tanto, no hay aliasing. Otra razón, CJuizá incluso más importante para emplear una frecuencia de muestreo algo superior al criterio de N)'quist, es que los filtros que limitan las frecuencias de la seüal de entrada no son totalmente ahruptos, es decir, no dejan pasar todas las frecuencias con total energía, hasta un punto en gue cortan de forma total cual­ quier frecuencia superior. Por el contrario, la forma en que se eliminan las altas frecuencias es gradual, con una cierta pendiente, que se mide en dB por octava, de forma que se asemejan un tanto a lo mostrado en la figura 10.3. Es necesario recalcar que el uso de tul filtro, que limita las fi'ecuencias de la seilal de entrada, no va en detrimento de la calidad de la se¡'lal de audio. Si asumimos que el oído htunano no puede oír frecuencias más alla de los 18 o 20 KHz, la digitalización de cual­ quier frecuencia más alta no aportaría nada a la experiencia perceptiva y sólo serviría para ocupar espacio en el CD o en cualqUier otro medio de grabación. Recientemente se han puesto de moda teorías sobre percepción auditiva segUn las cuales si bien las fre­ cuencias por encima de los 18 o 20 KHz no son audibles por sí mismas, pueden mejo­ rar la calidad del sonido cuando están presentes, a la vez que otras frecuencias que sí entran dentro del rango audible, pero éste es otro tema. 2.1.3. Frecuencias de muestreo en la práctica Si tomamos como limite audible los 20 KHz, está claro que la frecuencia de muestreo elegida para la señal de audio debería estar por encima de los 40 KHz. En la practica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y 48 Kz. La primera es la mas popular, mientras que la segunda puede considerarse como la mas profesional. Estas cifras no tienen nada de especial: simplemente res­ ponden a cuestiones prácticas. Sin lugar a dudas, uno de los hitos más importantes en el desarrollo elel audio digital fue la aparición a principio de los 80 de CD o compact disco Este formato fue propuesto por Sony y Phiplis en 1978 y adoptado en 1979, pero las investiga­ ciones sobre un soporte digital de audio por parte de estas empresas se remontan a 1973. Un cálculo inicial sobre la frecuencia binaria de un canal estéreo de cali­ dad indicaba la necesidad de grabar por encima de 1,2 Mbits/s. Utilizando un códi­ go de canal (la forma exacta en que se graban los hits) sencillo, donde dos bits representan un hercio, esto nos llevaría a 600 KHz de ancho de banda. Por otro lado, los magnetófonos de la época eran capaces de grabar sólo 20 KHz en el mejor de los casos. Hay una fórmula básica en física que dice que V=:A X f, es decir, que la velo­ cidad con que se propaga, graba, etc. una onda es igual a la longitud de dicha onda multiplicada por su frecuencia. Esto es aplicable a los magnetOfonos: la velocidad a que debe desplazarse la cinta en el magnetófono es proporcional a la longitud de la onda que queramos grabar en la cinta (representada por patro­ nes magneticos que cambian de intensidad y dirección) y a la frecuencia que tenemos que grabar. Ahora la longitud de la onda grabada en cinta no puede ser 300 301
  • 150.
    tan pequeña comoqueramos, ya que para poder ser recuperada por la cabeza lectora dicha longitud de onda ha de sel' claramente mayor que el entrehierro o "Bap" de la cabeza y hay un límite en lo que a tecnología de cintas y cabezas se refiere. Por tanto, si aumentamos la frecuencia de la señal a grabar (pasar de 20 KHz a 600 KHz es multiplicar por 30), tendríamos que aumentar proporcio­ nalmente la velocidad de paso de la cinta sobre la cabeza. Todo lo anterior significa que si queremos grabar en un magnetófono una señal de audio digital tendríamos que multiplicar por 30 la velocidad de la cinta. Esto generaría enormes problemas de aceleración, control de los servas, etc. Ademas ¡un carrete de cinta sólo duraria un par de minutos) En lugar de esto, los ingenie­ ros de Sony y Philips de mediados de los 70 buscaron algún aparato ya existente que fuera capaz de grabar anchos de banda como el que genera una señal de audio digital estéreo. Encontraron un equipo al efecto en el grabador de vídeo "U-matic", un formato de magnetoscopio, creado por Sony en 1971, que empleaba cinta de tres cuartos de pulgada en casete. Los magnetoscopios dedicados a la grabación de vídeo son capaces de grabar grandes anchos de banda, que se miden en MHz, gracias a que emplean el princi­ pio de rotación de cabezas; las cabezas de grabación se montan en cilindros que giran a gran velocidad, escribiendo pistas oblicuas en la cinta. En el caso del "U­ matic", la velocidad de paso de la cinta es de 9,5 cmls (bastante moderada), mien­ tras que la velocidad con que se escriben las pistas es de mas de 10 mis. La rota­ ción de cabezas hace que la velocidad efectiva cabezalcinta sea mas de 100 veces superior a la velocidad de paso de la cinta. Así el "U-matic" lograba grabar una hora de programa en una casete del tamaño de un libro mediano. El "U-matíc", de todas formas, no es un grabador de datos digitales, sino un gra­ bador de vídeo analógico. El truco, en este caso, consiste en formar con las mues­ tras de audio una especie de señal de seudovídeo, es decir, algo que al magnetos- Nivel de 1 O 1 1 O 1 O OO 1 O 1 O 1 1 O O 1 O 1 1 O 1 O 1 1 O 1 OO O 1 O 1 blanco - ~ ~ - - ­ i >i .... 1 o. I Nivel de negro :>Sincronismo f"l~i o:horizontal --l. Figura 10.5. Formación de una señal de vídeo a partir de los bits procedentes de las muestras de audio. copio le parezca vídeo, aunque en realidad se trate de bits que representan la señal de audio. Quizá algunos recuerden que los primeros onlenaJores domésticos (Spectrum, Commodore-64, etc.) utilizaban casetes de audio para grabar los pro­ gramas, es decir, generaban sei'lales de seudoaudio con los datos binarios. Resulta 'entajoso, a la hora de formar la señal de seudovídeo y a la hora de su recuperación, que cada línea de televisión contenga un número entero de mues­ tras. Igualmente es interesante que las muestras de los canales izquierdo y derecho se intercalen en las líneas de television, puesto que esto facilita la sincronización de los dos canales durante la reproducción. Con estas premisas el sistema para "mas­ terizar" los CD optó por grabar tres muestras del canal izquierdo, más otras tres del canal derecho, en cada línea de televisión. Conteniendo cada línea de television un número entero de muestras, queda claro que la frecuencia con que se suceden las muestras (frecuencia de muestreo) debe ser múltiplo de la frecuencia de líne­ as. De las 625 líneas que forman la señal de televisión en la norma europea, sólo se utilizan 588 para grabar audio digital, ya que no se pueden tocar la sincroniza­ cion vertical ni sus vecinas mas inmediatas. Ahora, 588 líneas multiplicado por tres muestras por línea y por 25 imágenes por segundo: 588 x 3 x 25 =44.100 mues­ tras por segundo. En la norma americana se utiliza: 490 x 3 x 30 =44.100. Paradojas de la vida: el origen de la frecuencia de muestreo de audio digital, en el formato más popular, está en la grabación de la señal de vídeo analógica. Por otro lado, el CD es, desde su origen, un formato dirigido al gran público y existían en su momento razones para pensar que podrían hacerse copias (por ejem­ plo, a un grabador DAT) de digital a digital. Por tanto, se pensó que los formatos profesionales deberían tener una frecuencia de muestreo distinta a la de! CD. En este caso se optó por 48.000 Hz como frecuencia de muestreo, ya que presenta dos ventajas. En primer lugar, es múltiplo de la frecuencia de campo de televisión (48.000/50 =960), lo que permite utilizar 10sVTR como másters y facilita la sin­ cronización con la señal de vídeo. En segundo lugar, mantiene una relación senci­ lla con la 32 KHz, que fue la frecuencia de muestreo propuesta en su momento para la radiodifusión digital. Además 48 KHz deja un margen más que generoso por encima de los 40 KHz que exige e! criterio de Nyquist. Aunque parece que una fre­ cuencia de muestreo de 48 KHz debería ofrecer mas calidad que otra de 44,1 KHz, no siempre es así, ya que a menudo se utilizan los mismos filtros de entrada y sali­ da en los dos casos. 2.1.4. Aliasin8 en audio Ya se ha visto, a propósito del criterio de Nyquist, cuáles son las causas del alia­ siDg y cómo evitarlo, pero a menudo surge la duda de ¿qué es exactamente el alia­ sing en audio y cómo se manifiesta? En otras palabras, ¿cómo reconocer una señal de audio que contiene aliasinB? De manera sencilla, el aliasina, que se produce siempre por submuestreo, supone sumar a la señal correcta otras señales indesea­ das y es, por tanto, una forma de distorsión. En concreto, si "S" es la frecuencia de muestreo, "F" es una señal de frecuencia superior a S/2 Y"N" es cualquier número entero, se crearán componentes de aliasinB con frecuencia Fa = ± NS ± F, es decir, 302 303
  • 151.
    TLC,'JOl()(;I: ,CllL1 111.II.U.q..,¡O:,­ la suma)' la resta de la frecuencia de entrada con cualquier múltiplo de la fre­ cuencia de muestreo. Como muestra la figura 10.6, se produce un solapamiento entre bandas latera­ les, que puede entenderse como un repliegue ele frecuencias fuera de banda, hacia la banda base de la señal de audio. Estas sei'iales replegadas producen un verdade­ ro batido con las seii.ales de audio, en especial con las altas frecuencias. Por ejem­ plo, supongamos que trabajamos con una frecuencia de muestreo de 40 KHz)' que se introduce en el circuito de muestreo una señal de 26 KHz. El primer componente de aliasin8 tendrá una frecuencia de 40 Khz - 26 KHz = 14 KHz. En otras palabras, una seii.aJ de entra<Ja de 26 KHz ha generado una señal de salida de 14 KHz; una señal no audible produce, por submuestreo, una señal fantasma de alta frecuencia per­ fectamente audible. Ningún equipo de audio digital será capaz de saber si se trata de una señal original de 14 KHz o si, por el contrario, es un producto de aliasin8' Zona de .. aliasing ji 1 fs 2fs 3fs . r-I "O ::J ;t: c.. ~1+4 h , ~i O 20/ 40 60 80 100 120 KHz 14 KHz . 26 KHz Frecuencia Figura 10.6. Los productos de aliasin8 se producen a frecuencias Fa := ± NS ± F. En realidad no se genera un único producto de aliasin8' Tal como indica la fór­ mula del párrafo anterior, obtendríamos sei'iales fantasma con frecuencias ele 40 KHz + 26 KHz = 66 KHz; 80 KHz - 26 KHz = 54 KHz; 80 KHz + 26 KHz = 106 KHz... , además de la ya citada de 14 KHz, aunque sólo esta última debe preocu­ parnos, ya que es la única que podra estar presente después de la conversión digi­ tal-a-analógiCo. Resumiendo, nos encontramos con la siguiente situación: dada una frecuencia de muestreo determinada (por ejemplo, 40 KHz), todas las señales de entrada hasta 20 KHz serán codificadas con su frecuencia correcta; si aumentamos la fre­ cuencia de la señal de entrada desde 20 KHz hasta 40 KHz, obtendremos en la sali­ _____---'l".,·] .lIdio difLtiil da seÍ'iales que descienden desde 20 KHz hasta O Hz; frecuencias de entrada desde 40 KHz hasta 60 KHz generarían salidas de Oa 20 KHz, etc. La sei'ial de salida es como un acordeón, que ya de Oa 20 KHz, luego de 20 KHz a O, de nuevo de Oa 20 KHz... En los ejemplos anteriores siempre hemos supuesto seila1cs de entrada simples, es decir, senoides puras. Los tonos complejos, como los generados por los instru­ mentos musicales, están formados por la suma de múltiples armónicos. En este caso las frecuencias de a]iasina se gene¡-an para cada uno de los armónicos. Por ejemplo, el segundo armónico de una forma de onda compleja, cuya fundamental sea de 10 KHz, tendrá una frecuencia de 20 KHz, la cual estaría en el límite si uti­ lizáramos una frecuencia de muestreo de 40 KHz, mientras que el tercer armóni­ co sería devuelto como una señal de 10KHz, reforzando la fundamental y cam­ biando el timbre del instrumento. En la mayoría de las ocasiones la fundamental y sus armónicos no serán sub­ múltiplos exactos de la frecuencia de muestreo. Por ejemplo, una señal de 6 KHz tendrá un cuarto armónico de 24 KHz, que generará un producto de alia­ sin8 de 16KHz, un quinto armónico generará aliasi1J8 a 10KHz, un sexto a 4 KHz, cte. Puesto que la amplitud decrece a medida que aumenta la frecuencia de los armónicos, el efecto, si se produce, sólo tiene un cierto peso en el caso de los pd­ meros armónicos. Por tanto, el aliasin8 genera esencialmente distorsión, en especial distorsión armónica. La solución, una vez más, es un buen filtrado previo al muestreo, res­ petando el criterio de Nyquist y, a ser posible, dejando un cierto margen de segu­ ridad que permita acomodar holgadamente los filtros. 2.2. La cuantificación Después del muestreo, el siguiente paso en la conversión de analógico a digital es la cuantificación. Ésta consiste en representar cada muestra de audio mediante un número, normalmente en formato binario. Así como el muestreo discretiza o limita la señal de audio en la dirección temporal (sólo existe en determinados ins­ tantes), la cuantificación discretiza la señal de audio en lo referente a las amplitu­ des (sólo están permitidos determinados valores de amplitud). Se puede decir que, mientras el muestreo preserva la información temporal, la cuantificación preserva las amplitudes, o que, mientras el muestreo se relaciona con el ancho de banda, la cuantificación hace lo propio con el rango dinámico. Los valores de amplitud que están permitidos son aquellos que pueden repre­ sentarse con un número predeterminado de bits. Por ejemplo, si sólo pudiéramos usar cuatro bits para representar cada muestra, dispondríamos de 16 posibles valo res (24= 16). Con cinco bits dispondríamos de 32 posibles niveles de cuantifica­ ción; con seis bits, de 64, etc. La cuantificación, por tanto, mide y codifica cada ins­ tante de tiempo. En la cuantificación, tal como sucede con cualquier tipo de medi­ da, la precisión queda limitada a la resolución del sistema. Si medimos longitudes con una cinta métrica que está tarada en milímetros, ésa será nuestra precisión: un milímetro. Si queremos más precisión, tendremos que usar un "pie de rey", capaz 30S 304
  • 152.
    Tt:( 'NOI oc!.'.ACTUAL Ilr TI:I E,ISlc)N de precisar décimas de milímetro, etc. Esta limitación en la resolución de las mues­ tras supone la generación de errores de medida que, como se verá un poco más adelante, pueden entenderse como la introducción de ruido. Para mejor entender los efectos de la cuantificación y de los errores que durante esta se introducen, veamos el siguiente ejemplo: supongamos que disponemos de dos cronómetros, uno analógico y otro digital. Con ambos instrumentos medimos a la vez la duración de un suceso determinado. La precisión que obtendremos con e! cro­ nometro analogico depende de nuestra agudeza visual y de nuestra capacidad para deducir la posición de la manecilla, parada entre dos marcas proximas de la esfera. La precisión obtenida con el cronómetro digital depende de su capacidad para mos­ trar fracciones de segundo, la cual se determinó durante el proceso de diseño de! aparato. Con e! cronómetro analogico podríamos haber obtenido una medida de 2 min., 12 seg., 5 décimas. Con un cronómetro digital barato podríamos haber obte­ nido 2 min., 12 seg. ; con otro cronómetro un poco mejor, 2 min., 12 seg., 7 déci­ mas; con uno muy bueno, 2 min., 12 seg., 72 centésimas. Además si dos personas miran la esfera del cronómetro analógico es muy posible que den dos medidas dis­ tintas para las décimas interpoladas; en cambio, ¡no es posible que lean dos valores digitales distintos! El error en la medida analógica es aleatorio, ya que depende de variables físicas no controlables, tales como la balística de la saeta de! reloj o la capacidad de un observador humano para interpolar valores. El error en el dominio digital no es aleatorio, sino que depende de la precisión con que se haya diseñado el sistema. En e! caso de! cronometro, depende del número de dígitos decimales que se muestren en la pantalla; en el caso del audio digital, depende de! número de dígitos binarios (bits) que se utilicen en la representación de las muestras. En cualquier sistema de medición digital el último dígito es siempre una apro­ ximacion, por defecto o por exceso, al valor real o, lo que es lo mismo, un redon­ deo. Un medida, de por ejemplo, 26,672 se representaría como 26,7 en el caso de que la precisión estuviera limitada a un decimal, o como 26,67 si permiten dos decimales. El error mínimo posible es cero y se da cuando, por casualidad, los dígi­ tos no representados son cero; e! máximo error es igual a '/2 del dígito represen­ tado de menor peso. La cuantificación consiste, por tanto, en medir un suceso analógico para con­ vertirlo en información numérica, que, en e! caso de! audio digital, es, por supues­ to binaria. Al igual que sucede con el cronómetro, la precisión de la medida depen­ de de la cantidad de dígitos utilizados para representarla. Así como el muestreo es, si se toman las precauciones adecuadas, un proceso sin pérdidas, en la cuantifica­ ción siempre se producen errores, es decir, sí se introducen pérdidas. Por otro lado, tales pérdidas o errores se pueden minimizar hasta que resulten irrelevantes. 2.2.1. La relación señal a ruido de cuantificación En television nunca ha sido muy importante el valor del ruido en terminas absolutos. En lugar de esto, prefiere utilizarse otro parámetro: la relación señal a ruido o, abreviadamente, SNR. Este parámetro nos indica cuántas veces la señal es El audiu di.ital mayor que el ruido, lo cual es mucho más significativo, ya que e! ruido, al ser una perturbación o interferencia, puede ser enmascarado por la sel1al si ésta es sufi­ cientemente alta. En el sistema de numeración decimal (el que normalmente utilizamos los humanos) el número de "alores (V) que se pueden representar depende del núme­ ro de dígitos (n) empleados, según la expresión V = 10"; así, por ejemplo, con tres dígitos decimales podemos expresar 103 =1.000 valores distintos; con cuatro dígi­ tos decimales, 10' == 10.000, etc. Igualmente con el sistema de numeración bina­ ria podemos representar hasta 2" valores, siendo "n" el número de dígitos binarios o "bits" utilizados para representar las muestras. Tabla 10.1 Relación entre el número de bits empleados y el número de posibles valo­ res de cuantificación. N. o de bits Potencias de dos Valores minimo y máximo Combinaciones 1 2' 0-1 2 2 3 2' 2' 00-11 000-111 4 8 4 5 2' 2' 0000-1111 00000-11111 16 32 6 2' 000000-111111 64 ... ... ... 10 2'0 0000000000-1111111111 1.024 ... ... ... ... 16 2" 0000000000000000­ 65.536 1111111111111111 ... '" 20 2'" 00000000000000000000­ 1.048.576 11111111111111111111 ... ... 24 2" 000000000000000000000000 16.777.216 -111111111111111111111111 Como puede verse en la tabla 10.1, con cada bit extra añadido en la represen­ tación de las muestras se dobla la cantidad de combinaciones o valores de cuantifl­ cacion posibles. Está claro que cuantos más bits se utilicen en la representación de las muestras, mayor será la precisión. Con 6 bits sólo podremos dividir la amplitud de la señal analogica en 64 niveles distintos; con 10 bits dispondremos de 1.024 niveles; con 16 bits, más de 65.000 niveles, etc. En la figura 10.7 la señal analogica ha sido muestreada a una cierta frecuencia (lit) Y cuantificada con sólo dos bits. Esto proporciona un número dc niveles de cuantificación N == 4. El número de intervalos de amplitud entre los niveles máxi­ mo ymínimo es igual a N - 1 =4 - 1 == 3. Un intervalo de cuantificación "q" puede definirse como S/(N - 1), siendo S el nivel de amplitud de la señal analógica. En cada instante de muestreo el conversor A/D tiene que tomar la clecisión de otorgar un valor digital a cada valor de amplitud de la señal analógica. Para eH.o establece un umbral de decisión, situado justo entre dos valores digitales permltl­ 306 307
  • 153.
    --------------- , , TEC~()LOGI,' ..t"'fU.L1)1. lTL';;'I~IÓN Señal muestreada decisión y cuantificada Umbrales de Señal original ~ 11 --- __ ~:".)- I ;=;::: --------J-.----4- -• /10 -.-..,...l .. ,q 3" . =ªQ. E « 01 : ., ­ 2 i -f --.1-. 00 _.~ J _ . __ L_ •. , _ ~ ~!J Tiempo ----------.. eError de cuantificación r----r-Y I I I , .1 I Figura 10.7. Relación entre la senal analógica, los niveles digitales, los intervalos y el error de cuantificación. dos. Si en ese instante de muestreo la seíi.al analógica tiene un nivel superior al del umbral, el conversor optará por el nivel digital inmediatamente superior; en caso contrario, se decidirá por el inmediatamente inferior. De esta forma el conversor AID comete un error, cuyo valor máximo es de ± 1/2 q o, en terminas absolu­ tos, "q". Esto es lo que representa la parte inferior de la figura 10.7. A medida que añadimos bits en la representación de las muestras, el número de niveles aumenta y el error se reduce exponencialmente. Con 6 bits por muestra el error será de 1/63 S; con 16 bits, 1165.535 S, Ycon 20 bits el error será menor que una millo­ nésima parte de la señal analógica de entrada. Por tanto, a partir de ún cierto número de bits el error, en comparación con la señal (que es lo que interesa) puede considerarse como irrelevante. Podemos entender el error de cuantificación como un ruido o señal indeseable que se añade a Ja señal útil. En radio y televisión nos interesa poder expresar la relaci6n entre la señal original y el ruido de cuantificación introducido en decibe­ lios. Puesto que estamos trabajando con voltajes, la fórmula que tendríamos que aplicar es: S SNR (dB) = 20 log­ N Por otro lado, hemos visto que con cada bit que añadimos el ruido se reduce a la mitad o, lo que es lo mismo, la relación S/N se dobla. Si sustituimos S/N por 2, podremos expresar la fórmula anterior en función del número de bits "n" emplea­ dos: SNR ::: 6n; puesto que 20 veces es logaritmo decimal de 2, es aproximada­ mente 6. En otras palabras, la relaci6n señal a ruido de cuantificación es igual a 6 veces el numero de bits empleados en la representación de las muestras. ____--'l~:l~,lUJit)d..;g_!J~ La señal de entrada es analogica, pero el ruido producido es de origen digital. Esto cambia un poco las cosas con respecto al caso de trabajar con seii.ales y ruidos de carácter analógiCO. En concreto, no se trabaja directamente con los "alol-es de voltaje de la señal)' del ruido, sino que se divide el valor RMS de la señal por el ,'alar de energla del ruido, dependiendo este último no sólo de "q", sino también de la probabilidad de ocurrencia de todos los valores de error, desde Ohasta ± '! 2 "q". ASI, finalmente, se obtiene la formula: SNR ::: 6,02n + 1,76 dB El rango dinamico de una señal de audio se entiende como el rango dE' niveles de volumen o sonoridad que se cubren correctamente en un sistema de comuni­ cación, normalmente expresados en decibelios, y viene determinado por la rela­ ción entre el umbral de ruido y el máximo nivel reproducible sin distorsión. En audio tradicionalmente se ha considerado como "muy buena" una señal cuyo rango dinamico este por encima de los 90 dB, Utilizando 16 bits por muestra obtendre­ mos: 16 x 6,02 + 1,78 dB ::: 98,1 dB. Nótese que si hubieramos utilizado la fór­ muja simplificada de SNR = 6n, el resultado sedan 96 dB en lugar de 98,1, lo que significa que en la practica la fOrmula simplificada es perfectamente válida, La mayoría de las aplicaciones de audio digital trabajan con 16 bits por mues­ tra. El interfaz de audio digital AES/EBU permite utilizar 20 e incluso 24 bits por muestra, lo que dada una relación señal a ruido de cuantificación de 122,18 Y 146,26 dB, respectivamente, aunque las más de las veces los interfaces AES/EBU sólo transportan 16 bits por muestra. Volviendo al ruido de cuantificación, puede ser aclaratorio el siguiente ejemplo: supongamos que tenemos que digitalizar una señal de audio de, por ejemplo, 2 Vpp. Para simplificar, utilizaremos 8 bits por muestra, de manera que a los cero voltios le corresponda el valor binario 00000000 (O decimal) y a los 2 voltios el 11111111 (255 decimal). Con estos valores habrá 256 c6digos para representar 256 valores, que abarcan 255 intervalos de cuantificación. Cada intervalo cubrid 2 V1255 ::: 0,00784 Va 7,84 mY. Si en un instante de muestreo determinado la señal de entrada vale exactamente 1,6 V, su valor de cuantificación será 255 x 1,6/2 ::: 204, es decir, a la tensión de entrada de 1,6 V le corresponde el valor exacto de salida 204, que se expresa en binario como 11001100. En este caso la cuantificación habría sido perfecta y no se habda producido ningún error. A 1,60784V le corresponde el valor 205 (11001101 en binario), que también es un código exacto. Por otro lado, a un valor de voltaje de entrada de 1,60392 V le corresponde el valor decimal 204,5, que no puede expresarse con ocho bits, por lo que debe truncarse a 204 o a 205, cometiendose, en cualquier caso, un error de medio intervalo de cuantificación, El ruido de cuantificación puede entenderse como una señal de error, con valo­ res entre +1/2 q Y-1/2 q, que se suma a la señal de entrada. Este error o ruido de cuantificación es distinto de! ruido de la señal analógica, ya que, mientras que este último es aleatorio, e! debido a la cuantificación depende del valor de la señal de entrada, ya que no es otra cosa que la diferencia entre los valores de la señal de entrada en los instantes de muestreo y los valores de cuantificaci6n permitidos. Por tanto, más que ruido deberla clasificarse como una forma de distorsión. Un análí­ 309 308
  • 154.
    TEl'NOI ()(i1A -CTU-IIlrTH l'IS/O:'. sis matemático del error de cuantificación demuestra que la distorsión no depen­ de del rango de amplitudes que se esté codificando en un momento dado, sino de la amplitud de los peldaños de cuantificación, es decir, de "q". Por tanto, cuanto mayor sea el número de intervalos de cuantificación, menor será la distorsión. Ahora bien, lo realmente importante no es el numero total de peldailos de cuanti­ ficación que un sistema determinado permita, sino los que realmente se usen para codificar la señal. Dicho de otra forma, la distorsión introducida por el ruido de cuantificación es más notable, como era de esperar, en los pasajes de bajo nivel que en los "fortísimos". La conclusión es que, aunque el error de cuantificación es en esencia una especie de ruido que introduce el conversor A/D y que como tal debe entenderse en la mayoría de las ocasiones, tal ruido es distinto del analógico-alea­ torio y puede también entenderse como una forma de distorsión, tanto más moles­ ta cuanto más bajo sea el nivel de la señal a codificar. 2.2.2. CuantificaCión diferencial y no lineal Existen otras formas de codificar las muestras de audio, además de la explicada en los párrafos precedentes. Aunque no se aplican en producción o posproducción de audio digital, existe una familia de sistemas, llamados de "codificación diferen­ cial", que tienen su aplicación en ciertos sistemas de transmisión o cuando se quie­ re grabar audio con baja tasa binaria. Dentro de la familia de sistemas de codificación diferencial, uno de los más populares es la modulación delta. Es ésta una forma especial de modulación dife­ rencial de impulsos, en la cual el valor actual de la muestra de la señal de entrada es comparado con el valor de la muestra precedente. Si el valor de la muestra ante­ rior era menor (la señal sube), se codiflca con un estado binario (por ejemplo, un 1). Si el valor era mayor (la señal baja), se utiliza el otro estado binario (en este ejemplo sería un O). De esta forma sólo se emplea un bit por cada período de muestreo. Para evitar errores de pendiente (la señal de entrada cambia' más rápi­ damente de lo que es capaz de indicar el bit codificado), la frecuencia de muestreo de un sistema delta debe ser muy superior a la de un sistema PCM (Pulse Code Modulacion). Existen también sistemas de cuantificación no lineal, en los que, una vez que la señal ha sido muestreada, se procede a cuantificar las muestras, pero de manera que el tamaño de los pe!daños o niveles de cuantificación es desigual: más pequeño para los valores bajos de la señal de entrada y mayor para los niveles altos. La intención tam­ bién en este caso es ahorrar bits. Utilizando cuantiflcación lineal, es decir, como se ha explicado en los párrafos anteriores, el error medio cometido es independiente de! nivel de la señal de entrada y vale siempre 1/(2" ~ 1) partes de la señal, siendo "n" e! número de bits empleados para cuantificar las palabras de audio. Ahora bien, la per­ cepción de! error es mucho más evidente en los pasajes de bajo nivel que en los de nivel alto, ya que en e! primer caso la pl"Opia señal útil enmascara e! ruido. Si utiliza­ rnos menos bits (por ejemplo, 10 o 12 en lugar de 16), el ruido durante los pasajes bajos será intolerable, a no ser que empleemos un sistema de cuantificación que divi­ da la señal de entrada en peldaños, cuya altura sea proporcional al nivel de la propia El audio divital señal de entrada: pequeños para los niveles de cuantificación menores y grandes para los niveles de cuantificación más altos. Esto es lo que hacen los sistemas de cuantifica­ ción no-lineal, de manera que, si bien generan señales de error o ruido variable, man­ tienen constante la relación señal a ruido que, desde e! punto de vista perceptivo, es lo que interesa. De todas formas estos sistemas de codificación alternativos, cuya intención es la de ahorrar bits, están cayendo en desuso, ya que la modernas técnicas de compresión, basadas en sofisticados algoritmos matemáticos y en complejos mecamsmos de enmascaramiento, permiten reducciones de datos muy superiores. 2.3. Códigos ponderados y no ponderados La señal de audio suele se bipolar, es decir, está formada por hemiciclos positi­ vos y negativos, centrados en cero voltios. Por esto la mejor manera de codificar la señal, pensando en posteriores procesados, es otorgar a cero voltios el valor digi­ tal cero, valores negativos a los niveles de entrada negativos y valores positivos a los niveles de entrada positivos. Por otro lado, los números negativos son un pro­ blema, ya que el signo debe ser codificado junto con los otros bits que representan la cantidad. Se podría, por ejemplo, emplear un" 1" en la parte de mas a la izquier­ da para indicar que se trata de una cantidad negativa y un "O" para indicar positivo. Aunque las maquinas digitales no empleen el sistema decimal, puede ser con­ veniente para los humanos disponer de un código binario que esté directamente relacionado con el sistema decimal, de forma que a cada dígito decimallc corres­ ponda una combinación binaria de ceros y unos. Con tres bits podemos codiflcar hasta ocho valores diferentes, lo que resulta insuflciente para los diez digitos deci­ males que queremos codificar. Con cuatro bits las combinaciones se elevan a 16; no queda más remedio que coger la opción por exceso y emplear cuatro bits. Hay muchas formas de codificar cuatro bits para representar los diez dígitos decimales. Ya que se dispone de muchas opciones, lo mejor será emplear las que proporcio­ nen más ventajas. Por ejemplo, un buen código debería facilitar las operaciones aritméticas, la corrección de errores, reducir el espacio de almacenaje necesario y la complejidad de la circuitería lógica. En los códigos ponderados (que a menudo ofrecen ventajas sobre los no pon­ derados) cada posición de bit representa un valor decimal. La cantidad representa­ da se obtiene sumando los valores ponderados de cada bit. En el código BCD (BinaIY Coded Decimal) se emplean cuatro bits para representar cada valor decimal. El bit de más a la izquierda tiene peso 8; el siguiente a la derecha, 4; el siguiente, 2, Yel de más a la derecha, 1. La tabla 10.2 muestra este código (también llamado 8-4-2-1), junto con otros códigos como el "exceso-3", el "2-entre-S" y e! "código Gray". De todos ellos, sólo e! "BCD" es un código ponderado. En algunas aplicaciones se prefieren los códigos no ponderados, en los cuales la posición del bit no indica directamente un valor a sumar a la cantidad final. El códi­ go "exceso-3" se obtiene sumando 3 (0011) al código "8-4-2-1". De esta forma no se emplean los valores binarios comprendidos entre "O" y"9", sino los que van del "3" al "12", con lo cual el código queda "centrado" con respecto a los 16 valores 310 311
  • 155.
    I[c~pL()(JI.' .'CTlJ~1 DIITLl:·I~IO: posibles. Además se asegura de esta forma que todas las combinaciones utilizadas tendrán, al menos, un "1 ". El codigo 2-enlre- 5 emplea 5 bits pal-a cada palabra, con lo que resulta menos eficiente en términos de necesidades de almacenamiento. Su yentaja es que pre­ senta una regla de codificación muy clara: cada palabra esta formada por dos unos y tres ceros. Esto permite la deteccion de errores, ya que cualquier error indivi­ dual supondría que la palabra contendría un soja uno o tres unos. El codigo Gray se caracteriza por e! hecho de que sólo cambia un bit de una palabra dada a la siguiente, de manera que un "contador" que iniciara la cuenta en cero sólo tendría que alterar el valor de un bit en cada incremento. Una desventa­ ja de los códigos no ponderados es que, en general, el valor decimal que les corres­ ponde no puede ser calculado aritméticamente a partir del codigo hinario. En lugar de esto se suele emplear el método de "consultar tablas". Tabla 10.2 Varios ejemplos de códigos binarios ponderados y no ponderados. D/GITO CÓDIGO CÓDIGO CÓDIGO CÓDIGO DÉCIMAL 8-4-2-1 EXCESO-3 2-ENTRE-S GRAY o 0000 0011 00011 0000 1 0001 0100 00101 0001 2 0010 0101 00110 0011 3 0011 0110 01001 0010 4 0100 0111 01010 0110 5 0101 1000 01100 1110 6 0110 1001 10001 1010 7 0111 1010 10010 1011 8 1000 1011 10100 1001 9 1001 1100 11000 1000 2.3.1. Complemento a dos Ya se ha comentado anteriormente la dificultad de representar números nega­ tivos. El método de codificacion "complemento a dos" proporciona una represen­ tación eficaz para este tipo de números. Como se ha visto en capítulos anteriores, es fácil evitar los valores negativos en la señal de vídeo digital. Para ello basta con otorgar el valor digital positivo y más pequeño al nivel mínimo de la señal analo­ gica. Esto es posible porque la señal de vídeo analogica es "unipolar". Por el contrario, la señal de audio es bipolar y generalmente "simétrica", de manera que presenta por igual valores positivos y negativos. La eodifieacion "com­ plemento a dos" tiene su aplicación sobre todo en la representacion de! audio digi­ tal, aplicacion en la que presenta numerosas ventajas. Por ejemplo, cuando los números binarios se procesan y almacenan en su forma complementada, tanto la suma como la resta pueden lograrse utilizando la misma circuitería. La aritmética binaria puede presentar problemas cuando se desea, por ejemplo, almacenar el resultado de una operacion. Supongamos que estamos trabajando con tres bits y deseamos sumar los números 100 Y 111. Vemos que el resultado es _________. lLillJ~lliulli;.li~l.i 1011. El problema es que en la célula de memoria, donde queremos almacenar el resultado, sólo caben tres bits, de manera que no podemos almacenar e! bit de más a la izquierda, que es producto del acarreo, con lo que tendríamos que almacenar "O 11 ". Se dice entonces que se ha producido un "dcsbordamiento". El problema de! desbordamiento es propio de todos los sistemas que trabajan con un número fini­ to de dígitos. Podríamos representar la suma de dos números, por ejemplo 7 y 5, colocando dos segmentos de longitud adecuada uno detrás de otro, formando una línea recta. Si trabajamos con un número finito de dígitos, podría ser más aclecuado conectar los dos segmentos formando un círculo. 01111111 0000 0111 1000 1111 0000 1000 Desplazamiento Complemento binario a dos Figura 10.8. Señal senoidal con codificación por desplazamiento binario (a la iZCJuierda) y con comple­ mento a dos (derecha). Si sumamos 710 (1 J1,) Y510 (10 1') con este sistema, el resultado será 4 10 (100,), que corresponde a la zona de solapamiento de los dos sumandos, en la reprcsenta­ cion circular. Estc tipo de operaciones se denomina "aritmética modular" y, aunque parezca muy teorico, lo usamos cada día cuando decimos, por ejemplo, que son la "seis de la tarde". En realidad, son las "seis modulo 12", o las "18 modulo 24", etc. El resultado obtenido antes puede calcularse aritméticamente, restando de la "suma normal" 2", siendo "n" el número de bits empleado; en nuestro ejemplo, tra­ bajando con tres bits, restaríamos 8. Dos números que proporcionen e! mismo resto al ser divididos por el modulo se dice que son iguales. Por ejemplo, 10 = J8 modo 8, ya que ambos producen un resto = 2. El complemento de un número se forma restando cada dígito de la "hase­ 312 313
  • 156.
    TECNO! OGIA ACIllAI DE TlI.r'ISIO~ menos-l" y ai1adiendo 1 al dígito menos significativo. Por ejemplo, e! "comple­ mento a la" de! número 43 es 57 y se obtendría restando de 9 (la base 1O menos 1) el 3 de las unidades, con lo que obtendríamos un "6" para las unidades. A conti­ nuación restaríamos e! 4 de 9 y obtendríamos un 5 para las decenas. Así tendría­ mos como resultado provisional e! número 56; sumándole 1 a las unidades obten­ dríamos 57. Dos números complementarios suman siempre una potencia exacta de la base. En nuestro caso, al trabajar con dos dígitos decimales: la' == lOO. Trabajando en binario el método es más sencillo. Todos los números positivos comienzan por cero y todos los negativos por l. a) Conversión de binario a complemento a dos. Números positivos Añadir ceros al inicio para indicar el bit de signo. Ejemplo: lOO, == 410 == alOa,," Números negativas Añadir ceros al inicio hasta igualar la longitud definitiva. Invertir todos los bits. Sumar uno. Ejemplo: la, == 2'0 añadiendo los ceros iniciales 0010, invirtiendo 1101 y sumando 1: 1110le ==-2 b) Conversión de complemento a dos a binario. Si el "MSB" (BIT más significativo) == 1 (números negataivos). Invertir todos los bits y sumar uno. Ejemplo: 1001 invirtiendo todos los bits: olla y sumando 1: 0111. Nótese, en el ejemplo anterior, que hemos pasado de 1001 (-7) a 0111 (7), con lo que hemos perdido el signo. Los números que en el sistema de complemento a dos comienzan con cero tienen la misma representación en el "metodo directo", también llamado "codificación con desplazamiento". Trabajando con el metodo de "complemento a dos", las señales de audio digi­ tal quedan representadas, con respecto a un punto medio, igual que las'analógi­ caso De esta forma es posible, por ejemplo, "mezclar" dos señales digitales, sumando simplemente sus valores. Si se desea atenuar una señal a la mitad (- 6 dB) bastará con dividir el valor de las muestras complementadas por dos, etc. 2.4. El dither Siempre que se cuantifica se producen errores por redondeo. Aunque la ampli­ tud de estos errores es muy pequeña, es necesario considerar sus efectos si quere­ mos obtener la máxima calidad en la reproducción de la música. El dither es una señal de bajo nivel, generalmente formada por ruido blanco con una amplitud inferior a un nivel de cuantificación (típicamente entre '/l Y'/, pico-a­ pico), que se suma a la señal analógica antes de ser muestreada. El dieher asegura que incluso la señal más pequeña cruzará, al menos, un nivel de cuantificación, de mane­ ra que los períodos adyacentes corresponderán a niveles de muestreo distintos. Cuando la señal de audio presenta altos niveles, el error de cuantificación es pequeño y puede entenderse realmente como ruido. A medida que la señal se hace más peque- El audio dipital ña, el error de cuantificación se hace más importante y comienza a correlacionarse con la señal, es decir, el error deja de ser aleatorio y pasa a ser una función de la señal, lo que significa que el ruido de cuantincación se convierte en distorsión. Para entender el efecto de! dicher, puede ser interesante revisar la siguiente situación: supongamos una seña senoidal con una amplitud pico-a-pico entre '/, Y un nivel de cuantificación (figura 10.9-a). Pueden pasar dos cosas (dependiendo del nivel medio de la señal): o que nunca cruce el umbral entre dos niveles (y, por tanto, se codificaría como una señal de OC) o que sí cruce dicho umbral (lo que generaría una señal rectangular). En el primer caso perdemos la información; en el segundo, la distorsionamos (figura IO.9-b). Umbral de Decisión, IblllJ l I (e) Figura 10.9. Efecto de adición de dicha a una señal senoidal de muy bajo nivel. Antes de la conversión A/D sumemos un poco de ruido aleatorio a la señal senoidal (figura 1O.9-c). Los picos del ruido, distribuidos al azar, harán que la señal cuantifkada cruce aleatoriamente los umbrales de cuantificación. Seguid siendo una onda rectangular, pero se habrá producido una especie de modulación de anchura de pulsos extra (figura 1O.9-d) que, al ser promediada por el oído, volve­ rá a reconstruir algo similar a la señal senoidal original. 3. Interfaces digitales para audio De poco serviría disponer de señales digitales si cada vez que una máquina reproductora tiene que enviar la señal de audio a otra, la primera tuviera que reconvertir dicha señal a analógica, mientras que la grabadora tuviera que vol­ 315 IdlUJUfllm lJ 314
  • 157.
    Trc:-.;'oLo<.;I: :CTUAL nr.lTLl.:'I"[O:' ver a convertir la s6ial a digital para grabarla como ceros y unos. Lo que hace falta es una norma de comunicación digital o "protocolo" que determine el orden en que se envían los bits, los niveles de tensión que los representan, las impedancias, conectores, etc. Esto se conoce como interfaz y, en el caso del audio digital, se dispone de dos interfaces o normas: el SPDlF y el AES/EBU. También veremos algo sobre el interfaz MADI, diseñado para encaminar múlti­ ples canales de audio digital sobre un único cable coaxial. Aquí veremos prime­ ro el AES/EBU, ya que no sólo es más antiguo, sino que es el único verdadera­ mente profesional. 3.1. El interfaz AES/EBU El interfaz adoptado por AES/EBU está destinado a la interconexión de señales digitales de audio en estudio mediante cables de hasta unos centenares de metros de longitud. La frecuencia básica de muestreo de la señal digital de audio es de 48 KHz, capaz de proporcionar una banda pasante de más de 20 KHz, aunque sopor­ ta también otras frecuencias de muestreo, como 32 KHz y 44,1 KHz. Por supues­ to, se dispone de métodos para señalar qué frecuencia de muestreo se está utili­ zando en cada caso. La resolución de las muestras será variable, con un mínimo de 16 bits (lo que proporciona una dinámica de 98 dB) Yun máximo de 24 (146 dB). Este interfaz está principalmente concebido para encaminar señales monofóni­ cas o estereofónicas en estudio, con las características de muestreo y cuantificación citadas anteriormente. Como se ha dicho, puede utilizarse también para uno o dos canales muestreados a 32 KHz e incluso para canales muestreados a 44,1 KHz. Junto con los datos de programa se transmiten también una referencia de reloj e informaciones auxiliares. 3.2. Terminología Para simplificar la explicación y facilitar la comprensión es conveniente fijar el vocabulario o terminología utilizada: Frecuencia de muestreo.-Es la frecuencia con que se toman muestras de la señal ana­ lógica de audio en el proceso de digitalización. Cuando se transmiten dos señales a través del mismo interfaz, éstas deberán tener la misma frecuencia de muestreo, es decir, no es posible transmitir e! canal izquierdo con una frecuencia de 48.000 pala­ bras por segundo y e! derecho con 44. 100 palabras por segundo Palabra de muestra de audio.-Representa la amplitud de una muestra de audio digital, es decir, se trata de! código de 16, 20 o 24 bits que representa la amplitud de una muestra puntual del canal izquierdo o de! derecho. La representación es lineal (todos los peldaños de la misma amplitud), en forma binaria y con comple­ mento a dos. Los números positivos (comienzan con O) corresponden a tensiones lógicas positivas a la entrada del conversor analógico digital. Los números negati­ vos (comienzan con 1) corresponden a tensiones negativas. El número de bits atribuidos a cada palabra es de 24 o de 20. Si la fuente pro­ porciona menos bits de los que requiere e! interfaz (lo cual es muy frecuente, ya _______________________________~EI audiu digilil que la mayoría de las fuentes sólo trabajan con 16 bits por muestra), los bits menos significativos (LSB) no utilizados se pondrán a O lógico. Bondera de mlidcz.-Cada muestra de audio incorpora W1 bit de validación (bandera de validez), el cual indica si la muestn es fiable o no. No se trata de W1 sistema de correc­ ción de errores, sino de una simple indicación que senirá para que el receptor tome la decisión pertinente, como, por ejemplo, interpolar el valor de la muestra actual, o enmudecer si el número de muestras erróneas seguidas es demasiado alto. También se utiliza para indicar el modo de funcionamiento en un solo canal (monofónico). Estado del conal.~Es una estructura fija de infOl-mación, basada en paquetes de 192 bits obtenidos a partir de un único bit por cada muestra de audio. Esta infor­ mación se relaciona con cada canal audio y puede ser decodificada por cualqUier interfaz de usuario. Como ejemplos de informacion de la sei'íal de estado de! canal se pueden citar: longitud dc las palabras de las mucstras de audio, indicación de preacentuación, la frecuencia de muestreo, los códigos de tiempo y códigos alfa­ numéricos de origen y destino. Datos de usuario.-La estructura dcl interfaz digital prevé un canal de datos de usuario para la transmisión de cualquicr otra información que pueda interesar al usuario. No se imponen limitaciones a la organización de los bits de usuario, aun­ que ofrece ventajas adoptar una estTuctura normalizada. Bits de paridad.-Cada muestra de audio incorpora un bit dc paridad, e! cual per­ mite la detección de un número impar de errores, debido al funcionamiento inco­ rrecto del interfaz. Preámbulos.-Los preámbulos son esquemas específicos (grupos dc bits con valor fijo) para la sincronización. Se trata de patrones dc bits que no se pueden encon­ trar en los valores PCM de las muestras y que se sitúan al inicio de cada palabra. Existen tres tipos de preámbulo: de trama, de subtrama y de bloque_ Subtrama.-Es una estructura fija, utilizada para llevar la información descrita en palabra de muestra de audio y preámbulos. Cada canal de audio se relaciona con una subtrama. Así existe una subtrama para e! canal izquierdo y otra para el dere­ cho o una para e! principal y otra para el secundario, etc. Una subtrama está com­ puesta por el preámbulo, hasta 24 bits de la muestra de audio y cuatro bits auxi­ liares. En todo período de la frecuencia de muestreo dc la fuente se transmiten secuencialmente dos subtramas, una para cada canal de audio. Trama.-La trama es una secuencia de dos subu-amas, una para cada canal. Una U"ama corresponde a un período de muestreo y lleva información dc los dos canales que conforman la señal de audio digital AES/EBU. Por tanto, está formada por dos palabras de muestra de audio, dos preámbulos y dos conjuntos de bits auxiliares. Bloque.-Con 192 tramas consecutivas (que corresponden a 192 períodos dc muestreo) se forma un bloque. El comienzo de un bloque se identifica mediante un preámbulo especial. La estructura de bloques es muy útil para codificar la infor­ mación de estado y la de usuario. Codificación del canal.-La codificación del canal describe el método mediante e! cual se representan las cifras binarias para su transmisión a través del interfaz, es decir, la forma eléctrica exacta de la señal de audio, tal como se transmite por el interfaz. El procedimiento es el denominado "marca bifase". 316 317
  • 158.
    TrC"JOI OCIA ACTUAlD1: Tri rq';;lo,,-: 3.3. Estructura del interfaz Este interfaz está pensado para encaminar dos señales de audio digital multiple­ xadas en el tiempo. Las dos seilales pueden estar relacionadas entre ellas (por ejem­ plo, en el caso de un canal estereofonico) o ser totalmente independientes. El interfaz AES/ EBU se basa en la utilización de tramas y subtramas. Una subtrama no es otra cosa que una muestra de audio, ya sea del canal izquierdo o del derecho, del canal primario o del secundario, etc., a la que se han añadido unos pocos bits al inicio para sincronización y unos pocos bits al final como información auxiliar. 3.3.1. Estructura de la subtrama Cada subtrama se divide en 32 intervalos de tiempo iguales (períodos de bit), numerados del Oal 31 . Los intervalos de tiempo O al 3 corresponden a uno de los tres preámbulos permitidos, denominados X, Y o Z, segun identifiquen una trama, una subtrama o un bloque. Los intervalos de tiempo 4 al 27 llevan la palabra de la muestra de audio en representacion lineal (todos los peldailos de igual altura) con complemento a dos (los valores positivos comienzan por Oy los negativos por 1). El intervalo de tiem­ po 27 corresponde al bit más significativo de la muestra de audio (MSB). Cuando se cuantifica con 24 bits, el LSB (bit menos significativo) corresponde al intervalo de tiempo 4. Cuando se cuantifica con 20 bits, el LSB corresponde al intervalo 8 y los inter­ valos 4 a 7 pueden ponerse a cero o destinarse a otras aplicaciones (canal de audio de calidad "comentarios", por ejemplo). En estas circunstancias los bits en los intervalos de tiempo 4 a 7 se denominan "bits auxiliares de la muestra". Los datos del estado del canal informan, entre otras cosas, de la longitud de las pa)abras de las muestras de audio. Si la fuente suministra menos bits de los que permite e! interfaz (20 o 24), los bits menos significativos no utilizados deberán ponerse a cero lógico. Mediante este pro­ cedimiento pueden interconectarse equipos que utilizan distinto nUmero de bits: • El intervalo de tiempo 28 lleva la bandera de validez asociada a la palabra de la muestra de audio. Esta bandera se pone a cero si la muestra de audio es fia­ ble y a uno en caso contrario. • El intervalo de tiempo 29 es un bit de! canal de datos de usuario asociado al canal de audio transmitido en la misma subtrama. Éste es e! bit con e! que se obtienen los paquetes de 192 bits que transportan la información de! canal, de la que se ha hablado en un párrafo anterior. • El intervalo de tiempo 30 lleva un bit de la palabra de estado de! canal aso­ ciado a la misma subtrama. Con este bit se obtiene, después de 192 tramas, toda la información que se relaciona en e! apartado 3.3. • El intervalo de tiempo 31 es un bit de paridad, con un valor tal que los intervalos 4 al 31 inclusive tengan un nUmero par de ceros yun nUmero par de unos (pari­ dad par). Esto permite al receptor analizar la integridad de la señal de audio reci- El Jlldio Jip-ital ~o- -3 4 7 8 27 28 29 30 31 I Datos I Palabra de la muestra de audio Preámbulo auxiliares I I en PCM y complemento a dos al para longitudes entre 16 y 20 bits ID'ID (J) I(J) (J)XóYóZ ..J ..J :¡¡ Sumados permiten usar palabras de 24 bits - - - ---.~ Bandera de Validez V U e p Bit de Usuario--..l Estado del Canal i Bit de Paridad .J Figura 10.10. Estructura de la subtrama en el interfaz AES/EBU. bida muestra a muestra. Si alguna muestra se ha alterado durante la transmisión por e! interfaz, lo más probable (aunque no seguro) es que la paridad falle. La falta de seguridad se debe a que si se alteran dos o cualquier otro nUmero par de bits en una muestra, el análisis de paridad dará un resultado correcto. 3.3.2. Estructura de la trama Una trama se compone de dos subtramas (figura 10.10) y se forma, por tanto, con 64 bits. La velocidad de transmisión de las tramas se corresponde exactamen­ te con la frecuencia de muestreo de la fuente (48,44,1 o 32 KHz). Cuando se trabaja con dos canales las muestras tomadas de ambos canales se transmite por multiplexación en e! tiempo en subtramas consecutivas, es decir, primero una muestra de! canal A, luego una de! canal B, una del canal A, etc. Las subtramas correspondientes al canal 1 (canal izquierdo o "A" en funcionamiento estereofónico y canal primario en funcionamiento monofónico) se identifican nor­ malmente mediante e! preámbulo X. Sin embargo, cada 192 tramas se cambia al preámbulo Z, con lo que se define la estructura de bloque utilizada para organizar la información de! estado del canal. Las subtrarnas de! canal 2 (canal derecho o "B" en funcionamiento estereofónico y canal secundario en funcionamiento monofónico) utilizan siempre el preámbulo Y. Resumiendo, e! canal 2 siempre se inicia con e! preámbulo "Y", mientras que e! canal 1 se inicia siempre con e! preámbulo "X", excepto una de cada 192 veces en que lo hace con e! preámbulo "Z". Este preámbulo "Z" es e! que indica que se inicia un nuevo bloque. En el modo de funcionamiento de un canal se utiliza solamente el canal l. El bit de validación (bandera de validez) de las subtramas correspondientes al canal 2 deberá ponerse a 1 (muestra no válida). 3.3.3. Codificación del canal Los intervalos de tiempo 4 a 31 se codifican en "marca bifase", también conoci­ do como "bifase-M" o "código Manchester". Con esto se pretende minimizar la componente continua (cuando varios bits consecutivos tengan e! mismo valor). 318 319
  • 159.
    TU:iOl.OGI,. :C rU:l])1 rlLl:TI;-,10~ ... ... Medio periodo de bit llill1J muJUJ rmJUlJ . X Canal y Canal Z Canal y Canal X Canal y Canal X 1 2 1 2 1 2 Subtrama O Subtrama 1 ~ .... Trama 191 Trama O Trama 1..:. i~- - Comienzo del bloque Figura 10.11 Forma en que se multiplexan las subtramas )' detalle de los preámbulos. Además se facilita la recuperación del reloj a partir de los propios datos, con lo que no hace falta una conexión extra de reloj y se hace insensible e! interfaz a las inver­ siones de polaridad de las conexiones. Cada uno de los bits que se transmiten se representa mediante un símbolo, que consta de dos estados binarios consecutivos. El primer estado de un símbo­ lo es siempre diferente del segundo estado del símbolo anterior. El segundo esta­ do es idéntico al primero si e! bit que se ha de transmitir es un cero y es dife­ rente si se trata dc un uno (figura 10.12). Dicho de otra forma, siempre se pro­ duce una transición al final de período de bit, pero, además, si el bit a codificar es un "1", se produce también una transición a mitad de período de bit. Nótese en la figura 10.12 que con la codificación "marca bifase" lo que deter­ mina, si se está transmitiendo un cero o un uno lógico, no es el nivel eléctrico de la señal, sino la presencia o ausencia de transiciones a mitad de período de bit. Una señal como la de la figura 10.12, pero totalmente invertida, sería también válida, ya que las transiciones se producirían en los lugares adecuados. Por esto se dice que la codificación "marca bifase" es insensible a los cambios de polaridad del cable. Puede notarse, a partir de la figura 10.12, que la codificación "marca bifase" es una especie de modulación en frecuencia digital: a los unos lógicos se les otorga una fre­ cuencia doble que a los ceros lógicos. En ocasiones a la codificación "marca bifase" se la conoce también como "código FM". Si se compara esta codificación o modulación con los datos PCM originales, puede verse que la frecuencia máxima se ha doblado. Esto conduce a la siguiente reflexión: ganamos robustez a costa de emplear un mayor ancho de banda. En aplicaciones de audio digital esto es perfectamente aceptable, ya qué se trabaja con frecuencias binarias moderadas. Un pequeño cálculo nos permite saber en que rango de frecuencias nos movemos: 32 bits por muestra X 48.000 muestras por segundo X 2 canales = 3.072.000 bits/s. En PCM la frecuencia más alta se obtendría cuando se presentara la secuencia binaria 10101O1010... Un ciclo básico estaría representado por una pareja"10". La frecuencia eléctrica más alta sería, por tanto, 3.072.000/2 = 1.536.00 ciclos/segundo o, redondeando, 1,5 MHz. 1 o 1 1 1 o 1 o o 1 Codificación en PCM o Reloj al doble de la frecuencia binaria T T T T • T T • • T • T • T • T T Y T Y • Codificación en "Marca Blfase" IUl1 o 1 1 1 o 1 o O 1 Figura 10.12. Codificación de la secuencia binaria" 1O111 O100 1" 3n Marca Bifase. Empleando codificación "marca bifase" la secuencia que genera cambios más rápi­ dos en la señal eléctrica es 11111 , ya que produce dos flancos por cada período de bit. Tal señal genera un ciclo completo por cada período de bit, es decir, 3.072.000 ciclos/segundo o, aproximadamente, 3 MHz. Cuando se normalizó este interfaz se comprobó que frecuencias en torno a los 3 MHz podían encaminarse sin problemas por los cables apantallados utilizados para audio analógico. 3.3.4. Los preámbulos Los preámbulos son pautas o esquemas fijos de bits que facilitan la sincronización e identificación de tramas, subtramas y bloques. Para lograr la sincronización dentro de un período de muestreo y hacer que el proceso sea fiable, estos preámbulos no cumplen las reglas de! código de marca bifase antes citado, con lo que se evita que los datos puedan decodificarse como preámbulos y viceversa. Así cada vez que el recep­ tor se encuentra con una pauta de bits que no cumple las normas de codificación de los datos PCM, "intuye" que se trata de una señal de sincronización, es decir, de inicio de subtrama, trama o bloque. Las transiciones subsiguientes terminan de confirmar la sospecha e informan del tipo de sincronización concreta. Cada preámbulo está formado por cuatro intervalos de tiempo (del Oal 3) y se representan por ocho estados consecutivos (dos estados por cada intervalo). El pri­ mer estado del preámbulo es siempre distinto del segundo estado del intervalo anterior (del bit de paridad de la muestra anterior). Dependiendo de este estado, los preámbulos son: O bien: • Preámbulo X: 11100010 subtrama 1. 320 321
  • 160.
    Tr-CN()! (){;L oCTlJ:1nF TI:II:'I:'lIO~ El audio dipital • Preámbulo Y: 111001 00 subtrama 2. • Preámbulo Z: 11101000 subtrama 1 y comienzo del bloque. O bien: • Preámbulo X: 00011101 subtrama 1. o Preámbulo Y: 00011011 subtrama 2. • Preámbulo Z: 00010 111 subtrama 1 y comienzo del bloque. La figura 10. 11 muestra, en la parte superior, los preámbulos X y Z de! primer grupo. El segundo grupo es exactamente igual al primero, pero totalmente invertido. Al igual que en el caso del código de marca bifase, estos preámbulos no llevan componente continua (o es mínima) y permiten una fácil recuperación de! reloj. Como mínimo difieren en dos estados de cualquier secuencia bifase válida. En la codificación "marca bifase" no puede haber un período de bit completo (dos semi­ períodos) sin transición. Sin embargo, todas las secuencias de sincronización se sal­ tan esta norma, ya que se inician con tres bits iguales (cada bit de sincronización equivale a un semiperÍodo de bit de datos). 3.4. Formato de los datos de estado del canal Los datos del estado del canal se obtienen gracias al bit numero 30 de cada muestra, etiquetado como "C". Las dos subtramas de cada trama transportan e! mismo valor para e! bit "C": con 192 tramas se obtiene un bloque y, por tanto, 192 bits "c" Miles. Estos datos se estructuran en octetos, con lo cual habrá 24 octetos por bloque (24 X 8 =192). La tabla 10.3 muestra los 24 octetos de estado de! canal correspondientes a un bloque. Para la transmisión de los datos se utiliza el mismo cable bifilar apantallado que viene utilizándose en audio analógico profesional. La impedancia de la fuente es de 110 ohmios, la cual debe ser igualada por e! cable, al menos en e! rango de frecuen­ cias en que nos movemos. Sobre esta impedancia e! transmisor deberá producir una señal filtrada de, como mínimo, 2 V Y máximo 7 V pico-a-pico. La impedancia del receptor se fijó inicialmente en 250 ohmios, lo que permitía conectar varios recepto­ res a una sola fuente de señal. Sin embargo, en la revisión de la norma de 1992 (AES­ 3) se dice que la impedancia del receptor será igual que la de la fuente y que la de la línea de transmisión y que sólo se conectará un receptor por interfaz. Si se desea conectar varios receptores a una misma línea, se utilizarán distribuidores activos. El diagrama de ojo en e! extremo de recepción debe presentar una anchura mínima de 0,5 T", siendo T" igual a medio período de bit. La altura o amplitud mínima de! dia­ grama de ojo en e! receptor será de 200 mV El conector es de tipo XLR (Canon). Con estas especificaciones se logran distancias de más de 300 metros. 3.5. El interfaz SPDIF Se trata de una variante de! interfaz para audio digital AES/EBU, muy utilizada en aplicaciones domésticas. Esta norma tiene su origen en la IEC958 1989-03 (consumer pare) de la UER. Al igual que el interfazAES/EBU, el SPDIF codifica señales de audio Tabla 10.3 Datos contenidos en los 24 bytes de los datos de estado del canal. OCTETO FUNCIONES o Utilización del bloque. Preacentuación. Frecuencia de muestreo. 1 Modo del canal: mono, estéreo, dos independiente. Gestión bits de usuario. 2 Longitud de la palabras de audio: 20 bits, 24 bits... 3 Ampliación del octeto 1 para futuras aplicaciones. 4 5 Reservados pero no definidos. Valor por defecto: 00000000. 6 7 Datos alfanuméricos para indicar el origen del canal. 8 Permite 4 símbolos ASCII de 7 bits + paridad impar. 9 10 11 Datos alfanuméricos para indicar el destino del canal. 12 Permite 4 símbolos ASCII de 7 bits + paridad impar. 13 14 Código de 32 bits para indicar la dirección local de las muestras. Tiene la misma 15 función que un índice de cómputo en un registro y su valor es el de la dirección 16 de la primera muestra del bloque en curso. El LSB primero. 17 18 Código de tiempo de 32 bits correspondiente a la primera muestra del bloque 19 en curso. Normalmente indica la hora del día fijada durante la codificación 20 de la señal fuente. El LSB primero. 21 22 Banderas de validez de los datos de estado del canal. 23 Código redundante cíclico para control de errores en los bytes O a 22. con cuantificación lineal de 16 bits mínimo y 24 máximo. Las frecuencias de muestreo pueden ser: 32 KHz, 44,1 KHz o 48 KHz. Se dispone también de 4 bits de informa­ ción adicional por muestra: bit de validación, bit de usuario, bit de estado de! canal y bit de paridad. Las diferencias más importantes entre e! SOIF y el AES/EBU son de tipo físico: cable coaxial de 75 ohmios (AES/EBU: par blindado de 110 ohms), conec­ tor RCA o BNC (AES/EBU: XLR 3 pins.), nivel de señal 0,5 a 1V (AES/EBU: 2 a 7 V). Por lo demás, los protocolos de comunicación son casi idénticos. Hay un bit en e! cuadro de canal de estado que indica si la señal procede de uno u otro interfaz. 3.5.1. DiferenciasJ similitudes entre AES/ EBUJ FPDIF Los dos interfaces están pensados para encaminar dos canales de audio, aunque uti­ lizan métodos eléctricos diferentes. El interfaz profesional AES/EBU utiliza un siste· ma de transmisión simétrico con voltajes relativamente altos, mientras que e! interfaz doméstico utiliza transmisión asimétrica con niveles de voltaje bajos. La figura 10.13 (a) muestra e! circuito eléctrico recomendado en el caso de! interfaz profesional, mientras que la figura 10. 13 (b) muestra la variante doméstica. Los transformadores no son obligatorios ni en la variante profesional ni en la doméstica, aunque resultan ventajosos, ya que proporcionan el mejor aislamiento 322 323
  • 161.
    TECNOl()(;I: :,-(TU 1.1)[ T,L1~"",.L"'!cIS",j(","J'",-· _ enb-c dispositi'os )' reducen los efectos de las interferencias elecb'omagneticas, En el caso de la norma profesional se especifica que la patilla 1 del conector XLR se utilice para la malla, mientns que la patilla 2 es el "positiYo")' la patilla 3 el "negativo", aun­ que en este caso, si las patillas 2 y 3 se invirtieran, esto no tendría ningún efecto en la recuperación de los datos, ya que el código de canal utilizado hace que estos sean insensibles a los cambios de polaridad. En la variante profesional el bit 29 se define como bit de usuario y se deja a la elección de éste su contenido. La norma sólo especifica qlle se utilizaran códigos (a) r-Transmlsor ~--t-- Cable -+--- Receptor ------1 ~1?:': ~)I I ~~~H2=~ Patillas ) "= (b) ·Conec1or XLR·­ ~II¡-O) k>= L-. 1 ! ~-+-- r----Transmlsor ------t--- Cable -----t--- Receptor --1 Figura 10,13. Circuito eléctrico recomendado para el interfaz profesional AES/EBU (a) y para el doméstico (b). ASCII Yque seria conveniente una mayor normalización para facilitar el intercambio de información. En el caso del interfaz doméstico, el bit 29 pasa a llamarse "bit de subcódigo". El contenido del subcódigo se deja a la elección del fabricante (no del usuario) y se estructura en bloques de 1.176 bits, delante de los cuales aparece una palabra de sincronización de 16 ceros seguidos. . El subcódigo puede utilizarse para transportar información de protección contra copias no autorizadas, segUn un protocolo denominado SCMS (Serial COPf Mana8crncnt System). La idea es que una señal digital con derechos de autor (normalmente música pregrabada) puede copiarse una sola vez de "digital-a-digital", lo que permite al usua­ rio asegurarse una copia de seguridad, pero evita el pirateo sistematizado. En el interfaz profesional e! bit 2 del octeto O del "código de estado de canal" se utiliza para especificar, junto con los bits 3 Y4 del mismo octeto, el tipo de "prea­ centuación". En el caso de! interfaz domestico, este bit se utiliza para decir si estan o no permitidas las copias o, mas específicamente, si la señal tiene o no derechos de autor. Ahora bien, este bit no es suficiente para una gestión eficaz de los derechos de autor, ya que no indica la generación de la copia de que se trata. Esta información adi­ cional, estructurada en varios bits, puede localizarse en los datos SCMS transporta­ dos por el bit de subcódigo. De todas formas, el tema de la protección contra copias de digital-a-digital nunca ha sido respetado. Existe también una variante del SPDIF que utiliza fibra óptica como medio de propagación. El medio de transmisión es una fibra de plastico de 1 mm y las seña­ ___________---'[o!.l-".,,<I;o d'I'1!J Tabla 10A Diferencias entre los interfaces para audio digital AESIEBU y SPOIF. PARAMETRO AESIEBU SPDIF Cable 110 ohmios (2 conductores 75 ohmios (cable coaxial o fibra apantallados) óptica) Conector XLR (Canon) de 3 patillas RCA o BNC Nivel de la señal 2 a 7 voltios 0,5 a 1 voltio Modulación Marca bifase Marca bifase Información de Texto en ASCII Información de protección contra subcódigo copias SCMS Máxima resolución de 24 bits 20 bits (24 bits opcional) las muestras Principal aplicación Profesional Doméstica les se transmiten utilizando luz visible (un LED rojo con longitud de onda de 660 nm), Este interfaz suele utilizarse en ciertos equipos domesticas, tales como reproductores de CD, 3.6. El Interfaz MADI MADI significa Multichannel Audio Di8itallnteiface (interfaz digital de audio multi­ canal) y está pensado para proporcionar una norma de conexión entre equipos de audio digital multicanal. Es capaz de transportar hasta 56 canales de audio AES/EBU en formato serie, a través de un cable coaxial, a 125 Mbitsls, utilizando un código de canal NRZI. Los conectores son de tipo BNC yse garantizan distancias de mas de 50 metros. La longitud de las muestras de audio puede llegar hasta 24 bits. Se utiliza un código de canal de conversión directa, en el que con cada cuatro bits de datos se obtie­ ne una palabra de cinco bits de canal. De esta forma es posible despreciar las 16 peo­ res combinaciones (en terminas de bajas frecuencias y componente continua) de las 32 que son posibles con cinco bits. El formato de los datos MADI se diferencia del formato AES/EBU solamente en los primeros cuatro períodos de bit. En AES/EBU estos son ocupados por los preambulos. En MADI, el primer período, o bit "O", es una bandera que indica el "canal O", que es el primero que se transmite en un período de muestreo dado (hay que recordar que en cada período de muestreo se transmiten hasta 56 muestras de 56 canales, una detras de otra). El bit 1 indica si los datos son válidos (desde el punto de vista del transmisor). Los bits 2 Y 3 codifican los tres posible preambulos transmitidos al inicio de las subtramas AES/EBU. El resto de los datos que conforman la subtrama MADI es idéntica a la AES/EBU, lo que facilita el intercambio de datos entre ambos sistemas. Resumen • Todos los conceptos, principios y teorías sobre vídeo digital, tratados en capítu­ los anteriores, son perfectamente aplicables al audio digital. Por otro lado, una señal de audio de calidad alta no excede los 20 KHz de ancho de banda, mien­ 324 325
  • 162.
    TIT!'Jlll.()(;P. ACTUAL DfTEI r:'rslo~ tras que W1a señal de vídeo analógica de calidad media, como la sei"ial compues­ ta PAL, presenta un ancho de banda en torno a los 5 o 5,5 MHz. • El audio digital no precisa de una frecuencia de muestreo tan alta como la señal de vídeo, pero, por otro lado, la cuantificación de las muestras, es decir, la precisión con que se mide y expresa el valor instantáneo, ha de ser mucho más elevada. Otra cuestión a considerar es la forma de onda de la señal ana­ lógica. La señal de audio analógica es simétrica, en el sentido de que sus valo­ res de voltaje se centran en el valor cero, con excursiones hacia positivo y hacia negativo. Las formas de onda por encima del valor nulo son práctica­ mente copias especulares de las formas de onda negativas. • Un canal de audio analógico podría estar formado por un micrófono, un preampli­ ficador, una mesa de mezclas, un magnetófono, una máster en casete o Lp, la copia de distribución, el reproductor doméstico, el amplificador y los altavoces. Cada dis­ positivo que atraviesa la señal de audio añade su propia distorsión o deformación. Además añade también ruido. A la salida la distorsión total de la señal será igual a la suma de las distorsiones añadidas en cada etapa. Lo mismo sucede con el ruido. • La cadena o secuencia clue sigue la señal digital es: micrófono, conversor AID, etapas que copian o procesan números, conversor DIA, amplificador y altavo­ ces. Todos los procesos de mezcla, amplificación, efectos, etc. son, en el dominio digital, meras operaciones matemáticas. El necesario cambio a analógico se pro­ duce sólo en la etapa final, cuando el oyente reproduce el sonido original. • La digitalización o conversión AID se logra mediante dos etapas separadas: el muestreo y la cuantificación. Durante el muestreo la señal analógica es medi­ da o muestreada a intervalos regulares para, a continuación, durante la segun­ da etapa (la cuantificación), expresar cada una de estas medidas con un núme­ ro limitado de dígitos binarios. • Siendo C. la frecuencia más alta de la señal de audio analógico y siendo f la fre­s cuencia de muestreo, se producen, en torno a f bandas laterales, con valores =s (-f.." y (+(,¡.. La primera se llama "banda lateral inferior", mientras que la segunda se denomina '1nnda lateral superior". Estas copias se denominan "alias" y, aunque son inevitables y existen mientras la señal se mantenga en el dominio digital, serán eliminadas, por indeseables, en la conversión digital-a-analógico. • En la práctica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y 48 Kz. La primera es la más popular, mientras que la segunda puede considerarse como la más profesional. La primera se relaciona con la señal de vídeo según la siguiente fórmula: 588 líneas multiplicado por tres muestras por línea y por 25 imágenes por segundo: 588 X 3 X 25 = 44.100 muestras por segundo. En la norma americana se utiliza: 490 x 3 X 30 = 44.100. Para aplicaciones profesionales se optó por 48.000 Hz como frecuencia de muestreo, ya que presenta dos ventajas. En primer lugar, es múltiplo de la frecuencia de campo de televisión (48.000/50 = 960), lo que permite utilizar los VTR como másters y facilita la sincronización con la señal de vídeo. En segundo lugar, mantiene una relación sencilla con la 32 KHz, que fue la frecuencia de muestreo propuesta en su momento para la radiodifusión digital. • El aliasing genera esencialmente distorsión, en especial distorsión armónica. La solución, una vez más, es un buen filtrado previo al muestreo, respetando El <ludio dipilal el criterio de Nyquist y, a ser posible, dejando un cierto margen de seguridad que permita acomodar holgadamente los filtros. • La cuantificación consiste en representar cada muestra de audio mediante un número, normalmente en formato binario. Así corno e! muestreo discretiza o limita la señal de audio en la dirección temporal, la cuantificación discretiza la señal de audio en lo referente a las amplitudes. Se puede decir clue mien­ tras el muestreo preserva la información temporal, la cuantificación preserva las amplitudes, o que mientras el muestreo se relaciona con el ancho de banda, la cuantificación hace lo propio con el rango dinámico. • En cualquier sistema de medición digital el ultimo dígito es siempre una apro­ ximación, por defecto o por exceso, al valor real o, lo que es lo mismo, un redondeo. El error mínimo posible es cero y se da cuando por casualidad los dígitos no representados son cero; el máximo error es igual a '1, del dígito representado de menor peso. • En cada instante de muestreo el conversor AID tiene que tomar la decisión de otorgar un valor digital a cada valor de amplitud de la señal analógica. Para ello establece un umbral de decisión situado justo entre dos valores digitales permitidos. Si en ese instante de muestreo la señal analógica tiene un nivel superior al de! umbral, el conversor optará por el nivel digital inmediata­ mente superior; en caso contrario, se decidirá por el inmediatamente inferior. • La relación señal a ruido de cuantificación es igual a seis veces el numero de bits empleados en la representación de las muestras. Finalmente se obtiene la fórmula: SNR =6,02 n + 1,76 dB. • En audio tradicionalmente se ha considerado como "muy buena" W1a señal cuyo rango dinámico esté por encima de los 90 dE. Utilizando 16 bits por muestra obtendremos: 16 x 6,02 + 1,78 dB = 98,1 dB. La mayoría de las aplicaciones trabajan con !6 bits por muestra. El interfaz de audio digital AES/EBU permite utilizar 20 e incluso 24 bits por muestra, lo que daría una relación señal a ruido de cuantificación de 122,18 y 146,26 dB, respectivamente. Existen otras formas de codificar las muestras de audio, además de la expli­ cada en los párrafos precedentes. Aunque no se aplican en producción o pos­ producción de audio digital, existe una familia de sistemas, llamados de "codi­ ficación diferencial", que tienen su aplicación en ciertos sistemas de transmi­ sión o cuando se quiere grabar audio con baja tasa binaria. • Aunque las máquinas digitales no empleen el sistema decimal, puede ser con­ veniente para los humanos disponer de un código binario que esté directa­ mente relacionado con el sistema decimal, de forma que a cada dígito deci­ mal le corresponda una combinación binaria de ceros y unos. • La codificación "complemento a dos" tiene su aplicación, sobre todo, en la representación del audio digital, aplicación en la que presenta numerosas ventajas. Por ejemplo, cuando los números binarios se procesan y almace­ nan en su forma complementada, tanto la suma como la resta pueden lograrse utilizando la misma circuitería. El complemento de un numero se forma restando cada dígito de la "base-menos-!" y añadiendo 1 al dígito menos significativo. Trabajando con el método de "complemento a dos", las 326 327
  • 163.
    sCl'iales de audiodigital quedan representadas, con respecto a un punto medio, igual que las analógicas. De esta forma es posible, por ejemplo, "mezclar" dos señales digitales sumando simplemente sus yalores. • El dither es una señal de bajo nil·el, generalmente formada por ruido blanco con una amplitud inferior a un nivel de cuantificación (típicamente entre '/, Y'/, pico-a-pico), que se suma a la señal analógica antes de ser muestreada. El dicher asegura que incluso la señal más pequeila cruzará, al menos, un nivel de cuantificación, de manera que los períodos adyacentes corresponderán a niveles de muestreo distintos. • El interfaz adoptado por AES/EBU está destinado a la interconexión de señales digitales de audio en estudio mediante cables de hasta unos centenares de metros de longitud. La frecuencia básica de muestTeo de la sei'ial digital de audio será de 48 KHz, capaz de proporcionar una banda pasante de más de 20 KHz, aunque soporta también otras frecuencias de muestreo, como 32 KHz y 48 KHz. • La codificación de! canal describe e! método mediante el cual se representan las cifras binarias para su transmisión a través de! interfaz, es decir, la forma eléctrica exacta de la señal de audio tal como se transmite por el interfaz. El procedimiento es el denominado "marca bifase". • En el interfaz AES/EBU los preámbulos son pautas o esquemas fijos de bits que facilitan la sincronización e identificación de tramas, subtramas y bloques. Para lograr la sincronización dentro de un período de muestreo y hacer que el proceso sea fiable, estos preámbulos no cumplen las reglas del código de marca bifase antes citado, con lo que se evita que los datos puedan decodifi­ carse como preámbulos y viceversa. • Para la transmisión de los datos se utiliza el mismo cable bifilar apantallado que viene utilizándose en audio analógico profesional. La impedancia de la fuente eS de 110 ohmios, la cual debe ser igualada por el cable, al menos en e! rango de frecuencias en que nos movemos. • El diagrama de ojo en el extremo de recepción debe presentar una anchura mini­ ma de 0,5 Tn, siendo ''Tn" igual a medio período de bit. La altura o amplitud mini­ ma del cliagrama de ojo en el receptor será de 200 mV El conector es de tipo XLR (Canon). Con esta~ especificaciones se logran distancias de más de 300 metros. • El SPDIF es un interfaz pa¡-a audio digital AES/EBU, muy utilizado en aplicacio­ nes domésticas. Al igual que el interfaz AES/EBU, el SPOlF codifica señales de audio con cuantificación lineal 16 bits mínimo, 24 máximo. Las frecuencias de muestreo pueden ser: 32 KHz, 44,1 KHz ó 48 KHz. Las diferencias más impor­ tantes entre el SOlF y el AES/EBU son de tipo fisico: cable coaxial de 75 ohmios (AES/EBU: par blindado de 110 ohms), conector RCA o BNC (AES/EBU: XLR 3 pins.), nivel de señal 0,5 a 1V (AES/EBU: 3 a 10 V). • MADI significa Multichannel Audio DisitaI Inteiface (interfaz digital de audio multicanal) y está pensado para proporcionar una norma de conexión entre equipos de audio digital multicanal. Es capaz de transportar hasta 56 canales de audio AES/EBU en formato serie a través de un cable coaxial, a 125 Mbits/s, utilizando un código de canal NRZI. Los conectores son de tipo BNC y se garantizan distancias de más de 50 metros. CAPíTULO 11 COlupresión en audio 1. Introducción Ya se comentaba en el capítulo anterior que la digitalización de una señal de audio no es muy distinta a la de una de vídeo. Lo mismo sucede en el caso de la compresión. En vídeo existen precedentes de "sistemas de compresión analógi. cos". La utilización de las componentesY, R - Y, B - Y, por ejemplo, no es otra cosa que un intento de ahorrar ancho de banda, sin perjudicar a la calidad percibida por e! espectador, aprovechando las limitaciones del sistema de percepción visual humano. Por otro lado, la codificación PAL o NTSC podría entenderse como un método de compresión entrópica, donde se intenta "empaquetar" la máxima can­ tidad de información en el mínimo ancho de banda. En audio los sistemas de reducción de n¡ido Dolby A, B, C YSR son una forma de compresión, ya que procesan la señal de tal manera que el ruido, que inevita­ blemente se sumará durante las etapas de grabación o transmisión, pase desaperci­ bido por el oyente. Para ello el codificador modifica la señal de audio de una forma predeterminada, mientras el decodificador aplica la transformación inversa. Estos sistemas de reducción de ruido se basan en la "compresión" y "expansión" de "sub­ bandas de frecuencia", según "modelos psicoacusticos", términos todos ellos pro­ pios de los sistemas de compresión digital de audio y que aparecerán con frecuen­ cia a lo largo de este capítulo. NICAM significa Near lnstantaneous CompandiIJ8 ?f Audio Multiplex, es decir, "compresión-expansión casi instantánea del multiplex de audio". En NICAM la señal de audio se muestrea a 32 KHz y cada muestra se cuantifica linealmente con 14 bits. A continuación se reduce el numero de bits por muestra (compresión) de 14 a 10 bits. Los cuatro bits de cada muestra que se eliminan dependen del valor de amplitud del grupo de un milisegundo (casi instantánea), al que pertenece la muestra. De esta forma el error de cuantificación no es fijo, sino variable; se come­ 328 329
  • 164.
    TECNOI ()(;I- :lTlIAlDE TU ('ISION ten errores grandes en los pasajes de alto nivel y errores pequeños cuando la señal tiene un valor bajo. Dicho de otra forma, el error de cuantificación es función del valor de amplitud de la señal, de forma que la propia señal enmascara al ruido. ¡Esto ya es compresión digital y tiene más de veinte años! El enmascaramiento o masking es una de las claves de la compresión de audio. 1.1. Utilidad de la compresión en audio La compresión produce dos beneficios: por un lado, aumenta la capacidad de almacenamiento de un soporte dado; por otro, reduce la velocidad de transmisión necesaria. Pero tiene tambien algunos inconvenientes: aumenta la complejidad de los equipos y puede perjudicar a la calidad de la señal de audio, al menos cuando se emplean factores de compresión elevados. Además puede aumentar la latencia (tiempo necesario para que una señal resulte util en un determinado proceso). En general, se puede decir que en el entorno de producción y posproducción pro­ fesional, donde se necesita disponer de la señal de forma rápida y con la máxima cali­ dad, la compresión se utilizará cada vez menos. En realidad, en la actualidad a penas se usa. Los canales de audio digital de los magnetoscopios profesionales no emplean compresión, a diferencia del vídeo, que sí se comprime. La razón es que la tasa bina­ ria generada por un canal de audio digital es tan pequeña en comparación con la tasa binaria generada por el canal de vídeo que comprimir la primera no supondría un aho­ rro de cinta o de procesado significativos. Igual sucede con los equipos dedicados espe­ cíficamente al audio digital; un disco duro moderno puede almacenar, sin compresión, decenas e incluso centenares de horas de audio digital estereo. Además la compresión dificulta las labores de montaje, ya que los sistemas de compresión no trabajan proce­ sando muestras individuales, sino bloques de muestras, denominados "cuadros" o ya­ mes", cada uno de los cuales representa varios milisegundos de audio. Los "cuadros" son la unidad mínima de acceso al tren comprimido, de forma que si se quiere edit~r con precisión una muestra, no queda más remedio que descomprimir la señal de audio, seguramente para volver a comprimir despues. En cambio, en el entorno doméstico las cosas son distintas. Casi todos los equipos actuales utilizan algu.n tipo de compresión. En un mini-disc, por ejemplo, no sólo se logra aumentar la capacidad para almacenar minutos de música, sino que, además, se reduce la velocidad a la que ha de girar el disco, ya que el número de datos grabados por unidad de tiempo es menor. Es cierto que se complica el tratamiento posterior de la información, pero resulta más fácil y más barato incluir un chip descompresor que complicar los elementos mecánicos. Desde hace unos años se ha puesto de moda el "sonido multicanal". Se trata de sis­ temas de codificación de audio basados en la utilización de seis canales envolventes: izquierda, centro, derecha, izquierda-surround, derecha-surround, más el canal de real­ ce de baja frecuencia. Sin compresión serían necesarios más de 4 Mbits/s para codifi­ car una señal multicanal como la anteriormente descrita. En el entorno doméstico y de usuario la compresión siempre ofrecerá más ventajas que inconvenientes. Otro ámbito en el que la compresión de audio resulta muy útil es el de la trans­ misión. El DAB, por ejemplo, es un sistema de emisión digital de canales de audio, Com[lrL'~i('Jn ell audio es decir, radio digital, utilizado principalmente en Europa. Se trata de un proyecto desarrollado por un numero importante de empresas y radiodifusores europeos con la intención de obtener un sistema de emisión digital de sonido multisenicio, que pueda ser captado por receptores fijos, móviles y portátiles, equipados con una antena de pequeño tamaño. La clave del sistema es lograr una forma de codifica­ ción capaz de ubicar audio estéreo digital, más datos (asociados y no asociados al audio), en un ancho de banda suficientemente pequeño. Para ello se utiliza el sis­ tema de compresión digital de audio MPEG (capa 2 ISO). Sistemas de compresión de este tipo pueden multiplicar por diez o más el número de canales que se pue­ den transmitir por un cierto ancho de banda. 1.2. Redundancia El tren binario generado por una señal de audio de calidad está entre 0,75 y 1,15 Mbits/s; trabajando en estéreo estas cifras se doblan: 1,5 Mbits/s para una frecuencia de muestreo de 44,1 KHz y16 bits/muestra y 2,3 Mbits/s para 48 KHz y 24 bits/muestra. Con estas tasas binarias se pueden preservar anchos de banda de 20 KHz y rangos dinámicos entre 100 Y 140 dB. La idea es reducir al máximo la cantidad de datos necesarios para representar la señal de audio sin que la calidad percibida se resienta. Al igual que sucede en vídeo, la estrategia se basa en la eliminación de la redundancia, y también aquí esta puede ser de dos tipos: 1. La "redundancia matemática" o "redundancia enn-ópica", que es aquella que se puede eliminar sin pérdida real de información, de manera que el oeco­ dificador pueda obtener una señal idéntica a la original. 2. La redundancia perceptual, siendo esta última aquella información que, sí es eliminada en el codificador, no podrá ser reconstruida de forma perfecta en el decodificador, pero tampoco supondrá una merma de calidad apreciable por parte del usuario. La eliminación de la redundancia entrópica es pura ciencia; la eliminación de la redundancia perceptual, un arte. La redundancia perceptual puede dividirse, a su vez, en dos categorías diferenciadas: 1. La información a la que el observador es sencillamente insensible. En vídeo, por ejemplo, los coeficientes de alta frecuencia de los bloques DCT se cuan­ tifican con pocos bits, porque se sabe de la poca precisión, que muestra el sistema de percepción visual humano a estas frecuencias. Esta estrategia fun­ ciona bien siempre. 2. La información cuya eliminación puede o no ser notada por el usuario dependiendo del contexto (efecto de enmascaramiento). Por ejemplo, cier­ tos errores de recuantificación de los bloques DCT de vídeo son muy visi­ bles cuando se producen en zonas lisas o de poca actividad de la imagen y, en cambio, pasan totalmente desapercibidos en zonas de gran actividad, tales como tramas, texturas, etc. Este efecto de enmascaramiento de una infor­ mación por parte de otra es especialmente importante en e! caso de! audio y forma la base y e! arte de todos los sistemas de compresión sofisticados. 330 331
  • 165.
    .__COIlpn.·~l(j.!L.1:.l].jlu(h(¿ )"tl';-"¡UUH..iI: l rlI:I,--,-,Il,--'l-T"'E1U''''.EI.''''J(,,',''--- _ 2.1.3. El oído interno2. Anatomía del oído Todos los compresores perceptuales se basan en el mismo principio: de poco sinc codificar y almacenar datos que no podran ser apreciados por los usuarios finales, es decir, por los órganos sensoriales humanos. Por tanto, la mejor manera de comprender cómo se produce tal enmascaramiento es estudiar, aunque sea de forma somera, el funcionamiento del sistema de percepción auditi'a. 2.1. División funcional del oído El aido es el órgano sensitivo que nos permite transformar la energía mecanica de una onda de presión primero en energia eléctrica nerviosa y luego en sensación sonora. Es frecuente dividir la organización anatómica del oído en tres partes o secciones: el oído externo, el medio)' el interno. 2. 1. 1 El oído externo El oido externo está formado por el pabellón auricular y el llamado "conducto auditivo externo". La misión del pabellón es la de captar el sonido y ayudar a la localización espacial de la fuente, ya que es más sensible a los sonidos que proce­ den de la parte frontal, mientras que e! conducto se encarga de transmitir las ondas de presión hacia estructuras más internas, más concretamente hacia la membrana de! tlmpano. Este conducto actúa como un resonador de un cuarto de onda, con una frecuencia central en torno a 3.000 Hz. Esta estructura probablemente ayude a la percepción de ciertos sonidos orales que presentan el máximo de energía en estas frecuencias medias. 2.1.2 El oído medio El oído medio consiste en una pequeña cavidad atravesada por una cadena de huesecillos. Elemento clave es el tlmpano: una membrana que separa el oído exter­ no de! medio. Adherido al tímpano se inserta el martillo, el cual conecta con el yunque y éste, a su vez, con e! estribo. Estos pequeños huesos actúan básicamente como palancas, transformando la impedancia (desde el aire exterior hasta ellíqui­ do contenido en la cóclea), a la vez que protegen las estructuras internas de soni­ dos excesivamente intensos. El llamado "reflejo acústico" activa unos músculos en el oido medio capaces de cambiar e! tipo de movimiento de los huesecillos cuando el tímpano es alcanzado por sonidos de alto nivel (por encima de los 85 o 90 dB) Yde baja frecuencia, produciendo una atenuación de unos 20 dB. El último huese­ cilla, es decir, el estribo, comunica mediante la llamada "ventana oval" con el oído interno. Cuando una onda sonora llega al tímpano, éste actúa como la membrana de un micrófono, resonando en función de la frecuencia y la amplitud de la onda. Su movimiento es comunicado a la cadena de huesecillos )' llevado al oido interno. 332 El oído interno es una estructura ósea)' esta formado por dos partes: el laberinto anterior o coclear, que es responsable de la audición, y el laberinto poste¡'ior, respon­ sable del sentido del equilibrio. Aquí nos interesa sólo la audición, especialmente desde el PWlto de vista de los fenómenos de enmascaramiento aplicables a la com­ presión. En esto juega lill papel clave el oído interno. Las vibraciones llegadas a tra'es de la ventan o'al se transmiten hacia el interior del caracol, que es un tubo espiral cónico, con una sección de unos 4- mm' en su base. Se produce entonces una vibración de la membrana basilar, la cual esta en contacto con Wl0S pelillos que actúan sobre los auténticos sensores: las células acústicas. Las salidas de estas células envían los mensa­ jes electroquímicos al cerebro. Ahora bien, la memhrana basilar varía en anchura, en espesor y también en rigidez a lo largo de su recorrido; en su hase es estrecha y rígi­ da, mientras que se va haciendo ancha)' flexible a medida que avanza hacia el final. Esto hace que sea capaz de discriminar frecuencias, de manera que distintas arcas de la membrana vibran a diferentes frecuencias. Además no se trata de una membrana pasiva que se limita a vibrar en simpatía, sino que dispone de un mecanismo de retro­ alimentación que amplifica los estímulos mas débiles, Oldo O¡do externo medio Oldo interno ~---}.. ---r-~ Canales C;;lemIClrCUlare. !&~ a,__.,_ AV ;~~ -T ~ - (( ci'l) 'l" Nervio coclear , -~j) , -:~~cócleaocaracol . ¡ Pabellón .'I auricular IG Q1J7'!LlilJ; ~' '~ ~onductoauditivo externo Figura 11.1. Anatomla basica del oído. 2.2. Fenómenos de enmascaramiento Lo mas interesante son los efectos que el mecanismo descrito en e! párrafo ante­ rior produce. Algunos autores (Fletcher y Sharft, entre otros) han sugerido que la membrana basilar se divide en 24 regiones, mientras otros sugieren un número
  • 166.
    TLC0JO/ oGlo ACTU:lnf Tri n'ISIO:'' mayor. Estas regiones, llamadas "bandas críticas", podrían tener una anchura de unos 100 Hz por debajo de los 500 Hz, mientras que por encima su anchura iría aumen­ tando a medida que crece la frecuencia. De cualquier forma, parece seguro que dicha membrana esta. dividida en un número finito y no muy g¡-ande de regiones, cada una de las cuales es estimulada y vibra en simpatÍa a un rango limitado de fre­ cuencias, pero, lo que es mas importante, dentro de este rango sólo una frecuencia es capaz de hacer vibrar "su región" en un momento dado. Ahora, una vez que una f¡-ecuencia muy concreta ha hecho vibrar su región y ésta aplica realimentación posi­ tiva, el sistema se comporta como un circuito sintonizado de alta selectividad. De esta forma cada región vibra a una frecuencia, determinada por el estímulo de mayor amplitud, dentro del rango de esa región, mientras que ignora cualquier otro estímulo de intensidad menor. Esto significa que dentro de cada banda sólo la fre­ cuencia de mayor intensidad será convertida en impulsos nerviosos y encaminada hacia el cerebro. Este mecanismo de simplificación proporciona, por sí solo, la herramienta de compresión mas potente en e! tratamiento de! audio digital. ¿Para qué codificar aquellos tonos que en realidad no oímos? El concepto de bandas críticas de frecuencia se deriva de la idea de que el oído analiza el rango de frecuencias audible, utilizando un conjunto limitado de subban­ das. Las frecuencias dentro de una banda crítica son similares en términos de per­ cepción auditiva y se procesan de forma separada con respecto a otras bandas crí­ ticas. La localización de estas bandas en el espectro y su anchura se deducen mediante experimentos con personas y también a partir de la distribución de las células sensoriales en el oído interno. La tabla 11.1 muestra una posible distribu­ ción del espectro audible en 25 bandas de frecuencia. Tabla 11.1 Una posible distribución de los valores de frecuencia mínima, máxima y anchura de las bandas criticas. Frecuencia en Hz Frecuencia en Hz Frecuencia en, Hz Banda Mín. Máx. Ancho Banda Mín. Máx. Ancho Banda Mín. Máx. Ancho O O 100 100 8 920 1.080 160 16 3.150 3.700 550 1 100 200 100 9 1.080 1.270 190 17 3.700 4.400 700 2 200 300 100 10 1.270 1.480 210 18 4.400 5.300 900 3 300 400 100 11 1.480 1.720 240 19 5.300 6.400 1.100 4 400 510 110 12 1.720 2.000 280 20 6.400 7.700 1.300 5 510 630 120 13 2.000 2.320 320 21 7.700 9.500 1.800 6 630 770 140 14 2.320 2.700 380 22 9.500 12.000 2.500 7 770 920 150 15 2.700 3.150 450 23 12.000 15.500 3.550 24 15.500 22.050 6.550 2.2.] . Enmascaramientofrecuencial El mecanismo descrito en el párrafo anterior se denomina "enmascaramiento frecuencial" o también "enmascaramiento simultaneo", ya que tanto el estímulo perturbador como el perturbado están presentes a la vez y proporciona, en reali­ dad, dos vías de compresión. Por un lado esta el efecto ya descrito, por el cual no Comnfcsion en audio es necesario codificar ninguna frecuencia que sea suficientemente inferior a la fre­ cuencia de mayor intensidad dentro de su rango. Por otro lado, dentro de un rango o banda dado, el ruido es irrelevante, siempre que se mantenga unos cuantos deci­ belios por debajo del nivel de la señal principal. En otras palabras, sólo hay que codificar una parte de la señal, y esto puede hacerse con un número relativamen­ te pequeño de bits, ya que el error o ruido de cuantificación quedará también enmascarado. Es bien sabido que el sistema auditivo no presenta la misma sensibilidad a todo e! rango de frecuencias. Los sonidos en torno a los 3 KHz son los que se perciben con mayor facilidad, es decir, hace falta menos energia o presión sonora para pro­ ducir la misma sensación auditiva. La curva de trazo sólido de la figura 11.2 mues­ tra la sensibilidad a las distintas frecuencias. Esta curva es valida siempre que no haya ningún sonido perturbador. Esta figura muestra también la presencia de un tono puro, de 1 KHz, el cual es, por supuesto, audible, ya que está muy por encima de! umbral de audicion para esa frecuencia. Ahora bien, este sonido de 1 KHz altera el umbral de audición, e!evandolo, sobre todo, en las frecuencias mas cercanas. Otro sonido de, por ejemplo, 1,2 KHz, que sería perfectamente audible si estuviera solo, resulta enmascarado y no puede oírse por la presencia del tono de 1 KHz. Cuando se estudia el enmascaramiento acústico es necesario considerar dos tipos de sonidos perturbadores. Por un lado están los sonidos de tipo ruido, que tienen un espectro ancho y no presentan ninguna coherencia de fase, capaces de producir efectos de enmascaramiento muy altos. En este caso la diferencia de nivel entre el elemento perturbador y el enmascarado puede ser de sólo 2 a 6 dB. En la compresión de audio, este no es e! tipo de perturbación que mas inte­ rese estudiar, ya que se supone que se trabaja con señales esencialmente libres de 80 ----1 ¡--I' I i . i 1 70 ,-----·-I--H-r~--- l ' I o I i ~: --l~-I~--i---~ i ~~ --- ---Ld--I-"-----------' . ¡ 30 ____~ __ .", 27' .. 1 ~ 20 ' 1 ~ ----I-T--T--~- ~ 10-- ---1-1-----:---'---·­ O l~'- .- -~" 1._- Umbral de aucl:tci6n sIn estimulo perturbador -'0 L_J_J LJ__ . -~ --~ --~ ~K Hz a 45 dB I L~~e~ia~:-~'~al . 0 - - ---- L 8.000 '2.50020 31.5 63 125 250 500 1.000 2.000 4.000 Frecuencia en Hz---------Jo- Figura 11. 2. El umbral de audición varía con la frecuencia.
  • 167.
    TI C'<OI ((;1:·el lí:! J)f. 1n J.. ·I....J"-')~'-- ~ _ ruido o, al menos, con buena relación señal-a-ruido. POI- otro lado, los sonidos coherentes, tipo tono, necesitan niveles mucho más altos (entre 18 y 26 e1B) para cnmascarar tanto a otros sonidos coherentes como a ruidos. El niyel de enmasca­ ramiento depende tambi&n del nivel absoluto del tono enmascarador. La figura 11.3 muestra el grado de enmascaramiento producido por un tono perturbador de 1 KHz, cuando este tiene distintos niveles dé' presión absuluta. Puede apreciarse en esta figura que la pendiente de las cunas por encima de la frecuencia del tono per­ turbador varía ampliamente con la intensidad de dicho tono. En otras palabras, el número de octavas enmasca¡-adas crece con la intensidad del tono perturbador por encima de la frecuencia de dicho tono, mientras prácticamente se mantiene en la zona de frecuencias inferiores a la perturbadora. Los experimentos sobre enmas­ caramiento suelen realizarse utilizando bandas estrechas de ruido blanco como señales enmascaradoras, mientras se mide clnivel apenas audible de un tono puro para distintas frecuencias y dm-aciones. 1001----~_·-_------ Tono enmascarador de 1 KHz íil ~ E g 60 ..o e '0 .~ 40 5. " ~ Qi .~ 20 z o ~-------+-- ~1----------r- ­ 1000 Hz 2000 Hz 3000 Hz 4000 Hz SOO Hz 80-'- 20 dB Frecuencia (Escala logarítmica) Figura 1J.3. Curvas dc enmascaramiento producidas por un tono perturbadO!- de ] KHz. Al igual que sucede con otros procesos perceptivos, el enmascaramiento auditi­ vo no es lineal. Al contrario, el enmascaramiento es muy superior en el extremo de las altas frecuencias. Si tiene la suficiente amplitud, un estímulo de alta frecuencia puede enmascarar varias octavas; con amplitudes más bajas el efecto de emnascara­ do abarcará menos de una octava. En estas bajas frecuencias el efecto de enmasca­ rado es mucho menor incluso con niveles altos. Por tanto, dentro de una subbancla determinada, el peor caso se produce cuando el estímulo de mayor amplitud, es decir, el estímulo enmascarador, se sitúa en la parte alta de la subbanda. Los fenómenos de enmascaramiento son bastante frecuentes. Mercuno y Venus son los dos planetas interiores del sistema solar, es decir, están más cerca del Sol que laTierra. Mercurio es el más cercano al Sol, tiene un diámetro de 4.880 km Y gira alrededor de nuestra estrella en una órbita casi circular, aunque bastante __. ,_ ~·.illHpx:~sjun_tllaudi.52 excentrica, de 58 millones de kilometros de diámetro como pl"Ol11edio. A simple­ vista es casi imposible ver Mercurio, )' ello a pesar de la fuerte iluminación que recihe. Se muen tan cerca del Sol que el fulgor del astro impide, o enmascara, la visión del planeta. El caso de Venus es distinto: tiene un diámetro similar al de la Tierra (12.000 km) y se mueve en una órbita más alejada (lOS millones de kiló­ metros). Esto hace que sólo sea visible durante un breve periodo de tiempo, justo al amanecer, antes de que salga el Sol, o en el ocaso, después de que se haya escon­ dido. Entonces Venus aparece en el firmamento, siempre cerca del horizonte, como una especie de superestrella, decenas de veces más brillante que cualquier otra. Hay que esperar a que el estímulo enmascarador desaparezca para poder per­ cibir ciertas informaciones. De hecho el fulgor de las estrellas es el principal obs­ táculo para encontrar planetas fuera de! sistema solar. Otro ejemplo: en ocasiones es posible oír el sutil chirrido de los dedos al deslizarse por e! mástil de la guitarra entre los trastes, mientras el artista toca una pieza clásica o una balada. Esto mismo resulta imposible en un concierto de "rack". 2.2.2. Enmascaramiento temporal La realimentación positiva de la membrana basilar, de la que se ha hablado en un apartado anterior, además de reforzar los sonidos más débiles, tiene otro efec­ to. La vibración responde lentamente a los cambios en la amplitud del estímulo, lo que genera un efecto de enmascaramiento extra. Este efecto se denomina "enmascaramiento tempOl"al" y significa que no somos capaces de oír sonidos que se produzcan un poco antes o un poco después que oh-o sonido más intenso. En el primer caso se habla de "preenmascaramiento", mientras que el segundo se denomina "posenmascaramiento". Las duraciones no son simétricas: e! preenmas­ caramiento es muy corto, mientras que e! posenmascaramiento es más largo. Para tonos puros y de intensidad media, cl posenmascaramiento podría estar entre 50 y 200 ms, mient¡-as que e! preenmascaramicnto presenta tiempos unas diez veces más pequeños. La figura 11.4 muestra tal asimetria. 80 Enmascaramiento• 70 simultáneo 60 al 50 1J 40 e ~ JO ;;; > ZO Z 10 L -40 -20 o o 20 40 60 80 100 120 140 160 ~Tiempo Pre·enmascaramiento ~Post--enmascaramiento / Figura 11.4. Fenómenos de pre y postemnascaramiento en la señal de audio. 336 337
  • 168.
    TI:C:"I01 ()(;IA ACTUAlp( TFL['ISIÚ:--J Hay otros fenómenos de enmascaramiento de los que algunos sistemas de com­ presión sacan partido. En e! caso de niveles sonoros elevados y frecuencias medias se produce también un efecto de elUnascaramiento notable en torno al segundo armó· nico de! tono enmascarador. OtTO efecto también interesante es e! conocido como "irrelevancia estereofónica", que se refiere a que hay información que es captada por un sistema de sonido estereofónico y que resulta irrelevante para la localización espa­ cial, es decir, que no contribuye para nada a la percepción estereofónica. No se trata exactamente de información enmascarada, sino de información inútil. 3. División en subbandas Para sacar partido de! efecto de enmascaramiento frecuencial que muestra el sistema de percepción auditiva necesitamos dividir e! espectro de la señal de audio en bandas o regiones de anchura igualo inferior a las bandas de la membrana basi­ lar. La división en pequeñas bandas de frecuencia puede hacerse por dos procedi­ mientos distintos: ya sea mediante filtros o mediante sistemas basados en transfor­ madas, similares estos últimos a los empleados en vídeo. 3.1. División mediante filtros La teoría nos dice que dividir el espectro en subbandas aumentará el número de muestras necesarias, ya que, según Nyquist, la frecuencia de muestreo tiene que ser igualo superior al doble de la frecuencia más alta presente en la señal de entra­ da. Ahora bien, la frecuencia más alta va creciendo de subbanda en subbanda, con J .'"d"~1 I 1~ O f 2f r~··J"f".' 1~ O f/2 f 2f J T~"d""T' ¡_~ ComnrC:Slón en a.udlo lo que en la misma proporción crecerá la frecuencia de muestreo de las subbandas sucesivas. Al final la suma de todos los muestreos será muy superior a las muestras que se habrían obtenido contemplando la señal como una sola handa. Por otro lado, el sentido común nos dice que no manejamos más información por el hecho de trabajar con subbandas, por lo que debe haber una solución para no incremen­ tar el número de bits finales. Veamos cuál puede ser la solución. Para simplificar, supongamos que di·¡dimos una banda de anchura "f" en dos mita­ des iguales de anchura "f/2", denominadas, respectivamente, "inferior" y "superior", de forma que la banda inferior va desde Ohasta f/2 y la superior de fl2 hasta f (figu­ ra 11.5). Si trabajáramos con una sola banda, la frecuencia de muestreo tendría que ser de 2f para no producir aliasina. El truco está en pensar que, cuando se muesn'ea, la señal válida y sus alias son idénticas (las alias no son otra cosa que repeticiones a fre­ cuencias mayores de la información útil). Normalmente nos quedamos con la parte inferior, pero si, por alguna razón, esta parte no estuviera presente, las muestTas representarían sin ambigüedad la frecuencia superior. En la figura 11.6 podemos ver que dos señales de frecuencias distintas pueden producir los mismos valores de muestreo (indicados por los pequeños círculos). Esto generaría ambigüedad a la hora de reconstruir la forma de onda. ¿Cuál es la buena: la (a) o la (b)?Tal ambigüedad desaparece si sabemos que antes del mues­ treo la señal ha sido filtrada, de forma que sólo una de las dos senoides sea posible. Volviendo a la figura 11.5, comenzamos por dividir la banda de audio en dos subbandas de anchura mitad. El siguiente paso consiste en muestrear la banda infe­ rior a "2f", lo cual supone un sobremuestreo, ya que para respetar el criterio de Nyquist sería suficiente con muestrear a "f". A continuación eliminamos una de cada dos muestras, lo que equivale a reducir la frecuencia de muestreo desde "2f" hasta "f", Esto no es ningún problema, ya que el ancho de banda de esta subbanda es de sólo f/2. Con la subbanda superior procedemos de forma idéntica: muestre­ amos a "2f" y eliminamos una de cada dos muestras, con la precaución de tomar nota de que este paquete de muestras pertenece a la banda superior. Durante la reconstrucción digital-a-analógico estas muestras generarán tanto la banda inferior como sus alias; un filtro paso-banda nos permitirá escoger e! alias adecuado, es decir, la subbanda superior. (a) O 1/2 f 2f Figura 11.5. División de una banda de frecuencias en dos subbandas. Figura 11.6. El mismo conjunto de muestras puede representar dos señales cuyas frecuen­ cias tengan la relación matemática adecuada. 338 339
  • 169.
    rc(,,'p OtilA ;C1U". I ,I",JL,--''.!n-,-I!cl,-,J~""(),,,~c _ En resumen, hemos hecho dos muestreos a la frecuencia "2[" para, a continua­ ción, submuestrear a "f", en lugar de un solo muestreo a "2[", con lo que no hemos aumentado para nada el tren binario. Esta misma operación de di"idir una banda en dos subbandas puede hacerse tantas "eces como se Cjuiera, es decir, cada sub­ banda puede ser a su vez dividida en dos. Después de unos pocos pasos habremos generado todas las subbandas Cjue necesitamos, y todo ello sin aumentar para nada el número de bits. 3.2. Codificación de las subbandas La división dc la señal de audio en subbandas de frecuencia no sólo adapta [as características de la señal a la forma en que trabaja el sistema de percepción auditi, va, sino que prepara la información de audio para ser tratada de manera más efi­ ciente. Por ejemplo, una dc las herramientas más importantes en compresión de los datos de audio es la compresión-expansión del rango de amplitudes (compandina), la cual consiste en limitar el rango de amplitudes de la seí'ial. Si dividimos el espectro de la señal de audio en subbandas, será mucho más probable que dentTo de cada sub­ banda encontremos ya un rango de amplitudcs limitado, incluso es posible que cier­ tas subbandas no tengan ninguna amplitud en absoluto. Además si una subbanda determinada presenta una amplitud igualo inferior a la subbanda crítica correspon­ diente, el enmascaramiento nos dice que no será necesario codificarla. La mayoría de los codificadores utilizan 32 subbandas, cada una de las cuales tiene una anchura aproximada de 1/3 de octava. Hay que recordar que la señal de audio presenta un espectro que se extiende desde 20 Hz a 20 KHz. Si partiendo de 20 Hz vamos doblando la frecuencia (ganando una octava), después de diez pasos habremos llegado a los 20 KHz. Por tanto, la señal de audio presenta un rango de frecuencias de 10 octavas. Puesto que queremos dividir cada octava en tres partes, necesitaremos unas 30 subbandas. En la práctica es mejor utilizar 32, ya que este número es potencia de dos; 30 subbandas está por encima de las 24 o 25 subban­ das perceptivas descritas por Fletcher y Sharf. Idealmente la anchura de las sub­ bandas y sus limites de frecuencia deberían aproximarse a los mostrados en la tabla 11.1, aunque, para simplificar, el diseño del hardware, tanto en el codificador como en el decodificador, la mayoría de los sistemas de compresión trabajan con sub­ bandas de codificación de anchura fija, que o bien coinciden con la anchura de las bandas criticas en las frecuencias medias o bien son mucho más estrechas, de forma que la agrupación de un cierto número de subbandas de codificación iguala a las bandas críticas. Utilizando subbandas de 113 de octava y estímulos suficientemente altos, el umbral de enmascaramiento podría situarse entre 18 y 26 o máximo 30 dB por debajo del nivel del estímulo. Volviendo a la figura 11.2, puede verse que un tono puro de 1 KHz, con un nivel sonoro de 45 dB, eleva el umbral de audición de esa frecuencia a 27 dB. Esto significa que cualquier ruido por debajo de ese nivel no será audible. En otras palabras, un tono de 1 KHz puede ser cuantificado con un error o ruido de cuantificación igualo inferior a 27 dB. Si el umbral de ruido está en 27 dB y el de la señal en 45 dB, la excursión de la "zona limpia" será de 45 dB - 27 dB = _ ---'oC()U.ll-~.L~.,iúll.<;1L~ 18 dB. Ahora, basándonos en la regla simplificada de e¡ue con cada bit que a¡'iadimos en la cuantificación ganamos 6 dB en la SNR, sólo necesitamos 3 bits para cuantifi­ car el tono de 1 KHz. Si eleqmos el ni"el del tono a 65 dB, el umbral de enmasca­ ramiento subirá hasta 55 dB Yla diferencia será d<' sólo 10 dB, que se pueden codi­ ficar con 2 bits. En la misma figura 11.2 puede wrse que la región de enmascara­ miento frecuencial situada por encima del estímulo es mucho maYal' que la situada por debajo; esto intenta ilustrar el hecho de que son las altas frecuencias las más enmascaradas, ¡igual que en vídeo! Hemos visto cómo dividir el espectro de la señal de audio en subbandas. Veamos ahora cómo codificarlas. Esto se logra en tres pasos consecutivos: para comenzar, se trocea la señal en el tiempo, generando los llamados "cuadros" o "frames". A con­ tinuación cada cuadro, que cubre unos pocos milisegundos, es dividido en subban­ das de frecuencia mediante un "mapeado" o transformación de los valores tempo­ rales a una representación frecuencial. Despues se busca el dato más alto dentro de un cuadro y se otorga a todo el cuadro un factor de escala tal que el dato de mayor nivel se desplace al valor más alto posible. Para finalizar, y basándonos en el valor real, se determina un umbral de enmascaramiento, de manera que los datos son redondeados o truncados al número de bits correspondiente a dicho umbral. Estos datos truncados son enviados, junto con el factor de escala de todo el cuadro, al decodificador. La presencia de una seíi.al de alto nivel en una banda podría suponer que varias bandas de orden superior fueran codificadas con menos bits de los que normalmente les tocaría o incluso no ser codificadas en absoluto. El paisaje descrito en los párrafos anteriores es un tanto idílico. En la práctica pueden producirse problemas, tales como cambios rápidos en la amplitud de la seíi.al dentro de un mismo cuadro o la variabilidad entre las capacidades auditivas de las personas. Esto significa que hay que dejar un cierto margen de seguridad y codificar los cuadros de audio con algunos bits más de los estrictamente necesa­ rios. Otra complicación es que generalmente interesa que el codificador entregue a su salida una frecuencia de bits constante, con independencia de la complejidad de la señal de entrada. Por tanto, e! sistema de compresión necesita controlar la adjudicación de los bits a las diferentes subbandas en función de: • Las necesidades de cada subbanda. • El ancho de banda disponible. • El modelo psicoacústieo humano. 3.3. División por transformación Otra forma más sofisticada de dividir e! espectro de audio en bandas de fre­ cuencia adaptadas a las bandas críticas de sistema de audición consiste en pasar toda la información de! dominio del tiempo al de la frecuencia mediante técnicas simi­ lares a las usadas en vídeo. Si se analiza el espectro de una señal típica de audio, puede verse que está compuesto por muchas frecuencias discretas. Si dividimos tal espectro en unas pocas bandas anchas, la mayoría de las subbandas contendrán uno o varios componentes, los cuales tendrán que ser codificados. Por e! contrario, si dividimos el espectro en muchas bandas estrechas aumentamos la posibilidad de 340
  • 170.
    que muchas subbandasse sitúen justo en los huecos ncíos del espectro, con lo que no contendrán información que codificar. La división de la señal de enn'ada en un número elevado de pequeñas subbandas de codificación facilita la adaptación de éstas a las bandas críticas del sistema de percepción auditiva. Sabemos que e! número de bits necesarios para codificar una subbanda deter­ minada depende, entre otras cosas, del grado de enmascaramiento que se produz­ ca en esa subbanda. Sabemos también (lue tenemos que considerar el peor caso, en el cual el estímulo enmascaradO!- se sitúa en el extremo superior de la subbanda. Esto último es consecuencia de que la pendiente de la curva de enmascaramiento es muy abrupta por debajo de! estímulo y mucho más suave por encima. Esta falta de simetría de la curva enmascaradora (figura 11.2) hace que subbandas estrechas enmascaren niveles de ruido muy superiores y puedan codificarse con menos bits. Cuando se utilizan bancos de filtros como los descritos en e! apartado 3.1 para dividir e! espectro de la señal de audio, suelen utilizarse 32 subbandas, porque, en principio, son suficientes para adaptarse a las bandas críticas del sistema de per­ cepción humano y, por otro lado, si quisiéramos aumentar el número de subban­ das, el banco de filtros se haría enorme. Con las técnicas basadas en e! dominio transformado es posible utilizar un número mucho mayor de subbandas, el cual suele llegar hasta 1.024. Un sistema de división de frecuencias basado en transfor­ mación que genere 256 subbandas presenta aproximadamente la misma compleji­ dad técnica que otro de 32 subbandas basado en filtros convencionales. 3.3.1. El ifecto de pre-eco Los sistemas de división de subbandas basados en transformadas suelen utilizar una variante de la DCT (véase capítulo 7) denominada MDCT o Modified Discrete Cosine Traniform. en la cual las muestras de audio que representan variaciones tem­ porales son transformadas en una representación frecuencial dividida en "rl," sub­ bandas (entre 256 y 1.024), de forma que existe un cierto solapamiento entre sub­ bandas adyacentes. Esta técnica de filtrado por transformación presenta un proble­ ma muy específico: los filtros que tienen una alta resolución en frecuencia (los que dividen el espectro en muchas subbandas) presentan mala resolución temporal, lo cual afecta a la codificación de aquellos cuadros de muestras que contengan transi­ torios, de manera que el ruido de cuantificación generado por el transitorio puede repartirse por todo el cuadro de muestras. Puesto que la duración de los cuadros es de sólo unos pocos milisegundos, lo más probable es que el propio transitorio enmascare a dicho ruido, aunque, por otro lado, la asimetría de la curva de enmas­ caramiento temporal (figura 11.4) puede hacer que el ruido se oiga al inicio de! cuadro, ya que e! enmascaramiento temporal es asimétrico y la parte inicial de! ruido no es enmascarada. Este efecto se denomina "pre-eco". Para contrarrestar este efecto algunos codificadores son capaces de analizar los cuadros y detectar transitorios. En caso de que encuentren algún transitorio en e! cuadro, conmutan a un modo de trabajo distinto, en el que se utilizan menos subbandas por cuadro, es decir, reducen la resolución frecuencial para mejorar la temporal. Existen también técnicas de división híbridas que utilizan tanto filtros como transformadas. Normalmente están compuestas por un banco de flltros de sub­ banda seguido de una transformación MDCT. Esta combinación, que proporciona muy alta resolución en frecuencia, es la utilizada por la capa III del sistema MPEG. El primer proceso, que utiliza un tipo especial de filtros, denominado PQMF (Po1yphase Qyadrature Mirror Film o filtro espejo en cuadratura polifase), divide el espectro en un número limitado de bandas de frecuencia, por ejemplo, 32. A con­ tinuación se toman unas cuantas muestras de cada subbanda y se someten a la MDCT para generar un conjunto de coeficientes frecuenciales dentro de cada sub­ banda. Por ejemplo, si la MDCT genera 16 microbandas para cada una de las 32 bandas generadas por los filtros, en total tendemos 32 x 16 =512 subbandas. Si la señal de audio se ha muestreado a 48 KHz, el ancho de banda total máximo será de 24 KHz y la anchura de cada subbanda, al menos en un caso ideal, será de 24.000 Hz/ 512 = 46,875 Hz. 3.4. Toma de decisiones Las decisiones tomadas por el codificador en cuanto a la adjudicación de los bits a las distintas subbandas (factor de escala y bits de precisión) deben ser conocidas por e! decodificador. Para esto hay varias estrategias. Una sería que e! codificador hiciera todos los cálculos y tomara todas las decisiones. Este método, llamado "asi­ métrico", tiene la ventaja de reducir la complejidad y e! precio del decodificador, a la vez que permite actualizar las estrategias y algoritmos utilizados en el codifi­ cador sin tener que modificar el decodificador. Por otro lado, tiene la desventaja de tener que utilizar parte del ancho de banda disponible para los bits que infor­ man al decodificador sobre las decisiones tomadas en el extremo codificador. Otra posibilidad es que codificador y decodificador realicen los mismos cálcu­ los y lleguen a las mismas conclusiones sin necesidad de enviar bits extras (méto­ do simétrico). Cabe incluso una solución ''híbrida'', en la que los cálculos difíciles son realizados en el codificador y comunicados al decodificador mediante unos pocos bits extras, mientras que los cálculos de complejidad moderada se realizan en los dos extremos. En este caso sigue siendo posible cambiar algunos de los pará­ metros de! codificador sin afectar al otro extremo. 4. Los sistemas de compresión Las distintas aplicaciones de! audio digital hacen que haya muchas normas de compresión diferentes. De todas formas, el mundo de la compresión de audio se divide en dos grandes sistemas: por un lado está la familia de normas MPEG y por otro el sistema AC-3 de Dolby. Otros sistemas muy difundidos son el ATRAC de Sony y los sistemas APT, utilizados estos últimos para transmisión ypara audio en CD. Las normas MPEG, además de estar reconocidas por la ISO (lnrernational Standard OTBanization u Organización Internacional de Normalización), gozan del apoyo de las organizaciones de radiodifusión europeas y son las elegidas, por ejem­ plo, para el DAB (DiBital Audio Broadcas¡inB o radiodifusión digital de audio). 342 343
  • 171.
    TI:C0-'()l ~ )<..;1.ACTlI.-l DE '1 1'1.1."1"10.' Adcmas las llamadas "capas" ISO!MPEG sc basan sobre todo en trabajos dc invcs­ tiaación )' dcsarrollo llevados a cabo en Europa. Por otro lado, el sistema AC- 3 dc D~lb)' ha sido adoptado por la ATSC (Admnccd Jélel'ision Sptem Comité o Consorcio para la II1'estigación de la Televisión Avanzada), una asociación americana para la investigación)' el desarrollo de la EDTV )' HDTV Como pucdc verse, tampoco cs posible, por desgracia, una norma única mun­ dial en el campo de la compresión digital de audio. Todo parece indicar que las nor­ mas MPEG cubrirán la mayoría de las aplicacioncs multimedia del futuro. Tanto el grupo MPEG como el grupo Dolby extendieron a mitad de los ail0s 90 sus capa­ cidades para proporcionar audio multicanal en lo que se conoce como "sonido surTOund")' otros sistemas que precisan más de dos canales. Por su parte, el ATRAC, que es un sistema desarrollado por Sony para su minidisc, ofrece también capaci­ dades multicanal que pueden llegar hasta ocho canales independientes. El APT­ X100 se utiliza como sistema de audio multicanal para acompañar a las películas en CD-ROM. Tanto Dolby como APT estan implantados sobre todo en Estados Unidos. Con mucho, los sistemas MPEG son los más utilizados y, además, fueron los primeros en aparecer, por lo que comenzaremos con ellos. 4.1. Las normas MPEG de audio Al igual que sucede en vídeo, MPEG-audio no normaliza la forma en que debe trabajar el codificador; únicamente define el tipo de información que éste debe producir y cómo debe ordenarla para que el decodificador pueda entenderla, des­ comprimirla y regenerar los sonidos originales. Para ello el coelificador genera un tren binario organizado en paquetes de elatos, los cuales pueden intercalarse con otros paquetes de audio o de vídeo. En MPEG la señal de audio de entrada es descompuesta en porciones temporales, llamados "cuadros", todos ellos de igual tamaño. Así, un cuadro está compue~to por 384 muesb-as en la llamada capa 1)' por 1_152 muesb-as en las capas 11 y III. Los cua­ dros de audio son a continuación descompuestos en subbandas de frecuencia de igual anchura, mediante filtros digitales o mediante transformadas tipo DCT. Esto otorga a cada subbanda un pequei'io número de muesb-as. Se establece así la siguiente relación: número ele Muestras!subbanda X número ele subbandas!cuadro x númro de cua­ dI-OS!segundo =número de muestras!segundo. Las muestras de cada subbanda constituyen una representación en el dominio de la frecuencia de la señal temporal original y son recuantificadas de forma simi­ lar a como se hace con los coeficientes frecuenciales de los bloques DCT de vídeo. Primero se busca un factor de escala común para todo el bloque de coeficientes de la subbanda que se esté procesando (lo que equivaldría al coeficiente de OC de los bloques de video). A continuación se recuantifiean los coeficientes a los que se ha restado el factor de escala, pero con un número de bits que depende de las capaci­ dades de enmascaramiento de sistema auditivo humano en esa subbanda de fre­ cuencia. MPEG ofrece toda una familia de sistemas de compresión de audio basada en do~ normas o subgrupos (MPEG-l y MPEG-2) Yen tres "capas" o niveles de com­ _________________________________~JIl';-;¡ónen audjQ plcjidad. De las dos normas, la primera fue el MPEG-l, que apareció en 199 J . Esta norma se recoge en ISO !lEC 11.172-3, mientras que la compresión de ddeo se define en 11.172-2. Se trata de un sistema para comprimir), codificar un canal de vídeo más su audio asociado en un tren binario de, como máximo, 1,5 Mbits!s, para su utilización en soportes tipo CD, que es consecuencia del creciente uso ele ordenado¡-es que se daba ya en aquella época, tanto para el tratamiento de imáge­ nes como para el almacenamiento de elementos multimedia en distintos soportes. MPEG-l está concebido para "meter" en un Sopol-te, inicialmente pensado para "audio estéreo de calidad", una señal de vídeo comprimida, más un canal de audio estéreo también comprimido. El sistema MPEG-l , en lo referentc a la codificación del vídeo, se explica en el capítulo 8, por lo que aquí nos centraremos en los aspec­ tos del audio digital. 4.1.1. El MPEG-1 El audio digital contemplado para este sistema tiene su precedente en otro ante­ rior, denominado MUSICAM (Moskin8 p0rtern odopted Universal Sub-bond Inte8rated Codin8 And Multiplexin8 o codificación y multiplexado integrado universal ele sub­ bandas adaptadas con enmascarado), MUSICAM es un sistema de codificación y compresión flexible para audio de alta calidad, diseñado dentro del proyecto EUREKA-147 por CCETT (unión entre France Tclecom y su subsidiaria TDF), el IRT (lnstitutfuI' RunijunkTechnik) y Philips Consumer Elcctronics. Desde la finali­ zación de la norma MPEG-l el algoritmo de compresión MUSICAM no ha vuelto a ser utilizado, a pesar de lo cual el nombre MUSICAM se sigue todavía emplean­ do en ocasiones para referirse a la capa II de MPEG- 1, lo cual es un error, ya que MUSICAM es un nombre de marca registrado por diferentes empresas. MPEG no es una norma de compresión sin pérdidas, en la que sólo se elimine la redundancia matemática, de manera que el decodificador sea capaz ele recons­ truir una señal digital idéntica a la original. Por el contrario, las normas MPEG se basan en la compresión perceptual, es decir, con pérdidas reales de información, pero de tal manera que "es distinto, pero suena igual". Oc forma sencilla, podría­ mos decir que un codificador de audio MPEG extrae de la señal de sonido, una representación de las frecuencias que la componen, elimina aquellas componentes de frecuencia que son enmascaradas por otras más intensas, codifica con el míni­ mo número de bits posible las componentes de frecuencia restantes y empaqueta los bits resultantes según la "sintaxis" definida por la norma. En MPEG-l se definen tres capas (laJers) denominadas 1, II Y III. Hasta hace poco la capa II era la más utilizada, aunque, dada la popularidad del formato MP3, ya no se puede decir lo mismo. En MPEG las capas de audio son similares a los per­ files del vídeo. Cada capa es más sofisticada que las anteriores y añade nuevas herramientas, lo que significa que, en general, una capa determinada proporciona­ rá más calidad de audio para una frecuencia binaria determinada o bien gastará menos bits para una calidad dada. Al igual que sucede con el vídeo, se respeta la compatibilidad hacia abajo entre capas, lo que significa que cualquier decodificador será capaz de decodificar correctamente su capa y las anteriores_ La complejidad 344 34-5
  • 172.
    Tlc:-,:nLOG!.O ACTUAL prTEI n'II()N del codificador y del decodificador, así como el retardo que se produce durante la codificación y la decodificación y, por supuesto, la eficacia en la compresión, aumenta cuando se pasa de la capa 1 a la II o de la II a la III. Si comparamos la capa II con la 1, la primera es capaz de eliminar más redundancia y de aprovechar mejor las limitaciones psicoacústicas humanas. La capa 1II está orientada hacia aplicacio­ nes de bajas frecuencias binarias y es más eficaz que la capa II en la eliminación de la redundancia perceptual. Además la capa III aplica compresión entrópica VLC­ Huffman, por lo que consigue tasas binarias realmente muy bajas, con elevada cali­ dad subjetiva de audio. El termino "capas" sugiere que la información generada por una de ellas se colo­ ca encima o completa la de otra capa inferior. Esto no es exactamente así, aunque algo parecido. Por ejemplo, el banco de filtros de subbandas de la capa 1es utiliza­ do tambien por las capas II y I1I, pero la capa II hace un uso más eficiente de ellas al trabajar con bloques de muestras más largos, mientras que la capa III añade tec­ nicas de tipo transformado, mediante las cuales las 32 subbandas de las capas ante­ riores son subdivididas en 18 bandas cada una. Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con tres frecuencias de muestreo: 32 KHz, 44,1 KHz Y48 KHz. Por su parte, el subgrupo MPEG-2, que se verá en un apartado posterior, amplía estas frecuencias de mues­ treo, incluyendo, además de las ya citadas, las frecuencias mitad, es decir: 16 KHz, 22,05 KHz Y24 KHz, ya que se ha podido comprobar que cuando se quieren fre­ cuencias binarias muy bajas es mejor partir de anchos de banda menores que com­ primir más. Volviendo al subgrupo MPEG-l , éste soporta los siguientes modos de operación: • Modo monofónico (un solo canal de audio). • Modo dual monofónico (dos canales de audio independientes). • Modo estereafónico (un par estéreo con cada canal codificado por separado, aunque se pueden repartir los bits entre los dos canales. En un momento determinado un canal puede estar utilizando el 60% de la capacidad y 'el otro el 40%, aunque la suma de los dos se mantiene constante). • Modo estereofónico común (un par estéreo que aprovecha la redundancia entre canales, así como la irrelevancia de la diferencia de fase entre canales o ambas. Este modo se utiliza cuando se necesita codificar canales estéreo con frecuencias binarias bajas). Para los dos subgrupos (MPEG-l y MPEG-2) Ypara todas las capas se definen dos modelos psicoacústicos. El modelo-l es el más sencillo, sobre todo desde el punto de vista del diseño del codificador, y se basa en el análisis preciso de la ener­ gía de cada frecuencia contenida en cada subbanda del espectro audible mediante una transformada rápida de Fourier (FFT). Para ello la FFT analiza grupos de 384 muestras. Lo más frecuente es que las capas 1y II utilicen el modelo-l, mientras que la capa III utiliza el modelo-2, con el cual se analizan conjuntos de 1.152 muestras. La compresión de la información de audio se logra mediante dos herramientas: la llamada redundancia matemática y la redundancia perceptual o irrelevancia. Para eliminar esta última el codificador contiene un modelo psico-acústico (figura 11.7), el cual analiza las señales de entrada de los bloques consecutivos y determi- COIllDróiún en audio (; I;¡¡ )( .. -­ ~:; ::;; Factores dll escalé! y bits de precisión (a nivel de t:U.ldr05 I t ~ Señal dlt lintradil divIdid_ en cuadros I r~J~Tiempo---­ I Figura 11.7. Principio de la compresion de audio en MPEG-l . Paquete5 MPEG ICII:JClCJ -------+ na, para cada bloque, sus componentes espectrales. A continuación "modela" las capacidades de enmascaramiento del sistema de audición humano y hace una esti­ mación del nivel de ruido "apenas-apreciable" para cada subbanda de frecuencia, lo que a veces se llama "umbral de enmascaramiento". A la vez la señal de entrada dividida en bloques se envía al generador de subbandas, que divide las muestras del cuadro en función del rango de frecuencias al que pertenecen. En la siguiente etapa el codificador genera un factor de escala adecuado al bloque de muestras e intenta repartir los bits de datos disponibles, de forma que se respete el bit-rate o fre­ cuencia binaria y los requisitos de enmascaramiento, teniendo en cuenta el umbral precalculado. Con la ayuda de la figura 11.8 podemos ver esto último con un poco más de detalle. I I i r -Espectro. de la seña.1de enlrada I I I I i I T I fI I I i : ­ I -- '11 ~I / I : : '-8 -, I 100 ¡ I 90 ~ 80:­ ~ ~ 70! ~ 60í .a ·~50 o. -8 40~­ 'i "i) 301 20 la' Figura 11.8. ' I I ¡ TICu",a de enmascaramlenlo 1. t!I )' -7 -5--m'I':'" -6 I ,1 :::; ·-2 I :::11 I 12K 13K 14K 15K 16K A partir de! espectro de la señal de entrada se calcula una curva de enmascaramiento y a par­ tir de ésta se decide e! número de bits necesarios para cada subbanda. 346 347
  • 173.
    ____________________________________~C=oJl!llrcsi611 en i1U.iJJl! TICSi)1 PGI: ICfU ""-,',,,",-.l"""'cL"'L-'-'''''',,''.c.''---- _ El prime¡- paso consiste en obtener una representación del espectro de la señal de entrada. A continuación se calcula la curn de enmascaramiento, que tiene en cuenta tanto la señal dc entrada como el sistema de percepción humano (línea de trazos). La diferencia entre la seiial de entrada y el umbral de enmascaramiento, para cada subbanda, es 10 que hay que codificar. La parte inferior de la figura mues­ tra el número de bits necesarios para la codificación de las subbandas, partiendo de la base de que se ganan 6 dBs por bit utilizado. Puede verse en este ejemplo que sólo se necesitan 6 bits para las subbandas más exigentes, situadas en el centro de! espectro, o que la presencia de un tono relativamente fuerte de 10KHz, enmasca­ ra todas las señales por encima de 11 KHz, con lo cual todas las bandas por enci­ ma de esta frecuencia no se codifican. Tampoco es necesario codificar la subbanda que se encuentra justo por encima de los 5 KHz, ya que es totalmente enmascara­ da por la componente de 4 KHz de la señal de entrada. Esta operación se hace, sucesivamente, para cada uno de los cuadros o frames. La información sobre cómo se distribuyen los bits sobre el espectro se añade como datos extra en la etapa de multiplexado. Además cada paquete de datos MPEG-1 permite añadir datos auxiliares de usuario, sin limitaciones en su longi­ tud o en su contenido, de manera que tales datos pueclen estar asociados o no con el audio codificado en esos paquetes_ Estos datos auxiliares de los paquetes MPEG­ 1 son la clave para la codificación de paquetes MPEG-2 de forma compatible, como se verá en un apartado posterior. El trabajo del decodificador es mucho más sencillo, porque no requiere disponer de un modelo psicoacústico ni de un sistema de adjudicación de bits; sólo tiene que reconstruir la información de audio a partir de los componentes espectrales y de la información auxiliar recibida. Por tanto, MPEG-1 (y también MPEG-2) son siste­ mas asimétricos, donde todas las decisiones se toman en la etapa de codificación. Capa 1 de MPEG-I La capa 1, que, como se ha dicho, es la más sencilla, contempla frecuencia~bina­ rias de salida desde 32 Kbits!s hasta 448 Kbits! s. En esta capa la señal digital es dividida en cuadros de 384 muestras, que se distribuyen en 32 subbandas de igual tamaño, quedando 12 muestras por subbanda y cuadro (32 x 12 := 384). Ahora cada muestra dura 1!48.000:= 20,83 IlS o 1!44.100 = 22,67 IlS, o bien 1132.000 := 31,25 I1S. Esto hace que los cuadros tengan una duración de 12 x 32 x 20,83 IlS = 8 I1S o 12 x 32 x 22,67 IlS = 8,7 IlS o 12 x 32 x 31,25 Ils:= 12 IlS. Para cada banda se utiliza un factor de escala de 6 bits, que indica cuánto hay que desplazar el grupo de datos en esa subbanda para alcanzar el valor de pico. Una vez codificado el factor de escala, que puede entenderse como el valor medio del grupo, el residuo o djferencia se indica mediante un número variable de bits (entre O y 15 para esta capa), determinados por un circuito llamado ''bit-aIlocator''o "asig­ nadar de bits". Este circuito tiene en cuenta tanto el umbral de audición humano como la representación frecuencial de la señal de entrada y el número de bits dis­ ponible. Por ejemplo, si estamos codificando un archivo a 128 Kbits!s, esto deter­ minará el número máximo de bits que pueden transportar los cuadros. A 192 Kbits! s el asignador de bits dispondrá de más bits para la codificación de las sub­ bandas. Si el número de bits de codificación de una suhbanda determinada resultara ser cero, entonces no haría falta codificar ningún factor de escala, ya que este último puede entenderse como un factor por el cual el decodificador multiplicará los valo­ res de esa subbanda, )' multiplicar por cero no tiene sentido. En esta capa, al igual que en las otras dos capas MPEG, todos los cálculos), decisiones sobre el reparto de los bits residuales se toman en el lado del codificador. La capa 1 puede utilizarse tanto para sonido monofónico, dos canales, esté­ reo o estéreo común y resulta apropiado para aplicaciones de consumo, aunque también para aplicaciones de estudio, ya que los cuadros de muestras son muy breves (sólo 8 ms en e! modo de 48 KHz). El factor de compresión logrado en esta capa puede llegar a 48: 1. El formato Dee (Di8ital Compact Cassette), que permite la grabación de audio digital estéreo sobre cinta magnética de 3,78 mm, orientado al mercado doméstico utiliza la capa 1 de MPEG- 1. La figura 11.9 muestra la disposición de las tramas MPEG-l capa I. La cabece­ ra se divide en dos zonas: la sincronización, que siempre muestra el mismo patrón fijo (FFFH), y la información de sistema, la cual se distribuye según la tabla 11.2. Esta cabecera es común a las tres capas MPEG-1 , no así el resto del paquete, que cambia según la capa. 32 bits Cabecera Sincronización Información del (12 bits) sistema (20 bits) 1111 11111111 Figura 11.9. Formato de los paquetes de audio codificados MPEG-I capa 1. Después de la cabecera aparece el eRe (figura 11.8), que es una palabra para comprobación de errores de 16 bits, de uso opcional, obtenida a partir de la información de carga del paquete. La siguiente zona o campo del paque­ te, denominada "asignación de los bits", sirve para indicar al decodificador cómo se han repartido los bits en la zona de carga (muestras de subbanda). "Factores de escala" indica el rango de amplitudes de cada grupo de 12 mues­ tras y tiene una longitud variable, ya que puede haber subhandas que no lle­ guen a codificarse, por lo que no habrá ningún factor de escala para ese grupo!subbanda. Capa II de MPEG-I La capa 11 soporta, al igual que la capa 1, las frecuencias de muestreo de 32 KHz, 44,1 KHz)' 48 KHz y también divide el espectro de audio en 32 sub­ bandas de igual anchura, pero en este caso cada una de las subbandas se codifi­ ca con 36 muestras, por Jo que el cuadro completo se compone de 1.152 mues­ 349 348
  • 174.
    TEC~{)I O(jl: ACTUAlDE TELI:'I~I<':'' Tabla 11.2 Estructura de la cabecera de las tramas MPEG-1, común a las tres capas NOMBRE DEL N. o DE CAMPO BITS UTILIDAD Syncword 12 Siempre 1111 1111 1111 (FFFH)· MPEG = 1; MPEG-2= O.ID 1 2 Capa I = 11; capa 11 = 10; capa 111 = 01; reservado == OO.Layer Valor Osi se añade redundancia (zona CRC del paquete de datos); 1 si no se añade redundancia. Error Protection 1 4 Frecuencia binaria del tren comprimido; 15 valores; el valor 0000 significa flujo libre; el valor 1111 prohibido. Bitrate index Frecuencia de muestreo de la fuente: 32 KHz = 10; 44,1 KHz frequency = 00; 48 KHz =01; reservado = 11 . Padding' Sampling 2 Si está a 1 se utilizan bits de relleno, necesarios cuando la frecuencia de muestreo es de 44,1 KHz. Prívate*' 1 Bit no especificado, de uso libre. Estéreo = 00; estéreo común: 01; dual: 10; mono: 11. Mode Extensión 2 Sólo se usa en Intensity Stereo, que es una variante del estéreo común para indicar margen de las subbandas. Mode 2 Copyright 1 Con derechos de autor = 1; libre = O. Original/Copy 1 Original = 1; copia == O. Emphasis 2 J17 = 11; 50/75 ¡ls = 01; sin énfasis = 00; reservado = 10. , Un bit-stream MPEG capa 11 a 128 Kbits/s muestreado a 44,1 KHz podría terminar con algunos cuadros de 417 bytes y otros de 418 bytes. Los cuadros de 417 bytes tendrían el bit de pad­ ding puesto a "1". .. Puede ser utilizado por ciertas aplicaciones para arrancar procesos o rutinas definidas por el usuario. tras. Por tanto, los cuadros tendrán una longitud de 24 ms (e! triple que en la capa 1), para una frecuencia de muestreo de 48 KHz (1/48.000 x 1. 152 = 24 ms). El factor ele escala es también de 6 bits, aunque este factor de escala pueele aplicarse a todas las muestras del grupo de 24 ms (48 KHz) o cambiarse cada 8 ms (48 KHz) si la variabilidad dentro de! bloque fuera muy alta. El reparto de los bits posterior a la codificacion del factor de escala en esta capa se hace, igual que en la capa 1, en base a cálculos realizados exclusivamente por e! codificador, lo que se conoce como "FoTwaTd Bit AlJocation" o "reparto de los bits hacia delan­ te". La forma en que se adjudican los bits es adaptativa y cambia de cuadro en cuadro, aunque se mantiene constante durante los 24 ms. Se puede codificar sonido monofonico, dual, estéreo o estéreo común, igual que en la capa I. Sus aplicaciones se encuentran en DAB, DVB, CD-ROM, multimedia, etc. Suele decirse que la capa II proporciona una "calidad transparente", es decir, no intro­ duce distorsiones o artificios notables con tasas binarias de 128 Kbits/s y canal, aunque esto depende mucho del contenido de! sonido original. Igual que suce­ de en video, los mejores resultados se obtienen con señales limpias, sin distor­ CO!nnrcsion en audio siones ni ruido. Resumiendo, las diferencias más importantes entre la capa 1 )' la 11 son que esta última: l. Reduce la tasa máxima del tren binario codificado de 48 Kbits!s a 384 Kbits!s como maximo. 2. La señal de entrada se divide en cuadros de 1.152 muesn-as, en lugar de las 384 de la capa I. 3. Puede aplicarse el mismo factor de escala a todo el grupo de 32 muestras o cambiarse cada 12 muestras (equivalente a 8 ms en e! modo de 48 KHz). Puede verse en la figura 11.10 que la estructura de! cuadro codificado con la capa II difiere básicamente en dos aspectos con respecto a la capa 1. En primer lugar, aparece un campo nuevo, denominado SCFSl, que significa "SCole Factor Seleetion lriformation" o "información de la seleccion del factor de escala". Este campo informa sobre si todo e! cuadro de 36 x 32 muestras tiene e! mismo factor de escala o si se cambia cada 12 muestras, o cualquier combinacion dentro del grupo de 3 X 12 muestras. La otra diferencia está en que se triplica el número de muestras de subbanda que transporta la zona de carga. Capa 111 de MPEG-I La capa JIl es verdaderamente sofisticada y toma lo mejor del sistema ASPEC para proporcionar la máxima calidad para una frecuencia dada o, si se prefiere, la mínima tasa binaria para una calidad predeterminada. Esto, por otro lado, supone aumentar la latencia, es decir, el retardo de codificacion/decodificacion. La mejo­ ra de la calidad de! sonido se nota, sobre todo, en las tasas binarias más bajas. Esta capa utiliza el modelo psicoacústico tipo 2 y un análisis más preciso de los feno­ menos de enmascaramiento. En realidad los dos modelos psicoacústicos pueden utilizarse con las tres capas, pero solo el modelo 2 incluye modificaciones especi­ ficas para acomodar los requisitos más exigentes de la capa JIl. Las capas 1y 11, que tienen menos pretensiones en lo referente a tasas de compresion, acomodan bien el modelo 1, por otro lado más sencillo. Con la capa III se pretende una calidad casi-transparente a 64 Kbits/s y canal. La separacion en subbandas en esta capa se logra mediante técnicas híbridas. Primero, mediante un banco de filtros se divide e! espectro de la señal de entrada en 32 subbandas (igual que en las capas l y Il). A continuacion se utiliza la transformada MDCT para lograr un máximo de 576 subbandas. La capa III especifica dos longitu­ des de bloque MDCT distintas: una longitud de bloque de 18 muestras y otra más corta de sólo 6. Los bloques largos permiten una mejor resolucion de la frecuencia con señales de audio estacionarias, mientras que los bloques cortos proporcionan mejor resolucion temporal en presencia de transitorios. Debe notarse que la longitud del bloque corto es de 1/3 la del bloque largo. Cuando se trabaja en el modo de blo­ que corto, tres bloques reemplazan a uno largo, de forma que el número de muestras MDCT para un cuadro de audio permanece inalterado. En un cuadro de muestras determinado todos los bloques pueden ser cortos, o todos largos, o una mezcla de cortos y largos. Cuando se trabaja con e! modo de mezcla, las dos subbandas inferio­ res se codifican con bloques largos, mientras que las 30 bandas superiores restantes utilizan bloques cortos. Esto proporciona la mejor resalucion en frecuencia para las 351350
  • 175.
    -------------- TI.c.";Of.{H.;I: 'l:J'U,l 1)]HU 'l~ll'r' 32 bits Oó 16 bits Asignación1;cFSI Muestras de subbandas: 3 grupos Datos ¡ Cabecera CRe de los bitsJ= de 12 muestras x 32 subbandas auxiliaresI Sincronización Información ~ (12 bits) sistema (20 bi~lJ 1111 1111 1111 Figura 11. 10. E,tructura ct' un cuadro de audio MPEG-l capa JI. bajas frecuencias, donde es más necesaria, sin sacrificar la resoluci6n temporal de las altas frecuencias. Ésta es la capa utilizada por el popular MP3. En realidad, la extensi6n "mp3" fue creada con la aparici6n del sriftware de codificaci6n Windows para la capa III del MPEG-l. La norma MPEG,2, que apareci6 posteriormente, amplía las posibles frecuencias de muestreo, incluyendo frecuencias mas bajas que el MPEG-l. A par­ tir de entonces los archivos codificados MPEG-2 recibieron también la extensión y e! nombre MP3. En ocasiones a estos archivos comprimidos con la capa III se les llama MPEG-3, lo cual es err6neo, ya que nunca ha existido una norma con este nombre ni para vídeo ni para audio (véase capítulo 8). Una característica especial de esta capa es que los datos de audio codificados pertenecientes a un cuadro deter­ minado pueden distribuirse sobre una serie de cuadros consecutivos si tales cua­ dros no llegaran a lIenane con sus propios datos. As!, en esta capa, cuando la cabe­ cera informa sobre el bit-rate o frecuencia binaria del tren codificado, lo que está diciendo es la frecuencia media promediada, ya que los bits se distribuyen sobre varios campos, es decir, esta capa permite una especie de VBR (Variable Bit Rate o frecuencia binaria variable), aunque elVBR, tal como es entendido por los codecs de audio, es algo diferente, ya que en tal caso lo que se especifica es el grado de empeoramiento o degradación de la calidad permitido, es decir, en lugar de indi­ car la tasa binaria de salida (por ejemplo, 128 Kbits/s estéreo), el usuario dispone de una barra deslizante similar a la que se emplea en JPEG, CJue permite escoger entre calidad y tamaño de! archivo. En la capa III la información de factores de escala y reparto de los bits de pre­ cisión va en un solo paquete combinado, denominado "parámetros del paquete", 32 bits Parámetros del paquete Depósito de bitsCabecera Sincronizaciónl'nformación del (12 bits) sistema (20 bits) 1111 11111111 Figura 11. 11. Estructura de un cuadro de audio MPEG-l capa 1II. 352 donde se incluyen, además, otras informaciones propias de esta capa. La carga principal del paquete está ocupada por el llamado "bit merl'Oir" o depósito de bits, ya que, además de contener los bits de precisi6n del cuadl'O actual, puede conte­ ner también bits de precisión de cuadl'Os anteriores. Bandas de jactares de escala A diferencia de las capas 1y 11, donde cada subbanda puede tener un factor de esca, la diferente, la capa III utiliza las llamadas "bandas de factor de escala". Estas bandas cubren muchos coeficientes MDCT y presentan anchuras apl'Oximadamente iguales a las "bandas críticas ele la percepción auditiva". En esta capa los factores de escala "modelan" el ruido de cuantificación, adaptándose a los contornos de frecuencia del umbral de enmascaramiento, de forma que el reparto de bits para factores de escala y para bits de precisión de las subbandas forman parte ele un mismo proceso. Codificación en trópica Una vez que se han aplicado todas las helTamientas de compresión perceptual, los datos resultantes son enviados a un segundo codificador, denominado "codifi­ cador entrópico" o "codificador sin pérdidas", el cual utiliza los conocidos "códigos de Huffman" explicados en el capítulo 8. Este tipo de compresores puede equipar­ se a los conocidos codificadores ZIP, tan utilizados en informática para la compl'e­ sión de archivos. Se trata, por tanto, de compresores sin pérdidas, que sólo huscan una forma más eficiente de empaquetar la información. Se dice que la funci6n del compresor perceptual es la de "descorrelacionar" los datos, es decir, rompe¡' la relación de redundancia CJue hay entre ellos. Si este codi­ ficador fuera 100% eficiente en la eliminación de la redundancia perceptual y apro­ vechara al 100% las ca¡'actcrísticas de enmascaramiento del sistema de percepción, el codificador entrópico tendría poco que hacer. Por ejemplo, un pasaje de música que contenga muchos instrumentos que suenan a la vez se beneficiará de los algo­ ritmos de enmascaramiento. Sin embargo, una frase musical formada por un solo tono sostenido no podrá aprovechar tan eficazmente el fenómeno de enmascara­ miento. Por otra parte, es evidente que el tono sostenido contiene, por definición, mucha redundancia y puede ser comprimido mediante técnicas tradicionales mate­ máticas, como las utilizadas por los compresores ZIP. Como promedio, se puede calcular en un 20% la reducción total aportada por la codificación entrópica a los archivos de audio precomprimidos con técnicas perceptualcs, La capa III utiliza codificación de longitud variable Huffman para compactar los datos previamente comprimidos mediante técnicas perceptivas. Para esto el codi­ ficador ordena los 576 coeficientes MDCT (32 subbandas x 18 MDCT coeficien­ tes/subbanda) en un orden predeterminado, basado en el incremento de frecuen­ cia, es decir, se ordenan de menor a mayor frecuencia. Este orden no se respeta en el modo de bloCJues MDCT cortos. En este modo hay tres conjuntos de valores para una frecuencia dada, de manera que la ordenación es primero por frecuencia y luego por orden del primero al tercero, dentro de cada banda de factor de esca­ la. Esta ordenación presenta la ventaja de que los valores largos suelen darse en el caso de las bajas frecuencias, mientras que los valores cercanos a cero y las largas cadenas de ceros suelen corresponder a las altas frecuencias.
  • 176.
    TH.~()[ ()(;I', A(TlJ.1 ni TIII"'I.'iIO"l El codificador separa los coeficientes reordenados en tres regiones distintas. Esto permite codificar cada región con un conjunto distinto de tablas Huffman, específicamente ajustadas a las estadísticas de cada región particular. Comenzando por la frecuencia más alta, el codificador identifica las cadenas continuas de ceros como una región. Esta región no necesita ser codificada, ya que su longitud puede deducirse a partir del tamaño de las otras dos regiones. La segunda región, llamada "cuenta-¡ ", consiste en una cadena continua de valo­ res que sólo pueden incluir --1, Oo 1. La tabla de Huffman para esta región hace grupos de cuatro valores de éstos, de manera que el número de valores inclui­ do ha de ser múltiplo de cuatro. La tercera región cubre todos los valores res­ tantes y se denomina "g¡'andes valores". Las tablas de Huffman para esta región codifican los valores por parejas. Esta región de grandes valores es, a su vez, subdi"ida en tres subregiones, cada una de las cuales tiene su propia tabla Huffman. Además de mejorar la eficacia de la compresión, la subdivisión de los coeficientes MDCT en regiones ayuda a controlar la propagación de errores. Al igual que en otras aplicaciones, las tablas de Huffman asignan códigos cortos a las combinaciones binarias más frecuentes y códigos largos a las menos frecuen­ tes. En MPEG-audio, si el número de bits resultante durante la codificación exce­ de el número de bits disponibles para codificar un bloque de datos dado, esto puede ser corregido ajustando la ganancia global, lo que produce un mayor tama­ ño de los peldaños de cuantificación de los coeficientes y, por tanto, códigos de cuantificación más cortos. Esta operación se conoce como "lnner lteration Loop" o "lazo iterativo interior" y se repite con diferentes tamaños para los peldaños de cuantificación, hasta que el número de bits resultante iguala la demanda de las tablas de codificación Huffman. Tabla 11.3. Comparación de los tamaños, en Mbytes, de archivos de música sin com­ primir y con compresión entrópica. Original .wav Comprimido .ape Factor de compresión .ape Comprimido .zip Factor de compresión .zip Adagio 57,576 16,856 3,41:1 50,343 1,12:1 Marcha 23,429 10,245 2,28:1 20,213 1,16:1 Balada Rack 68,983 44,347 41,869 28,733 1,67:1 1,54:1 64,725 42,519 1,06:1 1,04:1 A modo de ilustración, la tabla 11.3 muestra los tamaños en megabytes de cua­ tro archivos de música más o menos representativos. Los dos primeros son de música clásica: un adagio muy lento y una marcha rápida. Los dos últimos son una balada con bastantes pausas y amplio rango dinámico y una pieza de rack mayor­ mente instrumental. Los archivos .ape han sido generados con un programa espe­ cialmente diseñado para comprimir música sin pérdidas (Monkey Audio), de manera que, una vez descomprimidos, vuelven a producir archivos, wav idénticos, byte a byte, a los originales. Puede verse que se generan factores de compresión moderados, en torno a 2: 1 como media, y que el grado de compresión varía COIllPrc"jún ('J) audio mucho de llna pieza a otra. También puede verse que los compresores tipo ZIP no resultan muy eficaces en la compresión de música, ya que son algoritmos de tipo general, que no reordenan los datos antes de aplicar la codificación dc longitud variable (VLC). Depósito de bits Una de las características más importantes dc la capa III es su capacidad para afrontar la demanda de bits, variable en el tiempo. Al igual que la capa 11, la capa III procesa cuadros de datos de audio correspondientes a 1.152 muestras, pero, a diferencia de la primera, en la capa IIIlos datos codificados de un cuadro no tienen que ubicarse necesariamente en un campo de longitud fija dentro del bic-stream. Si el codificador se encuentra en una situación tal que el promedio de bits que le llega es superior a los que puede acomodar en un momento determinado, puede "donar" temporalmente bits a un depósito. Más tarde, cuando el codificador necesite más bits de los que le están llegando para llenar el cuadro actual, podrá tomar los bits temporalmente almacenados en el depósito. El codificador sólo puede coger del depósito bits pertenecientes a cuadros anteriores, es decir, un cuadro determina­ do no puede contener bits de otro que es posterior en el tiempo. El biC-stream de la capa III incluye un "puntero" de 9 bits, que se localiza en el campo "parámetros del paquete" (figura 11 .11). Este puntero indica la dirección o apunta hacia la loca­ lización del primer byte de los datos de audio correspondientes a ese paquete. Tabla 11.4. Calidad en función de la tasa binaria para la capa IJ/-MPEG-1. Calidad' Ancho debanda Modo Frecuencia binaria Factor de compresión Mejor que onda corta 4,5 KHz Mono 16 Kbits/s 48:1 Mejor que radio en AM 7,5 KHz Mono 32 Kbits/s 24:1 Similar a radio en FM 11 KHz Estéreo 56...64 Kbits/s 26...24:1 Casi compact disc 15 KHz Estéreo 96 Kbits/s 16:1 Como compact disc >15 KHz Estéreo 112...128 Kbits/s 14... 12:1 Según el Fraunhofer liS. En la tabla 11.4 puede verse la calidad de sonido que cabe esperar en función de la frecuencia binaria de! tren comprimido cuando se utiliza la capa 1II. La fre­ cuencia binaria de 8 Kbits/s es una extensión de la capa III no recogida en las nor­ mas ISO que proporciona una mejora de las características subjetivas, en lo que se conoce como "MPEG-2.5", y se basa en frecuencias de muestreo de 11,025 KHz o 12 KHz. Las diferencias más notables con respecto a la capa 11 son: 1. Las 32 subbandas de igual anchura son subdivididas en 18 bandas cada una, utilizando técnicas de tipo transformado, como la MDCT, con lo que se obtiene un total de 576 subbandas. En presencia de transitorios, y para evi­ tar e! efecto pre-eco, este número puede rebajarse a 192 subbandas (véase apartado 3.3.1). 2. Los valores proporcionados por el codificador perceptual son a continuación 354 355
  • 177.
    _________ Comprl'~iÚn enaudio pasados por un compresor entroplCo que, mediante' un codigo VLC­ Huffman, "empaqueta" las cadenas de unos y ceros de la forma más eficaz posible. 3. Genera bajas tasas binarias que encuentran sus aplicaciones en RDSI, enlaces de satélite y audio de alta calidad YÍa Internet o en reproductores MP3. 4. Los bits de datos de un cuadro pueden repartirse sobre "arios cuadros futu ros. Esto dispersa la informacion en el tiempo, por ]0 que el decodificador necesita de un almacén temporal, cuyo tamaí10 es la mayor limitacion al grado de dispersion. Tabla 11.5. Comparación de los principales parámetros de las tres capas MPEG-1. PARÁMETRO CAPA I CAPA 11 CAPA'" Modos de codificación Mono, dual, estéreo, estéreo común Frecuencias de muestreo 32 KHz, 44,1 KHz, 48 KHz Número de subbandas 32 192 o 576 Muestras/cuadro 384 1.152 128 Kbits/s/canall 64 KBits/canal 24 ms/26,12/36 ms Calidad casi transparente Duración cuadros: 48 KHz / 44,1 KHz / 32 KHz 192 Kbits/s/canal 8 ms/8,7 ms/12 ms Frecuencias binarias mínima y máxima 32 Kbits/s­ 448 Kbits/s 32 Kbits/s­ 384 Kbits/s 16 Kbits/s -320 Kbits/s Anchura de las subbandas 750 Hz 36 125 Hz o 41 ,67 Hz 4.1.2. Aspectos acnerales de MPEG-I Repasando todo lo expuesto anteriormente, la señal de audio muestreada a 32 KHz, 44,1 KHz o 48 KHz es dividida en bloques de 384 muestras en la capa 'loen 1.152 muestras en las capas II y IlI. Estos bloqucs son codificados mediante la adi­ ción de una cabecera, información del sistema, CRC, cte. y forman un "cuadro de audio". Un stream o corriente de audio MPEG-I se forma, por tanto, con una serie de cuadros consecutivos. La cabecera de un cuadro contienc información general, tal como el tipo de capa que se está utilizando, la frecuencia de muestreo, el número de canales, la protección contra errores, el preénfasis o los derechos de autor. Aunque la mayor parte de esta información se repite de un cuadro a otro, la norma MPEG decidió dar a cada cuadro una cabecera completa para facilitar la sincronización y la edición o montaje del tren binario sin necesidad de descomprimir. La ITU-R (International TeJecommunications Union o Unión Internacional de Telecomunicaciones, rama Radiodifusión) ha llevado a cabo una serie de pruebas encaminadas a establecer las capacidades de los distintos codecs de audio. Para ello probaron varias configuraciones de canales codificador/decodificador con pasadas reiterativas, a diferentes frecuencias binarias y con material de programa variado. En todas ellas MPEG-l resultó ser el mejor, por lo que la ITU recomienda el uso de la capa II de MI'EG- 1 para contribución (una forma o I¡¡,·el de calidad de la sel1al en la que el destinatario de la transmision no es el usuario final, sino otro radiodifusor o profesional, y donde, además, puede ser necesario algún proceso de edición pos­ terior), así como para transmision, es decir, entre el radiodifusor y la estación de transmisión final)' también para emision digital, es decir, la transmisión final al usuario. Por otro lado, este organismo recomienda la capa III para enlaces de comentarista, es decir, enlaces para señales de habla, que son transmitidas a la esta­ ción, desde una localización remota, mediante una línea RDSI. Más detalles sobre estas recomendaciones pueden encontrarse en ITU-R BS. 115. Por su lado, la ETSI (European Telecommllnicatians Standards Institllte o Instituto para las Normas de Telecomunicación Europeas) incluyó en 1995 el audio MPEG-l y MPEG-2 en su norma ETS 300401 "Radio Broadcastina System, Diaital Audio Brodcastina" (DAB). 4.1.3. Las nuevas normas MPEG-2 La primera versión de la norma MPEG-2 fuc publicada cn 1994 como ISO-lEC 13.813, con la intcnción de cubrir las necesidades de radiodifusion de televisión y grabación en soportes multimedia, con diferentes niveles de calidad, frecuencias binarias y complejidad de codificación. Hay que recordar que la norma MPEG-l estaba pensada para ubicar vídeo y audio comprimido en CD-audio, a la freeuen cia binaria que este soporte permite, es decir, a 1,5 Mbits/s. MPEG-2, en cambio, permite frecuencias binarias (audio + vídeo) desde 2 Mbits/s hasta 100 Mbits/s. En lo referente al audio, la norma MPEG-2 se diseñó con la intención de que fuera compatible, hacia abajo, con el audio codificado MPEG-l . Además, siguiendo las recomendaciones de la UER y el SMPTE, se decidió aumentar el numero de cana­ les desde dos hasta cinco, de manera que el sistema incluyera, además de los cana­ les estéreo normales, uno central, uno trasero-izquierdo y otro trasero-derecho. Estos dos últimos suelen denominarse J~ft-surround y riaht-surround. También se incluyó un canal de realce de bajas frecuencias, llamado LFE, que esencialmente es un subwoqfer con un ancho de banda menor que los otros canales (típicamente < 120 Hz). El LFE no tiene ningún efecto sohre la direceionalidad percibida, es decir, el altavoz LFE se puede colocar en cualquier lugar sin que esto afecte a la percepción espacial. El conjunto completo de los cinco canales más el de realce de baja fre­ cuencia se conoce como "sistema 5.1". La mancra en que se codifican los 5.1 permite que los decodificadores antiguos puedan extraer el par estéreo básico, ignorando los otros 3,1 canales, mientras que los decodificadores nuevos pueden recuperar todos los canales. Además los deco­ dificadores modernos pueden reproducir los trenes binarios codificados MPEG-1 , con lo cual se respeta tanto la compatibilidad hacia delante como hacia atrás. La compatibilidad hacia atrás se mejora si el decodificador MPEG-l recibe un par de canales obtenidos a partir de la mezcla adecuada de los cinco canales. Los datos de estos dos canales mezcla constituyen el núcleo del tren codificado MPEG-2 y son la porción que el decodificador MPEG-1 puedc entender. Para mejorar las prestaciones de los codificadores, cuando éstos trabajan con muy bajas tasas binarias, es preferible partir de señales digitales con bit-rate reduci­ 356 357
  • 178.
    do )' aplicaruna compresión moderada, que aplicar fuertes compresiones a señales más ricas. Concretando, es mejor filtrar), submuestrear )' luego comprimir mode­ radamente que aplicar fuertes compresiones a señales con total ancho de banda. Por esta razón la norma MPEG-2 contempla, además de las frecuencias de muestreo normalizadas en MPEG-I (32 KHz, 44,1 KHz)' 48 KHz), las frecuencias mitad, es decir, 16 KHz, 22,05 KHz)' 24 KHz. La aplicación de estas frecuencias es aconse­ jable cuando se pretenden tasas binarias del tren comprimido por debajo de 64 Kbits!s. Con una frecuencia de muestreo de 24 KHz, por ejemplo, la capa 1Il, que utiliza 576 subbandas, presenta una resolución de frecuencia (anchura de las sub­ bandas) de aproximadamente 21 Hz. Esto permite una mejor adaptación de las ban­ das de factor de escala a las badas críticas del sistema de percepción humano, lo que se traduce en mayor calidad de audio para tasas binarias bajas, aunque el ancho de banda teórico sea de sólo 12 KHz en este caso. La aplicación de esta extensión de la norma es muy fácil para los decodificadores MPEG-I, ya que sólo supone la inclu­ sión de algunas tablas mas. Cuando ya se había definido y publicado la primera versión de la norma MPEG­ 2, algunas organizaciones arguyeron que existían nuevas técnicas de codificación capaces de proporcionar mejores características de calidad que el MPEG, por lo que se realizaron nuevas pruebas. De hecho ya se estaba trabajando en normas que superaban al MPEG, tales como el sistema AC-3 de Dolby o algunas normas de la AT&T. Por eso la norma MPEG-2 incluyó, en su versión de 1997, un sistema de codificación denominado AAC (Advanced Audio Codina) que no es compatible hacia atrás, es decir, que los trenes binarios codificados MPEG-2 AAC no pueden ser decodificados por sistemas MPEG-I. Se dice entonces que el AAC es un sistema Non Backward Compatible o NBC (no confundir con la cadena de televisión ameri­ cana). Aparte de permitir nuevas frecuencias de muestreo más bajas, la codificación com­ patible de 5.1 canales y la inclusión de la variante AAC no-compatible, la norma MPEG-2 de audio es idéntica al MPEG-I y trabaja con las mismas tres capas que éste. Existe también una extensión no normalizada por los organismos lEC e ISO, cuya patente es propiedad del Fraunhofer Institute for Integrated Circuits, que permite la utilización de frecuencias de muestreo equivalentes a un cuarto de las nominales del MPEG-I, es decir, 8 KHz, 11,025 KHz Y 12 KHz. La ampliación a multicanal se logra insertando los datos básicos, que han de ser­ vir tanto al decodificador MPEG-l como al MPEG-2, en la zona de carga normal de los paquetes codificados, es decir, la que aparece etiquetada como "muestras de subbandas" en las figuras 11.9 y 11.10, correspondientes a las capas 1 y I1, o como "depósito de bits" en la figura 11.11 para la capa IlI. Los bits extra, que permitirán al decodificador MPEG-2 obtener los cinco canales surround más el de realce de bajas frecuencias, se transmiten en la cola del paquete, dentro del campo etiqueta­ do "datos auxiliares". Estos datos pasarán desapercibidos para el decodificador MPEG-I. Por tanto, se produce un "anidado" de paquetes, ya que en el campo "datos auxiliares" podemos encontrar paquetes completos, con su cabecera, su CRC, cam­ pos de factor de escala y reparto de bits, así como zona de carga para las muestras de subbanda de los 3.1 canales. MPEG-AAC Éste es el último miembro (por ahora) de la familia MPEG-2 )' ha sido diseña­ do para proporcionar alta calidad de audio a frecuencias binarias de 64 Kbits!s y canal para aplicaciones multicanal. El tren binario codificado puede acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre­ cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos auxilia­ res. Con esto se pueden codificar hasta 16 programas independientes, cada uno con su propia configuración, es decir, formado por cualquier número de canales de audio y paquetes de datos. El sistema AAC utiliza los mismos principios básicos de codificación que el MPEG-I , aunque añade nuevas herramientas para mejorar las características finales. Algunas de las mejoras introducidas por el sistema AAC son: un banco de filtros con una mayor resolución en frecuencia, una codificación entrópica más eficaz y un mejor aprovechamiento de la redundancia e irrelevancia estereofónica. Se introdu­ cen dos nuevas herramientas: un predictor hacia atrás opcional y un modelador de ruido en el dominio temporal, que mejma la calidad cuando se codifican señales de habla a muy bajas tasas binarias. Como resultado, el AAC es, aproximadamen­ te, un 30% más eficaz que la capa 1Il. PeIjiJes en AAC La variante AAC recupera el concepto de "perfiles" de! MPEG-2 vídeo, que en e! fondo no es muy distinto del concepto de capas en MPEG-2 audio. En AAC hay tres perfiles, denominados: Main Prrifile, Low Complexity Predile y Scalable Simple Rate Prrifile. En general se puede decir que los tres perfiles AAC, cuando trabajan a 128 Kbits!s, proporcionan mejores características que la capa II a 192 Kbits/s o que la capa III a 128 Kbits!s. Se puede considerar que la meta inicial, que consistía en una calidad casi transparente para frecuencias binarias de 64 Kbits!s y canal, está ple­ namente conseguida. Tanto el perfil principal como el de baja complejidad pro­ porcionan, a 96 Kbits/s, una calidad que es comparable a la capa II a 192 Kbits!s, lo que supone una mejora de 2: 1 en la eficacia de compresión. Por otro lado, el perfil principal a 96 Kbits!s da mejores resultados que la capa III a 128Kbits!s. Paquetes AAC En MPEG-I (y, por tanto, en MPEG-2) cada capa normaliza la forma en que se empaquetan los datos mediante los llamados "cuadros" o "frames", los cuales se suceden a una frecuencia constante. La forma en que se estructuran estos paque­ tes no cambia mucho de una capa a otra. En todos los casos se comienza por una cabecera, luego vienen unos campos de factor de escala, asignación de bits, etc., para nnalizar con la zona de carga y los datos auxiliares. AAC, por el contrario, deja abierta la eleccion de la sintaxis de transporte a la aplicación que se esté utilizan­ do, normalizando sólo el formato de los datos de audio codificados, es decir, bási­ camente la llamada "zona de carga". Por otro lado, ya han sido normalizados dos sintaxis de transporte que pueden servir de ejemplo más o menos típico: l. ADIF: Audio Dota lnterchanae Format.-EI tren binario de audio codincado contiene una cabecera única con toda la información necesaria para contro­ lar el decondicador, tal como la frecuencia binaria, la frecuencia de mues­ 3S8 359
  • 179.
    Tlí.'~(ll ()(,I.-' ,'L¡U:,! !JI IllJ. ¡"jll:'-, treo o el modo de estéreo que se estú utilizando. La principal aplicación de ADlf es el intercamhio de archivos de audio digital comprimido por redes informáticas, serYidores, etc. 2. ADTS: Audio Data Transpor Strcam.-El tTen hinario de audio está formado por una secuencia de cuadros, cada uno de los cuales se inicia con una cabecera similar a la de] MPEG- 1. Los datos de audio codificado de un cuadro deter­ minarlo se localizan siempre entre dos patrones de sincronización, de forma que se facilita la extracción de segmentos), la edición sin descompresión. De todas formas, el número de hits contenidos en un cuadro puede ser variable. 4.2. El sistema AC-3 de Dolby Éste es el principal contrincante de la familia MPEG. El origen del AC-3 se encuentra en el deseo de proporcionar un sonido multicanal de alta calidad para la televisión en alta definición en Norteamérica, aunque luego se ha utilizado tam­ bién en otras aplicaciones, tales como sonido envolvente pa¡-a cine, laserdisc, tele­ visión por satélite, o para descarga controlada de música por Internet. 4.2. l. Precedentes históricos El proceso de normalización de HDTV en los Estados Unidos comenzó hacia 1987 cuando el FCC (Fcderal Comml1nications Comisión o Comisión Federal de Comunicaciones) creó el ACATS (Advis0'Y Committee on Adl'anced TcJevision Serl'ice o Comité Consultivo para la Televisión Avanzada). La primera propuesta de este organismo para la HDTV en Norteamerica se basaba en v¡rleo analógico y audio digital. Este último consistía en un par estéreo obtenido por matrización de un sis­ tema multicanal, codificado con el sistema AC- 1 de Dolby. El AC- 1 era un método de codificacion de bajo coste, con modulación delta. En el receptor los dos' cana­ les podían ser opcionalmente decodificados a los cuatro canales originales median­ te una matriz inversa. Se trataba, por tanto, de un sistema matricial 4-2-4, donde la compresión se lograba gracias a la modulación delta y a la reducción del núme­ ro de canales de transmisión. En 1989 los avances que se habían producido en la codincación de audio y en el hardware para procesado digital de la señal (DSP) per­ mitieron la creación de! AC-2, que mejoraba la calidad, a la vez que disminuía la frecuencia binaria del tren comprimido. La filosofía de matrizado multicanal 4-2­ 4 no se alteró. En 1990 se sugirio al comité para la HDTV que podrían evitarse las limitaciones impuestas por el sistema de matrizado de canales y que sería mejor transmitir varios canales discretos. Así nació el AC- 3: un sistema de codificación de audio multicanaJ que trabaja, aproximadamente, a la misma frecuencia binaria que la requerida por un sistema de dos canales. Se ha podido comprobar que la utilización de un sistema de audio multicanal de alta calidad mejora enormemente la experiencia de ver televisión, en el sentido de que, cuando una imagen es acompañada de audio de calidad, incluso la propia ima­ gen obtiene puntuaciones más altas por parte de los espectadores. Aunque el AC­ C0!.!ll-l..u;~I.l..-t;lL~:u.!i.1J(~ 3 se concibió inicialmente para HDTV, a medida que se iba dcsalTollando, se fue­ ron encontrando aplicaciones en el mundo del sonido el1'oh-ente para cinc. La pri­ mera película en utilizar codificación AC-3, con 5.1 canales a 320 Kbits/s, fue Star Trek 1'1, en diciembre de 1991, aunque el estreno formal del Dolby-DSR (que es como se le conoce en e! mundo del cine) fue en junio de 1992 con la entrega de Batman returns. 4.2.2. Codificación AC-3 Al igual que los sistemas MPEG, el AC-3 se basa en la división de la señal de entrada en cuadros y luego en subhandas de frecuencia, cada una de las cuales es codificada mediante un factor de escala)' unos cuantos bits de precisión. En MPEG es e! codificador el que decide cómo se reparten los hits por las distintas subban­ das, basándose en e! contenido de la señal, es decir, de forma adaptativa. Estas deci­ siones se comunican al decodificador mediante una serie de bits auxiliares inserta­ dos en las cabeceras ele los paquetes. Esto se conoce como Forll'ard Adaptil'c Bit Al/ocation (FABA). Lo contrario sería el Backll'ard Adaptil'e Bit Al/ocation (BABA) o reparto de los bits hacia atrás (vcase apartado 3.3). Con este sistema los coeficien­ tes de las subbandas se estructuran mediante una combinación de exponente y mantisa (equivalente a factor de escala)' bits de precisión de! MPEG). El expo­ nente representa el valor medio de su subbanda, mientras que la mantisa aporta el detalle sobre el nivel de cada coeficiente. La coleccion ele exponentes de las dis­ tintas subbandas, en un momento determinado, forma una representación gene¡-al, a BTOSSO modo, de las componentes frecuenciales de la señal, denominada "envol­ vente espectral". Esta envolvente se codifica y se envía al decodificador, pero a la vez se utiliza para decielir qué coeficientes son importantes para la codificación de! sonido y, por tanto, para determinar el reparto ele los bits entre los coeficientes de cada una de la subbandas. Esto se hace de forma similar al MPEG, controlando e! numero de bits utilizados para representar cada valor, lo cual supone alterar la resolución con que dichos valores son expresados. Variar la resolución con que se expresa e! valor de las muestras (en función del reparto de bits) equivale a modular el ruido de cuantificación, pero esto se hace de manera que dicha modulación sea controlada por la envolvente espectral, de forma que quede enmascarada. Una vez que la envolvente de la señal ha sido codificada y los valores de mantisa cuantificados, las dos informaciones se multiplexan y se colocan en los paquetes de datos. Cuando el decodincado¡" recibe estos paquetes, decodifica la envolvente espectral y a partir de ella calcula la forma en que se han repartido los bits en la codificación de las mantisas. Puesto que tanto el codifica­ dor como e! decodificador utilizan la misma envolvente espectral y el mismo algo­ ritmo, obtienen los mismos resultados, es decir, las mismas decisiones de reparto de bits para las mantisas de las subbandas. Esto permite al decodificador recons­ truir los valores de las mantisas, sin necesidad de que se le envíe por separado información sobre cómo se hizo el reparto de bits. Así la mayor parte de los paque­ tes codificados puede utilizarse para datos representativos de la señal de audio y no para datos de control. 360 361
  • 180.
    El AC-3 deDolb)' es un sistema híbrido que utiliza tanto reparto adaptativo hacia delante como reparto adaptativo hacia atrás. Básicamente es un sistema BABA, como el descrito en el párrafo anterior, ya que existe una rutina básica de reparto de los bits adaptativa hacia atrás, que funciona de manera identica e inde­ pendiente en el codificador y en el decodificador. Esta rutina es sencilla, se basa en un modelo psicoacústico predeterminado y, en general, resulta bastante precisa. La rutina es controlada por la envolvente espectral, que forma parte de los datos enviados desde el codificador al decodificador. Ahora bien, esta rutina puede ser modificada en ambos extremos. Mediante una información auxiliar, el codificador comunica al decodificador los cambios introducidos (por tanto, información FABA). Resumiendo, la rutina básica funciona de manera independiente en el codi­ ficador y en el decodificador, basándose en la envolvente espectral, tal como se hace en los sistemas BABA puros, pero pudiendo ser alterada mediante informa­ ción FABA que mejora su precisión. La rutina básica es bastante sencilla y se basa en un modelo psicoacústico fijo que parte de ciertas premisas sobre cómo se producen los procesos de enmascara­ miento auditivo. A partir de estas premisas, la predicción hacia delante hace un par de modificaciones: por un lado, modifica los parámetros del modelo psicoacústico y, por otro, las diferencias en el reparto de los bits que se producen al aplicar el modelo actual. Así ciertos parámetros del modelo psico-acústico son explícita­ mente enviados al decodificador dentro de los paquetes codificados AC-3, de manera que este pueda alterar algunos detalles del modelo psicoacústico predefi­ nido. Con el sistema híbrido el codificador puede ensayar un reparto de bits basado en cualquier modelo psicoacústico de cualquier complejidad y comparar los resul­ tados con el reparto que se obtendría utilizando la rutina básica contenida en el decodificador. Si el codificador encuentra que se puede obtener una mejor iguala­ ción al reparto de bits ideal alterando algunos de los parametros de la rutina bási­ ca, lo hará y así lo comunicará al decodificador. Por otro lado, si encuentra que no es posible una mejor aproximación al reparto de los bits mediante la alteración del modelo psicoacústico, entonces enviará explícitamente información sobre cómo se ha hecho el reparto de los bits al decodificador, es decir, enviará datos FABA simi­ lares, aunque en menor cantidad, a los que se envían en MPEG. Puesto que la ruti­ na básica está bastante optimizada, sólo serán necesarios unos cuantos datos FABA. 4.2.3. FABA vs BABA En MPEG, donde se utiliza el sistema de adaptacion hacia delante (FABA), la capa n, por ejemplo, genera casi 4 Kbits/s por canal para informar al decodificador sobre el reparto de los bits de las subbandas, cuando se trabaja con una frecuencia de muestreo de la fuente de 48 KHz, lo que equivale a una resolucion frecuencial de 750 Hz y temporal de 24 ms. En presencia de transitorios puede ser convenien­ te aumentar la resolución temporal (para evitar el efecto pre-eco) de 24 ms a sólo 8 ms. Esto multiplica por tres los datos de control de adjudicación de bits que hay que enviar, aunque, por otro lado, estas situaciones se producen raramente. a: O Oatos PCM I O «X ~Ud'O Transformada W codificado ....J --. tiempo­ o..frecuencia 5::JModelo :2psicoacústico adaptado Figura 11.12. Diagrama de bloques del codificador AC- 3 de Dolby. El metodo adaptativo hacia atrás (BABA), por su lado, tiene la ventaja de que no se desperdicia capacidad del canal en enviar datos sobre cómo se han repartido los bits entre las subbandas, de manera que toda la capacidad de los paquetes es utilizada por las muestras de audio. Pero este metodo tiene también desventajas. La información que se envía al decodificador tiene una resolución limitada y, por tanto, contiene erro­ res. Además, puesto que el decodificador no puede ser muy caro, los cálculos han de ser relativamente sencillos y el algoritmo de reparto de los bits se convierte en fijo tan pronto como se pone el primer decodificador en el mercado. La solución híbrida utilizada por AC-3 intenta aprovechar que la cantidad de datos que hay que enviar al decodificador para cambiar la rutina básica que controla el reparto de los bits es muy inferior a los que serían necesarios con un sistema adaptatiVO hacia delante puro y, por otro lado, el modelo psicoacústico puede ser actualizado dinámicamente. 4.2.4. Detalles del AC-3 Este sistema fue diseñado para aplicaciones multicanal y es capaz de codificar cinco canales con total ancho de banda (izquierdo, derecho, central, izquierdo surround y derecho SUTIOund) , más un canal de realce de bajas frecuencias de ancho de banda reducido. Se ha podido comprobar (jue la demanda de bits en los siste­ mas multicanal crece, aproximadamente, proporcional a la raíz cuadrada del núme­ ro de canales, es decir, si con un sistema determinado de codificación un solo canal requiere, por ejemplo, 128 Kbits/s, entonces 128 Kbits/s x /5,1 =290 Kbits/s. Esto se debe a dos causas principales: la utilizacion de un "depósito general de bits" y la "adaptación de alta frecuencia". El depósito general permite al circuito repartidor de bits ubicar los bits de los canales de audio donde se pueda en cada momento. Si uno o más canales están inac­ tivos en un momento determinado, se permitirá que a los canales restantes se les adjudiquen más bits de los que normalmente les tocarían si todos los canales pre­ sentaran una alta demanda de bits, es decir, los bits se reparten de manera dinámi­ ca entre los canales que los necesiten, de forma que no queden huecos o zonas sin utilizar en los paquetes codificados. 362 363
  • 181.
    ------ _______________________. . CQUl}J-.l~~.!úILQ~uiliQ TI.C'(II (H;t. :l ru il PI TU 1: I.]p:, La adaptación de alta frecuencia se utiliza para lograr una compresión extra de las frecuencias más altas del espectro. En las altas frecuencias el oído no puede detectar ciclos indi,·jduales de la forma ek onda de audio, sino que más bien responde solo a la ell'oh-cnte de la sei1al en esta zona de frecuencias. La tecnica de la adaptacian reduce las componentes de alta frecuencia de los canales correlacionados (que pertenecen a un mismo programa )' tienen contenido similar), generando lID único canal-mezcla para estas frecuencias, a la vez que genera un poco de informacian colateral que des­ cribe la envolvente especb'al específica de cada canal. De todas formas, esta tecniea puede dar lugar a potenciales artificios, por lo que solo se emplea cuando se requie­ ren tasas binarias muy bajas. En AC-3 la seilal de entrada cs filtrada para eliminar las componentes desde OC hasta 3 Hz, dividida en hloques de 512 muestras, lo que equivale a 10,66 ms para la frecuencia de muestreo de 48 KHz y separada a continuacian en 256 subbandas de frecuencia, mediante filtrado MOCT, utilizando una b'ansformada de 512 puntos, de manera que se produce un solapamiento del 50%. Esto proporciona una resolución en frecuencia de 93,75 Hz para la frecuencia de muestTeo de 48 KHz (24.000 Hz/ 256). En presencia de b'ansitorios se conmuta a una resolución frecuencial menor, al reducir el número de subbandas a la mitad. Esto mejora la resolución temporal, ya que la duración de Jos bloques se reduce tambien a la mitad. Por ejemplo, los bloques largos, que en el modo de 48 KHz duran 10,66 ms, pasan a durar 5,33 ms en el modo de bloques cortos (véase tabla 11.6). As! se minimizan los efectos de los transitorios sobre el bloque de muestras codificado. Tabla 11.6 Datos más relevantes del sistema AC-3 de Dolby. PARAMETRO FRECUENCIA DE MUESTREO DE LA FUENTE Frecuencia de muestreo 32 KHz 44,1 KHz 48 KHz Mínimo-máxímo bit-rate 32 Kbits/s-640 Kbits/s Ancho de banda 15 KHz 20,5 KHz 22,5 Kl-fz Longitud de los bloques (largo - corto) 512-256 muestras Duración de los bloques 16-8 ms 11,6-5,8 ms 10,66-5,33 ms Número de subbandas 256/128 Anchura de las subbandas 62,5-125 Hz 86,133-172,26 Hz 93,75-187,5 Hz Bit rate casi transparente (un par estéreo) 192 Kbits/s Bit rate casi transparente (5.1 canales) 384 Kbits/s Cada coeficiente de las subbandas es separado en exponente ymantisa. Las manti­ sas son a continuación cuantificadas con un número variable d(' bits, en función del modelo de enmasca¡-amiento psicoacústico. Este reparto adaptativo de los bits entre los coeficientes de las subbandas introduce una relación señal-a-ruido aceptable para cada coeficiente OCT. Los exponentes son una representación de la envolvente espec­ tral que, junto con las mantisas cuantificadas correspondientes a seis bloques de audio, forman un cuadro de sincronizacian AC-3. Por ob'o lado, se utiliza un algoritmo espe­ cial para extraer las similitudes enb-c canales y codificar una sola "ez la informacian que se repite entTe ellos Oespues el decodificador "oh'Crá a reubicar la informacian en los canales adecuados. La información AC- 3 se estructura en cuadros que representan un interYalo de tiempo constante, equi"alcnte a 1.536 muestras PCM, repartidas entre todos los canales codificados. Cada cuadro tiene un tamailo en bytes fijo, que depende sólo de la frecuencia de muestreo y del bit-rate que se pretenda lograr. AdemÁs cada cuadro es una entidad independiente que no comparte datos con otros cuadros anteriores o posteriores. La figura 11.13 muestra la estructura de los cuadros bási­ cos AC- 3. Los cuadros se inician con una palabl-a de sincronizacian fija y un paque­ te CRC para coneccian de errores. A continuación aparecen SI (Syne h1órmation) y BSI (Bit Stream iriformation) , que describen la configuracian del tren binario, incluyendo la frecuencia de muestreo, la frecuencia binaria de salida, el número de canales codificados, etc. En cada cuadro hay seis bloques de audio, cada uno de los cuales representa 256 muestras PCM de entrada. Cada bloque contiene, entre otros, las banderas de con­ mutacian de bloques, los exponentes, los parÁmetros de reparto de bits y las man­ tisas. La parte inferior de la figura 11.13 muestra los campos que constituyen cada bloque. Al final del cuadro se dispone de un campo para datos auxiliares, reserva­ do para control o información de estado del sistema de transmisión y de otro paquete CRe. ¡SINC. CRC S.I. B.S.I. Bloque de Bloque de Bloque de Bloque de Bloque de Bloque de Datos CRC (1) audio·Q audio-1 audio-2 audio-3 audio-4 audio-5 auxiliares (2) --~-~--- ~ -~-._- -~- -- -~- --­ ValoresBanderas IControl dell Decisiones IParámetros 1Estrategia Valores dede conmut. rango de de sobre de los las mantisasexponentesde bloque dinámico adaptación adaptación exponentes Figura JI. 13. Estructura del cuadro de sincronización AC-3 (arriba) y detalle de cada uno de los bloques (abajo). 4.3. El sistemaATRAC de Sony Este sistema de compresión de datos de audio nació para resolver el problema de poder grabar en un rninidisc, aproximadamente la misma música que cabe en un CD de audio. El minidisc almacena música en un disco óptico o magnetoóptico de 64 mm de diámetro y tiene una capacidad equivalente a 1/5 la del CD, por lo que, si se quiere almacenar los 74 minutos del CO, habrÁ que aplicar una compresión en torno a 5: 1. Esto se logra mediante un algoritmo ATRAC (Adaptive Tran~Jórm Acoustie Codina o codificación del sonido por transformación adaptativa). En este sistema la señal de 364 365
  • 182.
    TI~ClJ()[ ()(;íA tCTlI-[nr: TU,U'ISION entrada se divide en tres subbandas, que son a continuación transformadas al dominio de la frecuencia utilizando bloques de longitud variable. Los coeficientes de frecuencias obtenidos en la transformación son agrupados en bandas no uniformes para adaptarse al sistema de audición hW11ano. 4.3.1. Principios básicos del ATRAe Al igual que los otros sistemas, el ATRAC funciona descomponiendo la señal de entrada en unidades, cada una de las cuales corresponde a un intervalo de tiempo y de frecuencia, pero, a diferencia de los otros sistemas, ATRAC utiliza las carac­ terísticas psicoacústicas humanas no sólo para la distribución de los bits entre estas pequeñas unidades tempo-frecuenciales, sino también para la propia división en unidades de tiempo y frecuencia. Mediante una combinación de división en sub­ bandas y técnicas de transformación, la señal de entrada es analizada en divisiones de frecuencia no uniformes que enfatizan la importancia de las regiones de baja fre­ cuencia, es decir, la anchura de las subbandas cambia en función de la frecuencia. Además la longitud de los bloques transformados se adapta a la señal de entrada. Como puede verse en la figura 11.14, e! codificador ATRAC está formado por tI'es hloques principales: el bloque de análisis de tiempo y frecuencia, el bloque de toma de decisiones sobre la adjudicación de los bits y el bloque de cuantificación de los componentes espectrales, además de! multiplexadar final que añade a los coeficientes cuantificados información sobre cómo se ha hecho el reparto de los bits entre las unidades tempo-frecuenciales. El bloque de análisis descompone la señal en coeficientes espectrales formando "unidades variables". Este bloque es e! que más diferencia al sistema ATRAC de los otros sistemas de compresión. El blo­ que ele "estrategia de reparto de los bits" adjudica los bits disponibles entre las dis­ tintas unidades variables, otorgando menos bits a las unidades menos sensibles. El bloque de cuantificación cuantifica cada componente espectral con una palabra de longitud variable. Estrategia de Reparto Parámetros de. Reparto de los bils de los bits n:: O O ~~alosUJ Codificados Oalos PCM CoeflC.ltlnh!lli Cuantificación de Esptlclrales los componentes Cuanllflcados -J a... !S ---... espectrales ~ 1 ­ Figura 11.14. Diagrama de bloques del codificador ATRAe. Comprc...¡ón efl Judío 4.3.2. Unidades tempoJrecuenciales El bloque de análisis temporal genera las unidades 'ariables, equivalentes a los cuadros/subbandas de los otros sistemas, en tres pasos. Para ello combina técnicas de filtrado y de transformación. En primer lugar, la señal se divide en tres subban­ das: de Oa 5,5 MHz, de 5,5 a 11 MHz y de 11 a 22 MHz. A continuación cada sub­ banda es pasada al dominio de la frecuencia, produciendo un conjunto de coefi­ cientes espectrales. Finalmente, estos coeficientes se agrupan para formar unida­ des tempo-frecuenciales variables. La primera descomposición en tres subbandas se logra mediante filtros como los descritos en el apartado 3.1, es decir, mediante sobremuestreo ydiezmado. Este tipo de filtros se conoce como QMF o Q!!adracure Mirror Filter. El primer tlIo'o QMF divi­ de el espectro en dos bandas de frecuencia de igual anchura (11 KHz cada una). A con­ tinuación un segundo filtro QMF divide la banda inferior otra vez en dos mitades de 5,5 KHz cada una. El bloque de retardo sirve para iguaJar los tiempos de propagación de la banda superior con respecto a las otras dos. Las muestras de cada una de las tres subbandas son a continuación transforma­ das al dominio de las frecuencias mediante una transformada en coseno discreto modificado (MDCT) dividida en tres bloques de altas (MDCT-H), medias (MDCT­ M) y bajas frecuencias (MDCT-L). Esta transformada, utilizada también por la capa III de MPEG y por el sistema AC-3 de Dolby, permite un 50% de solapamiento entre las muestras que forman la "ventana de transformación", de manera que todas las muestras son computadas dos veces: una como mitad inferior de una ven­ tana y otra como mitad superior de la ventana anterior. Este solapamiento mejora la resolución en frecuencia, es decir, la precisión con que se obtienen los coefi, cientes, mientras se mantiene el muestreo crítico. Esto último quiere decir que no se ha de sobremuestrear la señal para ohtener ventanas de transformación más anchas. En lugar de trabajar con bloques transformados de longitud fija, el sistema ATRAC elige la longitud temporal de los bloques de manera adaptativa, basándo­ se en las caracterlsticas de la señal en cada una de las bandas. Lo anterior se logra utilizando dos modos de trabajo: uno largo de 11,6 ms y otro corto que dura 1,45 ms en las bandas de frecuencia más altas y 2,9 ms en las otras bandas. Normalmente el modo largo se usa para proporcionar una buena resolución en fre­ cuencia. En presencia de transitorios y para evitar que el ruido producido por éstos se esparza sobre todo el bloque de señal, con el consiguiente "efecto pre-eco", el ATRAC conmuta al modo corto. En este caso, puesto que el segmento de ruido antes de! transitorio es muy corto (ya que todo el bloque es muy corto), el ruido será enmascarado por el pequeño efecto de enmascaramiento temporal hacia atrás. Los coeficientes entregados por los bloques MDCT son cuantificados a conti­ nuación en e! bloque "cuantificación de los componentes espectrales" utilizando dos parámetros: la "longitud de palabra" y e! "factor de escala". El factor de escala define e! rango general de cuantificación, mientras que longitud de palabra define la precisión dentro de la escala. Todos los datos de una unidad tempo-frecuencial comparten un factor de escala y una longitud de palabra. El factor de escala se elige 366 367
  • 183.
    entre una listafija y reneja la magnitud general de los coeficientes espectrales de las unidades tempo-frecuenciales. La longitud de la palabra la determina el bloque estrategia de reparto de los bits". Resumiendo, para cada cuadro de sonido, com­ puesto por 512 muestras de análisis, el sistema genera la siguiente informacion: • Modo de tamai'ío del bloque MDCT (largo o corto). Datos sobre la longitud de palabra para cada bloque tempo-frecuencial. • Cadigo de factor de escala para cada bloque tempo-frecuencial. • Coeficientes espectrales cuantificados. El bloque de estrategia de reparto de los bits clivide el espacio disponible entre las unidacles tempo-frecuenciales. Las unidades a las que se haya otorgado muchos bits presenta¡-án muy poco ruido de cuantificacion; aquellas con pocos o ningún bit incorporaran cantidades importantes de ruido. La mejor calidad de soniclo se obtiene cuando el repartidor de bits logra que las unidades críticas tengan sufi­ cientes bits y que el ruido de las unidades no criticas no sea porceptualmente sig­ nificativo. ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino que utiliza el principio adaptativo hacia delante (FABA), donde toclas las decisiones se toman en el codificador y se comunican al decodificador. Esto permite que los grabadores minidisc portátiles (que son la principal aplicacion de este sistema) uti­ licen, durante la codificacian, algoritmos relativamente sencillos, ya que estos equipos necesitan ser pequeños y económicos, mientras que otros equipos estacio­ narios de mayor precio o la música pregrabada puede utilizar algoritmos mucho más sofisticados, que serán igualmente entendidos por el reproductor portátil gra­ cias a la informacion de control FABA. 4.3.3. Variantes del sistema ATRAe El sistema ATRAC nacio en 1993 para comprimir 5: 1 el audio digital de alta calidad CD (44,1 KHz, 16 bits). Gracias a una serie de mejoras, la váriante ATRAC-2 permite factOl-es de compresion más elevados, que llegan a 10: J (73 Kbits/s y canal) e incluso 20: 1 (36 Kbits/s y canal). Para lograr estos factores de compresion, ATRAC-2 mejora al ATRAC original en los siguientes aspectos: • Dobla el tamaño de la ventana utilizada por la transformada MDCT (1.024 muestras solapadas 50%), lo que equivale a 23,2 ms, en lugar de los 11,6 ms de las 512 muestras del ATRAC original. • Identifica y codifica por separado los tonos correlacionados de las otras com­ ponentes espectrales. • Divide la señal de entrada en cuatro bandas básicas, en lugar de las tres utili­ zadas por el ATRAC original. • Amplificacion compensada de las señal de audio inmediatamente anterior a un transitorio para evitar el efecto pre-eco. • Aplica compresión entropica Huffman sobre los datos previamente compri­ midos con técnicas perceptuales. Esta variante del sistema ATRAC no ha sido incorporada por Sony en ningún producto comercial, aunque, al parecer, existe un formato, llamado ATRAC Data, ____________________________________-'c"--(~)J~n'j!prc.si011 en Judit. utilizado por Son)' en la distribucion de música digital a travcs del senicio de saté­ lite SkyPerfectTV en Japon, que es basicamente un ATRAC-2. La figura 11.15 resalta las diferencias más importantes de la variante ATRAC-2 con respecto al sistema básico ATRAe. Para empezar, se utiliza un banco de filtros PQF (Poliphase Qyadrature Filter) que proporciona resultados similares al QMF (Qyadrature Mirror Filter) empleado en el ATRAC, pero requiere menor potencia de cómputo. Este filtro analiza la señal de entrada mediante un banco de 96 puntos, dividiéndola en cuatro bandas de frecuencia de igual anchura (en ATRAC se utiliza­ ban solo tres bandas, teniendo la banda alta tanta anchura como las otras dos jun­ tas). Las componentes de cada banda son a continuacion sometidas a un modifica­ dor de ganancia, que actúa preamplificando la señal justo antes de que se produzca un transitorio. Esta preamplificacion es compensada en el decodificador aplicando la correspondiente atenuación. Puesto que los transitorios pueden prodUCir ellla­ mado efecto "pre-eco", el cual puede entenderse como una especie de ruido, el con­ junto amplificación-atenuación actúa de forma similar a los sistemas reduccion de ruido analogicos. Hay que recordar que este problema era afrontado por el ATRAC original variando adaptativamente el tamaño de la ventana de transformación. U­ ao.. (f) ü) :J .« Z « W o oo::: ~ ü: (f) W (f)--l ::í~ wO 01­ z(f) -oW-1­ uz uUJ«z 0:::0 1-0.. x¿ W oU Codificación componentes tonales Codificación componentes espectrales Figura 11. 15. Análisis tiempo-frecuencia en el ATRAe-2. En cada banda básica se separan las componentes tonales, que son aquellos gru­ pos de coeficientes espectrales consecutivos, o distribuidos de forma uniforme sobre el espectro y que pueden ser descritos mediante parámetros tales como su localizacion y su anchura (las notas de un piano o de una trompeta pueden produ­ cir este tipo de distribuciones espectrales). Se considera que el oído es muy sensi­ ble a los errores que puedan cometerse en la cuantificación estos componentes tonales, por lo que son cuantificados con la máxima precision. Los componentes espectrales, que son aquellos que se reparten de forma más o menos desordenada 369 368
  • 184.
    I TECf,'C 11 (ll.1' -CTllAt DI' TU rSh1t'):--J por el espectro, no necesitan tanta precisión, por lo que el codificador les otorga comparati'amente pocos bits. Tanto los componentes tonales como los espectrales son a continuación sometidos a compresión entrópica mediante tablas de Huffman. Como suele decirse, "no hay dos sin tres" y, por supuesto, existe un ATRAC-3. De hecho, éste es el miembro más popular de la familia)' el que se utiliza en los repro­ ductores actuales, incluidos los de estado sólido, que graban la música directa­ mente en chips, ya sean internos o en tarjetas de memoria. Estos reproductores sin disco se conocen como "MP3", lo cual es incorrecto para los que utilizan como algoritmo de compresión alguna variante del sistema ATRAe. ATRAC-3 vuelve a utilizar filtros QMF como módulo básico para la división en bandas de frecuencia, en lugar de filtros PQF de la variante ATRAC-2. De esta forma se facilita la compatibilidad con el sistema ATRAC original. Por lo demás, ATRAC-3 es idéntico a ATRAC-2 y el sufijo "3" quizá sea más un recurso comer­ cial para aprovechar el tirón del archipopular MP3 que un cambio de formato. Recientemente han aparecido las versiones 3.5, 4.O Y 4.5, que no son variantes nuevas, ya que siguen utilizando la misma estructura de procesado que el ATRAC­ 3. Lo que hacen es introducir mejoras en la precisión de los cálculos mediante nue­ vos chip-sets. Existe también un ATRAC-3 plus que no se utiliza en el minidisc, pero sí en reproductores CD-walkman. Esta variante utiliza ventanas de transformación más anchas (4.096 muestras o 92 ms) y, además, divide la señal en 16 bandas antes de aplicar la MDCT. 4.4. El sistema APT-X El APT-X apareció a principios de los 90. Su principal interés está en que utili­ za unil filoso na de funcionamiento totalmente distinta a los otros sistemas expues­ tos aquÍ. El principio de funcionamiento del APT-X se conoce como ADP~M, es decir, codificilción PCM diferencial con adaptación. Por tanto, en este sistema no se procesan o transmiten coeficientes frecuenciales, sino datos PCM, pero codifi­ cados con menos bits que las muestras originales. La reducción del número de bits por muestra se logra codificando valores diferencia en lugar de valores absolutos. La meta de este sistema es lograr un factor de compresión fijo de 4: 1, con un nivel de calidad transparente. El funcionamiento detallado de este sistema puede seguirse con ayuda de la figura 11.16. La señal de entrada ha de estar formada por palabras de 16 bits; en otro caso se procede a una recuantificación previa. El primer módulo divide la señal de entrada en cuatro bandas de frecuencia de igual anchura: HF o altas frecuencias, MHF o frecuencias medias-altas, MLF o frecuencias medias bajas yLF o bajas frecuencias. Cada una de estas bandas de frecuencia se codificará con una resolución o, si se prefiere, con errores de cuantificación diferentes. Así ~e aprovechan las diferencias de precisión que muestra el sistema de audición hunlano. Esta es la única concesión que APT-X hace al fenómeno de enmascaramiento psicoacústico. A la salida de! banco de filtros las muestras de audio siguen estando codificadas con 16 bits. La reducción de la tasa binaria se logra codificando el "error de pre- Compresión en audio Subbanda HF a;: :~~25 D J (2 bUs/muest,a) I _ _ _ o 9 ------1 Quantificador I Predictor 1.Vl Subtlanda MHF L rO e (3 blts/rnueSlra) 16l>ils D n:::> oaF"O.25 '9o. ~ Quantificador I o...,.4 palaDras 1 palabra <ide 16 bJls <O de 7+4-+3+2 = ><a Fs Q) 16 bits a Fsw'O 16 bUs Subbanda MlF I Predictor ~ •...J LL a..~ Fs x O,25_D~ (4 bllslm~estraJ¿ ~a y ---~ Quantiflcador 1-' __u _ , :::> ¿~ iL - n - ­ ~~banda;:-;- -1 Predictor ~ D16btts (7 blts/muestra ~FS'O:'.59 L__. I Figura 11.16. Diagrama simplificado del codificador ADPCM de APT-X. dicción". El sistema funciona como sigue: a la salida del cuantificador, y basándose en el historial de las muestras anteriores, el bloque denominado "predictor" elabo­ ra un valor de predicción, es decir, calcula el valor más probable de la muestra siguiente. A continuacion compara este valor de predicción con el valor real de la muestra actual y la diferencia, que es el error de predicción, es la que cuantifica con un número reducido de bits. El decodificador tendrá un predictor idéntico al de! codificador y, anali~ando las muestras previas, podrá llegar a las mismas conclusiones que el codificador. Esta es la filosofía de adaptación hacia atrás o FABA expuesta en apartados anteriores. Si al valor de predicción obtenido en e! decodificador se le suma e! error de predicción enviado, lo que se obtendrá será el valor original. La clave del sistema está en que el error de predicción sea claramente inferior al valor absoluto de las muestras. El error de pre­ dicc:ión, por otro lado, será tan pequeño como bueno sea el predictor y, en general, siempre es mucho menor que los valores absolutos. En APT-X lo que se hace es que la precisión con que se codifica el error de pre­ dicción depende de la banda de frecuencia a que pertenezca la muestra en cues­ tión. En las frecuencias bajas (entre Oy 5,5 KHz) se dispone de siete bits para codi­ ficar el error de predicción, lo cual permite afinar mucho. En la banda más alta (entre 16,5 y 22 KHz) el error de precisión se codifica grosso modo con sólo dos bits por muestra, lo que significa que las muestras de esta banda de frecuencias incor­ poran un ruido de cuantificación elevado, pero, por otro lado, el sistema auditivo humano es muy tolerante en frecuencias tan altas. Las ventajas más notables del APT-X son su sencillez en comparación con los otros sistemas de compresión, su baja latencia, que está en torno a 3 ms para una frecuen· cia de muestreo de la fuente de 48 KHz, y su ausencia de artificios audibles. A conti­ nuación se resumen las principales caractensticas de este sistema: • Compresión 4: 1 desde tiempo real hasta 16x. 370 371
  • 185.
    T1.UOI.()(,I; :nu.l. Ill.lll[ ISIO,,'""" _ o Frecuencias de muestreo desde 16 a 48 KHz. o Frecuencias binarias de salida desde 56 a 384 Kbits! s. o Muy baja complejidad del hardware (un solo chip). o Tiempo de codificación extremadamente corto. o Frecuencia de muestreo hasta 48 KHz con ancho de banda hasta 22 KHz. o Alta tolerancia a los errores aleatorios. o Muy robusto en la codificación en cascada. o Predicción hacia atrás sin gasto de bits de control del decodificador. o Respuesta de fase totalmente lineal. o Capacidad para insertar datos auxiliares (hasta 12 Kbis!s). o Modos: mono, estereo o dual. Existe una versión APTX mejorada, denominada "Enhanced APT-X", desarrolla­ da a finales de los 90, que permite elegir la longitud de las palabras de entrada entre 16, 20 o 24 bits, y también una variante llamada APT-Q de tipo perceptual que utiliza bancos de filtros MDCT, por lo que se parece mucho a los sistemas MPEG, AC-3 o ATRAe. Resumen o La compresión en audio digital produce dos beneficios: por un lado, aumenta la capacidad de almacenamiento de un soporte dado; por atTO, recluce la velocidad de transmisión necesaria. Pero tiene también algunos inconvenientes: aumenta la complejidad de los equipos y puede perjudicar a la calidad de la señal. o La estrategia de la compresión de audio se basa en la eliminación de la redun­ dancia; ésta puede ser de dos tipos: la "redunclancia matemática" o "redun­ dancia entrópica", que es aquella que se puede eliminar sin pérdida real de información, y la redundancia perceptual, siendo esta ultima aquella infor­ mación que si es eliminada en el codificador no podrá ser reconstruida de forma perfecta en el decodificador, pero tampoco supondrá una merma de calidad apreciable por parte del usuario. o En el oído interno la membrana basilar se divide en 24 regiones. Estas regio­ nes, llamadas "bandas críticas", podrían tener una anchura de unos 100 Hz por debajo de los sao Hz, mientras que por encima, su anchura iría aumentando a medida que crece la frecuencia. o Una vez que una frecuencia muy concreta ha hecho vibrar su región, el siste­ ma se comporta como un circuito sintonizado de alta selectividad. De esta forma cada región vibra a una frecuencia determinada por el estimulo de mayor amplitud, mientras que ignora cualquier otro estímulo de intensidad menor. Este mecanismo de simplificación, denominado enmascaramiento auditivo, proporciona, por sí solo, la herramienta de compresión más poten­ te en el tratamiento del audio digital. ¿Para qué codificar aquellos tonos que en realidad no oímos? o Al igual que sucede con otros procesos perceptivos, el enmascaramiento audi­ tivo no es lineal. Al contrario, el enmascaramiento es muy superior en el extremo de las altas frecuencias. COllllJl C~IÓIl en audio o Existe otro efecto denominado "enmascaramiento temporal", y significa que no somos capaces de oir sonidos que se produzcan un poco antes o un poco después que otro sonido más intenso. El precnmascaramiento es muy corto, mientras que el postenmascaramiento es más largo. o Para sacar partido del efecto de enmascaramiento frecuencial, que muestra el sistema de percepción auditiva, necesitamos dividir el espectro de la señal de audio en bandas o regiones, de anchura igualo inferior a las bandas de la membrana basilar. La división de la señal de audio en subbandas de frecuen­ cia no sólo adapta las características de la señal a la forma en que trabaja el sis­ tema de percepción auditiva, sino que prepara la información de audio para ser tratada de manera mas eficiente. Esta división del espectro de la señal de audio puede hacerse mediante bancos de filtros o por medio de transforma­ das similares a la DCT empleada en vídeo. o Cuando se utilizan bancos de filtros, suelen usa¡"se 32 subbandas. Con las tec­ nicas basadas en el dominio transformado cs posible utilizar un número mucho mayor de subbandas, el cual suele llegar hasta 1.024. o Los filtros que tienen una alta resolución en frecuencia (los que dividen el espectro en muchas subbandas) presentan mala resolución temporal, lo cual afecta a la codificación de aquellos cuadros de muestras que contengan transi­ torios, de manera que el ruido de cuantificación generado por el tnnsitorio puede repartirse por todo el cuadro de muestras. Esto sc denomina "efecto pre-eco", ya que se nota, sobre todo, al inicio del cuadro de muestras como consecuencia de la asimetría del enmascaramiento temporal. o Para contrarrestar el efecto pre-eco algunos codificadores son capaces de ana­ lizar los cuadros y detectar transitorios. En caso de que encuentren algún transitorio en el cuadro, conmutan a un modo de trabajo distinto, en el que se utilizan menos subbandas por cuadro, es decir, reducen la resolución fre­ cuencial para mejorar la temporal. o Las decisiones tomadas por el codificador deben ser conocidas por el decodi­ ficador. Para esto hay varias estrategias. Una sería que el codificador hiciera todos los calculas y tomara todas las decisiones. Otra posibilidad es que codi­ ficador y decodificador realicen los mismos cálculos y lleguen a las mismas conclusiones sin necesidad de enviar bits extras. Cabe incluso una solución "híbrida", en la que los cálculos diflciles son realizados en el codificador y comunicados al decodificador mediante unos pocos bits extras, mientras quc los cálculos de complejidad moderada se realizan en los dos extremos. Cada modalidad tiene sus ventajas y sus desventajas. o El mundo de la compresión de audio se divide en dos grandes sistemas: por un lado, esta la familia de normas MPEG y, por otro, el sistema AC-3 de Dolby. Otros sistemas muy difundidos son el ATRAC de Sony y los sistemas APT, utilizados estos ultimas para transmisión y para audio en CD. o En MPEG la señal de audio de entrada es descompuesta en porciones tempo­ rales llamados "cuadros", todos ellos de igual tamaño. Así un cuadro esta com­ puesto por 384 muestras en la llamada "capa I" y por 1.152 muestras en las capas Ir y III. Los cuadros de audio son a continuación descompuestos en sub­ 372 373
  • 186.
    bandas de frecuenciade igual anchura mediante filtros digitales o mediante transformadas tipo DCT. MPEG ofrece toda una familia de sistemas de com­ presión de audio, basada en dos normas o subgru]Jos (MPEG-l y MPEG-2) Y en tres "capas" o niveles de complejidad. • En MPEG-l se definen tres capas (laym) , denominadas 1, JI YIJI. Hasta hace poco la capa II era la más utilizada, aunque, dada la popularidad del formato MP3, ya no se puede decir lo mismo. Las capas de audio son similares a los perfiles de! vídeo. Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con tres frecuencias de muestreo: 32 KHz, 44,1 KHz y 48 KHz. • La capa 1, que es la más sencilla, contempla frecuencias binarias de salida desde 32 Kbits/s hasta 448 Kbits/s. En esta capa la señal digital es dividida en cua­ dros de 384 muestras, que se distribuyen en 32 subbandas de igual tamaño, quedando 12 muestras por subbanda y cuadro (32 x 12 = 384). La capa 1 puede utilizarse tanto para sonido monofónico, dos canales, estéreo o estéreo común y resulta apropiado para aplicaciones de consumo, aunque también para aplicaciones de estudio. En la capa II cada una de las subbandas se codifica con 36 muestras, por lo que el cuadro completo se compone de 1.152 muestras. Por tanto, los cuadros tendrán una longitud de 24 ms (e! tTiple que en la capa 1), para una frecuencia de mues­ treo de 48 KHz (1/48.000 x 1.152 =24 ms). La mejora de la calidad del soni­ do se nota, sobre todo, en las tasas binarias más bajas. • La capa III es verdaderamente soflsticada y toma lo mejor del sistema ASPEC para proporcionar la máxima calidad para una frecuencia dada o, si se prefie­ re, la mínima tasa binaria para una calidad predeterminada. Con la capa mse pretende una calidad casi transparente a 64 Kbits/s y canal. • MPEG AAC es el último miembro (por ahora) de la familia MPEG-2 y ha sido diseñado para proporcionar alta calidad de audio a frecuencias binarias de 64 Kbits/s y canal para aplicaciones multicanal. El tren binario codificado puede acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre­ cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos auxiliares. El AAC es, aproximadamente, un 30% más eficaz que la capa m. • AC-3 de Dolby es e! principal contrincante de la familia MPEG. En lo referente a la toma de decisiones, el AC- 3 de Dolby es un sistema híbrido, que utiliza tanto reparto adaptativo hacia delante como reparto adaptativo hacia atrás. La rutina de compresión básica es bastante sencilla y se basa en un modelo psicoacústico fijo, que parte de ciertas premisas sobre cómo se producen los procesos de enmascaramiento auditivo. A partir de estas premisas la predicción hacia delante hace un par de modificaciones: por un lado, modifica los parámetros del mode­ lo psicoacústico y, por otro, las diferencias en e! reparto de los bits que se pro­ ducen al aplicar el modelo actual. • El AC-3 fue diseñado para aplicaciones multicanal y es capaz de codificar cinco canales con total ancho de banda (izquierdo, derecho, central, izquier­ do surround y derecho surround) , más un canal de realce de bajas frecuencias, de ancho de banda reducido. La señal de entrada es filtrada para eliminar las componentes desde DC hasta 3 Hz, dividida en bloques de 512 muestras, lo COlllPl"e.'>IOl1 C'11 Judio que equivale a 10,66 ms para la frecuencia de muestreo de 48 KH7. Ysepara­ da a continuación en 256 subbandas de frecuencia, mediante filtrado MDCT. • El sistema de compresión ATRAC de Sony nació para resolver el problema de poder grabar en un minidisc aproximadamente la misma música que cabe en un CD de audio. El minidisc almacena música en un disco óptiCO o magneto­ óptico de 64 mm de diámetro)' tiene una capacidad equi"alente a 1/5 la del CO, por lo que, si se quiere almacenar los 74 minutos del CO, habrá que apli­ car una compresión en torno a 5: 1. • En lugar de trabajar con bloques transformados de longitud fija, el sistema ATRAC elige la longitud temporal de los bloques de manera adaptativa, basándose en las características de la señal en cada una de las bandas. • ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino que utiliza e! principio adaptativo hacia delante, donde todas las decisiones se toman en el codificador y se comunican al decodificador. Esto permite que los grabadores minidisc portátiles (que son la principal aplicación de este sistema) utilicen durante la coclificación algoritmos relativamente sencillos, ya que estos equipos necesitan ser pequeños y económicos. • El APT-X apareció a principios de los 90 y su principal interés está en que uti­ liza una filosofía de funcionamiento totalmente distinta a los otros sistemas expuestos aquí. El principio de funcionamiento del APT-X se conoce como ADPCM, es decir, codificación PCM diferencial con adaptación. • Las ventajas más notables del APT-X son su sencillez, en comparación con los otros sistemas de compresión, su baja latencia, que está en torno a 3 ms para una frecuencia de muestreo de la fuente de 48 KHz, y su ausencia de artifi­ cios audibles. 374 375