Diplomatura en
Telecomunicaciones Multimedia
Módulo Core Fijo – Unidad 4.1
Ariel Roel
Ariel Roel – arielroel@gmail.com
Unidad Temática 4
Ariel Roel – arielroel@gmail.com
AGENDA – Unidad 4
• Introducción a la Voz sobre IP
• Introducción al Video sobre IP
• Protocolos de transporte de medios de tiempo real.
• Calidad de Servicio.
Voz y Video Sobre IP
Ariel Roel – arielroel@gmail.com
El habla
• Habla
▫ Aire empujado desde los pulmones que pasa por las
cuerdas vocales y a lo largo del tracto vocal
▫ Las vibraciones básicos - las cuerdas vocales
▫ El sonido se ve alterado por la disposición del tracto
vocal (lengua y la boca)
• Modelo del tracto vocal como un filtro
▫ La forma cambia relativamente despacio
• Las vibraciones en las cuerdas vocales
▫ La señal de exitación
Ariel Roel – arielroel@gmail.com
Sonidos Vocales
• El sonido vocal
▫ Las cuerdas vocales vibran abriendo y cerrándose
▫ Interrumpen el flujo de aire
▫ Impulsos de aire cuasi-periódicos
▫ La tasa de la apertura y cierre - el tono
▫ Un alto grado de periodicidad en el período de tono
 2-20 ms
Ariel Roel – arielroel@gmail.com
Sonidos Vocales
• Voz hablada • Densidad espectral
Ariel Roel – arielroel@gmail.com
Sonidos no hablados
• Sonidos no hablados
▫ Se fuerza el aire a altas velocidades a través de una
constricción
▫ La glotis se mantiene abierta
▫ Ruido similar a una turbulencia
▫ Muestra una pequeña periodicidad a largo plazo
▫ Se presentan correlaciones a corto plazo
Ariel Roel – arielroel@gmail.com
Sonidos no hablados
• Sonidos no hablados • Densidad espectral
Ariel Roel – arielroel@gmail.com
Otros sonidos
• Sonidos Explosivos
▫ Cierre completo en el tracto vocal
▫ La presión del aire aumenta y se suelta
repentinamente
• Una amplia gama de sonidos
▫ La señal de la voz es relativamente previsible en el
tiempo
▫ La reducción del ancho de banda de transmisión
puede ser significativo
Ariel Roel – arielroel@gmail.com
Muestreo de la voz
• Analógico a Digital
▫ muestras discretas de la forma de onda,
representando cada muestra con un cierto número de
bits
▫ Una señal puede reconstruirse si es muestreada a un
mínimo de dos veces la frecuencia máxima.
• Voz Humana
▫ 300-3800 Hz
▫ 8000 muestras por segundo
tiempo
Cada muestra es codificada en
una palabra de 8-bit
(ej. 01100101)
=> 8000 x 8 bit/s
Ariel Roel – arielroel@gmail.com
Cuantificacion
• Cantidad de bits usados para representar la onda
• Ruido de cuantificación
▫ La diferencia entre el nivel real de la señal de entrada
analógica
• Mas bits para bajar el ruido
▫ El rendimiento baja
• Niveles de cuantificación uniformes
▫ Quienes hablan mas fuerte se escuchan mejor
Ariel Roel – arielroel@gmail.com
Cuantificación no uniforme
• Pasos de cuantificación mas pequeños a niveles de
señal más pequeños
• Distribuye la relación señal-ruido más
uniformemente
Ariel Roel – arielroel@gmail.com
Trasmisión discontinua y ruido de confort
• DTX es Discontinuous Transmission
• Voice activity detector (VAD) detecta si hay
actividad vocal o no
• Cuando no hay actividad vocal, se pueden usar los
siguientes procedimientos DTX:
▫ No transmitir nada
▫ Emitir Comfort Noise (CN) usando RFC 3389
▫ CN generado por el codec como AMR SID (Silence
Descriptor)
• La frecuencia de los paquetes de ruido de confort
varía, pero suele ser una fracción de la tasa normal
de paquetes
Ariel Roel – arielroel@gmail.com
Calidad de voz
• El ancho de banda es fácil de cuantificar
▫ La calidad de voz es subjetiva
• MOS, Mean Opinion Score
▫ ITU-T P.800
 Excelente – 5
 Bueno – 4
 Correcto – 3
 Pobre – 2
 Malo – 1
▫ Minimo de 30 personas
▫ Escucha de muestras de voz o conversaciones
Ariel Roel – arielroel@gmail.com
Calidad de voz
• Tecnicas subjetivas y objetivas de medicion de la
calidad de la voz
• PSQM – Perceptual Speech Quality Measurement
▫ ITU-T P.861
▫ representan fielmente el juicio y la percepción
humana
▫ comparación algorítmica entre la señal de salida y una
entrada conocida
▫ tipo de altavoz, el volumen, la demora, frames
activos/silencio, clipping, ruido ambiental
Ariel Roel – arielroel@gmail.com
Tipos de codificadores (coders) de voz
• Codecs de forma de onda
▫ Muestreo y codificación
▫ Alta calidad y baja complejidad
▫ Gran consumo de ancho de banda
• Codecs de fuente (vocoders)
▫ Aproximan la señal de entrada a un modelo
matemático
▫ Filtros lineales predictivos del tracto vocal
▫ La información se envía en lugar de la señal
▫ Bajas tasas de bits, pero suenan sintéticos
▫ Mayores tasas de bits no mejoran mucho
Ariel Roel – arielroel@gmail.com
Tipos de codificadores (coders) de voz
• Codecs híbridos
▫ Tratan de dar lo mejor de ambos mundos
▫ Llevan a cabo un grado de matcheo de la forma de onda
▫ Utilizan el modelo de producción de sonido
▫ Calidad bastante buena a velocidad de bits baja
Ariel Roel – arielroel@gmail.com
G.711
• El codec mas comun
▫ Usado en PSTN
▫ PCM, Pulse-Code Modulation
• Si se utiliza cuantificación uniforme
▫ 12 bits * 8 k/sec = 96 kbps
• Para cuantificación no uniforme
▫ 64 kbps
▫ Ley mu
 Norteamerica
▫ Ley A
 Otros paises, un poco mas amigable a bajos niveles de señal
▫ Un MOS de alrededor de 4.3
Ariel Roel – arielroel@gmail.com
DPCM, Differential PCM
• Sólo transmite la diferencia entre el valor anterior y el valor
real
• La voz cambia de forma relativamente lenta
• Es posible predecir el valor de una muestra basado en los
valores de las muestras anteriores
• El receptor realizar la misma predicción
• La forma mas simpe
▫ Sin predicción
• No hay retardo por el algoritmo
Ariel Roel – arielroel@gmail.com
• Predice los valores de las muestras basado en:
▫ Muestras pasadas
▫ Usando algún conocimiento de como la voz
cambia en el tiempo
• El error es cuantificado y transmitido
▫ Requiere menos bits
• G.721
▫ 32 kbps
• G.726
▫ A-law/mu-law PCM -> 16, 24, 32, 40 kbps
▫ MOS de aprox. 4.0 a 32 kbps
ADPCM, Adaptive DPCM
Ariel Roel – arielroel@gmail.com
Analysis-by-Synthesis (AbS) Codecs
• Codec Hibrido
▫ Llena el vacio entre los del tipo de forma de onda y los
de fuente
▫ Los mas exitosos y de mayor uso
Ariel Roel – arielroel@gmail.com
G.729
• 8 kbps
• Frames de entrada de 10 ms, 80 muestras para una
frecuencia de muestreo de 8 KHz
• 5 ms look-ahead
▫ Delay del algoritmo de 15 ms
• Un frame de 80-bit para 10 ms de voz
• Codec complejo
▫ G.729.A (Annex A) es simplificado
▫ La misma estructura de frames
▫ Calidad un poco mas baja
Ariel Roel – arielroel@gmail.com
G.729
• G.729.B
▫ VAD, Voice Activity Detection
 Basado en el analisis de diversos parametros de la
entrada
 Los frames actuales mas dos frames previos
▫ DTX, Discontinuous Transmission
 No envia nada o envia un SID frame
 El SID frame contiene informacion para generar el ruido
de confort
▫ CNG, Comfort Noise Generation
• G.729, con un MOS de 4.0
• G.729A con un MOS de 3.7
Ariel Roel – arielroel@gmail.com
G.729
• G.729 Annex D
▫ Extensión para menores tasas
▫ 6.4 kbps; muestras de 10 ms, 64 bits/frame
▫ MOS  6.3 kbps G.723.1
• G.729 Annex E
▫ Una mejora para tasas mas altas
▫ El filtro de predicción lineal posee 10 coeficientes
▫ El de G.729 Annex E tiene 30 coef.
▫ El codebook de G.729 tiene 35 bits
▫ El de G.729 Annex E tiene 44 bits
▫ 118 bits/frame; 11.8 kbps
Ariel Roel – arielroel@gmail.com
AMR
• GSM Adaptive Multi-Rate (AMR) codec
▫ Delay de codificación de 20 ms
▫ 8 modos diferentes
▫ 4.75 kbps a 12.2 kbps
▫ Cambio de modo en cualquier momento
▫ Ofrece transmision discontinua
 El SID (Silence Descriptor) es enviado cada 8avo frame y
es de 5 bytes
▫ Es el elegido por la mayoria de las redes 3G
Ariel Roel – arielroel@gmail.com
Codecs
• Los valores de MOS son para condiciones de
laboratorio
▫ G.711 no tiene mecanismos para paquetes perdidos
▫ G.729 puede acomodar un frame perdido
interpolando información de frames previos
 Pero eso causa error en los siguientes frames de voz
• Poder de procesamiento
▫ G.729, 40 MIPS
▫ G.726 10 MIPS

Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1

  • 1.
    Diplomatura en Telecomunicaciones Multimedia MóduloCore Fijo – Unidad 4.1 Ariel Roel
  • 2.
    Ariel Roel –arielroel@gmail.com Unidad Temática 4
  • 3.
    Ariel Roel –arielroel@gmail.com AGENDA – Unidad 4 • Introducción a la Voz sobre IP • Introducción al Video sobre IP • Protocolos de transporte de medios de tiempo real. • Calidad de Servicio. Voz y Video Sobre IP
  • 4.
    Ariel Roel –arielroel@gmail.com El habla • Habla ▫ Aire empujado desde los pulmones que pasa por las cuerdas vocales y a lo largo del tracto vocal ▫ Las vibraciones básicos - las cuerdas vocales ▫ El sonido se ve alterado por la disposición del tracto vocal (lengua y la boca) • Modelo del tracto vocal como un filtro ▫ La forma cambia relativamente despacio • Las vibraciones en las cuerdas vocales ▫ La señal de exitación
  • 5.
    Ariel Roel –arielroel@gmail.com Sonidos Vocales • El sonido vocal ▫ Las cuerdas vocales vibran abriendo y cerrándose ▫ Interrumpen el flujo de aire ▫ Impulsos de aire cuasi-periódicos ▫ La tasa de la apertura y cierre - el tono ▫ Un alto grado de periodicidad en el período de tono  2-20 ms
  • 6.
    Ariel Roel –arielroel@gmail.com Sonidos Vocales • Voz hablada • Densidad espectral
  • 7.
    Ariel Roel –arielroel@gmail.com Sonidos no hablados • Sonidos no hablados ▫ Se fuerza el aire a altas velocidades a través de una constricción ▫ La glotis se mantiene abierta ▫ Ruido similar a una turbulencia ▫ Muestra una pequeña periodicidad a largo plazo ▫ Se presentan correlaciones a corto plazo
  • 8.
    Ariel Roel –arielroel@gmail.com Sonidos no hablados • Sonidos no hablados • Densidad espectral
  • 9.
    Ariel Roel –arielroel@gmail.com Otros sonidos • Sonidos Explosivos ▫ Cierre completo en el tracto vocal ▫ La presión del aire aumenta y se suelta repentinamente • Una amplia gama de sonidos ▫ La señal de la voz es relativamente previsible en el tiempo ▫ La reducción del ancho de banda de transmisión puede ser significativo
  • 10.
    Ariel Roel –arielroel@gmail.com Muestreo de la voz • Analógico a Digital ▫ muestras discretas de la forma de onda, representando cada muestra con un cierto número de bits ▫ Una señal puede reconstruirse si es muestreada a un mínimo de dos veces la frecuencia máxima. • Voz Humana ▫ 300-3800 Hz ▫ 8000 muestras por segundo tiempo Cada muestra es codificada en una palabra de 8-bit (ej. 01100101) => 8000 x 8 bit/s
  • 11.
    Ariel Roel –arielroel@gmail.com Cuantificacion • Cantidad de bits usados para representar la onda • Ruido de cuantificación ▫ La diferencia entre el nivel real de la señal de entrada analógica • Mas bits para bajar el ruido ▫ El rendimiento baja • Niveles de cuantificación uniformes ▫ Quienes hablan mas fuerte se escuchan mejor
  • 12.
    Ariel Roel –arielroel@gmail.com Cuantificación no uniforme • Pasos de cuantificación mas pequeños a niveles de señal más pequeños • Distribuye la relación señal-ruido más uniformemente
  • 13.
    Ariel Roel –arielroel@gmail.com Trasmisión discontinua y ruido de confort • DTX es Discontinuous Transmission • Voice activity detector (VAD) detecta si hay actividad vocal o no • Cuando no hay actividad vocal, se pueden usar los siguientes procedimientos DTX: ▫ No transmitir nada ▫ Emitir Comfort Noise (CN) usando RFC 3389 ▫ CN generado por el codec como AMR SID (Silence Descriptor) • La frecuencia de los paquetes de ruido de confort varía, pero suele ser una fracción de la tasa normal de paquetes
  • 14.
    Ariel Roel –arielroel@gmail.com Calidad de voz • El ancho de banda es fácil de cuantificar ▫ La calidad de voz es subjetiva • MOS, Mean Opinion Score ▫ ITU-T P.800  Excelente – 5  Bueno – 4  Correcto – 3  Pobre – 2  Malo – 1 ▫ Minimo de 30 personas ▫ Escucha de muestras de voz o conversaciones
  • 15.
    Ariel Roel –arielroel@gmail.com Calidad de voz • Tecnicas subjetivas y objetivas de medicion de la calidad de la voz • PSQM – Perceptual Speech Quality Measurement ▫ ITU-T P.861 ▫ representan fielmente el juicio y la percepción humana ▫ comparación algorítmica entre la señal de salida y una entrada conocida ▫ tipo de altavoz, el volumen, la demora, frames activos/silencio, clipping, ruido ambiental
  • 16.
    Ariel Roel –arielroel@gmail.com Tipos de codificadores (coders) de voz • Codecs de forma de onda ▫ Muestreo y codificación ▫ Alta calidad y baja complejidad ▫ Gran consumo de ancho de banda • Codecs de fuente (vocoders) ▫ Aproximan la señal de entrada a un modelo matemático ▫ Filtros lineales predictivos del tracto vocal ▫ La información se envía en lugar de la señal ▫ Bajas tasas de bits, pero suenan sintéticos ▫ Mayores tasas de bits no mejoran mucho
  • 17.
    Ariel Roel –arielroel@gmail.com Tipos de codificadores (coders) de voz • Codecs híbridos ▫ Tratan de dar lo mejor de ambos mundos ▫ Llevan a cabo un grado de matcheo de la forma de onda ▫ Utilizan el modelo de producción de sonido ▫ Calidad bastante buena a velocidad de bits baja
  • 18.
    Ariel Roel –arielroel@gmail.com G.711 • El codec mas comun ▫ Usado en PSTN ▫ PCM, Pulse-Code Modulation • Si se utiliza cuantificación uniforme ▫ 12 bits * 8 k/sec = 96 kbps • Para cuantificación no uniforme ▫ 64 kbps ▫ Ley mu  Norteamerica ▫ Ley A  Otros paises, un poco mas amigable a bajos niveles de señal ▫ Un MOS de alrededor de 4.3
  • 19.
    Ariel Roel –arielroel@gmail.com DPCM, Differential PCM • Sólo transmite la diferencia entre el valor anterior y el valor real • La voz cambia de forma relativamente lenta • Es posible predecir el valor de una muestra basado en los valores de las muestras anteriores • El receptor realizar la misma predicción • La forma mas simpe ▫ Sin predicción • No hay retardo por el algoritmo
  • 20.
    Ariel Roel –arielroel@gmail.com • Predice los valores de las muestras basado en: ▫ Muestras pasadas ▫ Usando algún conocimiento de como la voz cambia en el tiempo • El error es cuantificado y transmitido ▫ Requiere menos bits • G.721 ▫ 32 kbps • G.726 ▫ A-law/mu-law PCM -> 16, 24, 32, 40 kbps ▫ MOS de aprox. 4.0 a 32 kbps ADPCM, Adaptive DPCM
  • 21.
    Ariel Roel –arielroel@gmail.com Analysis-by-Synthesis (AbS) Codecs • Codec Hibrido ▫ Llena el vacio entre los del tipo de forma de onda y los de fuente ▫ Los mas exitosos y de mayor uso
  • 22.
    Ariel Roel –arielroel@gmail.com G.729 • 8 kbps • Frames de entrada de 10 ms, 80 muestras para una frecuencia de muestreo de 8 KHz • 5 ms look-ahead ▫ Delay del algoritmo de 15 ms • Un frame de 80-bit para 10 ms de voz • Codec complejo ▫ G.729.A (Annex A) es simplificado ▫ La misma estructura de frames ▫ Calidad un poco mas baja
  • 23.
    Ariel Roel –arielroel@gmail.com G.729 • G.729.B ▫ VAD, Voice Activity Detection  Basado en el analisis de diversos parametros de la entrada  Los frames actuales mas dos frames previos ▫ DTX, Discontinuous Transmission  No envia nada o envia un SID frame  El SID frame contiene informacion para generar el ruido de confort ▫ CNG, Comfort Noise Generation • G.729, con un MOS de 4.0 • G.729A con un MOS de 3.7
  • 24.
    Ariel Roel –arielroel@gmail.com G.729 • G.729 Annex D ▫ Extensión para menores tasas ▫ 6.4 kbps; muestras de 10 ms, 64 bits/frame ▫ MOS  6.3 kbps G.723.1 • G.729 Annex E ▫ Una mejora para tasas mas altas ▫ El filtro de predicción lineal posee 10 coeficientes ▫ El de G.729 Annex E tiene 30 coef. ▫ El codebook de G.729 tiene 35 bits ▫ El de G.729 Annex E tiene 44 bits ▫ 118 bits/frame; 11.8 kbps
  • 25.
    Ariel Roel –arielroel@gmail.com AMR • GSM Adaptive Multi-Rate (AMR) codec ▫ Delay de codificación de 20 ms ▫ 8 modos diferentes ▫ 4.75 kbps a 12.2 kbps ▫ Cambio de modo en cualquier momento ▫ Ofrece transmision discontinua  El SID (Silence Descriptor) es enviado cada 8avo frame y es de 5 bytes ▫ Es el elegido por la mayoria de las redes 3G
  • 26.
    Ariel Roel –arielroel@gmail.com Codecs • Los valores de MOS son para condiciones de laboratorio ▫ G.711 no tiene mecanismos para paquetes perdidos ▫ G.729 puede acomodar un frame perdido interpolando información de frames previos  Pero eso causa error en los siguientes frames de voz • Poder de procesamiento ▫ G.729, 40 MIPS ▫ G.726 10 MIPS