Universidad Inca Garcilaso de la Vega
Tema
VoIP tratamiento de la voz
Sobre redes de datos
1 Introducción
VoIP proviene del ingles Voice Over Internet Protocol, que significa "voz sobre un
protocolo de internet". Básicamente VoIP es un método por el cual tomando señales
de audio analógicas del tipo de las que se escuchan cuando uno habla por teléfono se
las transforma en datos digitales que pueden ser transmitidos a traves de internet
hacia una dirección IP determinada.
VoIP permite la unión de dos mundos históricamente separados, el de la transmisión
de voz y el de la transmisión de datos. Entonces, podemos decir que VoIP no es un
servicio sino una tecnología. VoIP puede transformar una conexión standard a internet
en una plataforma para realizar llamadas gratuitas por internet. Usando algunos de los
software gratuitos para llamadas VoIP que están disponibles en internet de esta forma
estariamos saltandonos a las compañías tradicionales de telefonía, y por
consiguiente, sus tarifas.
En el pasado, las conversaciones mediante VoIP solían ser de baja calidad, esto se
vio superado por el desarrollo tecnologico en temas de procesamiento digital de
señales (PDS), evolución de los codecs como el G.729, niveles de procesamiento y la
proliferación de conexiones de banda ancha, hasta tal punto ha llego la expansión de
la telefonía IP que existe la posibilidad de que usted sin saberlo ya haya utilizado un
servicio VoIP, por ejemplo, las operadoras de telefonía convencional, utilizan los
servicios del VoIP para transmitir llamadas de larga distancia y de esta forma reducir
costos.
Se sabe que va a llevar algún tiempo pero es seguro que en un futuro cercano
desaparecerán por completo las líneas de teléfono convencionales que utilizamos en
nuestra vida cotidiana, el avance tecnológico indica que estas serán muy
probablemente reemplazadas por la telefonía IP.
En el presente trabajo nos concentraremos en ver como es tratada la voz y luego
transformada en paquetes de datos para luego ser transmitida a su destino final a
través de una red IP. También encontraremos técnicas que evaluaran la calidad de la
voz procesada y transmitida y los diferentes parámetros que influyen sobre la calidad.
Por ultimo analizaremos uno de los Codecs más usados en VoIP como es el G.729.
2 Voz sobre IP
2.1 Paquetización de la voz
Para poder transmitir las muestras codificadas de voz sobre redes de datos, es
necesario armar “paquetes”. Si la voz está codificada con ley A, una
conversación consiste en un “flujo” de 64 kb/s. Cada muestra dura 125
μs. Si bien se podría formar un paquete con cada muestra de voz, esto generaría un
sobrecarga (“overhead”) demasiado importante (recordar que cada paquete requiere
de cabezales). Por otro lado, si se espera a “juntar” demasiadas muestras de voz, para
formar un paquete con mínima sobrecarga porcentual, se pueden introducir retardos
no aceptables. Un paquete IP puede tener hasta 1500 bytes de información.
Si con muestras de 64 kb/s se quisiera completar los 1500 bytes del paquete IP, se
introduciría un retardo de 125μs x 1500 = 187,5 ms. Esta demora no es aceptable en
aplicaciones de voz.
Por esta razón, se toman generalmente “ventanas” de 10 a 30 ms. Las muestras de
voz de cada una de estas ventanas consecutivas se “juntan” y con ellas se arman
paquetes.
2.2 RTP – Real-Time Transport Protocol
El protocolo RTP, basado en el RFC 3550, establece los principios de un protocolo de
transporte sobre redes que no garantizan calidad de servicio para datos “de tiempo
real”, como por ejemplo voz y video.
El protocolo establece la manera de generar paquetes que incluyen, además de los
propios datos de “tiempo real” a transmitir, números de secuencia, marcas de tiempo,
y monitoreo de entrega. Las aplicaciones típicamente utilizan RTP sobre protocolos de
red “no confiables”, como UDP. Los “bytes” obtenidos de cada conjunto de
muestras de voz o video son encapsulados en paquetes RTP, y cada paquete RTP es
a su vez encapsulado en segmentos UDP.
RTP soporta transferencia de datos a destinos múltiples, usando facilidades de
“multicast”, si esto es provisto por la red.
Cada paquete RTP consiste en un cabezal y los datos de voz. El cabezal contiene
números de secuencia, marcas de tiempo, y monitoreo de entrega. El formato de éste
cabezal es el mostrado en la figura
Los campos más relevantes son:
Versión (V)
La versión actual del protocolo es la 2.
CSRC count (CC)
El campo indica la cantidad de identificadores CSRC incluidos en el cabezal (0 a 15)
Tipo de información (PT)
El campo “payload” identifica el tipo de información que viaja en el paquete. Es un
campo de 7 bits, lo que permite diferenciar hasta 128 tipos de información. En audio,
este campo indica el tipo de codificación. Los valores de este campo se definen en el
RFC 3551. Algunos valores de ejemplo se muestran en la siguiente tabla
Número de secuencia (Sequence Number)
El campo correspondiente al número de secuencia es de 16 bits. Con cada paquete
enviado, el emisor incrementa en uno el número de secuencia. Esto permite al
receptor detectar paquetes perdidos, o fuera de orden.
Marca de tiempo (Time Stamp)
Este campo es de 32 bits. Indica el momento al que corresponde la primera muestra
de la ventana de información que viaja en el paquete. Este campo es utilizado por el
receptor, para reproducir las muestras con la misma cadencia con las que fueron
obtenidas. Es a su vez útil para medir el “jitter”. En audio, el campo “Time Stamp” se
mide en unidades de 125 μs (o sea, en unidades de muestreo). Si por ejemplo un
paquete de 160 bytes de audio en Ley A contiene el campo TimeStamp con el valor 1,
el siguiente paquete contendrá el campo TimeStamp en 160.
Identificador del origen (SSRC - Synchronization Source Identifier)
El campo correspondiente al SSRC es de 32 bits. Típicamente cada flujo en una
sesión RTP tiene un identificador diferente. El origen establece este número,
asegurando que no se repita.
Identificador del tributario (CSRC - Contributing Sources Identifier)
Pueden existir hasta 15 campos CSRC, de acuerdo al valor de CC. Esta lista identifica
a cada uno de los interlocutores cuando el audio que se envía es producido en un
mezclador o “mixer” (por ejemplo, cuando se envía el audio de varios participantes de
una conferencia)
2.3 RTCP – RTP Control Protocol
El RFC 3550 establece, además del protocolo RTP, un protocolo de control, RTCP,
encargado de enviar periódicamente paquetes de control entre los participantes de
una sesión. El protocolo RTCP tiene las siguientes funciones principales:
• Proveer realimentación acerca de la calidad de los datos
distribuidos (por ejemplo, de la calidad percibida de VoIP). Esta
realimentación permite adaptar dinámicamente la codificación, o tomar
acciones tendientes a solucionar problemas cuando se detecta degradación en
la calidad de la comunicación.
• Transporte del CNAME (Canonical Name) de cada originador. Este
identificador permite asociar varios flujos RTP con el mismo origen (por
ejemplo, flujos de audio y video provenientes del mismo emisor).
• Adaptar dinámicamente la frecuencia de envío de paquetes de control
RTCP de acuerdo al número de participantes en la sesión. Dado que los
paquetes se deben intercambiar “todos contra todos”, es posible saber cuantos
participantes hay, y de esta manera calcular la frecuencia de envíos de esto
paquetes.
2.4 Ancho de banda
Dado que para el envío de voz sobre redes es necesario armar “paquetes”, el ancho
de banda requerido dependerá de la “sobrecarga” (“overhead”) que generen estos
paquetes.
Como se ha visto, para el envío de voz sobre redes de paquetes se utiliza el estándar
RTP. Éste protocolo a su vez se monta sobre UDP, el que a su vez se monta sobre IP,
el que, en la LAN, viaja sobre Ethernet.
Esta suma de protocolos hace que el ancho de banda requerido para el tráfico de voz
sobre Ethernet sea bastante mayor al ancho de banda del audio.
Para una muestra o ventana de 20 ms, y con codificación de audio Ley A, se
obtienen 160 bytes de voz por trama.
Bytes de voz/trama = 64 kb/s * 20 ms / 8 = 160 bytes
El paquete IP (incluyendo los protocolos RTP y UDP) agrega 40 bytes adicionales
Bytes de paquete IP = 160 + 40 = 200 bytes
La trama Ethernet agrega otros 26 bytes:
Bytes de Trama Ethernet = 200 + 26 = 226 bytes
En este ejemplo, cada 20ms se generan 226 bytes que se deben enviar por la LAN.
Esto equivale a un ancho de banda de 90,4 kb/s (compárese con los 64 kb/s del
flujo de audio)
Ancho de banda LAN = 226 * 8 / 20 ms = 90.4 kb/s Es de hacer notar que este
cálculo fue hecho para el envío de audio en una dirección. Como las comunicaciones
son bidireccionales, el ancho de banda real requerido en la LAN será el doble. Pueden
utilizarse técnicas de “supresión de silencio”, en las que no se envían paquetes
cuando no hay audio. En este caso, el ancho de banda total es similar al ancho de
banda unidireccional.
Por lo visto anteriormente, el ancho de banda de la voz paquetizada en la LAN
depende del tamaño de la “ventana” (típicamente 10, 20 o 30 ms) y el CODEC
utilizado. De forma general podemos agregar también que el tamaño del paquete de
voz dependerá del tipo de red por la cual se enviará la información.
La siguiente tabla muestra los anchos de banda unidireccionales necesarios utilizando
redes IP sobre Ethernet
2.5 Factores que afectan la calidad de la voz sobre redes de paquetes
Se describirán algunos de los parámetros más influyentes en la calidad de la voz
transmitida a través de la red de datos:
Factor de compresión
Para poder transmitir la voz a través de una red de datos, es necesario realizar
previamente un proceso de digitalización. En telefonía clásica, éste proceso se realiza
utilizando CODECs que implementan la “ley A” o “ley μ”, obteniendo una señal digital
de 64 kb/s. Este proceso, se realiza de acuerdo a la recomendación G.711 de la ITU-
T. Sin embargo, cuando se dispone de velocidades de red reducidas, es conveniente
tratar de minimizar el “ancho de banda” requerido por las señales de voz. Para ello, se
han desarrollado varias recomendaciones, que reducen la velocidad de transmisión
requerida, a expensas de “degradar” la calidad de la voz.
Muchos equipos comerciales soportan varias de ellas y algunos otros incluyen también
CODECS Open source como el iLBC (codec de Internet de bajo bitrate) y el Speex.
La siguiente tabla resume las recomendaciones de la ITU-T respecto a los algoritmos
estandarizados de compresión de voz y que son ampliamente utilizados en la
actualidad para VoIP.
Pérdida de paquetes
A diferencia de las redes telefónicas, donde para cada conversación se establece un
vínculo “estable y seguro”, las redes de datos admiten la pérdida de paquetes.
Esto está previsto en los protocolos “seguros” de alto nivel, y en caso de que ocurra,
los paquetes son reenviados. En los protocolos diseñados para tráfico de tiempo real
generalmente no se recibe confirmaciones de recepción de paquetes, ya que si el
canal es suficientemente seguro, estas confirmaciones cargan inútilmente al mismo.
En aplicaciones de voz y video, el audio es “encapsulado” en paquetes y enviado, sin
confirmación de recepción de cada paquete.
Si el porcentaje de perdida es pequeño, la degradación de la voz también lo es.
Los porcentajes de perdida admisibles dependen de otros factores, como por
ejemplo la demora de transmisión y el factor de compresión de la voz.
Existen técnicas para hacer menos sensible la degradación de calidad en la voz frente
a la pérdida de paquetes. La más sencilla consiste en simplemente repetir el último
paquete recibido.
También cuentan como “perdidos” los paquetes que llegan a destiempo o fuera de
orden.
Demora
Un factor importante en la percepción de la calidad de la voz es la demora. La demora
total está determinada por varios factores, entre los que se encuentran:
• Demora debida a los algoritmos de compresión .- En forma genérica,
cuanto mayor es la compresión, más demora hay en el proceso (los “CODECS”
requieren más tiempo para codificar cada muestra).
• Demoras de procesamiento.- Es el tiempo involucrado en el procesamiento
de la voz para la implementación de los protocolos. Dependen de los
procesadores utilizados.
• Demoras propias de la red (latencia).- Las demoras propias de la red
están dadas por la velocidad de transmisión de la misma, la congestión, y las
demoras de los equipos de red (routers, gateways, etc.).
Las demoras no afectan directamente la calidad de la voz, sino la calidad
de la conversación. Hasta 100 ms son generalmente tolerados, casi sin percepción
de los interlocutores. Entre 100 y 200 ms las demoras son notadas. Al acercarse a los
300 ms de demora, la conversación se vuelve poco natural. Pasando los 300 ms la
demora se torna crítica, haciendo muy dificultosa la conversación.
Un efecto secundario, generado por las demoras elevadas, es el eco. El eco se debe a
que parte de la energía de audio enviada es devuelta por el receptor. En los sistemas
telefónicos este efecto no tiene mayor importancia, ya que los retardos o demoras son
despreciables, y por lo tanto, el “eco” no es percibido como tal.
Cuando la demora de punta a punta comienza a aumentar, el efecto del eco comienza
a percibirse.
Eco
Si el tiempo transcurrido desde que se habla hasta que se percibe el retorno de la
propia voz es menor a 30 ms, el efecto del eco no es percibido. Asimismo, si el nivel
del retorno está por debajo de los –25 dB, el efecto del eco tampoco es percibido. En
las conversaciones telefónicas habituales, el eco existe en niveles perceptibles
(mayores a –25 dB), pero la demora es mínima, por lo que el eco no es perceptible.
Las excepciones son las comunicaciones vía satélite, en las que la demora promedio
es del orden de los 150 ms. Para estos casos, las compañías telefónicas disponen
generalmente de sofisticados equipos canceladores de eco.
Variaciones en la demora (Jitter)
El “jitter” es la variación en las demoras (latencias). Por ejemplo, si dos puntos
comunicados reciben un paquete cada 20 ms en promedio, pero en determinado
momento, un paquete llega a los 30 ms y luego otro a los 10 ms, el sistema tiene un
“jitter” de 10 ms.
El receptor debe recibir los paquetes a intervalos constantes, para poder regenerar de
forma adecuada la señal original. Dado que el “jitter” es inevitable, los receptores
disponen de un “buffer” de entrada, con el objetivo de “suavizar” el efecto de la
variación de las demoras. Este buffer recibe los paquetes a intervalos variables, y los
entrega a intervalos constantes.
Es de hacer notar que este “buffer” agrega una demora adicional al sistema, ya que
debe “retener” paquetes para poder entregarlos a intervalos constantes.
Cuánto más variación de demoras (“jitter”) exista, más grande deberá ser el buffer, y
por lo tanto, mayor demora será introducida al sistema.
Tamaño de los paquetes
El “tamaño” de los paquetes influye en dos aspectos fundamentales en la transmisión
de la voz sobre redes de datos: La demora y el “ancho de banda” requerido.
Para poder transmitir las muestras codificadas de voz sobre una red de datos, es
necesario armar “paquetes”, según los protocolos de datos utilizados (por ejemplo, IP).
Un paquete de datos puede contener varias muestras de voz. Por ello, es necesario
esperar a recibir varias muestras para poder armar y enviar el paquete.
Esto introduce un retardo o demora en la transmisión. Desde éste punto de vista,
parece conveniente armar paquetes con la mínima cantidad de muestras
de voz (por ejemplo, un paquete por cada muestra). Sin embargo, hay que tener en
cuenta que cada paquete tiene una cantidad mínima de información (bytes) de control
(cabezal del paquete, origen, destino, etc.). Esta información (“sobrecarga” u
“overhead”), no aporta a la información real que se quiere transmitir, pero afecta al
tamaño total del paquete, y por tanto al ancho de banda.
La duración de las “ventanas” de voz se encuentran entre 10 a 30 ms, valor que se
aporta a la demora total.
A continuación un cuadro comparativo de los CODECS más usados en VoIP y sus
ventajas y desventajas:
3 CODEC G.729
El codec G.729 estándar ITU, se basa en el Algoritmo Code Excited Linear Prediction
(CELP) y sus variantes CS-ACELP.
Perteneciente a la familia de los codificadores paramétricos, los cuales se basan en la
obtención de los parámetros de un modelo de producción de señal de voz.
Los codificadores paramétricos analizan por predicción lineal el filtro correspondiente
al modelo de generación de señal de voz.
Digitalización de la voz
Como primer paso la voz debe ser obtenida mediante un transductor y luego pasar a
través de PDS en el cual será muestreada y cuantificada, para la codificación existen
diversas técnicas pero la que usaremos ahora esta bajo el esquema de la
recomendación G.729 con el algoritmo CS-ACELP. (Procesamiento Digital de
Señales)
CS-ACELP y sus variantes
Está basado en una estructura conjugada algebraica de CELP con bajo retardo
aproximadamente de 8 Kbit/s.
Se ha diseñado para aplicaciones de redes inalámbricas y multimedia.
CS-CELP es un codificador de bajo retardo con tamaños de trama de 10 ms, un
lookahead de 5 ms y un retardo total del algoritmo de 15 ms.
El algoritmo se basa en un esquema CELP de análisis-síntesis con dos libros de
códigos (codebook).
Existen dos versiones del algoritmo:
La G.729 original con un coste de 20 MIPS y MOS 4,0
Y la G.729 Anexo A, menos compleja, 11 MIPS y MOS 3,76.
La norma G.729 Anexo B define un algoritmo de compresión de silencios lo cual
permite tanto a al G.729 como a la G.729 A operar a bit rates menores.
Hay extensiones planeadas de la G.729 a 6,4 Kbit/s y 12 Kbit/s pero q aun no son
comerciales.
4 Medida de la calidad de voz en redes IP
La VoIP enfrenta problemáticas propias de las redes de datos, que se manifiestan
como degradaciones en la calidad del servicio percibida por los usuarios (QoE).
Estas degradaciones pueden deberse por ejemplo a retardos, jitter (diferencia de
retardos) y pérdida de paquetes, entre otros factores. Para que la tecnología de VoIP
pueda ser utilizada en las Empresas, es esencial garantizar una calidad de voz
aceptable. Para ello se han desarrollado métodos para medirla. Estos métodos se
dividen en subjetivos y objetivos. Los métodos subjetivos de medida de la calidad de
servicio, se basan en conocer directamente la opinión de los usuarios.
Típicamente resultan en un promedio de opiniones (por ejemplo, en un valor de MOS –
Mean Opinión Score). Los métodos objetivos . A su vez se subdividen en intrusivos (se
inyecta una señal de voz conocida en el canal y se estudia su degradación a la salida)
y no intrusivos (monitorean ciertos parámetros en un punto de la red y en base a estos
permite establecer en tiempo real la calidad que percibiría un usuario).
4.1 Métodos Subjetivos
La calidad de la voz se establece a través de la opinión del usuario. La calidad de
audio puede ser evaluada directamente (ACR = Absolute Category Rating), o en
forma comparativa contra un audio de referencia (DCR = Degradation Category
Rating). Con evaluaciones directas (del tipo ACR) se califica el audio con valores
entre 1 y 5, siendo 5 “Excelente” y 1 “Malo”. El MOS (Mean Opinión Score) es el
promedio de los ACR medidos entre un gran número de usuarios.
Si la evaluación es comparativa, (del tipo DCR), el audio se califica también entre 1 y
5, siendo 5 cuando no hay diferencias apreciables entre el audio de referencia y el
medido y 1 cuando la degradación es muy molesta. El promedio de los valores DCR
es conocido como DMOS (Degradation MOS).
La metodología de evaluación subjetiva más ampliamente usada es la del MOS (Mean
Opinión Score), estandarizada en la recomendación ITU-T P.800.
Adicionalmente, se puede evaluar la calidad del audio y la calidad de la conversación,
las que pueden ser diferentes. La calidad de la conversación implica una comunicación
bidireccional, donde, por ejemplo, los retardos juegan un papel muy importante en la
calidad percibida. Los valores obtenidos con las técnicas ACR (es decir, el MOS)
puede estar sujeto al tipo de experimento realizado. Por ejemplo, si se utilizan varias
muestras de buena calidad, una en particular puede ser calificada peor que si esa
misma muestra se presenta junto a otras de peor calidad.
Los métodos subjetivos son en general caros y lentos porque requieren un gran panel
de usuarios. Son dependientes entre otros factores del país, del idioma, de las
experiencias previas de los usuarios.
4.2 E-Model
La industria de las telecomunicaciones ha aceptado una representación numérica de la
calidad de la voz, llamada “MOS” (Mean Opinion Score), y estandarizada en la
recomendación ITU-T P.800. La calidad de la voz es calificada con un número, entre 1
y 5. El valor numérico de MOS es proporcional a la calidad de la voz. 1 significa muy
mala calidad y 5 significa excelente. Los valores son obtenidos mediante el promedio
de las opiniones de un gran grupo de usuarios.
La ITU-T ha creado un “modelo” en la recomendación ITU-T G.107, llamado “EModel”,
para estimar o predecir la calidad de la voz en redes IP (VoIP) percibida por un usuario
típico, en base a parámetros medibles de la red. El resultado del E-Model es un factor
escalar, llamado “R” (“Transmission Rating Factor”), que puede tomar valores
entre 0 y 100. El “E-model” toma en cuenta una gran cantidad de factores que pueden
deteriorar la calidad de la voz percibida, como por ejemplo, el uso de compresión, los
retardos de la red, así como también los factores “típicos” en telefonía como la
pérdida, ruido y eco. Puede ser aplicado para estimar la calidades de la voz en redes
de paquetes, tanto fijas como inalámbricas.
El E-Model puede ser utilizado para evaluar como se verá afectada la calidad de la voz
en una red en base a parámetros mensurables. El modelo parte de un puntaje
“perfecto” (100) y resta diversos factores que degradan la calidad, según se puede
ver en la ecuación.
R = Ro - Is - Id – Ie_eff + A ...........................(1)
Donde:
Ro Representa la relación señal/ruido básica (antes de ingresar en la red) que incluye
fuentes de ruido, tales como ruido ambiente. El valor inicial puede ser como máximo
100. Las fuentes de ruido independientes del sistema como el ruido ambiental, pueden
hacer que este valor inicial sea menor a 100.
Is Es una combinación de todas las degradaciones que aparecen de forma más o
menos simultánea con la señal vocal. Por ejemplo, volumen excesivo y distorsión de
cuantización.
Id Representa las degradaciones producidas por el retardo y el eco Ie_eff “Effective
equipment impairment factor”. Representa las degradaciones producidas por los
códecs y por las pérdidas de paquetes de distribución aleatoria.
A Factor de Mejoras de Expectativas. Muchas veces, los usuarios están dispuestos a
aceptar peor calidad de voz si saben que se están utilizando tecnologías “no clásicas”
(por ejemplo celulares o VoIP). Permite compensar los factores de degradación
cuando existen otras ventajas de acceso para el usuario.
Los valores de R varían entre 0 y 100, correspondiendo los valores más altos a
mejores calidades de voz.
Los tres tipos de degradaciones (Is, Id y Ie, eff) se subdividen, a su vez, en la
combinación de otros factores, como se detalla a continuación.
Cálculo de Is
Is = Iolr + Ist + Iq ..................... (2)
Donde:
Iolr Representa la disminución de calidad producida por valores demasiado bajos de
OLR (Overall Loudness Rating). El OLR se calcula, a su vez, como
OLR = SLR + RLR ............................(3)
Siendo:
SLR (Send Loudness Rating), es la pérdida entre la boca del emisor y el micrófono del
aparato telefónico. RLR (Receive Loudness Rating), es la pérdida entre el parlante del
aparato telefónico y el oído del receptor.
Ist Representa la degradación producida por efectos locales no óptimos, y depende
esencialmente del factor STMR (Side Tone Masking Rating).
Parte de la señal recibida por el micrófono es transmitida, dentro del mismo teléfono, al
parlante, generando un “efecto local” que hace que la persona que habla se escuche
por el oído en el que tiene el tubo o microteléfono. La atenuación de la señal que pasa
del micrófono al parlante del mismo aparato se conoce como STMR. Si este valor no
está dentro de los parámetros adecuados, genera una sensación de “eco”, o de “línea
muerta”, según el caso, bajando la calidad de la comunicación.
Iq Representa la degradación producida por la distorsión de cuantificación. Se calcula
en base a “unidades qdu” . 1 qdu se define como el “ruido” de cuantización” que
resulta de una codificación y decodificación completas en Ley A o Ley µ
La fórmula de cálculo detallada de los parámetros (Iolr, Ist, Iq) puede verse en la
recomendación G.107.
Cálculo de Id
Id = Idte + Idle + Idd ..............................(4)
Donde:
Idte Expresa una estimación para las degradaciones debidas al eco para el hablante.
Se calcula en base al factor TELR (Talker Echo Loudness Rating) y la demora
media T de punta a punta en un sentido. El factor TELR es la medida de la atenuación
del eco percibido por el hablante.
Idle Representa degradaciones debidas al eco para el oyente. Se calcula en base al
factor WEPL (Weighted Echo Path Loss) y la demora media Tr de ida y vuela. El factor
WEPL es la medida de la atenuación entre la señal “directa” recibida por el oyente, la
señal retardada recibida como eco.
Idd Representa la degradación producida por retardos absolutos demasiado largos
Ta, que se producen incluso con compensación perfecta del eco. Si Ta < 100 ms, el
factor Idd es 0.
La fórmula de cálculo detallada de los parámetros (Idte, Idle, Idd) puede verse en la
recomendación G.107.
El efecto de la demora en el valor de R del Modelo EModel, se grafica en la
siguiente figura, asumiendo todos los otros factores ideales
Puede verse como hasta 175 ms el valore de R es mayor que 90, y se encuentra en la
zona de “Muy satisfechos”. Sin embargo, luego de los 175 ms, el efecto de las
demoras degrada fuertemente la comunicación, haciéndola poco natural.
Si a la gráfica anterior se le suma el efecto del eco, varios TELR, el modelo E predice
las siguientes curvas:
Es de hacer notar que el valor TELR es la medida de la atenuación del eco percibido
por el hablante. Cuanto más atenuado el eco percibido (mayor valor en db de TELR),
menor efecto tiene el eco sobre la degradación. En la medida que aumenta el eco, el
valor de R decrece rápidamente con el retardo.
Cálculo de Ie_eff
Ie-eff representa las degradaciones producidas por los códecs y por las pérdidas de
paquetes, según la siguiente fórmula:
Donde
Ie Es un valor que depende del Códec utilizado, y representa la degradación percibida
producida por los diferentes algoritmos de compresión.
Ppl Representa la probabilidad de pérdida de paquetes
Bpl Se define como el “factor de robustez” contra pérdida de paquetes, y es un valor
preestablecido para cada Códec
BurstR Es la “Relación de ráfaga”, y se define como:
Si no existen pérdida de paquetes (Ppl=0), el factor Ie-eff depende únicamente del tipo
de Codec utilizado Los valores de Ie para los diferentes Codecs se detallan en la
siguiente tabla:
En una red sin pérdida de paquetes y sin eco, el valor de R del EModel, dependerá de
la demora y de los codecs utilizados, según se muestra en la siguiente gráfica, para
G.711, G.729A y G.723.1 (notar que la gráfica “negra” coincide con las gráficas
anteriores)
Cálculo de A
A representa un “Factor de Mejoras de Expectativas”. Muchas veces, los usuarios
están dispuestos a aceptar peor calidad de voz si saben que se están utilizando
tecnologías “no clásicas” (por ejemplo celulares o VoIP). No existe, por consiguiente,
ninguna relación entre A y los demás parámetros de transmisión.
El cuadro siguiente presenta los valores típicos de A para diferentes tecnologías,
según la recomendación ITU-T G-113
Relación de R y MOS
El modelo relaciona el valor de “R” con el “MOS”, con un gran nivel de aproximación,
según la siguiente ecuación:
Las siguiente figuras muestran la relación entre R y MOS, según la fórmula anterior:
Aplicación del E-model
El RFC 3611 [15] define campos de “reportes extendidos” (XR, Extended Reports) en
el protocolo RTCP que permiten intercambiar información acerca de la calidad de la
comunicación. En este RFC se incluye la posibilidad de intercambiar información del
valor de “R” entre fuentes y destinos, así como los valores percibidos de MOS-LQ
(MOS listening quality) y MOS-CQ (MOS conversational quality)
4.3 OTROS MODELOS DE MEDICION
4.3.1 ITU-T P.862 (PESQ)
La recomendación ITU-T P.862 [16] presenta un método objetivo para la evaluación de
la calidad vocal de extremo a extremo de redes telefónicas de banda estrecha y
códecs vocales.
Esta Recomendación describe un método objetivo para predecir la calidad subjetiva de
la voz telefónica utilizando los códecs más comunes. Presenta una descripción de alto
nivel del método, explica la forma de utilizar este método y parte de los resultados de
referencia obtenidos por la Comisión de Estudio 12 de la ITU-T en el periodo 1999-
2000. Proporciona adicionalmente una implementación de referencia escrita en el
lenguaje de programación ANSI-C.
El método objetivo descrito se conoce por "evaluación de la calidad vocal por
percepción" (PESQ, perceptual evaluation of evaluation of speech quality) y es el
resultado de varios años de trabajos de desarrollo.
PESQ compara una señal inicial X(t) con una señal degradada Y(t) que se obtiene
como resultado de la transmisión de X(t) a través de un sistema de comunicaciones
(por ejemplo, una red IP). La salida de PESQ es una predicción de la calidad percibida
por los sujetos en una prueba de escucha subjetiva que sería atribuida a Y(t).
El primer paso de PESQ consiste en una alineación temporal entre las señales
iniciales X(t) y degradada Y(t). Para cada intervalo de señal se calcula un punto de
arranque y un punto de parada correspondientes.
Una vez alineadas, PESQ compara la señal (entrada) inicial con la salida degradada
alineada, utilizando un modelo por percepción, como el representado en la siguiente
figura
Lo esencial en este proceso es la transformación de las dos señales, la inicial y la
degradada, en una representación interna que intenta reproducir la representación
psicoacústica de señales de audio en el sistema auditivo humano, teniendo en cuenta
la frecuencia por percepción (Bark) y la sonoridad (Sone).
El modelo cognitivo de PESQ termina brindando una distancia entre la señal vocal
inicial y la señal vocal degradada (“nota PESQ”), la que corresponde a su vez con una
predicción de la MOS subjetiva. La nota PESQ se hace corresponder a una escala
similar a la de MOS, un número único en una escala de –0,5 a 4,5, aunque en la
mayoría de los casos la gama de las salidas estará entre 1,0 y 4,5, que es la gama
normal de valores de MOS que suelen darse en un experimento sobre la calidad de
voz.
La descripción detallada del algoritmo es compleja, y puede verse en la
Recomendación referenciada.
El método PESQ es objetivo e intrusivo, ya que requiere del envío de una señal
conocida de referencia para evaluar la calidad percibida de la voz. Algunos sistemas lo
implementan enviando un par de segundos de audio conocido, lo que basta para
poder aplicar el método.
5 Ventajas de la Voz sobre IP
• La primer ventaja y la más importante es el costo, una llamada mediante
telefonía VoIP es en la mayoría de los casos mucho más barata que su equivalente en
telefonía convencional.
Esto es básicamente debido a que se utiliza la misma red para la transmisión de datos
y voz, la telefonía convencional tiene costos fijos que la telefonía IP no tiene, de ahí
que esta es más barata. Usualmente para una llamada entre dos teléfonos IP la
llamada es gratuita, cuando se realiza una llamada de un teléfono IP a un teléfono
convencional el costo corre a cargo del teléfono IP.
• Integración sobre su Intranet de la voz como un servicio más de su red, tal
como otros servicios informáticos.
• Las redes IP son la red estándar universal para la Internet, Intranets y
extranets.
• Estándares efectivos (H.323)
• Interoperabilidad de diversos proveedores
• Uso de las redes de datos existentes
• Independencia de tecnologías de transporte (capa 2), asegurando la inversión.
• Menores costos que tecnologías alternativas (voz sobre TDM, ATM, Frame
Relay)
6 Conclusiones
En conclusión si a todo lo anterior, se le suma el fenómeno creciente llamado Internet,
junto con el potencial ahorro económico que este tipo de tecnologías puede llevar
acarreado, la conclusión es clara: El VoIP (Protocolo de Voz Sobre Internet - Voice
Over Internet Protocol) es un tema "caliente" y estratégico para las empresas.
Hoy, desregulación mediante, la telefonía sobre IP empieza a ver su hora más gloriosa
y es el fruto más legítimo de la convergencia tecnológica.
La transmisión de la voz sobre redes de datos debe su desarrollo a la rápida evolución
de las tecnologías de procesamiento digital de señales y al desarrollo conjunto de
algoritmos de compresión que permiten aprovechar el ancho de banda de Internet.
Existen algoritmos de codificación que pueden minimizar aun más el ancho de banda
necesario para la transmisión de voz, pero el sacrificio está en la calidad perceptual.
En la actualidad muchas de las marcas que comercializan Equipos de Voz sobre IP
poseen soporte para varios de estos CODECS y en algunos casos son utilizados de
acuerdo al ancho de banda disponible en la red y otros autosensando el códec
utilizado por el equipo remoto.
7 Referencias
TIA/TSB 116-A Telecommunications - IP Telephony Equipment – Voice
Quality Recommendations for IP Telephony, Mar 1, 2006
http://www.w3.org/AudioVideo/9610_Workshop/paper11/paper11.html
Calidad de servicio percibida en servicios de voz y video sobre IP, Pedro Casas
Hernandez, Diego Guerra Vidal, Ignacio Irigaray Bayarres, Universidad de la
Republica, Proyecto de fin de carrera, Ingenieria Eléctrica Plan 97,
telecomunicaciones, 30 de Agosto de 2005.
Transmisión de voz sobre IP con protocolo basado en el algoritmo lms, Carlos
Alberto Busso Recabarren, tesis para optar al grado de magister en ciencias de la
ingenieria mención eléctrica, santiago de chile JULIO 2003.
An E-Model Implementation for Speech Quality Evaluation in VoIP Systems,
Leandro Carvalho, Edjair Mota, Regeane Aguiar, Ana F. Lima, José Neuman de
Souza, Anderson Barreto, Federal University of Amazonas (UFAM), Federal
University of Ceará (UFC), Nokia Institute of Technology (INdT).
Simulación of voice over IP for the Battlespace Communications System(land),
Ian Grivell and Raymee Chau, department of defense of Australia, 2004.
AdaMOS: Algoritmo MOS-Adaptativo para fonts VoIP, Bruno de Azevedo
Vianna, Nilmax Teones Moura, Célio Vinicius Neves de Albuquerque, Vinod E. F.
Rebello e Cristina Boeres, Instituto de Computação – Universidade Federal
Fluminense(IC/UFF)

Vo IP

  • 1.
    Universidad Inca Garcilasode la Vega Tema VoIP tratamiento de la voz Sobre redes de datos
  • 2.
    1 Introducción VoIP provienedel ingles Voice Over Internet Protocol, que significa "voz sobre un protocolo de internet". Básicamente VoIP es un método por el cual tomando señales de audio analógicas del tipo de las que se escuchan cuando uno habla por teléfono se las transforma en datos digitales que pueden ser transmitidos a traves de internet hacia una dirección IP determinada. VoIP permite la unión de dos mundos históricamente separados, el de la transmisión de voz y el de la transmisión de datos. Entonces, podemos decir que VoIP no es un servicio sino una tecnología. VoIP puede transformar una conexión standard a internet en una plataforma para realizar llamadas gratuitas por internet. Usando algunos de los software gratuitos para llamadas VoIP que están disponibles en internet de esta forma estariamos saltandonos a las compañías tradicionales de telefonía, y por consiguiente, sus tarifas. En el pasado, las conversaciones mediante VoIP solían ser de baja calidad, esto se vio superado por el desarrollo tecnologico en temas de procesamiento digital de señales (PDS), evolución de los codecs como el G.729, niveles de procesamiento y la proliferación de conexiones de banda ancha, hasta tal punto ha llego la expansión de la telefonía IP que existe la posibilidad de que usted sin saberlo ya haya utilizado un servicio VoIP, por ejemplo, las operadoras de telefonía convencional, utilizan los servicios del VoIP para transmitir llamadas de larga distancia y de esta forma reducir costos.
  • 3.
    Se sabe queva a llevar algún tiempo pero es seguro que en un futuro cercano desaparecerán por completo las líneas de teléfono convencionales que utilizamos en nuestra vida cotidiana, el avance tecnológico indica que estas serán muy probablemente reemplazadas por la telefonía IP. En el presente trabajo nos concentraremos en ver como es tratada la voz y luego transformada en paquetes de datos para luego ser transmitida a su destino final a través de una red IP. También encontraremos técnicas que evaluaran la calidad de la voz procesada y transmitida y los diferentes parámetros que influyen sobre la calidad. Por ultimo analizaremos uno de los Codecs más usados en VoIP como es el G.729.
  • 4.
    2 Voz sobreIP 2.1 Paquetización de la voz Para poder transmitir las muestras codificadas de voz sobre redes de datos, es necesario armar “paquetes”. Si la voz está codificada con ley A, una conversación consiste en un “flujo” de 64 kb/s. Cada muestra dura 125 μs. Si bien se podría formar un paquete con cada muestra de voz, esto generaría un sobrecarga (“overhead”) demasiado importante (recordar que cada paquete requiere de cabezales). Por otro lado, si se espera a “juntar” demasiadas muestras de voz, para formar un paquete con mínima sobrecarga porcentual, se pueden introducir retardos no aceptables. Un paquete IP puede tener hasta 1500 bytes de información. Si con muestras de 64 kb/s se quisiera completar los 1500 bytes del paquete IP, se introduciría un retardo de 125μs x 1500 = 187,5 ms. Esta demora no es aceptable en aplicaciones de voz. Por esta razón, se toman generalmente “ventanas” de 10 a 30 ms. Las muestras de voz de cada una de estas ventanas consecutivas se “juntan” y con ellas se arman paquetes. 2.2 RTP – Real-Time Transport Protocol
  • 5.
    El protocolo RTP,basado en el RFC 3550, establece los principios de un protocolo de transporte sobre redes que no garantizan calidad de servicio para datos “de tiempo real”, como por ejemplo voz y video. El protocolo establece la manera de generar paquetes que incluyen, además de los propios datos de “tiempo real” a transmitir, números de secuencia, marcas de tiempo, y monitoreo de entrega. Las aplicaciones típicamente utilizan RTP sobre protocolos de red “no confiables”, como UDP. Los “bytes” obtenidos de cada conjunto de muestras de voz o video son encapsulados en paquetes RTP, y cada paquete RTP es a su vez encapsulado en segmentos UDP. RTP soporta transferencia de datos a destinos múltiples, usando facilidades de “multicast”, si esto es provisto por la red.
  • 6.
    Cada paquete RTPconsiste en un cabezal y los datos de voz. El cabezal contiene números de secuencia, marcas de tiempo, y monitoreo de entrega. El formato de éste cabezal es el mostrado en la figura
  • 7.
    Los campos másrelevantes son: Versión (V) La versión actual del protocolo es la 2. CSRC count (CC) El campo indica la cantidad de identificadores CSRC incluidos en el cabezal (0 a 15) Tipo de información (PT) El campo “payload” identifica el tipo de información que viaja en el paquete. Es un campo de 7 bits, lo que permite diferenciar hasta 128 tipos de información. En audio, este campo indica el tipo de codificación. Los valores de este campo se definen en el RFC 3551. Algunos valores de ejemplo se muestran en la siguiente tabla Número de secuencia (Sequence Number) El campo correspondiente al número de secuencia es de 16 bits. Con cada paquete enviado, el emisor incrementa en uno el número de secuencia. Esto permite al receptor detectar paquetes perdidos, o fuera de orden.
  • 8.
    Marca de tiempo(Time Stamp) Este campo es de 32 bits. Indica el momento al que corresponde la primera muestra de la ventana de información que viaja en el paquete. Este campo es utilizado por el receptor, para reproducir las muestras con la misma cadencia con las que fueron obtenidas. Es a su vez útil para medir el “jitter”. En audio, el campo “Time Stamp” se mide en unidades de 125 μs (o sea, en unidades de muestreo). Si por ejemplo un paquete de 160 bytes de audio en Ley A contiene el campo TimeStamp con el valor 1, el siguiente paquete contendrá el campo TimeStamp en 160. Identificador del origen (SSRC - Synchronization Source Identifier) El campo correspondiente al SSRC es de 32 bits. Típicamente cada flujo en una sesión RTP tiene un identificador diferente. El origen establece este número, asegurando que no se repita. Identificador del tributario (CSRC - Contributing Sources Identifier) Pueden existir hasta 15 campos CSRC, de acuerdo al valor de CC. Esta lista identifica a cada uno de los interlocutores cuando el audio que se envía es producido en un mezclador o “mixer” (por ejemplo, cuando se envía el audio de varios participantes de una conferencia) 2.3 RTCP – RTP Control Protocol El RFC 3550 establece, además del protocolo RTP, un protocolo de control, RTCP, encargado de enviar periódicamente paquetes de control entre los participantes de una sesión. El protocolo RTCP tiene las siguientes funciones principales:
  • 9.
    • Proveer realimentaciónacerca de la calidad de los datos distribuidos (por ejemplo, de la calidad percibida de VoIP). Esta realimentación permite adaptar dinámicamente la codificación, o tomar acciones tendientes a solucionar problemas cuando se detecta degradación en la calidad de la comunicación. • Transporte del CNAME (Canonical Name) de cada originador. Este identificador permite asociar varios flujos RTP con el mismo origen (por ejemplo, flujos de audio y video provenientes del mismo emisor). • Adaptar dinámicamente la frecuencia de envío de paquetes de control RTCP de acuerdo al número de participantes en la sesión. Dado que los paquetes se deben intercambiar “todos contra todos”, es posible saber cuantos participantes hay, y de esta manera calcular la frecuencia de envíos de esto paquetes.
  • 10.
    2.4 Ancho debanda Dado que para el envío de voz sobre redes es necesario armar “paquetes”, el ancho de banda requerido dependerá de la “sobrecarga” (“overhead”) que generen estos paquetes. Como se ha visto, para el envío de voz sobre redes de paquetes se utiliza el estándar RTP. Éste protocolo a su vez se monta sobre UDP, el que a su vez se monta sobre IP, el que, en la LAN, viaja sobre Ethernet. Esta suma de protocolos hace que el ancho de banda requerido para el tráfico de voz sobre Ethernet sea bastante mayor al ancho de banda del audio. Para una muestra o ventana de 20 ms, y con codificación de audio Ley A, se obtienen 160 bytes de voz por trama. Bytes de voz/trama = 64 kb/s * 20 ms / 8 = 160 bytes El paquete IP (incluyendo los protocolos RTP y UDP) agrega 40 bytes adicionales Bytes de paquete IP = 160 + 40 = 200 bytes La trama Ethernet agrega otros 26 bytes: Bytes de Trama Ethernet = 200 + 26 = 226 bytes
  • 11.
    En este ejemplo,cada 20ms se generan 226 bytes que se deben enviar por la LAN. Esto equivale a un ancho de banda de 90,4 kb/s (compárese con los 64 kb/s del flujo de audio) Ancho de banda LAN = 226 * 8 / 20 ms = 90.4 kb/s Es de hacer notar que este cálculo fue hecho para el envío de audio en una dirección. Como las comunicaciones son bidireccionales, el ancho de banda real requerido en la LAN será el doble. Pueden utilizarse técnicas de “supresión de silencio”, en las que no se envían paquetes cuando no hay audio. En este caso, el ancho de banda total es similar al ancho de banda unidireccional. Por lo visto anteriormente, el ancho de banda de la voz paquetizada en la LAN depende del tamaño de la “ventana” (típicamente 10, 20 o 30 ms) y el CODEC utilizado. De forma general podemos agregar también que el tamaño del paquete de voz dependerá del tipo de red por la cual se enviará la información. La siguiente tabla muestra los anchos de banda unidireccionales necesarios utilizando redes IP sobre Ethernet
  • 12.
    2.5 Factores queafectan la calidad de la voz sobre redes de paquetes Se describirán algunos de los parámetros más influyentes en la calidad de la voz transmitida a través de la red de datos: Factor de compresión Para poder transmitir la voz a través de una red de datos, es necesario realizar previamente un proceso de digitalización. En telefonía clásica, éste proceso se realiza utilizando CODECs que implementan la “ley A” o “ley μ”, obteniendo una señal digital de 64 kb/s. Este proceso, se realiza de acuerdo a la recomendación G.711 de la ITU- T. Sin embargo, cuando se dispone de velocidades de red reducidas, es conveniente tratar de minimizar el “ancho de banda” requerido por las señales de voz. Para ello, se han desarrollado varias recomendaciones, que reducen la velocidad de transmisión requerida, a expensas de “degradar” la calidad de la voz. Muchos equipos comerciales soportan varias de ellas y algunos otros incluyen también CODECS Open source como el iLBC (codec de Internet de bajo bitrate) y el Speex. La siguiente tabla resume las recomendaciones de la ITU-T respecto a los algoritmos estandarizados de compresión de voz y que son ampliamente utilizados en la actualidad para VoIP.
  • 13.
    Pérdida de paquetes Adiferencia de las redes telefónicas, donde para cada conversación se establece un vínculo “estable y seguro”, las redes de datos admiten la pérdida de paquetes. Esto está previsto en los protocolos “seguros” de alto nivel, y en caso de que ocurra, los paquetes son reenviados. En los protocolos diseñados para tráfico de tiempo real generalmente no se recibe confirmaciones de recepción de paquetes, ya que si el canal es suficientemente seguro, estas confirmaciones cargan inútilmente al mismo. En aplicaciones de voz y video, el audio es “encapsulado” en paquetes y enviado, sin confirmación de recepción de cada paquete. Si el porcentaje de perdida es pequeño, la degradación de la voz también lo es. Los porcentajes de perdida admisibles dependen de otros factores, como por ejemplo la demora de transmisión y el factor de compresión de la voz. Existen técnicas para hacer menos sensible la degradación de calidad en la voz frente a la pérdida de paquetes. La más sencilla consiste en simplemente repetir el último paquete recibido. También cuentan como “perdidos” los paquetes que llegan a destiempo o fuera de orden.
  • 14.
    Demora Un factor importanteen la percepción de la calidad de la voz es la demora. La demora total está determinada por varios factores, entre los que se encuentran: • Demora debida a los algoritmos de compresión .- En forma genérica, cuanto mayor es la compresión, más demora hay en el proceso (los “CODECS” requieren más tiempo para codificar cada muestra). • Demoras de procesamiento.- Es el tiempo involucrado en el procesamiento de la voz para la implementación de los protocolos. Dependen de los procesadores utilizados. • Demoras propias de la red (latencia).- Las demoras propias de la red están dadas por la velocidad de transmisión de la misma, la congestión, y las demoras de los equipos de red (routers, gateways, etc.). Las demoras no afectan directamente la calidad de la voz, sino la calidad de la conversación. Hasta 100 ms son generalmente tolerados, casi sin percepción de los interlocutores. Entre 100 y 200 ms las demoras son notadas. Al acercarse a los 300 ms de demora, la conversación se vuelve poco natural. Pasando los 300 ms la demora se torna crítica, haciendo muy dificultosa la conversación. Un efecto secundario, generado por las demoras elevadas, es el eco. El eco se debe a que parte de la energía de audio enviada es devuelta por el receptor. En los sistemas telefónicos este efecto no tiene mayor importancia, ya que los retardos o demoras son despreciables, y por lo tanto, el “eco” no es percibido como tal. Cuando la demora de punta a punta comienza a aumentar, el efecto del eco comienza a percibirse.
  • 16.
    Eco Si el tiempotranscurrido desde que se habla hasta que se percibe el retorno de la propia voz es menor a 30 ms, el efecto del eco no es percibido. Asimismo, si el nivel del retorno está por debajo de los –25 dB, el efecto del eco tampoco es percibido. En las conversaciones telefónicas habituales, el eco existe en niveles perceptibles (mayores a –25 dB), pero la demora es mínima, por lo que el eco no es perceptible. Las excepciones son las comunicaciones vía satélite, en las que la demora promedio es del orden de los 150 ms. Para estos casos, las compañías telefónicas disponen generalmente de sofisticados equipos canceladores de eco. Variaciones en la demora (Jitter) El “jitter” es la variación en las demoras (latencias). Por ejemplo, si dos puntos comunicados reciben un paquete cada 20 ms en promedio, pero en determinado momento, un paquete llega a los 30 ms y luego otro a los 10 ms, el sistema tiene un “jitter” de 10 ms. El receptor debe recibir los paquetes a intervalos constantes, para poder regenerar de forma adecuada la señal original. Dado que el “jitter” es inevitable, los receptores disponen de un “buffer” de entrada, con el objetivo de “suavizar” el efecto de la variación de las demoras. Este buffer recibe los paquetes a intervalos variables, y los entrega a intervalos constantes. Es de hacer notar que este “buffer” agrega una demora adicional al sistema, ya que debe “retener” paquetes para poder entregarlos a intervalos constantes. Cuánto más variación de demoras (“jitter”) exista, más grande deberá ser el buffer, y por lo tanto, mayor demora será introducida al sistema.
  • 17.
    Tamaño de lospaquetes El “tamaño” de los paquetes influye en dos aspectos fundamentales en la transmisión de la voz sobre redes de datos: La demora y el “ancho de banda” requerido. Para poder transmitir las muestras codificadas de voz sobre una red de datos, es necesario armar “paquetes”, según los protocolos de datos utilizados (por ejemplo, IP). Un paquete de datos puede contener varias muestras de voz. Por ello, es necesario esperar a recibir varias muestras para poder armar y enviar el paquete. Esto introduce un retardo o demora en la transmisión. Desde éste punto de vista, parece conveniente armar paquetes con la mínima cantidad de muestras de voz (por ejemplo, un paquete por cada muestra). Sin embargo, hay que tener en cuenta que cada paquete tiene una cantidad mínima de información (bytes) de control (cabezal del paquete, origen, destino, etc.). Esta información (“sobrecarga” u “overhead”), no aporta a la información real que se quiere transmitir, pero afecta al tamaño total del paquete, y por tanto al ancho de banda. La duración de las “ventanas” de voz se encuentran entre 10 a 30 ms, valor que se aporta a la demora total. A continuación un cuadro comparativo de los CODECS más usados en VoIP y sus ventajas y desventajas:
  • 18.
    3 CODEC G.729 Elcodec G.729 estándar ITU, se basa en el Algoritmo Code Excited Linear Prediction (CELP) y sus variantes CS-ACELP. Perteneciente a la familia de los codificadores paramétricos, los cuales se basan en la obtención de los parámetros de un modelo de producción de señal de voz. Los codificadores paramétricos analizan por predicción lineal el filtro correspondiente al modelo de generación de señal de voz. Digitalización de la voz Como primer paso la voz debe ser obtenida mediante un transductor y luego pasar a través de PDS en el cual será muestreada y cuantificada, para la codificación existen diversas técnicas pero la que usaremos ahora esta bajo el esquema de la recomendación G.729 con el algoritmo CS-ACELP. (Procesamiento Digital de Señales) CS-ACELP y sus variantes Está basado en una estructura conjugada algebraica de CELP con bajo retardo aproximadamente de 8 Kbit/s. Se ha diseñado para aplicaciones de redes inalámbricas y multimedia. CS-CELP es un codificador de bajo retardo con tamaños de trama de 10 ms, un lookahead de 5 ms y un retardo total del algoritmo de 15 ms. El algoritmo se basa en un esquema CELP de análisis-síntesis con dos libros de códigos (codebook).
  • 19.
    Existen dos versionesdel algoritmo: La G.729 original con un coste de 20 MIPS y MOS 4,0 Y la G.729 Anexo A, menos compleja, 11 MIPS y MOS 3,76. La norma G.729 Anexo B define un algoritmo de compresión de silencios lo cual permite tanto a al G.729 como a la G.729 A operar a bit rates menores. Hay extensiones planeadas de la G.729 a 6,4 Kbit/s y 12 Kbit/s pero q aun no son comerciales. 4 Medida de la calidad de voz en redes IP La VoIP enfrenta problemáticas propias de las redes de datos, que se manifiestan como degradaciones en la calidad del servicio percibida por los usuarios (QoE). Estas degradaciones pueden deberse por ejemplo a retardos, jitter (diferencia de retardos) y pérdida de paquetes, entre otros factores. Para que la tecnología de VoIP pueda ser utilizada en las Empresas, es esencial garantizar una calidad de voz aceptable. Para ello se han desarrollado métodos para medirla. Estos métodos se dividen en subjetivos y objetivos. Los métodos subjetivos de medida de la calidad de servicio, se basan en conocer directamente la opinión de los usuarios. Típicamente resultan en un promedio de opiniones (por ejemplo, en un valor de MOS – Mean Opinión Score). Los métodos objetivos . A su vez se subdividen en intrusivos (se inyecta una señal de voz conocida en el canal y se estudia su degradación a la salida) y no intrusivos (monitorean ciertos parámetros en un punto de la red y en base a estos permite establecer en tiempo real la calidad que percibiría un usuario).
  • 20.
    4.1 Métodos Subjetivos Lacalidad de la voz se establece a través de la opinión del usuario. La calidad de audio puede ser evaluada directamente (ACR = Absolute Category Rating), o en forma comparativa contra un audio de referencia (DCR = Degradation Category Rating). Con evaluaciones directas (del tipo ACR) se califica el audio con valores entre 1 y 5, siendo 5 “Excelente” y 1 “Malo”. El MOS (Mean Opinión Score) es el promedio de los ACR medidos entre un gran número de usuarios. Si la evaluación es comparativa, (del tipo DCR), el audio se califica también entre 1 y 5, siendo 5 cuando no hay diferencias apreciables entre el audio de referencia y el medido y 1 cuando la degradación es muy molesta. El promedio de los valores DCR es conocido como DMOS (Degradation MOS). La metodología de evaluación subjetiva más ampliamente usada es la del MOS (Mean Opinión Score), estandarizada en la recomendación ITU-T P.800. Adicionalmente, se puede evaluar la calidad del audio y la calidad de la conversación, las que pueden ser diferentes. La calidad de la conversación implica una comunicación bidireccional, donde, por ejemplo, los retardos juegan un papel muy importante en la calidad percibida. Los valores obtenidos con las técnicas ACR (es decir, el MOS) puede estar sujeto al tipo de experimento realizado. Por ejemplo, si se utilizan varias muestras de buena calidad, una en particular puede ser calificada peor que si esa misma muestra se presenta junto a otras de peor calidad. Los métodos subjetivos son en general caros y lentos porque requieren un gran panel de usuarios. Son dependientes entre otros factores del país, del idioma, de las experiencias previas de los usuarios.
  • 21.
    4.2 E-Model La industriade las telecomunicaciones ha aceptado una representación numérica de la calidad de la voz, llamada “MOS” (Mean Opinion Score), y estandarizada en la recomendación ITU-T P.800. La calidad de la voz es calificada con un número, entre 1 y 5. El valor numérico de MOS es proporcional a la calidad de la voz. 1 significa muy mala calidad y 5 significa excelente. Los valores son obtenidos mediante el promedio de las opiniones de un gran grupo de usuarios. La ITU-T ha creado un “modelo” en la recomendación ITU-T G.107, llamado “EModel”, para estimar o predecir la calidad de la voz en redes IP (VoIP) percibida por un usuario típico, en base a parámetros medibles de la red. El resultado del E-Model es un factor escalar, llamado “R” (“Transmission Rating Factor”), que puede tomar valores entre 0 y 100. El “E-model” toma en cuenta una gran cantidad de factores que pueden deteriorar la calidad de la voz percibida, como por ejemplo, el uso de compresión, los retardos de la red, así como también los factores “típicos” en telefonía como la pérdida, ruido y eco. Puede ser aplicado para estimar la calidades de la voz en redes de paquetes, tanto fijas como inalámbricas. El E-Model puede ser utilizado para evaluar como se verá afectada la calidad de la voz en una red en base a parámetros mensurables. El modelo parte de un puntaje “perfecto” (100) y resta diversos factores que degradan la calidad, según se puede ver en la ecuación. R = Ro - Is - Id – Ie_eff + A ...........................(1)
  • 22.
    Donde: Ro Representa larelación señal/ruido básica (antes de ingresar en la red) que incluye fuentes de ruido, tales como ruido ambiente. El valor inicial puede ser como máximo 100. Las fuentes de ruido independientes del sistema como el ruido ambiental, pueden hacer que este valor inicial sea menor a 100. Is Es una combinación de todas las degradaciones que aparecen de forma más o menos simultánea con la señal vocal. Por ejemplo, volumen excesivo y distorsión de cuantización. Id Representa las degradaciones producidas por el retardo y el eco Ie_eff “Effective equipment impairment factor”. Representa las degradaciones producidas por los códecs y por las pérdidas de paquetes de distribución aleatoria. A Factor de Mejoras de Expectativas. Muchas veces, los usuarios están dispuestos a aceptar peor calidad de voz si saben que se están utilizando tecnologías “no clásicas” (por ejemplo celulares o VoIP). Permite compensar los factores de degradación cuando existen otras ventajas de acceso para el usuario. Los valores de R varían entre 0 y 100, correspondiendo los valores más altos a mejores calidades de voz. Los tres tipos de degradaciones (Is, Id y Ie, eff) se subdividen, a su vez, en la combinación de otros factores, como se detalla a continuación. Cálculo de Is Is = Iolr + Ist + Iq ..................... (2) Donde:
  • 23.
    Iolr Representa ladisminución de calidad producida por valores demasiado bajos de OLR (Overall Loudness Rating). El OLR se calcula, a su vez, como OLR = SLR + RLR ............................(3) Siendo: SLR (Send Loudness Rating), es la pérdida entre la boca del emisor y el micrófono del aparato telefónico. RLR (Receive Loudness Rating), es la pérdida entre el parlante del aparato telefónico y el oído del receptor. Ist Representa la degradación producida por efectos locales no óptimos, y depende esencialmente del factor STMR (Side Tone Masking Rating). Parte de la señal recibida por el micrófono es transmitida, dentro del mismo teléfono, al parlante, generando un “efecto local” que hace que la persona que habla se escuche por el oído en el que tiene el tubo o microteléfono. La atenuación de la señal que pasa del micrófono al parlante del mismo aparato se conoce como STMR. Si este valor no está dentro de los parámetros adecuados, genera una sensación de “eco”, o de “línea muerta”, según el caso, bajando la calidad de la comunicación. Iq Representa la degradación producida por la distorsión de cuantificación. Se calcula en base a “unidades qdu” . 1 qdu se define como el “ruido” de cuantización” que resulta de una codificación y decodificación completas en Ley A o Ley µ La fórmula de cálculo detallada de los parámetros (Iolr, Ist, Iq) puede verse en la recomendación G.107. Cálculo de Id Id = Idte + Idle + Idd ..............................(4) Donde:
  • 24.
    Idte Expresa unaestimación para las degradaciones debidas al eco para el hablante. Se calcula en base al factor TELR (Talker Echo Loudness Rating) y la demora media T de punta a punta en un sentido. El factor TELR es la medida de la atenuación del eco percibido por el hablante. Idle Representa degradaciones debidas al eco para el oyente. Se calcula en base al factor WEPL (Weighted Echo Path Loss) y la demora media Tr de ida y vuela. El factor WEPL es la medida de la atenuación entre la señal “directa” recibida por el oyente, la señal retardada recibida como eco. Idd Representa la degradación producida por retardos absolutos demasiado largos Ta, que se producen incluso con compensación perfecta del eco. Si Ta < 100 ms, el factor Idd es 0. La fórmula de cálculo detallada de los parámetros (Idte, Idle, Idd) puede verse en la recomendación G.107.
  • 25.
    El efecto dela demora en el valor de R del Modelo EModel, se grafica en la siguiente figura, asumiendo todos los otros factores ideales Puede verse como hasta 175 ms el valore de R es mayor que 90, y se encuentra en la zona de “Muy satisfechos”. Sin embargo, luego de los 175 ms, el efecto de las demoras degrada fuertemente la comunicación, haciéndola poco natural. Si a la gráfica anterior se le suma el efecto del eco, varios TELR, el modelo E predice las siguientes curvas:
  • 26.
    Es de hacernotar que el valor TELR es la medida de la atenuación del eco percibido por el hablante. Cuanto más atenuado el eco percibido (mayor valor en db de TELR), menor efecto tiene el eco sobre la degradación. En la medida que aumenta el eco, el valor de R decrece rápidamente con el retardo. Cálculo de Ie_eff Ie-eff representa las degradaciones producidas por los códecs y por las pérdidas de paquetes, según la siguiente fórmula: Donde Ie Es un valor que depende del Códec utilizado, y representa la degradación percibida producida por los diferentes algoritmos de compresión. Ppl Representa la probabilidad de pérdida de paquetes
  • 27.
    Bpl Se definecomo el “factor de robustez” contra pérdida de paquetes, y es un valor preestablecido para cada Códec BurstR Es la “Relación de ráfaga”, y se define como: Si no existen pérdida de paquetes (Ppl=0), el factor Ie-eff depende únicamente del tipo de Codec utilizado Los valores de Ie para los diferentes Codecs se detallan en la siguiente tabla:
  • 28.
    En una redsin pérdida de paquetes y sin eco, el valor de R del EModel, dependerá de la demora y de los codecs utilizados, según se muestra en la siguiente gráfica, para G.711, G.729A y G.723.1 (notar que la gráfica “negra” coincide con las gráficas anteriores) Cálculo de A A representa un “Factor de Mejoras de Expectativas”. Muchas veces, los usuarios están dispuestos a aceptar peor calidad de voz si saben que se están utilizando tecnologías “no clásicas” (por ejemplo celulares o VoIP). No existe, por consiguiente, ninguna relación entre A y los demás parámetros de transmisión. El cuadro siguiente presenta los valores típicos de A para diferentes tecnologías, según la recomendación ITU-T G-113
  • 29.
    Relación de Ry MOS El modelo relaciona el valor de “R” con el “MOS”, con un gran nivel de aproximación, según la siguiente ecuación: Las siguiente figuras muestran la relación entre R y MOS, según la fórmula anterior:
  • 30.
    Aplicación del E-model ElRFC 3611 [15] define campos de “reportes extendidos” (XR, Extended Reports) en el protocolo RTCP que permiten intercambiar información acerca de la calidad de la comunicación. En este RFC se incluye la posibilidad de intercambiar información del valor de “R” entre fuentes y destinos, así como los valores percibidos de MOS-LQ (MOS listening quality) y MOS-CQ (MOS conversational quality) 4.3 OTROS MODELOS DE MEDICION 4.3.1 ITU-T P.862 (PESQ) La recomendación ITU-T P.862 [16] presenta un método objetivo para la evaluación de la calidad vocal de extremo a extremo de redes telefónicas de banda estrecha y códecs vocales. Esta Recomendación describe un método objetivo para predecir la calidad subjetiva de la voz telefónica utilizando los códecs más comunes. Presenta una descripción de alto nivel del método, explica la forma de utilizar este método y parte de los resultados de referencia obtenidos por la Comisión de Estudio 12 de la ITU-T en el periodo 1999- 2000. Proporciona adicionalmente una implementación de referencia escrita en el lenguaje de programación ANSI-C. El método objetivo descrito se conoce por "evaluación de la calidad vocal por percepción" (PESQ, perceptual evaluation of evaluation of speech quality) y es el resultado de varios años de trabajos de desarrollo. PESQ compara una señal inicial X(t) con una señal degradada Y(t) que se obtiene como resultado de la transmisión de X(t) a través de un sistema de comunicaciones
  • 31.
    (por ejemplo, unared IP). La salida de PESQ es una predicción de la calidad percibida por los sujetos en una prueba de escucha subjetiva que sería atribuida a Y(t). El primer paso de PESQ consiste en una alineación temporal entre las señales iniciales X(t) y degradada Y(t). Para cada intervalo de señal se calcula un punto de arranque y un punto de parada correspondientes. Una vez alineadas, PESQ compara la señal (entrada) inicial con la salida degradada alineada, utilizando un modelo por percepción, como el representado en la siguiente figura Lo esencial en este proceso es la transformación de las dos señales, la inicial y la degradada, en una representación interna que intenta reproducir la representación psicoacústica de señales de audio en el sistema auditivo humano, teniendo en cuenta la frecuencia por percepción (Bark) y la sonoridad (Sone). El modelo cognitivo de PESQ termina brindando una distancia entre la señal vocal inicial y la señal vocal degradada (“nota PESQ”), la que corresponde a su vez con una predicción de la MOS subjetiva. La nota PESQ se hace corresponder a una escala
  • 32.
    similar a lade MOS, un número único en una escala de –0,5 a 4,5, aunque en la mayoría de los casos la gama de las salidas estará entre 1,0 y 4,5, que es la gama normal de valores de MOS que suelen darse en un experimento sobre la calidad de voz. La descripción detallada del algoritmo es compleja, y puede verse en la Recomendación referenciada. El método PESQ es objetivo e intrusivo, ya que requiere del envío de una señal conocida de referencia para evaluar la calidad percibida de la voz. Algunos sistemas lo implementan enviando un par de segundos de audio conocido, lo que basta para poder aplicar el método.
  • 33.
    5 Ventajas dela Voz sobre IP • La primer ventaja y la más importante es el costo, una llamada mediante telefonía VoIP es en la mayoría de los casos mucho más barata que su equivalente en telefonía convencional. Esto es básicamente debido a que se utiliza la misma red para la transmisión de datos y voz, la telefonía convencional tiene costos fijos que la telefonía IP no tiene, de ahí que esta es más barata. Usualmente para una llamada entre dos teléfonos IP la llamada es gratuita, cuando se realiza una llamada de un teléfono IP a un teléfono convencional el costo corre a cargo del teléfono IP. • Integración sobre su Intranet de la voz como un servicio más de su red, tal como otros servicios informáticos. • Las redes IP son la red estándar universal para la Internet, Intranets y extranets. • Estándares efectivos (H.323) • Interoperabilidad de diversos proveedores • Uso de las redes de datos existentes • Independencia de tecnologías de transporte (capa 2), asegurando la inversión. • Menores costos que tecnologías alternativas (voz sobre TDM, ATM, Frame Relay) 6 Conclusiones En conclusión si a todo lo anterior, se le suma el fenómeno creciente llamado Internet, junto con el potencial ahorro económico que este tipo de tecnologías puede llevar acarreado, la conclusión es clara: El VoIP (Protocolo de Voz Sobre Internet - Voice Over Internet Protocol) es un tema "caliente" y estratégico para las empresas.
  • 34.
    Hoy, desregulación mediante,la telefonía sobre IP empieza a ver su hora más gloriosa y es el fruto más legítimo de la convergencia tecnológica. La transmisión de la voz sobre redes de datos debe su desarrollo a la rápida evolución de las tecnologías de procesamiento digital de señales y al desarrollo conjunto de algoritmos de compresión que permiten aprovechar el ancho de banda de Internet. Existen algoritmos de codificación que pueden minimizar aun más el ancho de banda necesario para la transmisión de voz, pero el sacrificio está en la calidad perceptual. En la actualidad muchas de las marcas que comercializan Equipos de Voz sobre IP poseen soporte para varios de estos CODECS y en algunos casos son utilizados de acuerdo al ancho de banda disponible en la red y otros autosensando el códec utilizado por el equipo remoto. 7 Referencias TIA/TSB 116-A Telecommunications - IP Telephony Equipment – Voice Quality Recommendations for IP Telephony, Mar 1, 2006 http://www.w3.org/AudioVideo/9610_Workshop/paper11/paper11.html Calidad de servicio percibida en servicios de voz y video sobre IP, Pedro Casas Hernandez, Diego Guerra Vidal, Ignacio Irigaray Bayarres, Universidad de la Republica, Proyecto de fin de carrera, Ingenieria Eléctrica Plan 97, telecomunicaciones, 30 de Agosto de 2005. Transmisión de voz sobre IP con protocolo basado en el algoritmo lms, Carlos Alberto Busso Recabarren, tesis para optar al grado de magister en ciencias de la ingenieria mención eléctrica, santiago de chile JULIO 2003. An E-Model Implementation for Speech Quality Evaluation in VoIP Systems,
  • 35.
    Leandro Carvalho, EdjairMota, Regeane Aguiar, Ana F. Lima, José Neuman de Souza, Anderson Barreto, Federal University of Amazonas (UFAM), Federal University of Ceará (UFC), Nokia Institute of Technology (INdT). Simulación of voice over IP for the Battlespace Communications System(land), Ian Grivell and Raymee Chau, department of defense of Australia, 2004. AdaMOS: Algoritmo MOS-Adaptativo para fonts VoIP, Bruno de Azevedo Vianna, Nilmax Teones Moura, Célio Vinicius Neves de Albuquerque, Vinod E. F. Rebello e Cristina Boeres, Instituto de Computação – Universidade Federal Fluminense(IC/UFF)