5. MÉTODO DE PONDERACIÓN DE ÁRBOL
DE CONTEXTO (CTW)
1 1 2
t
tb bb b=
Se inicia con una
cadena de bits
determinada
2 1d dc b b b− − −=
d bits que la
preceden.
Contexto de 1
t
b
Se construye un árbol de
profundidad d basado en el
contexto
NODO
Subcadena
de cd.
Se introduce y se examina el
primer bit b1.
1
El árbol se actualiza
para incluir la
subcadena cbb1.
Se utiliza para calcular la
probabilidad de que b1=1 dado
el contexto cd.
0
El árbol se actualiza
de manera diferente
SECUENCIA
DE
ENTRADA
Se utiliza para
calcular la
probabilidad de que
b1=0 dado el
contexto cd.
CODIFICADOR
ARITMÉTICO
6. MÉTODO DE PONDERACIÓN DE ÁRBOL
DE CONTEXTO (CTW)
CADENA BINARIA
FUENTE
SIN MEMORIA CON MEMORIA
7. MÉTODO DE PONDERACIÓN DE ÁRBOL
DE CONTEXTO (CTW)
FUENTE SIN MEMORIA
( )1aP
( )0aP
Probabilidad de un bit de ser un 1
Probabilidad de un bit de ser un 0
( )1aP =
( )0 1aP = −
( ) ( )1
1
t
t
a a i
i
P b P b
=
=
Probabilidad de una cadena determinada
generada por la fuente
( ) ( )1 1
at b
aP b = −
8. MÉTODO DE PONDERACIÓN DE ÁRBOL
DE CONTEXTO (CTW)
EJEMPLO
( ) ( )1 1
at b
aP b = −
t = 5
a = 2
b =3
( ) ( )
25 3
1 1aP b = −
( )1 1
1
21|
1
t
e t
b
P b b
a b
+
+
= =
+ +
( )1 11|e t
t b
P bb
a b
+ = =
+
Estimación KT
9. CTW PARA LA COMPRESIÓN DE TEXTO
Caracteres ASCII
• Cada carácter se compone de
7 bits.
• Se utilizan las 128
combinaciones posibles.
• Existen combinaciones mas
comunes que otras
• Ciertas combinaciones dobles
(on) y triples (ion) son mas
comunes.
tb 1 bit en un determinado carácter ASCII X
1 2 1tbb b −
contexto
Se obtienen mejores resultados:
• En contextos de tamaño 12.
• Usando 7 árboles de contexto, uno por cada bit.
• La estimación KT original se de modificada para estimar la
redundancia cero definida por:
( ) ( ) ( ) ( )
1 1 1
, , 0 0
2 4 4
def
e eP a b P a b a b
+ = + ==
11. INTRODUCCIÓN
Los métodos estadísticos de
compresión usan un modelo
estadístico de los datos.
La calidad de la compresión
depende de la calidad del
modelo
LOS MÉTODOS DE DICCIONARIO, NO EMPLEAN UN MODELO ESTADÍSTICO NI CÓDIGOS DE
TAMAÑO VARIABLE.
SELECCIONAN CADENAS DE SÍMBOLOS Y
CODIFICAN CADA CADENA COMO UNA
MUESTRA UTILIZANDO UN DICCIONARIO.
12. COMPRESIÓN EN CADENAS
Muestra = Token DICCIONARIO
• Estático
• Dinámico
CADENAS DE SÍMBOLOS
LOS COMPRESORES DE DICCIONARIO
SON CODIFICADORES DE ENTROPÍA
SI EL ARCHIVO DE ENTRA ES MUY
GRANDE
En general, los métodos de compresión basados en cadenas de símbolos pueden ser más eficientes
que los métodos que comprimen símbolos individuales.
13. COMPRESIÓN DE DICCIONARIO
Se lee el archivo fuente y se prepara una lista de los distintos bytes
encontrados. Para cada byte, se incluye también en la lista el número de
veces que aparece en dicho archivo (su frecuencia).
Se ordena la lista en orden decreciente de las frecuencias. Por lo tanto,
comienza con valores de los bytes más comunes en el archivo, y termina con
los bytes que aparecen raramente. Puesto que la lista consta de bytes
distintos, no puede tener más de 256 elementos.
1
2
14. COMPRESIÓN DE DICCIONARIO
La lista ordenada se convierte en el diccionario; se escribe en el archivo
comprimido, precedido por su longitud (un entero de 1 byte)
Se lee de nuevo el archivo de origen, byte a byte. se localiza cada byte en el
diccionario y se observa su índice; el índice es un número dentro del
intervalo [0, 255], por lo que requiere entre 1 y 8 bits. En el archivo
comprimido, se escribe el índice, precedido por un código de 3 bits, que
indica la longitud del índice. En consecuencia, el código 000 denota un índice
de 1 bit, el código 001 indica un índice de 2 bits, y así sucesivamente hasta el
código 111, que denota un índice de 8 bits.
3
4