2. Los modelos de fuente de información son
esquemas teóricos que describen cómo se generan
y distribuyen las fuentes de información.
Modelos de Fuente de
Información
3. Clasificación de modelos
Las medidas de información son funciones
que cuantifican la cantidad de información
contenida en un mensaje. Estas medidas
son utilizadas en una amplia gama de
aplicaciones, como la compresión de datos,
la teoría de la comunicación y la inteligencia
artificial
• Modelos Clásicos
• Modelos Probabilísticos
• Modelos de Retroalimentación
4. MODELOS CLASICOS
Modelo Booleano:
Es un modelo que representa documentos y consultas
como conjuntos de términos.
Características
Utiliza operadores como AND, OR y NOT para
combinar términos en las consultas.
Los resultados son binarios (relevante o no relevante),
lo que simplifica la recuperación.
Fácil implementación y comprensión, pero puede
generar conjuntos demasiado grandes o pequeños.
Modelo Vectorial:
Definición: Representa documentos y consultas como
vectores en un espacio vectorial.
Características
Cada término se asocia con un valor numérico en el vector,
basado en su frecuencia (TF-IDF).
Utiliza la similitud coseno para medir la relación entre
vectores, ofreciendo una medida de relevancia más
continua. Puede manejar consultas complejas y proporciona
resultados graduales en lugar de binarios.
5. MODELOS PROBABILISTICOS
Modelo de Espacio Vectorial Ponderado por
TF-IDF:
Este modelo mejora el Modelo Vectorial al utilizar
el esquema TF-IDF (Frecuencia de Término-
Inversa de Frecuencia de Documento) para
ponderar la importancia de los términos en los
documentos y consultas.
Características
Asigna valores más altos a términos que son
frecuentes en un documento, pero raros en el
conjunto de documentos.Considera la relevancia
contextual de los términos, mejorando la precisión
de la recuperación
Modelos Probabilísticos en la Recuperación de Información:
Estos modelos se centran en la probabilidad de que un
documento sea relevante para una consulta.
Características
Introduce la probabilidad de relevancia y no relevancia para
ajustar los pesos de los términos en la consulta.
Muchos modelos probabilísticos implican ajustes iterativos para
mejorar la precisión basándose en la retroalimentación del
usuario.
6. MODELOS DE
RETROALIMENTACIÓN
• Modelo de Rocchio y Retroalimentación:
El modelo de Rocchio utiliza la retroalimentación del usuario para ajustar los pesos de los términos en una consulta y
mejorar la precisión de la recuperación de información.
Características
Iteración Inicial: Comienza con una consulta inicial y recupera un conjunto de documentos.
Retroalimentación Positiva y Negativa: El usuario etiqueta documentos recuperados como relevantes o no relevantes.
Ajuste de Pesos: Los términos en la consulta se ajustan iterativamente. Los términos relevantes obtienen más peso, y los
no relevantes menos.
Nuevas Consultas: Se genera una nueva consulta ajustada, y el proceso se repite hasta que la precisión mejora.
7. MEDIDAS DE INFORMACION
• Se clasifican en 2 Información y Entropía
Información
La información es una medida de la incertidumbre que se reduce cuando se conoce un símbolo de una fuente.
La información de un símbolo se puede calcular como la siguiente:
• I(s)=Log2(p(s))
Donde (p(s)) es la probabilidad de ocurrencia del símbolo s.
8. MEDIDAS DE INFORMACION
Las medidas de información se pueden utilizar para cuantificar la cantidad de información contenida
en un mensaje. Esta información puede ser de cualquier tipo, desde datos numéricos hasta texto o
imágenes.
Una de las formas más comunes de medir la información es utilizando la entropía. La entropía es
una medida de la incertidumbre asociada a un mensaje. Un mensaje con una alta entropía es más
impredecible y, por lo tanto, contiene más información.
Las medidas de información son herramientas poderosas que pueden ayudar a cuantificar la
cantidad de información contenida en un mensaje. Estas medidas son utilizadas en una amplia gama
de aplicaciones, y su comprensión es esencial para cualquier persona que trabaje en el campo de la
ciencia de la información.
9. MEDIDAS DE INFORMACION
La compresión de datos
La teoría de la comunicación
La inteligencia artificial
Información Mutua
Información Mutua
condicional
• Redundancia
• Eficiencia de Codificación
• Longitud de Kolmogorov
• Complejidad computacional
• Capacidad de Canal
10. Unidades de Medida
Las unidades de medida en teoría de la información dependen del logaritmo base utilizado en las
fórmulas. Las dos bases más comunes son 2 y e (logaritmo natural). Aquí se describen las unidades
de medida asociadas con cada base:
La elección de la base del logaritmo afecta la escala de las unidades de medida. La
base 2 se utiliza comúnmente en aplicaciones relacionadas con la computación y las
tecnologías de la información, ya que un bit es la unidad más básica en sistemas
binarios.
11. Unidades de Medida
bit (b): Es la unidad más pequeña de información. La palabra bit proviene de Binary digIT , es decir dígito binario en
castellano. Los únicos valores de información que puede contener son 0 y 1.Como vimos en la sección anterior un bit
de información almacenado por ejemplo en la memoria RAM equivaldría a un transistor con voltaje bajo si tiene
almacenado un 0 o con voltaje normal si tiene almacenado un 1:
Un bit en un disco duro equivaldría a cada zona de su superficie con cargas magnéticas:
12. Entropía
La entropía, desarrollada por Claude Shannon, es una herramienta fundamental en la teoría de la
información y encuentra aplicaciones en diversas áreas tecnológicas y científicas.
La entropía es una medida de la incertidumbre o desorden en un sistema. En teoría de la información,
se utiliza para cuantificar la cantidad de información contenida en una fuente de datos. Cuanto mayor
sea la entropía, mayor será la incertidumbre y, por lo tanto, mayor será la cantidad de información.
13. Entropía
La entropía, según la intención original de Shannon, debía utilizarse como medida del ancho de banda necesario de
un canal de transmisión. Sin embargo, generalizó los resultados e ideó un estado de entropía que se acepta
generalmente como medida del contenido de la información. Si ésta es pequeña, entonces el texto informativo
contiene muchas redundancias o incluso regularidades estadísticas.
14. ¿Qué aspectos se plantean en
informática?
Shannon comprendió la entropía en informática como medida de la información y así pudo combinar la termodinámica con la
teoría de la información. Esto dio lugar a nuevos aspectos y métodos:
• La entropía cruzada suele utilizarse en la Aprendizaje automático utilizada como función de pérdida. La entropía cruzada puede
entenderse como una medida que procede del campo de la teoría de la información y se basa en los estados de entropía.
• La divergencia de Kullback-Leibler es una cierta medida de distancia entre dos modelos diferentes. La medida intrínseca de
dificultad y calidad se aplica en el aprendizaje automático.
• La minimización de la entropía cruzada se utiliza como método de optimización del modelo.
• En última instancia, existe toda un álgebra de la entropía en la que se puede calcular hacia adelante y hacia atrás entre los estados
de entropía marginal, condicional y conjunta.
15. ¿Cómo se utiliza la entropía en el
aprendizaje automático?
La entropía en el aprendizaje automático es la medida de impureza más utilizada en toda la informática. El estado de entropía es
máximo cuando dos clases alcanzan 1,00 y estas clases se dan dentro de un superconjunto con idéntica frecuencia. Si una clase
adquiere dominancia cuantitativa, la probabilidad de dicha clase aumenta igualmente y el estado de entropía disminuye. En el
aprendizaje automático, la entropía nos indica lo difícil que es predecir un suceso
16. Características de la entropía
• Incertidumbre: La entropía es alta cuando hay mayor incertidumbre en los datos, es decir, cuando
las probabilidades de los eventos son más uniformes.
• Orden vs. Desorden: Baja entropía indica mayor orden y previsibilidad, mientras que alta entropía
sugiere desorden y sorpresa.
• Unidades: Se mide en bits o nats, dependiendo de la base del logaritmo utilizado en su fórmula.
17. Aplicaciones
Compresión de datos: Se utiliza para diseñar algoritmos de compresión eficientes al aprovechar la redundancia en
los datos y reducir la entropía.
Criptografía: En sistemas criptográficos, la entropía se relaciona con la fortaleza de las claves de cifrado y la
seguridad de los algoritmos
Teoría de la información: Proporciona medidas cuantitativas de la información en diversas disciplinas, como la
estadística y la teoría de la comunicación
Biología: Se ha aplicado para analizar secuencias genéticas y estructuras moleculares, ayudando a entender la
complejidad biológica.