SlideShare una empresa de Scribd logo
1 de 50
WEB MINING
Recuperación de Información
Web Content MiningJuan Azcurra
Conceptos básicos
Recuperación de información2
Sistema de Recuperación de
Información (IR)3
Sistema de Recuperación de
Información (IR)4
Palabras clave
 Las palabras clave (keywords) son átomos
linguisticos
 Palabras
 Partes de palabras (stems)
 Frases
 Se utilizan para caracterizar el contenido de
un documento
 Dos perspectivas:
 Cómo son usadas (consultas de usuario)
 Cómo se asocian a documentos
5
Indexado
 El indexado es el proceso por el cual un
vocabulario de palabras clave es asignado a
todos los documentos de un corpus.
 Relación de mapeo que asocia cada documento
(doc) con un conjunto de palabras clave (kw)
 El mapeo inverso captura, para cada palabra
clave, el objeto que describe
6
Indexado
 Vista lógica (o representación) del documento
 Texto completo.
 Conjunto de palabras clave (o categorias)
asignadas por un ser humano.
 Conjunto de palabras clave extraidas
automaticamente.
7
Modelos de recuperación de
información
 El problema de la IR es determinar si un
documento es relevante o no y ordenar
aquellos que sean relevantes de acuerdo a su
grado de relevancia (ranking).
 Los distintos métodos utilizados en la
representación de documentos y en el
cálculo de la relevancia dan lugar a distintos
modelos de IR.
8
Modelos de IR
 Un modelo de IR es una cuadrupla [D, Q, F, R (qi,
dj)] donde:
 D es un conjunto de representaciones de documentos
en la colección.
 Q es un conjunto de representaciones de
necesidades de información de los usuarios o
consultas.
 F es un marco de modelado de documentos,
consultas y sus relaciones.
 R (qi, dj) es una función de ranking que asocia un
número real con una consulta y un documento. El
ranking define el orden en que el documento satisface
la consulta.
9
Modelo booleano
 Basado en:
 Teoría de conjuntos.
 Algebra de Boole.
10
Modelo booleano
 Ventajas
 El concepto de conjuntos es intuitivo.
 Consulta basadas en expresiones booleanas,
cuya semántica es precisa.
 Desventajas
 Criterio de decisión binario, sin escala de
relevancia 𝑊𝑖𝑗 ∈ 0,1 .
 No es natural para un usuario expresar una
consulta como una expresión booleana.
11
Modelo vectorial
 Intenta superar las limitaciones generadas por
el uso de pesos binarios, asignando pesos no
binarios a los términos en los documentos.
 Permite la relevancia parcial:
 Computa el grado de similaridad entre
documentos y consultas de forma gradual, y no
absoluta.
 Permite ordenar documentos de acuerdo al grado
de relevancia.
12
Modelo vectorial
 Un documento d y una consulta
q se representan como
vectores en un espacio de n
dimensiones, siendo n el
número de términos indexados
en la colección de documentos.
 La similaridad entre
documentos y consultas se
evaluan comparando los
vectores que los representan.
13
Modelo vectorial
 Similaridad por coseno.
14
Modelo vectorial
 Permite coincidencia parcial (partial matching).
 Se establece un umbral de relevancia para
decidir cuando mostrar un documento como
relevante.
 El problema de obtener relevancia se reduce a
asignar pesos a los distintos términos.
15
Modelo vectorial
 Ejemplo de modelo vectorial utilizando el
método TF-IDF:
16
Modelo vectorial
17
Modelo vectorial
18
Dualidad entre términos y
documentos19
Dualidad entre términos y
documentos20
Un ejemplo de recuperación
 El espacio de un documento está definido por 3
términos:
 hardware, software, users
 vocabulario
 Un conjunto de documentos definidos:
 A1=(1, 0, 0) A2=(0,1,0) A3=(0,0,1)
 A4=(1,1,0) A5=(1,0,1) A6=(0,1,1)
 A7=(1,1,1) A8=(1,0,1) A9=(0,1,1)
 Si la consulta es “hardware y software”
 Cuáles documentos deberían devolverse?
21
Un ejemplo de recuperación
(cont.)
 Utilizando el método booleano:
 Los documentos A4 y A7 (“AND”)
 A1, A2, A4, A5, A6, A7, A8, A9 (“OR”)
 Similaridad por coseno:
 q=(1,1,0)
 S(q, A1)=0.71, S(q, A2)=0.71, S(q,
A3)=0
 S(q, A4)=1, S(q, A5)=0.5, S(q, A6)=0.5
 S(q, A7)=0.82, S(q, A8)=0.5, S(q,
A9)=0.5
 Documentos retornados (por ranking):
 {A4, A7, A1, A2, A5, A6, A8, A9}
22
Preprocesamiento de texto23
Pre-procesamiento
 Extracción de palabras
 Eliminación de palabras vacias (stopwords)
 Stemming
 Cálculo de frecuencias y cálculo de pesos de
TF-IDF por palabra
24
Extracción de palabras
 Tokenización
 Por expresiones regulares, caracteres, etc.
25
Eliminación de palabras vacias
 Muchas de las palabras en el lenguaje son
poco útiles en IR y Text Mining, se las
denomina stopwords
 la, el, y, a, …
 Tipicamente 400 a 500 palabras (en inglés).
 Para una aplicación, se deberá construir una lista
particular.
26
Eliminación de palabras vacias
 Por qué es necesario eliminar estas palabras?
 Reducir el proceso de indexado y tamaño de
datos.
 Las stopwords son 20-30% del total de palabras.
 Mejorar la eficiencia y efectividad
 Las stopwords no son útiles en las búsquedas.
 Podrían confundir a los sistemas de IR.
27
Stemming (lematización)
 Técnicas utilizadas para encontrar la raíz/lema
de una palabra:
 user engineering
 users engineer
 used engineered
 stem: use engineer
28
Stemming (lematización)
 Beneficios
 Mejorar la efectividad de IR y text mining
 Encontrando palabras similares
 Mejoramiento de recall
 Reducir el tamaño del indice
 Combinando palabras que tienen la misma raíz se
reduce el tamaño del indice en un 40-50%
29
Frecuencia y TF-IDF
 Contar la cantidad de veces que una palabra
aparece en el documento
 Utilizar la frecuencia relativa para indicar la
importancia de la palabra en el documento
 Si una palabra aparece muchas veces en un
documento, el documento “probablemente trata” de
temas relacionados con la palabra.
 Contar el número de documentos en la
colección que contiene la palabra.
 Es posible calcular TF-IDF.
30
Frecuencia y TF-IDF
31
 Es posible combinar las definiciones de frecuencia del
término y la frecuencia inversa del documento para
producir un peso compuesto por cada término en
cada documento.
 El esquema de pesos TF-IDF asigna a un término un
peso en el documento dado por:
 Donde:
 tc(t, d) es la frecuencia de t en d.
 max {tc(w, d)} frecuencia normalizada del término w más frecuente en D.
 |D| corresponde al número de documentos en el corpus.
 {d E D : t E d} número de documentos donde aparece el término t
Frecuencia y TF-IDF
32
 Fórmula simplificada:
 Ejemplo:
 Considerar un documento que contiene 100 palabras
y la palabra casa aparece 3 veces, la palabra más
frecuente en el documento aparece 10 veces.
 Siguiendo las formulas anteriores, la frecuencia
normalizada para casa es (3/10) = 0.3
 Asumiendo que existen 50 mil documentos y casa
aparece en 50, entonces la frecuencia inversa del
documento es calculada como log (50000/ 50) = 3.
 El peso TF-IDF es el producto de las cantidades
anteriores: 0.3 × 3 = 0.9
Frecuencia y TF-IDF
33
 En otras palabras, asigna a un término un
peso en el documento que es:
 Mayor cuando aparece muchas veces dentro de
una cantidad pequeña de documentos (dando así
un poder mayor de discriminación a esos
documentos).
 Menor cuando el término aparece pocas veces
en un documento, o en muchos documentos
(ofreciendo una señal de pertinencia menos
relevante).
 Más bajo cuando el término aparece en todos los
documentos.
Evaluación: Precision y Recall
 Dada una consulta:
 Son todos los documentos relevantes?
 Retornó todos los documentos relevantes?
 Medidas de rendimiento:
 La primera pregunta es acerca de la precisión de
la búsqueda.
 La segunda pregunta es acerca de la cobertura /
completitud de la búsqueda.
34
Evaluación: Precision y recall
 Quedan definidas las dos medidas:
 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑅
𝑀
; documentos relevantes recuperados / total de documentos relevantes
 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑅
𝑁
; documentos relevantes recuperados / total de documentos
recuperados
M NR
Document
os
relevantes
Documento
s
recuperado
s
35
LSA: Análisis de semántica
latente
 Propuesto por Landauer y Dumais (1997)
 Método para extraer y representar el uso
contextual de términos
 Se basa en la coincidencia de conceptos en
lugar de coincidencia de términos.
36
Web Crawling37
Motivación
 Páginas Web
 Miles de caracteres
 Accesibles utilizando el protocolo HTTP
 Pueden ser vistas utilizando un browser
 Crawler
 Para “traer” (fetch) una página a una
computadora donde pueda ser analizada.
38
Algoritmo básico de crawler
 Corresponde a un
crawler secuencial.
 Seeds puede ser
cualquier lista de
URLs
 El orden de visitas
de las páginas es
determinado por la
estructura del
frontier
 El criterio de stop
es cualquier
39
Recorrido
 Bread first search
(búsqueda por
amplitud)
 Implementado con cola
(FIFO)
 Busca páginas entre
caminos cortos
 Si comenzamos con
páginas “buenas” es
buena opción
 Depth first search
(búsqueda por
profundidad)
 Implementado con pila
(LIFO)
40
Problemas de implementación
 No recuperar 2 veces la misma página
 Mantener una tabla de páginas visitadas
 Qué pasa si no se ha visitado pero está en la
frontera?
 La frontera crece velozmente
 Debería priorizar para grandes crawls
 La recuperación debe ser robusta
 Mecanismo de time-out
 Determinar tipos de archivos para evitar
indeseables
 A través de la extensión de archivos, pero no muy
confiable
 Comandos “HEAD HTTP” para obtener el tipo de
contenido (MIME), genera solicitudes extras.
41
Más problemas…
 Fetching
 Obtener primero 10-100 kb por página
 Evitar loops
 Tratamiento de timeout, server not responding,
file not found, etc.
42
Parsing
 HTML tiene una
estructura de árbol
DOM.
 HTML real es
incorrecto desde el
punto de vista de
sintaxis estricto.
 Herramientas que
pueden ayudar
(tidy.sourceforge.net)
 Prestar atención a las
entidades HTML y
unicode en el texto.
43
Páginas estáticas vs. dinámicas
 Se debe evaluar si es valioso eliminar páginas
dinámicas y utilizar solo estáticas.
 Ejemplos
 http://www.census.gov/cgi-bin/gazetteer
 http://informatics.indiana.edu/research/colloquia.a
sp
 http://www.amazon.com/exec/obidos/subst/home/
home.html/002-8332429-6490452
 http://www.imdb.com/Name?Menczer,+Erico
 http://www.imdb.com/name/nm0578801/
 Cómo funcionan los buscadores?
44
URLs absolutas vs. relativas
 Los crawlers deben traducir URLs relativas en
absolutas.
 Es necesario obtener la URL Base desde el
header o Meta Tag.
 Ejemplos:
 Base: http://www.cnn.com/linkto/
 Relative URL: intl.html
 Absolute URL: http://www.cnn.com/linkto/intl.html
 Relative URL: /US/
 Absolute URL: http://www.cnn.com/US/
45
Canonización de URL
 Todas las siguientes:
 http://www.cnn.com/TECH
 http://WWW.CNN.COM/TECH/
 http://www.cnn.com:80/TECH/
 http://www.cnn.com/bogus/../TECH/
 Son equivalentes a la forma canónica:
 http://www.cnn.com/TECH/
 Para evitar duplicación, el crawler debe transformar
todas las URLs a la forma canónica.
 Definición de la forma canónica es arbitraria, ej.:
 Debería siempre incluir el puerto.
 O incluir el puerto cuando no es 80.
46
Exclusión de robots
 Verificar si el servidor prohibe inspeccionar un
URL normalizado.
 Archivo robots.txt
 Directorio raíz.
 Especifica la lista de prefijos
de caminos que el crawler no
debería alcanzar
47
Exclusión de robots: Ejemplos
Todos los agentes
Sin restrincciones
Todos los agentes
No pueden acceder
a estas rutas…
Estos agentes
No pueden acceder
a estas rutas y
demorar las
búsquedas
48
Algunos temas éticos
 Es mandatorio cumplir con las exclusiones de
los robots?
 No, no es obligatorio, pero no cumplir puede
implicar bloqueo.
 Encubrimiento (cloaking):
 Presentar diferente contenido dependiendo el
agente.
 Los motores de búsquedas pueden excluir de los
indices los sitios que hacen abusos de spam.
49
Algunos crawlers
 Open source
 Jobo: http://www.matuschek.net/jobo-menu
 Nutch: http://www.nutch.org
 y más: http://java-source.net/open-source/crawlers
 HTML Parsers:
 Tidy: tidy.sourceforge.net
 Jtidy: jtidy.sourceforge.net
 Java Mozilla Html Parser:
http://mozillaparser.sourceforge.net
 Browsers Headless:
 Crowbar: http://simile.mit.edu/wiki/Crowbar
50

Más contenido relacionado

Destacado (7)

SAP Process Mining by Celonis
SAP Process Mining by CelonisSAP Process Mining by Celonis
SAP Process Mining by Celonis
 
TIEMPO DE DAR
TIEMPO DE DARTIEMPO DE DAR
TIEMPO DE DAR
 
Questionnaire summary
Questionnaire summaryQuestionnaire summary
Questionnaire summary
 
Unit 2. feudal europe
Unit 2. feudal europeUnit 2. feudal europe
Unit 2. feudal europe
 
26982319 samsung-project-report
26982319 samsung-project-report26982319 samsung-project-report
26982319 samsung-project-report
 
Feudalism
FeudalismFeudalism
Feudalism
 
Preprocessing of Web Log Data for Web Usage Mining
Preprocessing of Web Log Data for Web Usage MiningPreprocessing of Web Log Data for Web Usage Mining
Preprocessing of Web Log Data for Web Usage Mining
 

Similar a Web Content Mining - Information Retrieval

Introducción a los motores de búsqueda
Introducción a los motores de búsquedaIntroducción a los motores de búsqueda
Introducción a los motores de búsquedanachopg
 
Clase 1 2009 1 ac
Clase 1 2009 1 acClase 1 2009 1 ac
Clase 1 2009 1 acRosa Felix
 
Clase 1 2009 1 ac
Clase 1 2009 1 acClase 1 2009 1 ac
Clase 1 2009 1 acRosa Felix
 
Clase 1 conceptos basicos ac
Clase 1 conceptos basicos acClase 1 conceptos basicos ac
Clase 1 conceptos basicos acLuis Jherry
 
Búsqueda en Bases de Datos, enero2017
Búsqueda en Bases de Datos, enero2017Búsqueda en Bases de Datos, enero2017
Búsqueda en Bases de Datos, enero2017Bcbi Uprrp
 
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...UCC_Elearning
 
Diapositivas base de datos
Diapositivas base de datosDiapositivas base de datos
Diapositivas base de datoscatherine4ad
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptosselyo23
 
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...Ketty Rodriguez
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
 
Base de datos
Base de datosBase de datos
Base de datosdanicerv
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosALONSO UCHIHA
 

Similar a Web Content Mining - Information Retrieval (20)

Introducción a los motores de búsqueda
Introducción a los motores de búsquedaIntroducción a los motores de búsqueda
Introducción a los motores de búsqueda
 
Clase 1 2009 1 ac
Clase 1 2009 1 acClase 1 2009 1 ac
Clase 1 2009 1 ac
 
Clase 1 2009 1 ac
Clase 1 2009 1 acClase 1 2009 1 ac
Clase 1 2009 1 ac
 
Clase 1 conceptos basicos ac
Clase 1 conceptos basicos acClase 1 conceptos basicos ac
Clase 1 conceptos basicos ac
 
Bases datos
Bases datosBases datos
Bases datos
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
U4
U4U4
U4
 
U4
U4U4
U4
 
Búsqueda en Bases de Datos, enero2017
Búsqueda en Bases de Datos, enero2017Búsqueda en Bases de Datos, enero2017
Búsqueda en Bases de Datos, enero2017
 
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...
Competencias de Gestión de Información y Conocimiento - Presentación 2: Conce...
 
Diapositivas base de datos
Diapositivas base de datosDiapositivas base de datos
Diapositivas base de datos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...
Cont 3005 Busqueda en Bases De Datos Para Profesor Ivonne Huertas Octubre 16 ...
 
base de datos
base de datos base de datos
base de datos
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
Base de datos
Base de datosBase de datos
Base de datos
 
Pln
PlnPln
Pln
 
Access
AccessAccess
Access
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos Evolutivos
 
Introduccion SRI
Introduccion SRIIntroduccion SRI
Introduccion SRI
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 

Último (20)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 

Web Content Mining - Information Retrieval

  • 1. WEB MINING Recuperación de Información Web Content MiningJuan Azcurra
  • 3. Sistema de Recuperación de Información (IR)3
  • 4. Sistema de Recuperación de Información (IR)4
  • 5. Palabras clave  Las palabras clave (keywords) son átomos linguisticos  Palabras  Partes de palabras (stems)  Frases  Se utilizan para caracterizar el contenido de un documento  Dos perspectivas:  Cómo son usadas (consultas de usuario)  Cómo se asocian a documentos 5
  • 6. Indexado  El indexado es el proceso por el cual un vocabulario de palabras clave es asignado a todos los documentos de un corpus.  Relación de mapeo que asocia cada documento (doc) con un conjunto de palabras clave (kw)  El mapeo inverso captura, para cada palabra clave, el objeto que describe 6
  • 7. Indexado  Vista lógica (o representación) del documento  Texto completo.  Conjunto de palabras clave (o categorias) asignadas por un ser humano.  Conjunto de palabras clave extraidas automaticamente. 7
  • 8. Modelos de recuperación de información  El problema de la IR es determinar si un documento es relevante o no y ordenar aquellos que sean relevantes de acuerdo a su grado de relevancia (ranking).  Los distintos métodos utilizados en la representación de documentos y en el cálculo de la relevancia dan lugar a distintos modelos de IR. 8
  • 9. Modelos de IR  Un modelo de IR es una cuadrupla [D, Q, F, R (qi, dj)] donde:  D es un conjunto de representaciones de documentos en la colección.  Q es un conjunto de representaciones de necesidades de información de los usuarios o consultas.  F es un marco de modelado de documentos, consultas y sus relaciones.  R (qi, dj) es una función de ranking que asocia un número real con una consulta y un documento. El ranking define el orden en que el documento satisface la consulta. 9
  • 10. Modelo booleano  Basado en:  Teoría de conjuntos.  Algebra de Boole. 10
  • 11. Modelo booleano  Ventajas  El concepto de conjuntos es intuitivo.  Consulta basadas en expresiones booleanas, cuya semántica es precisa.  Desventajas  Criterio de decisión binario, sin escala de relevancia 𝑊𝑖𝑗 ∈ 0,1 .  No es natural para un usuario expresar una consulta como una expresión booleana. 11
  • 12. Modelo vectorial  Intenta superar las limitaciones generadas por el uso de pesos binarios, asignando pesos no binarios a los términos en los documentos.  Permite la relevancia parcial:  Computa el grado de similaridad entre documentos y consultas de forma gradual, y no absoluta.  Permite ordenar documentos de acuerdo al grado de relevancia. 12
  • 13. Modelo vectorial  Un documento d y una consulta q se representan como vectores en un espacio de n dimensiones, siendo n el número de términos indexados en la colección de documentos.  La similaridad entre documentos y consultas se evaluan comparando los vectores que los representan. 13
  • 15. Modelo vectorial  Permite coincidencia parcial (partial matching).  Se establece un umbral de relevancia para decidir cuando mostrar un documento como relevante.  El problema de obtener relevancia se reduce a asignar pesos a los distintos términos. 15
  • 16. Modelo vectorial  Ejemplo de modelo vectorial utilizando el método TF-IDF: 16
  • 19. Dualidad entre términos y documentos19
  • 20. Dualidad entre términos y documentos20
  • 21. Un ejemplo de recuperación  El espacio de un documento está definido por 3 términos:  hardware, software, users  vocabulario  Un conjunto de documentos definidos:  A1=(1, 0, 0) A2=(0,1,0) A3=(0,0,1)  A4=(1,1,0) A5=(1,0,1) A6=(0,1,1)  A7=(1,1,1) A8=(1,0,1) A9=(0,1,1)  Si la consulta es “hardware y software”  Cuáles documentos deberían devolverse? 21
  • 22. Un ejemplo de recuperación (cont.)  Utilizando el método booleano:  Los documentos A4 y A7 (“AND”)  A1, A2, A4, A5, A6, A7, A8, A9 (“OR”)  Similaridad por coseno:  q=(1,1,0)  S(q, A1)=0.71, S(q, A2)=0.71, S(q, A3)=0  S(q, A4)=1, S(q, A5)=0.5, S(q, A6)=0.5  S(q, A7)=0.82, S(q, A8)=0.5, S(q, A9)=0.5  Documentos retornados (por ranking):  {A4, A7, A1, A2, A5, A6, A8, A9} 22
  • 24. Pre-procesamiento  Extracción de palabras  Eliminación de palabras vacias (stopwords)  Stemming  Cálculo de frecuencias y cálculo de pesos de TF-IDF por palabra 24
  • 25. Extracción de palabras  Tokenización  Por expresiones regulares, caracteres, etc. 25
  • 26. Eliminación de palabras vacias  Muchas de las palabras en el lenguaje son poco útiles en IR y Text Mining, se las denomina stopwords  la, el, y, a, …  Tipicamente 400 a 500 palabras (en inglés).  Para una aplicación, se deberá construir una lista particular. 26
  • 27. Eliminación de palabras vacias  Por qué es necesario eliminar estas palabras?  Reducir el proceso de indexado y tamaño de datos.  Las stopwords son 20-30% del total de palabras.  Mejorar la eficiencia y efectividad  Las stopwords no son útiles en las búsquedas.  Podrían confundir a los sistemas de IR. 27
  • 28. Stemming (lematización)  Técnicas utilizadas para encontrar la raíz/lema de una palabra:  user engineering  users engineer  used engineered  stem: use engineer 28
  • 29. Stemming (lematización)  Beneficios  Mejorar la efectividad de IR y text mining  Encontrando palabras similares  Mejoramiento de recall  Reducir el tamaño del indice  Combinando palabras que tienen la misma raíz se reduce el tamaño del indice en un 40-50% 29
  • 30. Frecuencia y TF-IDF  Contar la cantidad de veces que una palabra aparece en el documento  Utilizar la frecuencia relativa para indicar la importancia de la palabra en el documento  Si una palabra aparece muchas veces en un documento, el documento “probablemente trata” de temas relacionados con la palabra.  Contar el número de documentos en la colección que contiene la palabra.  Es posible calcular TF-IDF. 30
  • 31. Frecuencia y TF-IDF 31  Es posible combinar las definiciones de frecuencia del término y la frecuencia inversa del documento para producir un peso compuesto por cada término en cada documento.  El esquema de pesos TF-IDF asigna a un término un peso en el documento dado por:  Donde:  tc(t, d) es la frecuencia de t en d.  max {tc(w, d)} frecuencia normalizada del término w más frecuente en D.  |D| corresponde al número de documentos en el corpus.  {d E D : t E d} número de documentos donde aparece el término t
  • 32. Frecuencia y TF-IDF 32  Fórmula simplificada:  Ejemplo:  Considerar un documento que contiene 100 palabras y la palabra casa aparece 3 veces, la palabra más frecuente en el documento aparece 10 veces.  Siguiendo las formulas anteriores, la frecuencia normalizada para casa es (3/10) = 0.3  Asumiendo que existen 50 mil documentos y casa aparece en 50, entonces la frecuencia inversa del documento es calculada como log (50000/ 50) = 3.  El peso TF-IDF es el producto de las cantidades anteriores: 0.3 × 3 = 0.9
  • 33. Frecuencia y TF-IDF 33  En otras palabras, asigna a un término un peso en el documento que es:  Mayor cuando aparece muchas veces dentro de una cantidad pequeña de documentos (dando así un poder mayor de discriminación a esos documentos).  Menor cuando el término aparece pocas veces en un documento, o en muchos documentos (ofreciendo una señal de pertinencia menos relevante).  Más bajo cuando el término aparece en todos los documentos.
  • 34. Evaluación: Precision y Recall  Dada una consulta:  Son todos los documentos relevantes?  Retornó todos los documentos relevantes?  Medidas de rendimiento:  La primera pregunta es acerca de la precisión de la búsqueda.  La segunda pregunta es acerca de la cobertura / completitud de la búsqueda. 34
  • 35. Evaluación: Precision y recall  Quedan definidas las dos medidas:  𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑅 𝑀 ; documentos relevantes recuperados / total de documentos relevantes  𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑅 𝑁 ; documentos relevantes recuperados / total de documentos recuperados M NR Document os relevantes Documento s recuperado s 35
  • 36. LSA: Análisis de semántica latente  Propuesto por Landauer y Dumais (1997)  Método para extraer y representar el uso contextual de términos  Se basa en la coincidencia de conceptos en lugar de coincidencia de términos. 36
  • 38. Motivación  Páginas Web  Miles de caracteres  Accesibles utilizando el protocolo HTTP  Pueden ser vistas utilizando un browser  Crawler  Para “traer” (fetch) una página a una computadora donde pueda ser analizada. 38
  • 39. Algoritmo básico de crawler  Corresponde a un crawler secuencial.  Seeds puede ser cualquier lista de URLs  El orden de visitas de las páginas es determinado por la estructura del frontier  El criterio de stop es cualquier 39
  • 40. Recorrido  Bread first search (búsqueda por amplitud)  Implementado con cola (FIFO)  Busca páginas entre caminos cortos  Si comenzamos con páginas “buenas” es buena opción  Depth first search (búsqueda por profundidad)  Implementado con pila (LIFO) 40
  • 41. Problemas de implementación  No recuperar 2 veces la misma página  Mantener una tabla de páginas visitadas  Qué pasa si no se ha visitado pero está en la frontera?  La frontera crece velozmente  Debería priorizar para grandes crawls  La recuperación debe ser robusta  Mecanismo de time-out  Determinar tipos de archivos para evitar indeseables  A través de la extensión de archivos, pero no muy confiable  Comandos “HEAD HTTP” para obtener el tipo de contenido (MIME), genera solicitudes extras. 41
  • 42. Más problemas…  Fetching  Obtener primero 10-100 kb por página  Evitar loops  Tratamiento de timeout, server not responding, file not found, etc. 42
  • 43. Parsing  HTML tiene una estructura de árbol DOM.  HTML real es incorrecto desde el punto de vista de sintaxis estricto.  Herramientas que pueden ayudar (tidy.sourceforge.net)  Prestar atención a las entidades HTML y unicode en el texto. 43
  • 44. Páginas estáticas vs. dinámicas  Se debe evaluar si es valioso eliminar páginas dinámicas y utilizar solo estáticas.  Ejemplos  http://www.census.gov/cgi-bin/gazetteer  http://informatics.indiana.edu/research/colloquia.a sp  http://www.amazon.com/exec/obidos/subst/home/ home.html/002-8332429-6490452  http://www.imdb.com/Name?Menczer,+Erico  http://www.imdb.com/name/nm0578801/  Cómo funcionan los buscadores? 44
  • 45. URLs absolutas vs. relativas  Los crawlers deben traducir URLs relativas en absolutas.  Es necesario obtener la URL Base desde el header o Meta Tag.  Ejemplos:  Base: http://www.cnn.com/linkto/  Relative URL: intl.html  Absolute URL: http://www.cnn.com/linkto/intl.html  Relative URL: /US/  Absolute URL: http://www.cnn.com/US/ 45
  • 46. Canonización de URL  Todas las siguientes:  http://www.cnn.com/TECH  http://WWW.CNN.COM/TECH/  http://www.cnn.com:80/TECH/  http://www.cnn.com/bogus/../TECH/  Son equivalentes a la forma canónica:  http://www.cnn.com/TECH/  Para evitar duplicación, el crawler debe transformar todas las URLs a la forma canónica.  Definición de la forma canónica es arbitraria, ej.:  Debería siempre incluir el puerto.  O incluir el puerto cuando no es 80. 46
  • 47. Exclusión de robots  Verificar si el servidor prohibe inspeccionar un URL normalizado.  Archivo robots.txt  Directorio raíz.  Especifica la lista de prefijos de caminos que el crawler no debería alcanzar 47
  • 48. Exclusión de robots: Ejemplos Todos los agentes Sin restrincciones Todos los agentes No pueden acceder a estas rutas… Estos agentes No pueden acceder a estas rutas y demorar las búsquedas 48
  • 49. Algunos temas éticos  Es mandatorio cumplir con las exclusiones de los robots?  No, no es obligatorio, pero no cumplir puede implicar bloqueo.  Encubrimiento (cloaking):  Presentar diferente contenido dependiendo el agente.  Los motores de búsquedas pueden excluir de los indices los sitios que hacen abusos de spam. 49
  • 50. Algunos crawlers  Open source  Jobo: http://www.matuschek.net/jobo-menu  Nutch: http://www.nutch.org  y más: http://java-source.net/open-source/crawlers  HTML Parsers:  Tidy: tidy.sourceforge.net  Jtidy: jtidy.sourceforge.net  Java Mozilla Html Parser: http://mozillaparser.sourceforge.net  Browsers Headless:  Crowbar: http://simile.mit.edu/wiki/Crowbar 50