SlideShare una empresa de Scribd logo
WEB MINING
Web Usage MiningJuan Azcurra
Introducción
2
 Web Usage Mining: descubrimiento automático
de patrones en los clicks realizados sobre un
sitio Web y los datos recolectados o generados
como resultado de las interacciones de los
usuarios con uno o más sitios Web.
 Objetivo: analizar los patrones de
comportamiento de los usuarios interactuando
con un sitio Web.
 Los patrones descubiertos son generalmente
representados como colecciones de páginas,
objetos o recursos que son accedidos por un
grupo de usuarios con un objetivo en común.
Introducción
3
 Los datos utilizados para Web Usage Mining:
 Logs de servidores web.
 Contenido del sitio.
 Datos acerca de los visitantes, obtenidos de fuentes
externas.
 Datos de otras aplicaciones.
 No siempre están disponibles todos.
 Cuando si están, deben ser integrados.
Logs de servidores Web
4
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
Proceso de Web Usage Mining
5
Fase de preparación de datos
6
Preprocesamiento de datos
7
Limpieza de datos
8
 Data cleaning / cleansing
 Eliminar referencias irrelevantes y campos en
logs
 Eliminar referencias a navegaciones de robots
 Eliminar referencias erroneas
 Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
Identificar sesiones
(sesionización)9
 En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
 Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
Estrategias de sesionización
10
Heurísticas de sesionización
11
Ejemplo de sesionización
12
Identificación de usuario
13
Ejemplo de identificación de
usuario14
PageView
15
 Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
 Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
Path completion
16
 Caché en el cliente o servidor puede derivar en
referencias de accesos perdidas para las
páginas que se encuentran en el caché.
 Por ejemplo:
 Si un usuario regresa a una página A durante la
misma sesión, probablemente podrá ver la
versión descargada anteriormente de A que se
encuentra en el caché de su computadora y por
lo tanto no se vuelve a solicitar al servidor.
 Esto ocasiona que la segunda referencia a A no
sea registrada en el log del servidor Web.
Referencias perdidas por caché
17
Path completion
18
 El problema es inferir referencias perdidas
debido a uso de caché.
 Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
 Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
Integración con eventos de e-
commerce19
 Puede ser orientado a productos o visitas
 Utilizados para trackear y analizar conversión
de navegadores a compradores.
 La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
 Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
Eventos orientados a producto
20
 Vista de producto
 Ocurre cada vez que un producto aparece en una
visita a una página.
 Tipos típicos: imagen, link, texto.
 Click a productos
 Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
Eventos orientados a productos
21
 Cambios en carritos de compra
 Agregar o eliminar productos del carrito
 Modificar productos en el carrito (cantidad u otra
caracteristica)
 Compra de producto u oferta
 Los eventos de compra ocurren separadamente
para cada producto en el carrito de compras.
 Los sitios de subastas pueden rastrear eventos
de oferta además de las compras de productos.
Proceso de Web Usage Mining
22
Integración con el contenido del
sitio23
Integración con la estructura de
links24
Análisis de e-commerce
25
Análisis de sesiones
26
 Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
 Ventajas:
 Obtener información sobre los clientes tipicos.
 Trazar problemas específicos en el sitio.
 Desventajas:
 Volumen alto de datos.
 Dificil de generalizar.
Análisis de sesiones: reportes
agregados27
 Forma más común de análisis
 Los datos son agregados a niveles
predeterminados (días o sesiones).
 Ventajas:
 Vista general de utilización del sitio.
 Minimo espacio en disco para procesamiento.
 Desventajas:
 Problemas para bucear en los datos.
OLAP
28
 Permite cambios en los niveles de agregación
para múltiples dimensiones.
 Generalmente asociado a un Data Warehouse.
 Pros y contras
 Muy flexible.
 Requiere más recursos que los reportes
estáticos.
Data Mining
29
 Itemset frecuente
 La Home Page y el Carrito de Compras son
visitados juntos por el 20% de las sesiones.
 Las categorias Libros y Música son visitados
juntos en 1.5% de las sesiones.
 Reglas de asociación
 Cuando la Home Page es visitada, el Carrito de
Compras es visto tambien el 90% del tiempo.
 Cuando la categoria Libros es visitada en una
sesión, la categoria Música también es visitada
el 5% del tiempo.
Data Mining (cont)
30
 Patrones secuenciales
 Agrega una dimensión extra a las dos anteriores, el
tiempo.
 El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
 Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
 Clustering: basado en contenido o uso
 Segmentación cliente / visitante
 Categorización de páginas y productos
Aplicaciones de Data Mining
31
Personalización
32
 Personalización Web: “personalizar la
experiencia de navegación de un usuario
ajustando el look and feel y contenido
dependiendo los intereses y necesidades del
usuario.
 Motivos:
 Mejorar y profundizar la relación con el cliente.
 Proveer relación continua para mejorar la lealtad
del cliente.
 Proveer la habilidad de medir el comportamiento
del cliente e identificar como el cliente responde a
los esfuerzos de marketing.
Enfoques tipicos
33
 Filtros basados en reglas
 Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,
agregar el link C)
 Filtros colaborativos
 Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
 Filtros basados en contenidos
 Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
 Métodos hibridos
 Combinación de filtros colaborativos y de contenidos.

Más contenido relacionado

Destacado

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure miningAtul Khanna
 
Web content mining
Web content miningWeb content mining
Web content mining
Daminda Herath
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)
Amir Fahmideh
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation FinalEr. Jagrat Gupta
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?
Sthepany Nevado Cordova
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoGuillermo Campolongo
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networking
eoshea
 
virus informatico
virus informaticovirus informatico
virus informatico
mariangelymileidys
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuela
manuel alfredo rodriguez
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
lottexselxqbod
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investment
Soumitra Kansabanik
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDc
debo18
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondente
Lourdes Pereira
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebecguest2f53b8
 

Destacado (20)

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure mining
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation Final
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
 
Unit 16 tractors
Unit 16 tractorsUnit 16 tractors
Unit 16 tractors
 
Portafolio 1
Portafolio 1Portafolio 1
Portafolio 1
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networking
 
virus informatico
virus informaticovirus informatico
virus informatico
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuela
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
 
Human Capital March 2016
Human Capital March 2016Human Capital March 2016
Human Capital March 2016
 
Montaje
MontajeMontaje
Montaje
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investment
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDc
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondente
 
Pres Web2.0
Pres Web2.0Pres Web2.0
Pres Web2.0
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebec
 

Similar a Web Usage Mining - Temas Avanzados

Curso de Google Analytics
Curso de Google AnalyticsCurso de Google Analytics
Curso de Google analytics
Curso de Google analyticsCurso de Google analytics
Curso de Google analytics
Grupo Rural Media
 
Web Analytics | Clase 2/4
Web Analytics | Clase 2/4Web Analytics | Clase 2/4
Web Analytics | Clase 2/4
Nicolas Valenzuela
 
Google analytics
Google analyticsGoogle analytics
Google analytics
adrianbanchon
 
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Christian Carrasco
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicante
Overalia
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Guillermo Vilarroig
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal Analytics
Eider E Iñaki
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia Reyes
Silvia Reyes
 
Google Analytics.pdf
Google Analytics.pdfGoogle Analytics.pdf
Google Analytics.pdf
FigueroaParraJessica
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analyticsRaul HAV
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en Internet
Javier Espadas
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Javier Espadas
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo
Multiplica
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Justo Ibarra
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mide
Juan C. Camus
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social medias
miroxa-25
 

Similar a Web Usage Mining - Temas Avanzados (20)

Curso de Google Analytics
Curso de Google AnalyticsCurso de Google Analytics
Curso de Google Analytics
 
Curso de Google analytics
Curso de Google analyticsCurso de Google analytics
Curso de Google analytics
 
Web Analytics | Clase 2/4
Web Analytics | Clase 2/4Web Analytics | Clase 2/4
Web Analytics | Clase 2/4
 
Google analytics
Google analyticsGoogle analytics
Google analytics
 
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicante
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal Analytics
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia Reyes
 
Google Analytics.pdf
Google Analytics.pdfGoogle Analytics.pdf
Google Analytics.pdf
 
Monitorización y Analytics
Monitorización y AnalyticsMonitorización y Analytics
Monitorización y Analytics
 
Web 2.0 (odp)
Web 2.0 (odp)Web 2.0 (odp)
Web 2.0 (odp)
 
Web 2[1].0
Web 2[1].0Web 2[1].0
Web 2[1].0
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analytics
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en Internet
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mide
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social medias
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
Juan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
Juan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
Juan Azcurra
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
Juan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
Juan Azcurra
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
Juan Azcurra
 
Text mining
Text miningText mining
Text mining
Juan Azcurra
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
Juan Azcurra
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
Juan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
Juan Azcurra
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
Juan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
Juan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
Juan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
Juan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
Juan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
Juan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
zoecaicedosalazar
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
ValeriaAyala48
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
IsabellaRubio6
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
coloradxmaria
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
CrystalRomero18
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
DanielErazoMedina
 
Ventajas y desventajas de la desinfección con cloro
Ventajas y desventajas de la desinfección con cloroVentajas y desventajas de la desinfección con cloro
Ventajas y desventajas de la desinfección con cloro
durangense277
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
Luis Enrique Zafra Haro
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
cristianrb0324
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
espinozaernesto427
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
JimmyTejadaSalizar
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
cofferub
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
vazquezgarciajesusma
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
Leidyfuentes19
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
Emilio Casbas
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
AlejandraCasallas7
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
SamuelRamirez83524
 
proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmus
raquelariza02
 
Posnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaPosnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativa
Fernando Villares
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
cj3806354
 

Último (20)

trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
 
Ventajas y desventajas de la desinfección con cloro
Ventajas y desventajas de la desinfección con cloroVentajas y desventajas de la desinfección con cloro
Ventajas y desventajas de la desinfección con cloro
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
 
proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmus
 
Posnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaPosnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativa
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 

Web Usage Mining - Temas Avanzados

  • 1. WEB MINING Web Usage MiningJuan Azcurra
  • 2. Introducción 2  Web Usage Mining: descubrimiento automático de patrones en los clicks realizados sobre un sitio Web y los datos recolectados o generados como resultado de las interacciones de los usuarios con uno o más sitios Web.  Objetivo: analizar los patrones de comportamiento de los usuarios interactuando con un sitio Web.  Los patrones descubiertos son generalmente representados como colecciones de páginas, objetos o recursos que son accedidos por un grupo de usuarios con un objetivo en común.
  • 3. Introducción 3  Los datos utilizados para Web Usage Mining:  Logs de servidores web.  Contenido del sitio.  Datos acerca de los visitantes, obtenidos de fuentes externas.  Datos de otras aplicaciones.  No siempre están disponibles todos.  Cuando si están, deben ser integrados.
  • 4. Logs de servidores Web 4 1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://dataminingresources.blogspot.com/ 2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://maya.cs.depaul.edu/~classes/cs589/papers.html 3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200 318814 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey 4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/ 5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html 6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html
  • 5. Proceso de Web Usage Mining 5
  • 6. Fase de preparación de datos 6
  • 8. Limpieza de datos 8  Data cleaning / cleansing  Eliminar referencias irrelevantes y campos en logs  Eliminar referencias a navegaciones de robots  Eliminar referencias erroneas  Agregar referencias faltanets debido a caching (una vez realizada la sesionización)
  • 9. Identificar sesiones (sesionización)9  En el análisis de uso de la Web, los datos están en sesiones de visitas al sitio: la actividad realizada por un usuario desde el momento que ingresa al sitio hasta que lo deja.  Dificultad para obtener datos confiables de uso debido a servidores proxy y aplicaciones de ocultamiento, referencias pérdidas debido a cache y la imposibilidad de los servidores de distinguir entre diferentes visitas.
  • 15. PageView 15  Un pageview es una representación agregada de una colección de páginas Web contribuyendo a visualizar en el navegador del usuario el resultado de una acción simple (un click).  Conceptualmente, cada pageview puede ser visualizado como una colección de objetos o recursos representando un especifico “evento de usuario”, ej: leyendo un artículo, mirando una páginad e producto o agregando un producto al carrito de compras.
  • 16. Path completion 16  Caché en el cliente o servidor puede derivar en referencias de accesos perdidas para las páginas que se encuentran en el caché.  Por ejemplo:  Si un usuario regresa a una página A durante la misma sesión, probablemente podrá ver la versión descargada anteriormente de A que se encuentra en el caché de su computadora y por lo tanto no se vuelve a solicitar al servidor.  Esto ocasiona que la segunda referencia a A no sea registrada en el log del servidor Web.
  • 18. Path completion 18  El problema es inferir referencias perdidas debido a uso de caché.  Conocer caminos de navegación efectivos requiere conocimiento extensivo de la estructura de links dentro del sitio.  Información de referencia en los logs del servidor puede ser usada en la desambiguación de inferencias de caminos.
  • 19. Integración con eventos de e- commerce19  Puede ser orientado a productos o visitas  Utilizados para trackear y analizar conversión de navegadores a compradores.  La mayor dificultad para eventos de e-commerce es definir e implementar los eventos para un sitio.  Otro desafio importante es la integración exitosa de los datos obtenidos de la navegación.
  • 20. Eventos orientados a producto 20  Vista de producto  Ocurre cada vez que un producto aparece en una visita a una página.  Tipos típicos: imagen, link, texto.  Click a productos  Ocurre cada vez que un usuario hace click en un producto para obtener mayor información.
  • 21. Eventos orientados a productos 21  Cambios en carritos de compra  Agregar o eliminar productos del carrito  Modificar productos en el carrito (cantidad u otra caracteristica)  Compra de producto u oferta  Los eventos de compra ocurren separadamente para cada producto en el carrito de compras.  Los sitios de subastas pueden rastrear eventos de oferta además de las compras de productos.
  • 22. Proceso de Web Usage Mining 22
  • 23. Integración con el contenido del sitio23
  • 24. Integración con la estructura de links24
  • 26. Análisis de sesiones 26  Forma más simple de análisis: examinar inviduos o grupos de individuos desde el log del server y datos de e-commerce.  Ventajas:  Obtener información sobre los clientes tipicos.  Trazar problemas específicos en el sitio.  Desventajas:  Volumen alto de datos.  Dificil de generalizar.
  • 27. Análisis de sesiones: reportes agregados27  Forma más común de análisis  Los datos son agregados a niveles predeterminados (días o sesiones).  Ventajas:  Vista general de utilización del sitio.  Minimo espacio en disco para procesamiento.  Desventajas:  Problemas para bucear en los datos.
  • 28. OLAP 28  Permite cambios en los niveles de agregación para múltiples dimensiones.  Generalmente asociado a un Data Warehouse.  Pros y contras  Muy flexible.  Requiere más recursos que los reportes estáticos.
  • 29. Data Mining 29  Itemset frecuente  La Home Page y el Carrito de Compras son visitados juntos por el 20% de las sesiones.  Las categorias Libros y Música son visitados juntos en 1.5% de las sesiones.  Reglas de asociación  Cuando la Home Page es visitada, el Carrito de Compras es visto tambien el 90% del tiempo.  Cuando la categoria Libros es visitada en una sesión, la categoria Música también es visitada el 5% del tiempo.
  • 30. Data Mining (cont) 30  Patrones secuenciales  Agrega una dimensión extra a las dos anteriores, el tiempo.  El x% del tiempo, cuando A aparece en una transacción, B también aparece.  Ejemplo: La página PlayStation PSP Vita es visitada despues de PlayStation PSP el 50% de las veces, esto ocurre en el 5% de las sesiones.  Clustering: basado en contenido o uso  Segmentación cliente / visitante  Categorización de páginas y productos
  • 31. Aplicaciones de Data Mining 31
  • 32. Personalización 32  Personalización Web: “personalizar la experiencia de navegación de un usuario ajustando el look and feel y contenido dependiendo los intereses y necesidades del usuario.  Motivos:  Mejorar y profundizar la relación con el cliente.  Proveer relación continua para mejorar la lealtad del cliente.  Proveer la habilidad de medir el comportamiento del cliente e identificar como el cliente responde a los esfuerzos de marketing.
  • 33. Enfoques tipicos 33  Filtros basados en reglas  Proveer contenido basado en reglas predefinidas (ej., si el usuario hace click en A y utiliza X navegador, agregar el link C)  Filtros colaborativos  Brindar recomendaciones a los usuarios basado en las respuestas de otros usuarios similares.  Filtros basados en contenidos  Analizar las páginas que visita el usuario y recomendar aquellas con contenido similar.  Métodos hibridos  Combinación de filtros colaborativos y de contenidos.