SlideShare una empresa de Scribd logo
1 de 33
WEB MINING
Web Usage MiningJuan Azcurra
Introducción
2
 Web Usage Mining: descubrimiento automático
de patrones en los clicks realizados sobre un
sitio Web y los datos recolectados o generados
como resultado de las interacciones de los
usuarios con uno o más sitios Web.
 Objetivo: analizar los patrones de
comportamiento de los usuarios interactuando
con un sitio Web.
 Los patrones descubiertos son generalmente
representados como colecciones de páginas,
objetos o recursos que son accedidos por un
grupo de usuarios con un objetivo en común.
Introducción
3
 Los datos utilizados para Web Usage Mining:
 Logs de servidores web.
 Contenido del sitio.
 Datos acerca de los visitantes, obtenidos de fuentes
externas.
 Datos de otras aplicaciones.
 No siempre están disponibles todos.
 Cuando si están, deben ser integrados.
Logs de servidores Web
4
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
Proceso de Web Usage Mining
5
Fase de preparación de datos
6
Preprocesamiento de datos
7
Limpieza de datos
8
 Data cleaning / cleansing
 Eliminar referencias irrelevantes y campos en
logs
 Eliminar referencias a navegaciones de robots
 Eliminar referencias erroneas
 Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
Identificar sesiones
(sesionización)9
 En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
 Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
Estrategias de sesionización
10
Heurísticas de sesionización
11
Ejemplo de sesionización
12
Identificación de usuario
13
Ejemplo de identificación de
usuario14
PageView
15
 Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
 Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
Path completion
16
 Caché en el cliente o servidor puede derivar en
referencias de accesos perdidas para las
páginas que se encuentran en el caché.
 Por ejemplo:
 Si un usuario regresa a una página A durante la
misma sesión, probablemente podrá ver la
versión descargada anteriormente de A que se
encuentra en el caché de su computadora y por
lo tanto no se vuelve a solicitar al servidor.
 Esto ocasiona que la segunda referencia a A no
sea registrada en el log del servidor Web.
Referencias perdidas por caché
17
Path completion
18
 El problema es inferir referencias perdidas
debido a uso de caché.
 Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
 Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
Integración con eventos de e-
commerce19
 Puede ser orientado a productos o visitas
 Utilizados para trackear y analizar conversión
de navegadores a compradores.
 La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
 Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
Eventos orientados a producto
20
 Vista de producto
 Ocurre cada vez que un producto aparece en una
visita a una página.
 Tipos típicos: imagen, link, texto.
 Click a productos
 Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
Eventos orientados a productos
21
 Cambios en carritos de compra
 Agregar o eliminar productos del carrito
 Modificar productos en el carrito (cantidad u otra
caracteristica)
 Compra de producto u oferta
 Los eventos de compra ocurren separadamente
para cada producto en el carrito de compras.
 Los sitios de subastas pueden rastrear eventos
de oferta además de las compras de productos.
Proceso de Web Usage Mining
22
Integración con el contenido del
sitio23
Integración con la estructura de
links24
Análisis de e-commerce
25
Análisis de sesiones
26
 Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
 Ventajas:
 Obtener información sobre los clientes tipicos.
 Trazar problemas específicos en el sitio.
 Desventajas:
 Volumen alto de datos.
 Dificil de generalizar.
Análisis de sesiones: reportes
agregados27
 Forma más común de análisis
 Los datos son agregados a niveles
predeterminados (días o sesiones).
 Ventajas:
 Vista general de utilización del sitio.
 Minimo espacio en disco para procesamiento.
 Desventajas:
 Problemas para bucear en los datos.
OLAP
28
 Permite cambios en los niveles de agregación
para múltiples dimensiones.
 Generalmente asociado a un Data Warehouse.
 Pros y contras
 Muy flexible.
 Requiere más recursos que los reportes
estáticos.
Data Mining
29
 Itemset frecuente
 La Home Page y el Carrito de Compras son
visitados juntos por el 20% de las sesiones.
 Las categorias Libros y Música son visitados
juntos en 1.5% de las sesiones.
 Reglas de asociación
 Cuando la Home Page es visitada, el Carrito de
Compras es visto tambien el 90% del tiempo.
 Cuando la categoria Libros es visitada en una
sesión, la categoria Música también es visitada
el 5% del tiempo.
Data Mining (cont)
30
 Patrones secuenciales
 Agrega una dimensión extra a las dos anteriores, el
tiempo.
 El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
 Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
 Clustering: basado en contenido o uso
 Segmentación cliente / visitante
 Categorización de páginas y productos
Aplicaciones de Data Mining
31
Personalización
32
 Personalización Web: “personalizar la
experiencia de navegación de un usuario
ajustando el look and feel y contenido
dependiendo los intereses y necesidades del
usuario.
 Motivos:
 Mejorar y profundizar la relación con el cliente.
 Proveer relación continua para mejorar la lealtad
del cliente.
 Proveer la habilidad de medir el comportamiento
del cliente e identificar como el cliente responde a
los esfuerzos de marketing.
Enfoques tipicos
33
 Filtros basados en reglas
 Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,
agregar el link C)
 Filtros colaborativos
 Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
 Filtros basados en contenidos
 Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
 Métodos hibridos
 Combinación de filtros colaborativos y de contenidos.

Más contenido relacionado

Destacado

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure miningAtul Khanna
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)Amir Fahmideh
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation FinalEr. Jagrat Gupta
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?Sthepany Nevado Cordova
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoGuillermo Campolongo
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networkingeoshea
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelamanuel alfredo rodriguez
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartlottexselxqbod
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentSoumitra Kansabanik
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDcdebo18
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondenteLourdes Pereira
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebecguest2f53b8
 

Destacado (20)

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure mining
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation Final
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
 
Unit 16 tractors
Unit 16 tractorsUnit 16 tractors
Unit 16 tractors
 
Portafolio 1
Portafolio 1Portafolio 1
Portafolio 1
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networking
 
virus informatico
virus informaticovirus informatico
virus informatico
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuela
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
 
Human Capital March 2016
Human Capital March 2016Human Capital March 2016
Human Capital March 2016
 
Montaje
MontajeMontaje
Montaje
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investment
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDc
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondente
 
Pres Web2.0
Pres Web2.0Pres Web2.0
Pres Web2.0
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebec
 

Similar a Web Usage Mining - Temas Avanzados

Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxChristian Carrasco
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteOveralia
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteGuillermo Vilarroig
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsEider E Iñaki
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesSilvia Reyes
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analyticsRaul HAV
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en InternetJavier Espadas
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Javier Espadas
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo Multiplica
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Justo Ibarra
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideJuan C. Camus
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social mediasmiroxa-25
 

Similar a Web Usage Mining - Temas Avanzados (20)

Curso de Google Analytics
Curso de Google AnalyticsCurso de Google Analytics
Curso de Google Analytics
 
Curso de Google analytics
Curso de Google analyticsCurso de Google analytics
Curso de Google analytics
 
Web Analytics | Clase 2/4
Web Analytics | Clase 2/4Web Analytics | Clase 2/4
Web Analytics | Clase 2/4
 
Google analytics
Google analyticsGoogle analytics
Google analytics
 
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicante
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal Analytics
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia Reyes
 
Google Analytics.pdf
Google Analytics.pdfGoogle Analytics.pdf
Google Analytics.pdf
 
Monitorización y Analytics
Monitorización y AnalyticsMonitorización y Analytics
Monitorización y Analytics
 
Web 2.0 (odp)
Web 2.0 (odp)Web 2.0 (odp)
Web 2.0 (odp)
 
Web 2[1].0
Web 2[1].0Web 2[1].0
Web 2[1].0
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analytics
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en Internet
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mide
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social medias
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 

Último (20)

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 

Web Usage Mining - Temas Avanzados

  • 1. WEB MINING Web Usage MiningJuan Azcurra
  • 2. Introducción 2  Web Usage Mining: descubrimiento automático de patrones en los clicks realizados sobre un sitio Web y los datos recolectados o generados como resultado de las interacciones de los usuarios con uno o más sitios Web.  Objetivo: analizar los patrones de comportamiento de los usuarios interactuando con un sitio Web.  Los patrones descubiertos son generalmente representados como colecciones de páginas, objetos o recursos que son accedidos por un grupo de usuarios con un objetivo en común.
  • 3. Introducción 3  Los datos utilizados para Web Usage Mining:  Logs de servidores web.  Contenido del sitio.  Datos acerca de los visitantes, obtenidos de fuentes externas.  Datos de otras aplicaciones.  No siempre están disponibles todos.  Cuando si están, deben ser integrados.
  • 4. Logs de servidores Web 4 1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://dataminingresources.blogspot.com/ 2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://maya.cs.depaul.edu/~classes/cs589/papers.html 3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200 318814 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey 4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/ 5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html 6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html
  • 5. Proceso de Web Usage Mining 5
  • 6. Fase de preparación de datos 6
  • 8. Limpieza de datos 8  Data cleaning / cleansing  Eliminar referencias irrelevantes y campos en logs  Eliminar referencias a navegaciones de robots  Eliminar referencias erroneas  Agregar referencias faltanets debido a caching (una vez realizada la sesionización)
  • 9. Identificar sesiones (sesionización)9  En el análisis de uso de la Web, los datos están en sesiones de visitas al sitio: la actividad realizada por un usuario desde el momento que ingresa al sitio hasta que lo deja.  Dificultad para obtener datos confiables de uso debido a servidores proxy y aplicaciones de ocultamiento, referencias pérdidas debido a cache y la imposibilidad de los servidores de distinguir entre diferentes visitas.
  • 15. PageView 15  Un pageview es una representación agregada de una colección de páginas Web contribuyendo a visualizar en el navegador del usuario el resultado de una acción simple (un click).  Conceptualmente, cada pageview puede ser visualizado como una colección de objetos o recursos representando un especifico “evento de usuario”, ej: leyendo un artículo, mirando una páginad e producto o agregando un producto al carrito de compras.
  • 16. Path completion 16  Caché en el cliente o servidor puede derivar en referencias de accesos perdidas para las páginas que se encuentran en el caché.  Por ejemplo:  Si un usuario regresa a una página A durante la misma sesión, probablemente podrá ver la versión descargada anteriormente de A que se encuentra en el caché de su computadora y por lo tanto no se vuelve a solicitar al servidor.  Esto ocasiona que la segunda referencia a A no sea registrada en el log del servidor Web.
  • 18. Path completion 18  El problema es inferir referencias perdidas debido a uso de caché.  Conocer caminos de navegación efectivos requiere conocimiento extensivo de la estructura de links dentro del sitio.  Información de referencia en los logs del servidor puede ser usada en la desambiguación de inferencias de caminos.
  • 19. Integración con eventos de e- commerce19  Puede ser orientado a productos o visitas  Utilizados para trackear y analizar conversión de navegadores a compradores.  La mayor dificultad para eventos de e-commerce es definir e implementar los eventos para un sitio.  Otro desafio importante es la integración exitosa de los datos obtenidos de la navegación.
  • 20. Eventos orientados a producto 20  Vista de producto  Ocurre cada vez que un producto aparece en una visita a una página.  Tipos típicos: imagen, link, texto.  Click a productos  Ocurre cada vez que un usuario hace click en un producto para obtener mayor información.
  • 21. Eventos orientados a productos 21  Cambios en carritos de compra  Agregar o eliminar productos del carrito  Modificar productos en el carrito (cantidad u otra caracteristica)  Compra de producto u oferta  Los eventos de compra ocurren separadamente para cada producto en el carrito de compras.  Los sitios de subastas pueden rastrear eventos de oferta además de las compras de productos.
  • 22. Proceso de Web Usage Mining 22
  • 23. Integración con el contenido del sitio23
  • 24. Integración con la estructura de links24
  • 26. Análisis de sesiones 26  Forma más simple de análisis: examinar inviduos o grupos de individuos desde el log del server y datos de e-commerce.  Ventajas:  Obtener información sobre los clientes tipicos.  Trazar problemas específicos en el sitio.  Desventajas:  Volumen alto de datos.  Dificil de generalizar.
  • 27. Análisis de sesiones: reportes agregados27  Forma más común de análisis  Los datos son agregados a niveles predeterminados (días o sesiones).  Ventajas:  Vista general de utilización del sitio.  Minimo espacio en disco para procesamiento.  Desventajas:  Problemas para bucear en los datos.
  • 28. OLAP 28  Permite cambios en los niveles de agregación para múltiples dimensiones.  Generalmente asociado a un Data Warehouse.  Pros y contras  Muy flexible.  Requiere más recursos que los reportes estáticos.
  • 29. Data Mining 29  Itemset frecuente  La Home Page y el Carrito de Compras son visitados juntos por el 20% de las sesiones.  Las categorias Libros y Música son visitados juntos en 1.5% de las sesiones.  Reglas de asociación  Cuando la Home Page es visitada, el Carrito de Compras es visto tambien el 90% del tiempo.  Cuando la categoria Libros es visitada en una sesión, la categoria Música también es visitada el 5% del tiempo.
  • 30. Data Mining (cont) 30  Patrones secuenciales  Agrega una dimensión extra a las dos anteriores, el tiempo.  El x% del tiempo, cuando A aparece en una transacción, B también aparece.  Ejemplo: La página PlayStation PSP Vita es visitada despues de PlayStation PSP el 50% de las veces, esto ocurre en el 5% de las sesiones.  Clustering: basado en contenido o uso  Segmentación cliente / visitante  Categorización de páginas y productos
  • 31. Aplicaciones de Data Mining 31
  • 32. Personalización 32  Personalización Web: “personalizar la experiencia de navegación de un usuario ajustando el look and feel y contenido dependiendo los intereses y necesidades del usuario.  Motivos:  Mejorar y profundizar la relación con el cliente.  Proveer relación continua para mejorar la lealtad del cliente.  Proveer la habilidad de medir el comportamiento del cliente e identificar como el cliente responde a los esfuerzos de marketing.
  • 33. Enfoques tipicos 33  Filtros basados en reglas  Proveer contenido basado en reglas predefinidas (ej., si el usuario hace click en A y utiliza X navegador, agregar el link C)  Filtros colaborativos  Brindar recomendaciones a los usuarios basado en las respuestas de otros usuarios similares.  Filtros basados en contenidos  Analizar las páginas que visita el usuario y recomendar aquellas con contenido similar.  Métodos hibridos  Combinación de filtros colaborativos y de contenidos.