SlideShare una empresa de Scribd logo
1 de 26
WEB y TEXT MINING
Web Usage MiningJuan Azcurra
Web Server Log – Un ejemplo
http://www.kdnuggets.com/jobs/
Servidor
KDnuggets.com
Web server log
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET … HTTP/1.1" 200
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /gps.html HTTP/1.1" 200
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/1.1" 200 …
Contenido de la pág.
Web Log Analysis
Behaviour
Visits
Pages
Hits
Hit (Request) Analysis
 Hit Analysis es el nivel más básico de análisis
 Preguntas que responde:
 Quiénes (fueron los visitantes)?
 IP, Host, Dominio, regiones,
 Agentes, Browser, OS, resolución
 Cuándo (hicieron la visita)?
 Por mes, semana, día de semana, hora, etc.
 Qué (visitaron)?
 Top 10, entrada/salida, etc.
Quién: IP - Hostname
 Dirección IP, ej. 200.59.131.142
 Puede ser convertido a hostname, ej
 pool-200-59-131-142.telecom.com.ar
 No siempre el hostname es encontrado
(unresolved)
 Herramientas interactivas (Reverse DNS
lookup)
 dnsstuff.com, network-tools.com
Top-Level Domains (TLD)
 La última parte de un dominio es denominada
TLD.
 Existen TLD genéricos:
 .com
 .net
 .edu
 Otros:
 .gov
 .mil
 .org
 Nota: UNR indica unresolved.
Top-Level Domain – Country Code
ccTLD
 Los TLD de 2 letras corresponden a códigos
de países
 Algunos de los ccTLD más comunes
Lista completa: http://en.wikipedia.org/wiki/Country_code_top-level_domain
Problemas con los ccTLD
 Algunos países pequeños venden sus ccTLD
 cc (Cocos Islands)
 Cycling clubs, christian church, creative commons,
etc.
 tv (Tuvalu)
 Television
 md (Moldova)
 Doctor of Medicine
Ejemplo: Hits de KDNuggets
 Por TLD para Noviembre 2005
No representativo debido a que no se excluyeron los robots
Quién: Agente de Usuario
 Los exploradores o robots envían un literal
“Agente de usuario” que es almacenado en el
log.
 Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows
NT 5.1; SV1; .NET CLR 1.1.4322)"
 Más detalles en:
 http://en.wikipedia.org/wiki/User_agent
Bots
 Un bot (software robot) es un programa que
accede a las páginas web.
 Existen miles de diferentes bots.
 Algunos tienen comportamientos normales,
siguen reglas y son fáciles de identificar
(Googlebot).
 Otros violan las reglas intencionalmente.
 Algunos son proyectos de estudiantes,
entonces cualquier comportamiento es
posible,
El análisis de bots puede ser
útil
 Algún análisis de bots puede ser muy útil,
especialmente para SEO (Search Engine
Optimization).
 Ej. El webmaster puede determinar cuán
frecuente Googlebot visita las páginas y cuáles
son las páginas no encontradas
Análisis de agente: Bot o no?
 Los bots “buenos” son claramente
identificables
 Agentes bots más comunes:
 Yahoo: "Mozilla/5.0 (compatible; Yahoo! Slurp;
http://help.yahoo.com/help/us/ysearch/slurp)“
 Google: Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)“
 Bing: Mozilla/5.0 (compatible; bingbot/2.0;
+http://www.bing.com/bingbot.htm)
 Agentes que incluyan “bot”, “crawler”, “libwww-perl”, o "Java/"
 Agentes que no comiencen con “Mozilla” u “Opera” son
generalmente bots (con algunas excepciones)
 Lista de bots conocidos: http://www.user-agents.org/
Bot o no
 Cómo identificarlos?
 Compilar una lista de agentes más comunes del
web log
 Identificar bots obvios
 Eliminar todos los hits de bots obvios
 Este análisis se debe hacer constantemente…
Patrón de nombres en agente
 El patrón del explorador puede ser extractado:
 Internet Explorer:
 Mozilla/MozVer (compatible; MSIE IEVer[;
Provider]; Platform[; Extension]*) [Addition]
 Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;
SV1)
IE version 6.0, Windows XP SP2
Patrón de nombres en agente
 Firefox
 Mozilla/MozVer (Platform; Security;
SubPlatform; Language; rv:Revision[;
Extension]*) Gecko/GeckVer Firefox/ProdVer
 Ejemplo:
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.12)
Gecko/20050920 Firefox/1.0.7"
Firefox 1.0.7 en Linux
 Más detalles:
http://en.wikipedia.org/wiki/User_agent
Quién: Resolución de pantalla
 Podemos encontrar la resolución más popular
en los exploradores
 Crear una imagen de 1x1 pixeles
 Agregar un código javascript especial a la página
que contiene esta imagen con un parámetro que
especifique el ancho y alto de la pantalla
 Leer del web log esta imagen para analizar los
parámetros
 Muy útil para el layout y diseño del sitio
Quién: Resolución de pantalla
Obtener una imaginen x.gif de 1x1 pixel
Javascript code (simple version)
<SCRIPT LANGUAGE="JavaScript1.1" type="text/javascript">
<!–-
document.writeln('<img src=“x.gif?' + 'width=' + screen.width
+ '&' + 'height=' + screen.height + '">');
// -->
</SCRIPT>
Quién: Resolución de pantalla
Analizar la frecuencia de las
solicitudes
GET /x.gif?width=nnn&height=hhh
Contar los tamaños de pantallas más
populares, basado en el número total de
pixels
 Menos de1024x768
 1024x768
 1280x1024
 1600x1200
 Más de 1600x1200
Cuándo: Uso por hora
 Por hora
 Observaciones:
 1er. pico a las 6 am (envio de mail KDnuggets News)
 2do. pico entre 9-10 am
 3er. pico a las 22
Cuándo: Uso por día
 Por:
 Día
 Semana
 Mes
 Etc.
 Observaciones:
 Pico entre el 8-22 (envio de mailing)
 Caida durante fines de semana
Qué: Tipos de archivo
 Hits, Archivos y Páginas
 Tipos de archivos
 Páginas HTML:
 Estáticas: *.html, *.htm, */ (directorio)
 Dinámicas: *.php?*, *.pl?*, *,asp? …
 Imágen: *.gif, *.jpg, …
 Javascript: *.js
 PDF:
 …
Qué: Primario / Secundario
 Una distinción más importante es:
 Primario – solicitados directamente por exploradores
 Páginas HTML
 Páginas no HTML (.pdf, .ppt, .txt, etc)
 Componentes – solicitados como parte de una
página HTML
 Imágen, CSS, Javascript , …
 Algunas páginas HTML pueden ser generadas
dinamicamente
 Páginas especiales
 robots.txt, favicon.ico, …
Análisis de uso: Entrada /
Salida
 Top entry y exit pages
 Referrers
 Internos y externos
 Motores de búsqueda
 Google, Yahoo, Bing, …
 Cadenas de búsqueda
 “data mining”
 “data mining software”
Análisis de uso: Errores
 Error 404
 Top pages no encontrada
 Puede indicar error en el sitios
 Error 206 – (Página recuperada parcialmente)
 En archivos muy grandes
Análisis de uso: Modelado de
comportamiento avanzado
 Objetivo: Mejorar conversión
 Tarjeta de crédito
 Clicks en publicidad
 La unidad de análisis es el visitante
 Combinar las solicitudes referidas dentro de una
visita
 Combinar las visitas dentro del comportamiento
de la Web
 Combinar los datos de la web con otros datos
para construir modelos

Más contenido relacionado

Similar a Web Usage Mining

Los navegadores
Los navegadoresLos navegadores
Los navegadoresJhonweymar
 
I N T E R N E T
I N T E R N E TI N T E R N E T
I N T E R N E Tshalom44
 
Clientes web
Clientes webClientes web
Clientes webdonzippy
 
presentación navegador Internet Explorer y buscador Hot Bot
presentación navegador Internet Explorer y buscador Hot Bot presentación navegador Internet Explorer y buscador Hot Bot
presentación navegador Internet Explorer y buscador Hot Bot Chriss Hernandez
 
Internet&amp;navegadores.
Internet&amp;navegadores.Internet&amp;navegadores.
Internet&amp;navegadores.Masiel Díaz
 
Dispositivas de informatica
Dispositivas de informaticaDispositivas de informatica
Dispositivas de informaticaagi1992
 
Programación Optimizada - Search Congress Valencia 2009
Programación Optimizada - Search Congress Valencia 2009Programación Optimizada - Search Congress Valencia 2009
Programación Optimizada - Search Congress Valencia 2009ferranbonas
 
Trabajo academico navegadores web jesus javier ochoa verduzco corregido
Trabajo academico navegadores web jesus javier ochoa verduzco corregidoTrabajo academico navegadores web jesus javier ochoa verduzco corregido
Trabajo academico navegadores web jesus javier ochoa verduzco corregidoJesusJavierOchoaVerd
 
Introducción ASP .NET
Introducción ASP .NET Introducción ASP .NET
Introducción ASP .NET Universidad
 
Archivos Por Lotes Arch Log
Archivos Por Lotes Arch LogArchivos Por Lotes Arch Log
Archivos Por Lotes Arch Logguesta5bdb8e
 

Similar a Web Usage Mining (20)

TEMA 1 NAVEGADORES
TEMA 1 NAVEGADORESTEMA 1 NAVEGADORES
TEMA 1 NAVEGADORES
 
Tema 3 unidades 1 y 2
Tema 3 unidades 1 y 2Tema 3 unidades 1 y 2
Tema 3 unidades 1 y 2
 
Los navegadores
Los navegadoresLos navegadores
Los navegadores
 
Los navegadores
Los navegadoresLos navegadores
Los navegadores
 
I N T E R N E T
I N T E R N E TI N T E R N E T
I N T E R N E T
 
Cuadro comparativo de navegadores
Cuadro comparativo de navegadoresCuadro comparativo de navegadores
Cuadro comparativo de navegadores
 
Clientes web
Clientes webClientes web
Clientes web
 
presentación navegador Internet Explorer y buscador Hot Bot
presentación navegador Internet Explorer y buscador Hot Bot presentación navegador Internet Explorer y buscador Hot Bot
presentación navegador Internet Explorer y buscador Hot Bot
 
Taller 3
Taller 3Taller 3
Taller 3
 
Trabajo
TrabajoTrabajo
Trabajo
 
Trabajo
TrabajoTrabajo
Trabajo
 
Internet&amp;navegadores.
Internet&amp;navegadores.Internet&amp;navegadores.
Internet&amp;navegadores.
 
Dispositivas de informatica
Dispositivas de informaticaDispositivas de informatica
Dispositivas de informatica
 
Programación Optimizada - Search Congress Valencia 2009
Programación Optimizada - Search Congress Valencia 2009Programación Optimizada - Search Congress Valencia 2009
Programación Optimizada - Search Congress Valencia 2009
 
Trabajo academico navegadores web jesus javier ochoa verduzco corregido
Trabajo academico navegadores web jesus javier ochoa verduzco corregidoTrabajo academico navegadores web jesus javier ochoa verduzco corregido
Trabajo academico navegadores web jesus javier ochoa verduzco corregido
 
Aleinfo
AleinfoAleinfo
Aleinfo
 
Introducción ASP .NET
Introducción ASP .NET Introducción ASP .NET
Introducción ASP .NET
 
Camila
CamilaCamila
Camila
 
Archivos Por Lotes Arch Log
Archivos Por Lotes Arch LogArchivos Por Lotes Arch Log
Archivos Por Lotes Arch Log
 
Archivos Por Lotes Arch Log
Archivos Por Lotes Arch LogArchivos Por Lotes Arch Log
Archivos Por Lotes Arch Log
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 

Último (20)

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 

Web Usage Mining

  • 1. WEB y TEXT MINING Web Usage MiningJuan Azcurra
  • 2. Web Server Log – Un ejemplo http://www.kdnuggets.com/jobs/ Servidor KDnuggets.com Web server log 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET … HTTP/1.1" 200 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /gps.html HTTP/1.1" 200 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/1.1" 200 … Contenido de la pág.
  • 4. Hit (Request) Analysis  Hit Analysis es el nivel más básico de análisis  Preguntas que responde:  Quiénes (fueron los visitantes)?  IP, Host, Dominio, regiones,  Agentes, Browser, OS, resolución  Cuándo (hicieron la visita)?  Por mes, semana, día de semana, hora, etc.  Qué (visitaron)?  Top 10, entrada/salida, etc.
  • 5. Quién: IP - Hostname  Dirección IP, ej. 200.59.131.142  Puede ser convertido a hostname, ej  pool-200-59-131-142.telecom.com.ar  No siempre el hostname es encontrado (unresolved)  Herramientas interactivas (Reverse DNS lookup)  dnsstuff.com, network-tools.com
  • 6. Top-Level Domains (TLD)  La última parte de un dominio es denominada TLD.  Existen TLD genéricos:  .com  .net  .edu  Otros:  .gov  .mil  .org  Nota: UNR indica unresolved.
  • 7. Top-Level Domain – Country Code ccTLD  Los TLD de 2 letras corresponden a códigos de países  Algunos de los ccTLD más comunes Lista completa: http://en.wikipedia.org/wiki/Country_code_top-level_domain
  • 8. Problemas con los ccTLD  Algunos países pequeños venden sus ccTLD  cc (Cocos Islands)  Cycling clubs, christian church, creative commons, etc.  tv (Tuvalu)  Television  md (Moldova)  Doctor of Medicine
  • 9. Ejemplo: Hits de KDNuggets  Por TLD para Noviembre 2005 No representativo debido a que no se excluyeron los robots
  • 10. Quién: Agente de Usuario  Los exploradores o robots envían un literal “Agente de usuario” que es almacenado en el log.  Ejemplo: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"  Más detalles en:  http://en.wikipedia.org/wiki/User_agent
  • 11. Bots  Un bot (software robot) es un programa que accede a las páginas web.  Existen miles de diferentes bots.  Algunos tienen comportamientos normales, siguen reglas y son fáciles de identificar (Googlebot).  Otros violan las reglas intencionalmente.  Algunos son proyectos de estudiantes, entonces cualquier comportamiento es posible,
  • 12. El análisis de bots puede ser útil  Algún análisis de bots puede ser muy útil, especialmente para SEO (Search Engine Optimization).  Ej. El webmaster puede determinar cuán frecuente Googlebot visita las páginas y cuáles son las páginas no encontradas
  • 13. Análisis de agente: Bot o no?  Los bots “buenos” son claramente identificables  Agentes bots más comunes:  Yahoo: "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)“  Google: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“  Bing: Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)  Agentes que incluyan “bot”, “crawler”, “libwww-perl”, o "Java/"  Agentes que no comiencen con “Mozilla” u “Opera” son generalmente bots (con algunas excepciones)  Lista de bots conocidos: http://www.user-agents.org/
  • 14. Bot o no  Cómo identificarlos?  Compilar una lista de agentes más comunes del web log  Identificar bots obvios  Eliminar todos los hits de bots obvios  Este análisis se debe hacer constantemente…
  • 15. Patrón de nombres en agente  El patrón del explorador puede ser extractado:  Internet Explorer:  Mozilla/MozVer (compatible; MSIE IEVer[; Provider]; Platform[; Extension]*) [Addition]  Ejemplo: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) IE version 6.0, Windows XP SP2
  • 16. Patrón de nombres en agente  Firefox  Mozilla/MozVer (Platform; Security; SubPlatform; Language; rv:Revision[; Extension]*) Gecko/GeckVer Firefox/ProdVer  Ejemplo: "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.12) Gecko/20050920 Firefox/1.0.7" Firefox 1.0.7 en Linux  Más detalles: http://en.wikipedia.org/wiki/User_agent
  • 17. Quién: Resolución de pantalla  Podemos encontrar la resolución más popular en los exploradores  Crear una imagen de 1x1 pixeles  Agregar un código javascript especial a la página que contiene esta imagen con un parámetro que especifique el ancho y alto de la pantalla  Leer del web log esta imagen para analizar los parámetros  Muy útil para el layout y diseño del sitio
  • 18. Quién: Resolución de pantalla Obtener una imaginen x.gif de 1x1 pixel Javascript code (simple version) <SCRIPT LANGUAGE="JavaScript1.1" type="text/javascript"> <!–- document.writeln('<img src=“x.gif?' + 'width=' + screen.width + '&' + 'height=' + screen.height + '">'); // --> </SCRIPT>
  • 19. Quién: Resolución de pantalla Analizar la frecuencia de las solicitudes GET /x.gif?width=nnn&height=hhh Contar los tamaños de pantallas más populares, basado en el número total de pixels  Menos de1024x768  1024x768  1280x1024  1600x1200  Más de 1600x1200
  • 20. Cuándo: Uso por hora  Por hora  Observaciones:  1er. pico a las 6 am (envio de mail KDnuggets News)  2do. pico entre 9-10 am  3er. pico a las 22
  • 21. Cuándo: Uso por día  Por:  Día  Semana  Mes  Etc.  Observaciones:  Pico entre el 8-22 (envio de mailing)  Caida durante fines de semana
  • 22. Qué: Tipos de archivo  Hits, Archivos y Páginas  Tipos de archivos  Páginas HTML:  Estáticas: *.html, *.htm, */ (directorio)  Dinámicas: *.php?*, *.pl?*, *,asp? …  Imágen: *.gif, *.jpg, …  Javascript: *.js  PDF:  …
  • 23. Qué: Primario / Secundario  Una distinción más importante es:  Primario – solicitados directamente por exploradores  Páginas HTML  Páginas no HTML (.pdf, .ppt, .txt, etc)  Componentes – solicitados como parte de una página HTML  Imágen, CSS, Javascript , …  Algunas páginas HTML pueden ser generadas dinamicamente  Páginas especiales  robots.txt, favicon.ico, …
  • 24. Análisis de uso: Entrada / Salida  Top entry y exit pages  Referrers  Internos y externos  Motores de búsqueda  Google, Yahoo, Bing, …  Cadenas de búsqueda  “data mining”  “data mining software”
  • 25. Análisis de uso: Errores  Error 404  Top pages no encontrada  Puede indicar error en el sitios  Error 206 – (Página recuperada parcialmente)  En archivos muy grandes
  • 26. Análisis de uso: Modelado de comportamiento avanzado  Objetivo: Mejorar conversión  Tarjeta de crédito  Clicks en publicidad  La unidad de análisis es el visitante  Combinar las solicitudes referidas dentro de una visita  Combinar las visitas dentro del comportamiento de la Web  Combinar los datos de la web con otros datos para construir modelos