4. Hit (Request) Analysis
Hit Analysis es el nivel más básico de análisis
Preguntas que responde:
Quiénes (fueron los visitantes)?
IP, Host, Dominio, regiones,
Agentes, Browser, OS, resolución
Cuándo (hicieron la visita)?
Por mes, semana, día de semana, hora, etc.
Qué (visitaron)?
Top 10, entrada/salida, etc.
5. Quién: IP - Hostname
Dirección IP, ej. 200.59.131.142
Puede ser convertido a hostname, ej
pool-200-59-131-142.telecom.com.ar
No siempre el hostname es encontrado
(unresolved)
Herramientas interactivas (Reverse DNS
lookup)
dnsstuff.com, network-tools.com
6. Top-Level Domains (TLD)
La última parte de un dominio es denominada
TLD.
Existen TLD genéricos:
.com
.net
.edu
Otros:
.gov
.mil
.org
Nota: UNR indica unresolved.
7. Top-Level Domain – Country Code
ccTLD
Los TLD de 2 letras corresponden a códigos
de países
Algunos de los ccTLD más comunes
Lista completa: http://en.wikipedia.org/wiki/Country_code_top-level_domain
8. Problemas con los ccTLD
Algunos países pequeños venden sus ccTLD
cc (Cocos Islands)
Cycling clubs, christian church, creative commons,
etc.
tv (Tuvalu)
Television
md (Moldova)
Doctor of Medicine
9. Ejemplo: Hits de KDNuggets
Por TLD para Noviembre 2005
No representativo debido a que no se excluyeron los robots
10. Quién: Agente de Usuario
Los exploradores o robots envían un literal
“Agente de usuario” que es almacenado en el
log.
Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows
NT 5.1; SV1; .NET CLR 1.1.4322)"
Más detalles en:
http://en.wikipedia.org/wiki/User_agent
11. Bots
Un bot (software robot) es un programa que
accede a las páginas web.
Existen miles de diferentes bots.
Algunos tienen comportamientos normales,
siguen reglas y son fáciles de identificar
(Googlebot).
Otros violan las reglas intencionalmente.
Algunos son proyectos de estudiantes,
entonces cualquier comportamiento es
posible,
12. El análisis de bots puede ser
útil
Algún análisis de bots puede ser muy útil,
especialmente para SEO (Search Engine
Optimization).
Ej. El webmaster puede determinar cuán
frecuente Googlebot visita las páginas y cuáles
son las páginas no encontradas
13. Análisis de agente: Bot o no?
Los bots “buenos” son claramente
identificables
Agentes bots más comunes:
Yahoo: "Mozilla/5.0 (compatible; Yahoo! Slurp;
http://help.yahoo.com/help/us/ysearch/slurp)“
Google: Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)“
Bing: Mozilla/5.0 (compatible; bingbot/2.0;
+http://www.bing.com/bingbot.htm)
Agentes que incluyan “bot”, “crawler”, “libwww-perl”, o "Java/"
Agentes que no comiencen con “Mozilla” u “Opera” son
generalmente bots (con algunas excepciones)
Lista de bots conocidos: http://www.user-agents.org/
14. Bot o no
Cómo identificarlos?
Compilar una lista de agentes más comunes del
web log
Identificar bots obvios
Eliminar todos los hits de bots obvios
Este análisis se debe hacer constantemente…
15. Patrón de nombres en agente
El patrón del explorador puede ser extractado:
Internet Explorer:
Mozilla/MozVer (compatible; MSIE IEVer[;
Provider]; Platform[; Extension]*) [Addition]
Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;
SV1)
IE version 6.0, Windows XP SP2
16. Patrón de nombres en agente
Firefox
Mozilla/MozVer (Platform; Security;
SubPlatform; Language; rv:Revision[;
Extension]*) Gecko/GeckVer Firefox/ProdVer
Ejemplo:
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.12)
Gecko/20050920 Firefox/1.0.7"
Firefox 1.0.7 en Linux
Más detalles:
http://en.wikipedia.org/wiki/User_agent
17. Quién: Resolución de pantalla
Podemos encontrar la resolución más popular
en los exploradores
Crear una imagen de 1x1 pixeles
Agregar un código javascript especial a la página
que contiene esta imagen con un parámetro que
especifique el ancho y alto de la pantalla
Leer del web log esta imagen para analizar los
parámetros
Muy útil para el layout y diseño del sitio
19. Quién: Resolución de pantalla
Analizar la frecuencia de las
solicitudes
GET /x.gif?width=nnn&height=hhh
Contar los tamaños de pantallas más
populares, basado en el número total de
pixels
Menos de1024x768
1024x768
1280x1024
1600x1200
Más de 1600x1200
20. Cuándo: Uso por hora
Por hora
Observaciones:
1er. pico a las 6 am (envio de mail KDnuggets News)
2do. pico entre 9-10 am
3er. pico a las 22
21. Cuándo: Uso por día
Por:
Día
Semana
Mes
Etc.
Observaciones:
Pico entre el 8-22 (envio de mailing)
Caida durante fines de semana
23. Qué: Primario / Secundario
Una distinción más importante es:
Primario – solicitados directamente por exploradores
Páginas HTML
Páginas no HTML (.pdf, .ppt, .txt, etc)
Componentes – solicitados como parte de una
página HTML
Imágen, CSS, Javascript , …
Algunas páginas HTML pueden ser generadas
dinamicamente
Páginas especiales
robots.txt, favicon.ico, …
24. Análisis de uso: Entrada /
Salida
Top entry y exit pages
Referrers
Internos y externos
Motores de búsqueda
Google, Yahoo, Bing, …
Cadenas de búsqueda
“data mining”
“data mining software”
25. Análisis de uso: Errores
Error 404
Top pages no encontrada
Puede indicar error en el sitios
Error 206 – (Página recuperada parcialmente)
En archivos muy grandes
26. Análisis de uso: Modelado de
comportamiento avanzado
Objetivo: Mejorar conversión
Tarjeta de crédito
Clicks en publicidad
La unidad de análisis es el visitante
Combinar las solicitudes referidas dentro de una
visita
Combinar las visitas dentro del comportamiento
de la Web
Combinar los datos de la web con otros datos
para construir modelos