WEB y TEXT MINING
Web Usage MiningJuan Azcurra
Web Server Log – Un ejemplo
http://www.kdnuggets.com/jobs/
Servidor
KDnuggets.com
Web server log
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET … HTTP/1.1" 200
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /gps.html HTTP/1.1" 200
152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/1.1" 200 …
Contenido de la pág.
Web Log Analysis
Behaviour
Visits
Pages
Hits
Hit (Request) Analysis
 Hit Analysis es el nivel más básico de análisis
 Preguntas que responde:
 Quiénes (fueron los visitantes)?
 IP, Host, Dominio, regiones,
 Agentes, Browser, OS, resolución
 Cuándo (hicieron la visita)?
 Por mes, semana, día de semana, hora, etc.
 Qué (visitaron)?
 Top 10, entrada/salida, etc.
Quién: IP - Hostname
 Dirección IP, ej. 200.59.131.142
 Puede ser convertido a hostname, ej
 pool-200-59-131-142.telecom.com.ar
 No siempre el hostname es encontrado
(unresolved)
 Herramientas interactivas (Reverse DNS
lookup)
 dnsstuff.com, network-tools.com
Top-Level Domains (TLD)
 La última parte de un dominio es denominada
TLD.
 Existen TLD genéricos:
 .com
 .net
 .edu
 Otros:
 .gov
 .mil
 .org
 Nota: UNR indica unresolved.
Top-Level Domain – Country Code
ccTLD
 Los TLD de 2 letras corresponden a códigos
de países
 Algunos de los ccTLD más comunes
Lista completa: http://en.wikipedia.org/wiki/Country_code_top-level_domain
Problemas con los ccTLD
 Algunos países pequeños venden sus ccTLD
 cc (Cocos Islands)
 Cycling clubs, christian church, creative commons,
etc.
 tv (Tuvalu)
 Television
 md (Moldova)
 Doctor of Medicine
Ejemplo: Hits de KDNuggets
 Por TLD para Noviembre 2005
No representativo debido a que no se excluyeron los robots
Quién: Agente de Usuario
 Los exploradores o robots envían un literal
“Agente de usuario” que es almacenado en el
log.
 Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows
NT 5.1; SV1; .NET CLR 1.1.4322)"
 Más detalles en:
 http://en.wikipedia.org/wiki/User_agent
Bots
 Un bot (software robot) es un programa que
accede a las páginas web.
 Existen miles de diferentes bots.
 Algunos tienen comportamientos normales,
siguen reglas y son fáciles de identificar
(Googlebot).
 Otros violan las reglas intencionalmente.
 Algunos son proyectos de estudiantes,
entonces cualquier comportamiento es
posible,
El análisis de bots puede ser
útil
 Algún análisis de bots puede ser muy útil,
especialmente para SEO (Search Engine
Optimization).
 Ej. El webmaster puede determinar cuán
frecuente Googlebot visita las páginas y cuáles
son las páginas no encontradas
Análisis de agente: Bot o no?
 Los bots “buenos” son claramente
identificables
 Agentes bots más comunes:
 Yahoo: "Mozilla/5.0 (compatible; Yahoo! Slurp;
http://help.yahoo.com/help/us/ysearch/slurp)“
 Google: Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)“
 Bing: Mozilla/5.0 (compatible; bingbot/2.0;
+http://www.bing.com/bingbot.htm)
 Agentes que incluyan “bot”, “crawler”, “libwww-perl”, o "Java/"
 Agentes que no comiencen con “Mozilla” u “Opera” son
generalmente bots (con algunas excepciones)
 Lista de bots conocidos: http://www.user-agents.org/
Bot o no
 Cómo identificarlos?
 Compilar una lista de agentes más comunes del
web log
 Identificar bots obvios
 Eliminar todos los hits de bots obvios
 Este análisis se debe hacer constantemente…
Patrón de nombres en agente
 El patrón del explorador puede ser extractado:
 Internet Explorer:
 Mozilla/MozVer (compatible; MSIE IEVer[;
Provider]; Platform[; Extension]*) [Addition]
 Ejemplo:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;
SV1)
IE version 6.0, Windows XP SP2
Patrón de nombres en agente
 Firefox
 Mozilla/MozVer (Platform; Security;
SubPlatform; Language; rv:Revision[;
Extension]*) Gecko/GeckVer Firefox/ProdVer
 Ejemplo:
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.12)
Gecko/20050920 Firefox/1.0.7"
Firefox 1.0.7 en Linux
 Más detalles:
http://en.wikipedia.org/wiki/User_agent
Quién: Resolución de pantalla
 Podemos encontrar la resolución más popular
en los exploradores
 Crear una imagen de 1x1 pixeles
 Agregar un código javascript especial a la página
que contiene esta imagen con un parámetro que
especifique el ancho y alto de la pantalla
 Leer del web log esta imagen para analizar los
parámetros
 Muy útil para el layout y diseño del sitio
Quién: Resolución de pantalla
Obtener una imaginen x.gif de 1x1 pixel
Javascript code (simple version)
<SCRIPT LANGUAGE="JavaScript1.1" type="text/javascript">
<!–-
document.writeln('<img src=“x.gif?' + 'width=' + screen.width
+ '&' + 'height=' + screen.height + '">');
// -->
</SCRIPT>
Quién: Resolución de pantalla
Analizar la frecuencia de las
solicitudes
GET /x.gif?width=nnn&height=hhh
Contar los tamaños de pantallas más
populares, basado en el número total de
pixels
 Menos de1024x768
 1024x768
 1280x1024
 1600x1200
 Más de 1600x1200
Cuándo: Uso por hora
 Por hora
 Observaciones:
 1er. pico a las 6 am (envio de mail KDnuggets News)
 2do. pico entre 9-10 am
 3er. pico a las 22
Cuándo: Uso por día
 Por:
 Día
 Semana
 Mes
 Etc.
 Observaciones:
 Pico entre el 8-22 (envio de mailing)
 Caida durante fines de semana
Qué: Tipos de archivo
 Hits, Archivos y Páginas
 Tipos de archivos
 Páginas HTML:
 Estáticas: *.html, *.htm, */ (directorio)
 Dinámicas: *.php?*, *.pl?*, *,asp? …
 Imágen: *.gif, *.jpg, …
 Javascript: *.js
 PDF:
 …
Qué: Primario / Secundario
 Una distinción más importante es:
 Primario – solicitados directamente por exploradores
 Páginas HTML
 Páginas no HTML (.pdf, .ppt, .txt, etc)
 Componentes – solicitados como parte de una
página HTML
 Imágen, CSS, Javascript , …
 Algunas páginas HTML pueden ser generadas
dinamicamente
 Páginas especiales
 robots.txt, favicon.ico, …
Análisis de uso: Entrada /
Salida
 Top entry y exit pages
 Referrers
 Internos y externos
 Motores de búsqueda
 Google, Yahoo, Bing, …
 Cadenas de búsqueda
 “data mining”
 “data mining software”
Análisis de uso: Errores
 Error 404
 Top pages no encontrada
 Puede indicar error en el sitios
 Error 206 – (Página recuperada parcialmente)
 En archivos muy grandes
Análisis de uso: Modelado de
comportamiento avanzado
 Objetivo: Mejorar conversión
 Tarjeta de crédito
 Clicks en publicidad
 La unidad de análisis es el visitante
 Combinar las solicitudes referidas dentro de una
visita
 Combinar las visitas dentro del comportamiento
de la Web
 Combinar los datos de la web con otros datos
para construir modelos

Web Usage Mining

  • 1.
    WEB y TEXTMINING Web Usage MiningJuan Azcurra
  • 2.
    Web Server Log– Un ejemplo http://www.kdnuggets.com/jobs/ Servidor KDnuggets.com Web server log 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET … HTTP/1.1" 200 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /gps.html HTTP/1.1" 200 152.152.98.11 - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/1.1" 200 … Contenido de la pág.
  • 3.
  • 4.
    Hit (Request) Analysis Hit Analysis es el nivel más básico de análisis  Preguntas que responde:  Quiénes (fueron los visitantes)?  IP, Host, Dominio, regiones,  Agentes, Browser, OS, resolución  Cuándo (hicieron la visita)?  Por mes, semana, día de semana, hora, etc.  Qué (visitaron)?  Top 10, entrada/salida, etc.
  • 5.
    Quién: IP -Hostname  Dirección IP, ej. 200.59.131.142  Puede ser convertido a hostname, ej  pool-200-59-131-142.telecom.com.ar  No siempre el hostname es encontrado (unresolved)  Herramientas interactivas (Reverse DNS lookup)  dnsstuff.com, network-tools.com
  • 6.
    Top-Level Domains (TLD) La última parte de un dominio es denominada TLD.  Existen TLD genéricos:  .com  .net  .edu  Otros:  .gov  .mil  .org  Nota: UNR indica unresolved.
  • 7.
    Top-Level Domain –Country Code ccTLD  Los TLD de 2 letras corresponden a códigos de países  Algunos de los ccTLD más comunes Lista completa: http://en.wikipedia.org/wiki/Country_code_top-level_domain
  • 8.
    Problemas con losccTLD  Algunos países pequeños venden sus ccTLD  cc (Cocos Islands)  Cycling clubs, christian church, creative commons, etc.  tv (Tuvalu)  Television  md (Moldova)  Doctor of Medicine
  • 9.
    Ejemplo: Hits deKDNuggets  Por TLD para Noviembre 2005 No representativo debido a que no se excluyeron los robots
  • 10.
    Quién: Agente deUsuario  Los exploradores o robots envían un literal “Agente de usuario” que es almacenado en el log.  Ejemplo: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"  Más detalles en:  http://en.wikipedia.org/wiki/User_agent
  • 11.
    Bots  Un bot(software robot) es un programa que accede a las páginas web.  Existen miles de diferentes bots.  Algunos tienen comportamientos normales, siguen reglas y son fáciles de identificar (Googlebot).  Otros violan las reglas intencionalmente.  Algunos son proyectos de estudiantes, entonces cualquier comportamiento es posible,
  • 12.
    El análisis debots puede ser útil  Algún análisis de bots puede ser muy útil, especialmente para SEO (Search Engine Optimization).  Ej. El webmaster puede determinar cuán frecuente Googlebot visita las páginas y cuáles son las páginas no encontradas
  • 13.
    Análisis de agente:Bot o no?  Los bots “buenos” son claramente identificables  Agentes bots más comunes:  Yahoo: "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)“  Google: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“  Bing: Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)  Agentes que incluyan “bot”, “crawler”, “libwww-perl”, o "Java/"  Agentes que no comiencen con “Mozilla” u “Opera” son generalmente bots (con algunas excepciones)  Lista de bots conocidos: http://www.user-agents.org/
  • 14.
    Bot o no Cómo identificarlos?  Compilar una lista de agentes más comunes del web log  Identificar bots obvios  Eliminar todos los hits de bots obvios  Este análisis se debe hacer constantemente…
  • 15.
    Patrón de nombresen agente  El patrón del explorador puede ser extractado:  Internet Explorer:  Mozilla/MozVer (compatible; MSIE IEVer[; Provider]; Platform[; Extension]*) [Addition]  Ejemplo: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) IE version 6.0, Windows XP SP2
  • 16.
    Patrón de nombresen agente  Firefox  Mozilla/MozVer (Platform; Security; SubPlatform; Language; rv:Revision[; Extension]*) Gecko/GeckVer Firefox/ProdVer  Ejemplo: "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.12) Gecko/20050920 Firefox/1.0.7" Firefox 1.0.7 en Linux  Más detalles: http://en.wikipedia.org/wiki/User_agent
  • 17.
    Quién: Resolución depantalla  Podemos encontrar la resolución más popular en los exploradores  Crear una imagen de 1x1 pixeles  Agregar un código javascript especial a la página que contiene esta imagen con un parámetro que especifique el ancho y alto de la pantalla  Leer del web log esta imagen para analizar los parámetros  Muy útil para el layout y diseño del sitio
  • 18.
    Quién: Resolución depantalla Obtener una imaginen x.gif de 1x1 pixel Javascript code (simple version) <SCRIPT LANGUAGE="JavaScript1.1" type="text/javascript"> <!–- document.writeln('<img src=“x.gif?' + 'width=' + screen.width + '&' + 'height=' + screen.height + '">'); // --> </SCRIPT>
  • 19.
    Quién: Resolución depantalla Analizar la frecuencia de las solicitudes GET /x.gif?width=nnn&height=hhh Contar los tamaños de pantallas más populares, basado en el número total de pixels  Menos de1024x768  1024x768  1280x1024  1600x1200  Más de 1600x1200
  • 20.
    Cuándo: Uso porhora  Por hora  Observaciones:  1er. pico a las 6 am (envio de mail KDnuggets News)  2do. pico entre 9-10 am  3er. pico a las 22
  • 21.
    Cuándo: Uso pordía  Por:  Día  Semana  Mes  Etc.  Observaciones:  Pico entre el 8-22 (envio de mailing)  Caida durante fines de semana
  • 22.
    Qué: Tipos dearchivo  Hits, Archivos y Páginas  Tipos de archivos  Páginas HTML:  Estáticas: *.html, *.htm, */ (directorio)  Dinámicas: *.php?*, *.pl?*, *,asp? …  Imágen: *.gif, *.jpg, …  Javascript: *.js  PDF:  …
  • 23.
    Qué: Primario /Secundario  Una distinción más importante es:  Primario – solicitados directamente por exploradores  Páginas HTML  Páginas no HTML (.pdf, .ppt, .txt, etc)  Componentes – solicitados como parte de una página HTML  Imágen, CSS, Javascript , …  Algunas páginas HTML pueden ser generadas dinamicamente  Páginas especiales  robots.txt, favicon.ico, …
  • 24.
    Análisis de uso:Entrada / Salida  Top entry y exit pages  Referrers  Internos y externos  Motores de búsqueda  Google, Yahoo, Bing, …  Cadenas de búsqueda  “data mining”  “data mining software”
  • 25.
    Análisis de uso:Errores  Error 404  Top pages no encontrada  Puede indicar error en el sitios  Error 206 – (Página recuperada parcialmente)  En archivos muy grandes
  • 26.
    Análisis de uso:Modelado de comportamiento avanzado  Objetivo: Mejorar conversión  Tarjeta de crédito  Clicks en publicidad  La unidad de análisis es el visitante  Combinar las solicitudes referidas dentro de una visita  Combinar las visitas dentro del comportamiento de la Web  Combinar los datos de la web con otros datos para construir modelos