WEB USAGE MINING
Log file DataMining Tools


                     Minería Web
                     Universidad de Salamanca

                     Arturo San Feliciano Martín
2




Índice

     1   • Introducción
     2   • AlterWind
     3   • Analog
     4   • Comparativa
     5   • Conclusiones
3




Introducción
• La minería web se divide en                                Minería
  tres áreas principales:                      Minería       de Uso
                                                 de
   • Minería de contenido                                     Web
                                              contenido
   • Minería de estructura
   • Minería de uso


• Este trabajo se encuentra en                      Minería de
                                                    Estructura
  el ámbito de la Minería de uso


• La minería de uso web es el descubrimiento de patrones nuevos,
 útiles e interpretables a partir de datos generados de
 transacciones cliente-servidor sobre uno o más servidores Web.

• La minería de uso permite, entre otras:
   • Mejorar la navegación de usuario
   • Aumentar las visibilidad de
   • Descubrir patrones de navegación
4




Introducción
• ¿Como?
  • Utilización de algoritmos de minería de datos sobre los ficheros de
    log de los servidores


• Estándares y punto de partida
  • Existe definidos varios estándares principales en el formato de
    ficheros de registro:
       •   W3C
       •   IIS
       •   NCSA
       •   Centralized Binary Logging
       •   ODBC


• El formato mas extendido es el descrito por la W3C
5




Introducción
• W3C Extended log file format
  • Remote host
  • Remote logname
  • Username para la autenticación
  • Fecha y hora de la petición
  • Código del estado HTTP
  • Número de bytes transferidos
  • URL del servidor consultado
  • Nombre y versión del cliente
  • Campos adicionales, como cookies.
6




Índice

     1   • Introducción
     2   • AlterWind
     3   • Analog
     4   • Comparativa
     5   • Conclusiones
7




AlterWind
• Disponible en 3 versiones
   • Lite (Open Source)
   • Estándar
   • Profesional


• Características:
   • Base de datos de AlterWind Log Analyzer contiene más de 430 motores de búsqueda.
   • El análisis de los archivos de registro de cualquier formato: Apache Log Analyzer, analizador
     de registro de IIS, etc.
   • El programa de análisis de trafico de un sitio web detecta automáticamente los ficheros de log
     que cumplan con el estándar de los servidores IIS y Apache web (Apache Common y
     combined).
   • Análisis simultáneo de un gran número de ficheros de log de servidores web. Los archivos
     de log pueden ser de diferentes formatos y pueden provenir de diferentes servidores Web. Esto
     permite el análisis de servidores web en clúster o con topologías complejas.
   • Completa personalización de informes. Puede cambiar el diseño de informes, personalizar los
     datos que aparecen o ajustar el volumen de los datos del informe.

• Técnicas de minería:
   • Preprocesado de datos mediante filtering
   • Sincronización de ficheros de log
   • Transformaciones para el calculo de rutas y sesionización e identificación de usuarios
8




AlterWind
• Informes OOTB:
9




AlterWind
• Screenshots
10




Índice

     1   • Introducción
     2   • AlterWind
     3   • Analog
     4   • Comparativa
     5   • Conclusiones
11




Analog
• Desarrollo Open Source


• Características:
  • Generación de reportes “Ultra-fast"
  • Escalable
  • Muy personalizable mediante ficheros de configuración
  • Genera reportes en 32 lenguajes
  • Funciona sobre cualquier sistema operativo - El código fuente está
    desarrollando en standard C
  • Licenciado bajo Open Source


• Técnicas de minería:
   • Preprocesado de datos mediante filtering
   • Muestreo y cálculos estadísticos.
12




Analog
• Informes OOTB:
   • General Summary: Esta sección incluye las estadísticas generales sobre los datos que se han
      analizado. Los datos más importantes de esta sección es el número de peticiones recibidas, peticiones
      por página, numero de distintos hosts y tamaño de las tramas recibidas.

   • Time reports: en este apartado se representan la información de manera dimensional, teniendo en
      cuenta la dimensión temporal para la contabilización.

   • Other reports: en este apartado se muestran otros informes de interés como por ejemplo los ficheros
      que más veces han sido accedidos. Adicionalmente se incorporan los siguientes informes:
       •   Listado de Hosts que han descargado ficheros del servidor web.
       •   Listado de países donde vienen las peticiones.
       •   Listado de organizaciones
       •   Informe de redirecciones y errores
       •   Listado de tipos de fichero.
       •   Información por tamaño de descarga
       •   Información sobre el procesado mostrando el tiempo de descarga por fichero.
       •   Listado de páginas que linkan a páginas de este server (Referrer)
       •   Informe sobre búsquedas que muestra las palabras utilizadas en buscadores para localizar la web
       •   Informe sobre broken links
       •   Información sobre los navegadores utilizados para acceder a la web
       •   Listado de sistemas operativos utilizados para navegar en la web
       •   Listado de la actividad por Virtual Host
       •   Información de la actividad de redirecciones en los virtual host
       •   Informes sobre los visitantes (basado en cookies, sesión IDs)
       •   Informe de las peticiones recibidas por cada código de estado HTTP.
13




Analog
• Screenshots
14




Índice

     1   • Introducción
     2   • AlterWind
     3   • Analog
     4   • Comparativa
     5   • Conclusiones
15




Comparativa
• Una vez estudiadas las características de los dos productos elegidos, se ha realizado
  pruebas de uso sobre ficheros de log con datos obtenidos de un servidor HTTP de un
  entorno de desarrollo corporativo con el fin de observar diferentes características en los
  productos.

• Como se puede apreciar, Analog es un desarrollo más sencillo y totalmente open Source,
  mientras que el producto de AlterWind tiene versión lite pero nos ofrece limitaciones
  sobre los informes que solo son accesibles con la versión profesional.

• Cabe destacar que AlterWind tiene una interfaz de usuario que facilita mucho su uso y
  su configuración, sin embargo Analog toda la personalización se realiza a través de
  ficheros de propiedades y configuración, algo que es un poco pesado a la hora de
  realizar una configuración inicial que sea distinta a la "default".

• Otro punto a favor del producto AlterWind es que permite generar informes de múltiples
  sitios al mismo tiempo mientras que Analog solo puede crear un informe por fichero de log.
  Sin embargo, los informes generados por AlterWind son menos visuales (gráficos) que los
  generados mediante Analog.

• Para finalizar la comparativa, cabe destacar que el producto AlterWind realiza tareas
  propias de minería de datos que Analog no realiza como son la sincronización de datos de
  varios servidores o sesionizacion. Analog se queda en transformaciones mas sencillas,
  también disponibles con AlterWind, como identificación de visitas, muestreo y reducción de
  la dimensionalidad.
16




Índice

     1   • Introducción
     2   • AlterWind
     3   • Analog
     4   • Comparativa
     5   • Conclusiones
17




Conclusiones
 • No existe una herramienta que realice minería de datos pura sobre los ficheros
  de log de servidor. Las herramientas estudiadas, generan información
  importante, pero no cubren todo el ciclo del proceso de minería. Ninguno de
  los aplicativos investigados llega a realizar análisis de los patrones de
  navegación. Quizás sea un nicho donde se puede trabajar.

 • Ambas herramientas son buenas y permiten conocer y detectar situaciones no
  deseadas y actuar sobre ellas. Podemos ver, con un enfoque más o menos
  preciso, el uso que se le da a los recursos alojados en el servidor HTTP

 • Aunque he visto un gran número de herramientas de explotación de ficheros
  de Log, creo que este campo está muy poco avanzado. También opino que
  quizás esté motivado todo por el protocolo HTTP y sus limitaciones.

 • Los productos no soy muy trasparentes a la hora de mostrar como funcionan a
  bajo nivel, es complicado determinar los algoritmos y técnicas que utilizan
  en los aspectos de minería.

 • Para completar este trabajo se debería analizar alguna opción de pago para
  estudiar el potencial de este tipo de soluciones.
18
19




¿Dudas?

    Minería Web
    Master en Sistemas Inteligentes

    Universidad de Salamanca



    Arturo San Feliciano Martín
    asanfeliciano@usal.es

Web usage mining tools

  • 1.
    WEB USAGE MINING Logfile DataMining Tools Minería Web Universidad de Salamanca Arturo San Feliciano Martín
  • 2.
    2 Índice 1 • Introducción 2 • AlterWind 3 • Analog 4 • Comparativa 5 • Conclusiones
  • 3.
    3 Introducción • La mineríaweb se divide en Minería tres áreas principales: Minería de Uso de • Minería de contenido Web contenido • Minería de estructura • Minería de uso • Este trabajo se encuentra en Minería de Estructura el ámbito de la Minería de uso • La minería de uso web es el descubrimiento de patrones nuevos, útiles e interpretables a partir de datos generados de transacciones cliente-servidor sobre uno o más servidores Web. • La minería de uso permite, entre otras: • Mejorar la navegación de usuario • Aumentar las visibilidad de • Descubrir patrones de navegación
  • 4.
    4 Introducción • ¿Como? • Utilización de algoritmos de minería de datos sobre los ficheros de log de los servidores • Estándares y punto de partida • Existe definidos varios estándares principales en el formato de ficheros de registro: • W3C • IIS • NCSA • Centralized Binary Logging • ODBC • El formato mas extendido es el descrito por la W3C
  • 5.
    5 Introducción • W3C Extendedlog file format • Remote host • Remote logname • Username para la autenticación • Fecha y hora de la petición • Código del estado HTTP • Número de bytes transferidos • URL del servidor consultado • Nombre y versión del cliente • Campos adicionales, como cookies.
  • 6.
    6 Índice 1 • Introducción 2 • AlterWind 3 • Analog 4 • Comparativa 5 • Conclusiones
  • 7.
    7 AlterWind • Disponible en3 versiones • Lite (Open Source) • Estándar • Profesional • Características: • Base de datos de AlterWind Log Analyzer contiene más de 430 motores de búsqueda. • El análisis de los archivos de registro de cualquier formato: Apache Log Analyzer, analizador de registro de IIS, etc. • El programa de análisis de trafico de un sitio web detecta automáticamente los ficheros de log que cumplan con el estándar de los servidores IIS y Apache web (Apache Common y combined). • Análisis simultáneo de un gran número de ficheros de log de servidores web. Los archivos de log pueden ser de diferentes formatos y pueden provenir de diferentes servidores Web. Esto permite el análisis de servidores web en clúster o con topologías complejas. • Completa personalización de informes. Puede cambiar el diseño de informes, personalizar los datos que aparecen o ajustar el volumen de los datos del informe. • Técnicas de minería: • Preprocesado de datos mediante filtering • Sincronización de ficheros de log • Transformaciones para el calculo de rutas y sesionización e identificación de usuarios
  • 8.
  • 9.
  • 10.
    10 Índice 1 • Introducción 2 • AlterWind 3 • Analog 4 • Comparativa 5 • Conclusiones
  • 11.
    11 Analog • Desarrollo OpenSource • Características: • Generación de reportes “Ultra-fast" • Escalable • Muy personalizable mediante ficheros de configuración • Genera reportes en 32 lenguajes • Funciona sobre cualquier sistema operativo - El código fuente está desarrollando en standard C • Licenciado bajo Open Source • Técnicas de minería: • Preprocesado de datos mediante filtering • Muestreo y cálculos estadísticos.
  • 12.
    12 Analog • Informes OOTB: • General Summary: Esta sección incluye las estadísticas generales sobre los datos que se han analizado. Los datos más importantes de esta sección es el número de peticiones recibidas, peticiones por página, numero de distintos hosts y tamaño de las tramas recibidas. • Time reports: en este apartado se representan la información de manera dimensional, teniendo en cuenta la dimensión temporal para la contabilización. • Other reports: en este apartado se muestran otros informes de interés como por ejemplo los ficheros que más veces han sido accedidos. Adicionalmente se incorporan los siguientes informes: • Listado de Hosts que han descargado ficheros del servidor web. • Listado de países donde vienen las peticiones. • Listado de organizaciones • Informe de redirecciones y errores • Listado de tipos de fichero. • Información por tamaño de descarga • Información sobre el procesado mostrando el tiempo de descarga por fichero. • Listado de páginas que linkan a páginas de este server (Referrer) • Informe sobre búsquedas que muestra las palabras utilizadas en buscadores para localizar la web • Informe sobre broken links • Información sobre los navegadores utilizados para acceder a la web • Listado de sistemas operativos utilizados para navegar en la web • Listado de la actividad por Virtual Host • Información de la actividad de redirecciones en los virtual host • Informes sobre los visitantes (basado en cookies, sesión IDs) • Informe de las peticiones recibidas por cada código de estado HTTP.
  • 13.
  • 14.
    14 Índice 1 • Introducción 2 • AlterWind 3 • Analog 4 • Comparativa 5 • Conclusiones
  • 15.
    15 Comparativa • Una vezestudiadas las características de los dos productos elegidos, se ha realizado pruebas de uso sobre ficheros de log con datos obtenidos de un servidor HTTP de un entorno de desarrollo corporativo con el fin de observar diferentes características en los productos. • Como se puede apreciar, Analog es un desarrollo más sencillo y totalmente open Source, mientras que el producto de AlterWind tiene versión lite pero nos ofrece limitaciones sobre los informes que solo son accesibles con la versión profesional. • Cabe destacar que AlterWind tiene una interfaz de usuario que facilita mucho su uso y su configuración, sin embargo Analog toda la personalización se realiza a través de ficheros de propiedades y configuración, algo que es un poco pesado a la hora de realizar una configuración inicial que sea distinta a la "default". • Otro punto a favor del producto AlterWind es que permite generar informes de múltiples sitios al mismo tiempo mientras que Analog solo puede crear un informe por fichero de log. Sin embargo, los informes generados por AlterWind son menos visuales (gráficos) que los generados mediante Analog. • Para finalizar la comparativa, cabe destacar que el producto AlterWind realiza tareas propias de minería de datos que Analog no realiza como son la sincronización de datos de varios servidores o sesionizacion. Analog se queda en transformaciones mas sencillas, también disponibles con AlterWind, como identificación de visitas, muestreo y reducción de la dimensionalidad.
  • 16.
    16 Índice 1 • Introducción 2 • AlterWind 3 • Analog 4 • Comparativa 5 • Conclusiones
  • 17.
    17 Conclusiones • Noexiste una herramienta que realice minería de datos pura sobre los ficheros de log de servidor. Las herramientas estudiadas, generan información importante, pero no cubren todo el ciclo del proceso de minería. Ninguno de los aplicativos investigados llega a realizar análisis de los patrones de navegación. Quizás sea un nicho donde se puede trabajar. • Ambas herramientas son buenas y permiten conocer y detectar situaciones no deseadas y actuar sobre ellas. Podemos ver, con un enfoque más o menos preciso, el uso que se le da a los recursos alojados en el servidor HTTP • Aunque he visto un gran número de herramientas de explotación de ficheros de Log, creo que este campo está muy poco avanzado. También opino que quizás esté motivado todo por el protocolo HTTP y sus limitaciones. • Los productos no soy muy trasparentes a la hora de mostrar como funcionan a bajo nivel, es complicado determinar los algoritmos y técnicas que utilizan en los aspectos de minería. • Para completar este trabajo se debería analizar alguna opción de pago para estudiar el potencial de este tipo de soluciones.
  • 18.
  • 19.
    19 ¿Dudas? Minería Web Master en Sistemas Inteligentes Universidad de Salamanca Arturo San Feliciano Martín asanfeliciano@usal.es