SlideShare una empresa de Scribd logo
1 de 6
ENTREGABLE


UNIMAGDALENA
INGENIERÍA DEL CONOCIMIENTO
DATAMINING – WEBMIMING

Proyecto Final: Para entregar y exponer 21 de Noviembre de 2009. Entregar CD.

SOFTWARE LIBRE A UTILIZAR: Analog y Weka

OBJETO DE ESTUDIO

ESTABLECIMIENTO DE PREFERENCIAS DE LOS USUARIOS DEL PORTAL
DE UNA EMPRESA O UNIVERSIDAD DEL PAIS.


Metodología
inicio




       Log del
       servidor
                       información suministrada
                            por el servidor

                        El log tiene información
       Limpieza         redundante y repetitiva,
      Data clean       esta información se elimina
                                  del log



                       Se sacan sesiones de
     Sesiones de
                          usuario para su
       usuario
                           identificación.




                       En este proceso se aplica
      Algoritmo        el algoritmo de reglas de
   AprioriPredictivo
                        asociación para sacar
                               patrones.




       Reglas
                        Reglas generadas por el
                               algoritmo




      Informe de
                          Interpretación de las reglas
      resultados




         FIN




Archivos a utilizar

 Selección de los Datos. Los datos seleccionados son Logs producidos por el servidor Web
de la UNA EMPRESA O UNIVERSIDAD DEL PAIS. Toda esta información es
suministrada gracias al servidor, donde con un debido tratamiento, es utilizada para extraer
información interesante. Los datos trabajados para el desarrollo de este trabajo pueden ser
del mes de cualquier del año 2008.

Limpieza del log. El Log contiene información redundante imposibilitando el hecho de
extraer información útil, realizar un procedimiento de limpieza, donde la información
redundante y repetitiva es eliminada.

Ejemplo de un Log Típico
Pre-procesamiento

Tome el archivo de datos y conviértalo en un archivo .arff (puede utilizar WEKA como
herramienta intermedia para lograr este propósito)
Una vez realizado el preprocesamiento de los datos, los Logs de acceso son divididos en
diferentes sesiones, donde cada sesión agrupa los requerimientos de un usuario en un sitio
Web en forma secuencial.
Para obtener las sesiones de usuario, se tomo la dirección IP que se encuentra en el log del
servidor, cada dirección IP hace referencia a un usuario

Algoritmo a priori predictivo. Proceso donde el algoritmo seleccionado de Reglas de
Asociación A priori predictivo es aplicado con el fin de lograr extraer patrones de
comportamiento de uso del portal objeto de estudio.

Reglas. Son los patrones de conocimiento obtenidos una que el algoritmo a priori fue
aplicado.

Informe de Resultados. Las reglas obtenidas deberán ser interpretadas y analizadas.

El proceso comienza con un conjunto de datos procedentes de la interacción del usuario con
el sitio el cual aloja toda esta información en el Log del servidor de la web de la empresa
escogida.

En la etapa de la limpieza (Data Clean), algunos de los datos que contiene el Log, no son
útiles para la generación de las reglas, por lo tanto solo se toman en cuenta aquellos que son
relevantes. En este caso los datos que son extraídos con información importante para las
sesiones de usuario y la aplicación de las reglas de asociación son: la dirección IP, Fecha,
URL.

Una de las etapas de mayor importancia para desarrollo del presente trabajo es la de sesión
de usuarios, ya que identifica los usuarios conociendo su comportamiento en la Intranet.
Una vez aplicado el algoritmo el nos genera las reglas con un nivel de confianza y con un
soporte demostrando así su fortaleza y finalizando con la generación de un informe de
datos interpretada para la fácil comprensión de los usuarios.

CAPTURA DE REQUERIMIENTOS

Casos de Uso de la Aplicación. A continuación se describe uno de los diagramas que
globaliza de modo general la aplicación, en el cual se encuentra el usuario como único
participante, este a su vez actúa con el entorno presentado el cual facilita un entendimiento
de lo que se quiere plantear, desde que el usuario inserta el Log a la aplicación hasta la
salida de los resultados obtenidos por las reglas de asociación, en el transcurso de esta
operación se crean reportes de patrones, se obtienen sesiones de usuario y se procesa el log,




Caso de Uso “Aplicación”
Actores y Casos de uso

                 Actores                    Casos de uso
   •   Usuario                 •    Insertar Log
                               •    Limpiar Log
                               •    Sesiones de usuario
                               •    Aplicar búsqueda de información
                               •    Pide reporte de patrones de
                                    información

REGLAS DE ASOCIACION SECUENCIALES
Utilice el algoritmo a priori del ANALOG para construir patrones de comportamiento de
los usuarios de UNIMAGDALENA.
Para ello, vamos a ver que reglas de asociación interesantes podemos extraer de estos
atributos. Para ejecutar los métodos en Weka de reglas de asociaciación, seleccionamos la
ventana de associate.
Entre otros, este sistema de minería de datos provee el paquete
“WEKA.associations.Apriori” que contiene la implementación del algoritmo de aprendizaje
de reglas de asociación Apriori. Podemos configurar este algoritmo con varias opciones:
con la opción “UpperBoundMinSupport” indicamos el límite superior de cobertura
requerido para aceptar un conjunto de ítems. Si no se encuentran conjuntos de ítems
suficientes para generar las reglas requeridas se va disminuyendo el límite hasta llegar al
límite inferior (opción “LowerBoundMinSupport”). Con la opción “minMetric” indicamos
la confianza mínima (u otras métricas dependiendo del criterio de ordenación) para mostrar
una regla de asociación; y con la opción “numRules” indicamos el número de reglas que
deseamos que aparezcan en pantalla. La ordenación de estas reglas en pantalla puede
configurarse mediante la opción “MetricType”, algunas opciones que se pueden utilizar
son: confianza de la regla, lift (confianza divido por el número de ejemplos cubiertos por la
parte derecha de la regla), y otras más elaboradas.

Reglas

1) Este es un trabajo que conlleva una parte de INVESTIGACIÓN. Consulte la
   información que Ud no sepa sobre ANALOG, reglas de asociación en la Internet o en
   libros de dataminig.

Más contenido relacionado

Similar a Trabajo Final[1]

Articulo análisis y diseño de sistemas
Articulo análisis y diseño de sistemasArticulo análisis y diseño de sistemas
Articulo análisis y diseño de sistemas
Mario J Arrieta
 
Articulo de análisis y diseño de sistemas
Articulo de análisis y diseño de sistemasArticulo de análisis y diseño de sistemas
Articulo de análisis y diseño de sistemas
Mario J Arrieta
 
Análisis y diseño de sistemas
Análisis y diseño de sistemas Análisis y diseño de sistemas
Análisis y diseño de sistemas
Kimi Garcia
 

Similar a Trabajo Final[1] (20)

ShirleyZabalaMapaConceptual
ShirleyZabalaMapaConceptualShirleyZabalaMapaConceptual
ShirleyZabalaMapaConceptual
 
Administración de redes
Administración de redesAdministración de redes
Administración de redes
 
Sistema de ventas, compras y almacén
Sistema de ventas, compras y almacénSistema de ventas, compras y almacén
Sistema de ventas, compras y almacén
 
Articulo análisis y diseño de sistemas
Articulo análisis y diseño de sistemasArticulo análisis y diseño de sistemas
Articulo análisis y diseño de sistemas
 
Ciclo De Vida
Ciclo De VidaCiclo De Vida
Ciclo De Vida
 
Articulo de análisis y diseño de sistemas
Articulo de análisis y diseño de sistemasArticulo de análisis y diseño de sistemas
Articulo de análisis y diseño de sistemas
 
4 merilya (funcionalidades)
4 merilya (funcionalidades)4 merilya (funcionalidades)
4 merilya (funcionalidades)
 
Ciclo de aplicaciones
Ciclo de aplicacionesCiclo de aplicaciones
Ciclo de aplicaciones
 
Diapositivas blogger
Diapositivas bloggerDiapositivas blogger
Diapositivas blogger
 
Diapositivas blogger
Diapositivas bloggerDiapositivas blogger
Diapositivas blogger
 
Diapositivas blogger
Diapositivas bloggerDiapositivas blogger
Diapositivas blogger
 
Trabajo grupal flavio cosme eldin junior
Trabajo grupal flavio cosme eldin juniorTrabajo grupal flavio cosme eldin junior
Trabajo grupal flavio cosme eldin junior
 
Trabajo grupal flavio cosme eldin junior
Trabajo grupal flavio cosme eldin juniorTrabajo grupal flavio cosme eldin junior
Trabajo grupal flavio cosme eldin junior
 
Sena03
Sena03Sena03
Sena03
 
Appserver
AppserverAppserver
Appserver
 
Ciclo diapositivas
Ciclo diapositivasCiclo diapositivas
Ciclo diapositivas
 
Ciclo diapositivas
Ciclo diapositivasCiclo diapositivas
Ciclo diapositivas
 
Análisis y diseño de sistemas
Análisis y diseño de sistemas Análisis y diseño de sistemas
Análisis y diseño de sistemas
 
Proyecto
ProyectoProyecto
Proyecto
 
Kick off avalon_imserso_20100209
Kick off avalon_imserso_20100209Kick off avalon_imserso_20100209
Kick off avalon_imserso_20100209
 

Último

PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............
bercueseb98
 
Sensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y VehicularteSensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y Vehicularte
Condor Tuyuyo
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
dostorosmg
 
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnExamen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
YadiraMarquez8
 
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjjLa división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
DanielSerranoAlmarch
 
Nivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresasNivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresas
POOLQUIMICOSSUMINIST
 
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8     LA DICTADURA FRANQUISTA (1939-1975).pdfTema 8     LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
anagc806
 

Último (20)

DOC-20240503-WA0003. cadena de valor.pdf
DOC-20240503-WA0003. cadena de valor.pdfDOC-20240503-WA0003. cadena de valor.pdf
DOC-20240503-WA0003. cadena de valor.pdf
 
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
 
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABACAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
 
Macro y micro ambiente en administración
Macro y micro ambiente en administraciónMacro y micro ambiente en administración
Macro y micro ambiente en administración
 
PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............
 
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE  INCERTIDUMBREDISEÑO DE ESTRATEGIAS EN MOMENTOS DE  INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
 
catalogo de rodamientos nks linea pesada
catalogo de rodamientos nks linea pesadacatalogo de rodamientos nks linea pesada
catalogo de rodamientos nks linea pesada
 
Sensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y VehicularteSensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y Vehicularte
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
 
UNIDAD 5 DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
UNIDAD 5 DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBREUNIDAD 5 DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
UNIDAD 5 DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
 
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnExamen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
 
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhdANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
 
CURRICULUM VITAE-MARIELENA ANGIE SOPAN VIGO.pdf
CURRICULUM VITAE-MARIELENA ANGIE SOPAN VIGO.pdfCURRICULUM VITAE-MARIELENA ANGIE SOPAN VIGO.pdf
CURRICULUM VITAE-MARIELENA ANGIE SOPAN VIGO.pdf
 
proyecto gastronomico comidas tradicionales
proyecto gastronomico comidas tradicionalesproyecto gastronomico comidas tradicionales
proyecto gastronomico comidas tradicionales
 
CURRICULUM VITAEMOISES PIZANGOTAPULLIMA .pdf
CURRICULUM VITAEMOISES PIZANGOTAPULLIMA .pdfCURRICULUM VITAEMOISES PIZANGOTAPULLIMA .pdf
CURRICULUM VITAEMOISES PIZANGOTAPULLIMA .pdf
 
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjjLa división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
 
Nivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresasNivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresas
 
CONTRATACIONES CON EL ESTADO PERUANO.pptx
CONTRATACIONES CON EL ESTADO PERUANO.pptxCONTRATACIONES CON EL ESTADO PERUANO.pptx
CONTRATACIONES CON EL ESTADO PERUANO.pptx
 
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8     LA DICTADURA FRANQUISTA (1939-1975).pdfTema 8     LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
 
Prestaciones sociales y servicios sociales
Prestaciones sociales y servicios socialesPrestaciones sociales y servicios sociales
Prestaciones sociales y servicios sociales
 

Trabajo Final[1]

  • 1. ENTREGABLE UNIMAGDALENA INGENIERÍA DEL CONOCIMIENTO DATAMINING – WEBMIMING Proyecto Final: Para entregar y exponer 21 de Noviembre de 2009. Entregar CD. SOFTWARE LIBRE A UTILIZAR: Analog y Weka OBJETO DE ESTUDIO ESTABLECIMIENTO DE PREFERENCIAS DE LOS USUARIOS DEL PORTAL DE UNA EMPRESA O UNIVERSIDAD DEL PAIS. Metodología
  • 2. inicio Log del servidor información suministrada por el servidor El log tiene información Limpieza redundante y repetitiva, Data clean esta información se elimina del log Se sacan sesiones de Sesiones de usuario para su usuario identificación. En este proceso se aplica Algoritmo el algoritmo de reglas de AprioriPredictivo asociación para sacar patrones. Reglas Reglas generadas por el algoritmo Informe de Interpretación de las reglas resultados FIN Archivos a utilizar Selección de los Datos. Los datos seleccionados son Logs producidos por el servidor Web de la UNA EMPRESA O UNIVERSIDAD DEL PAIS. Toda esta información es suministrada gracias al servidor, donde con un debido tratamiento, es utilizada para extraer información interesante. Los datos trabajados para el desarrollo de este trabajo pueden ser del mes de cualquier del año 2008. Limpieza del log. El Log contiene información redundante imposibilitando el hecho de extraer información útil, realizar un procedimiento de limpieza, donde la información redundante y repetitiva es eliminada. Ejemplo de un Log Típico
  • 3. Pre-procesamiento Tome el archivo de datos y conviértalo en un archivo .arff (puede utilizar WEKA como herramienta intermedia para lograr este propósito) Una vez realizado el preprocesamiento de los datos, los Logs de acceso son divididos en diferentes sesiones, donde cada sesión agrupa los requerimientos de un usuario en un sitio Web en forma secuencial. Para obtener las sesiones de usuario, se tomo la dirección IP que se encuentra en el log del servidor, cada dirección IP hace referencia a un usuario Algoritmo a priori predictivo. Proceso donde el algoritmo seleccionado de Reglas de Asociación A priori predictivo es aplicado con el fin de lograr extraer patrones de comportamiento de uso del portal objeto de estudio. Reglas. Son los patrones de conocimiento obtenidos una que el algoritmo a priori fue aplicado. Informe de Resultados. Las reglas obtenidas deberán ser interpretadas y analizadas. El proceso comienza con un conjunto de datos procedentes de la interacción del usuario con el sitio el cual aloja toda esta información en el Log del servidor de la web de la empresa escogida. En la etapa de la limpieza (Data Clean), algunos de los datos que contiene el Log, no son útiles para la generación de las reglas, por lo tanto solo se toman en cuenta aquellos que son relevantes. En este caso los datos que son extraídos con información importante para las
  • 4. sesiones de usuario y la aplicación de las reglas de asociación son: la dirección IP, Fecha, URL. Una de las etapas de mayor importancia para desarrollo del presente trabajo es la de sesión de usuarios, ya que identifica los usuarios conociendo su comportamiento en la Intranet. Una vez aplicado el algoritmo el nos genera las reglas con un nivel de confianza y con un soporte demostrando así su fortaleza y finalizando con la generación de un informe de datos interpretada para la fácil comprensión de los usuarios. CAPTURA DE REQUERIMIENTOS Casos de Uso de la Aplicación. A continuación se describe uno de los diagramas que globaliza de modo general la aplicación, en el cual se encuentra el usuario como único participante, este a su vez actúa con el entorno presentado el cual facilita un entendimiento de lo que se quiere plantear, desde que el usuario inserta el Log a la aplicación hasta la salida de los resultados obtenidos por las reglas de asociación, en el transcurso de esta operación se crean reportes de patrones, se obtienen sesiones de usuario y se procesa el log, Caso de Uso “Aplicación”
  • 5. Actores y Casos de uso Actores Casos de uso • Usuario • Insertar Log • Limpiar Log • Sesiones de usuario • Aplicar búsqueda de información • Pide reporte de patrones de información REGLAS DE ASOCIACION SECUENCIALES
  • 6. Utilice el algoritmo a priori del ANALOG para construir patrones de comportamiento de los usuarios de UNIMAGDALENA. Para ello, vamos a ver que reglas de asociación interesantes podemos extraer de estos atributos. Para ejecutar los métodos en Weka de reglas de asociaciación, seleccionamos la ventana de associate. Entre otros, este sistema de minería de datos provee el paquete “WEKA.associations.Apriori” que contiene la implementación del algoritmo de aprendizaje de reglas de asociación Apriori. Podemos configurar este algoritmo con varias opciones: con la opción “UpperBoundMinSupport” indicamos el límite superior de cobertura requerido para aceptar un conjunto de ítems. Si no se encuentran conjuntos de ítems suficientes para generar las reglas requeridas se va disminuyendo el límite hasta llegar al límite inferior (opción “LowerBoundMinSupport”). Con la opción “minMetric” indicamos la confianza mínima (u otras métricas dependiendo del criterio de ordenación) para mostrar una regla de asociación; y con la opción “numRules” indicamos el número de reglas que deseamos que aparezcan en pantalla. La ordenación de estas reglas en pantalla puede configurarse mediante la opción “MetricType”, algunas opciones que se pueden utilizar son: confianza de la regla, lift (confianza divido por el número de ejemplos cubiertos por la parte derecha de la regla), y otras más elaboradas. Reglas 1) Este es un trabajo que conlleva una parte de INVESTIGACIÓN. Consulte la información que Ud no sepa sobre ANALOG, reglas de asociación en la Internet o en libros de dataminig.