WEB MINING
IntroducciónJuan Azcurra
Historia del hipertexto
 Memex [Vannevar Bush, 1945]
 extension de memoria (“memory extension”)
 dispositivo de almacenamiento y
computación (fotoeléctrico y mecánico)
 objetivo: crear y ayudar a seguir
hiperenlaces a través de documentos.
 El concepto de Memex influenció el desarrollo de
sistemas de hipertexto (liderando la creación de la
World Wide Web) y bases de software para
conocimiento personal.
Historia del hipertexto
 Memex
Historia del hipertexto
 El término fue acuñado por el
profesor Ted Nelson en los
60s.
 Sistema de hipertexto
Xanadu:
 Hiperenlances,
 Manejo de versiones,
 Manejo de controversias,
 Manejo de anotaciones,
 Manejo de derecho de
auditorias
La hipótesis de la web
estructurada
 La información de la web es suficientemente
estructurada como para que sea posible la
minería de la Web [Etzioni, 1996].
Hipertexto
 Hipertexto
 Texto
 Enlaces (links)
 Permite al usuario el fácil manejo de
información de fuentes diversas
 Crear
 Agregar
 Enlazar
 Compartir
Hypercard
 Creado por Bill Atkinson y disponible en 1987
en los sistemas Macintosh.
 Sistema programable de tarjetas que podían
ser organizadas en pilas.
 Perdió popularidad con el
crecimiento de la WWW.
Historia de la Web
 Tim Berners-Lee, consultor del
laboratorio CERN es conocido
como el inventor de la WWW.
 Sistemas en red para publicar
reportes científicos (1980).
 GUI para hipertexto llamado
World Wide Web (1990).
Historia de la Web
 El tráfico HTTP en CERN se multiplica por un
factor de mil entre 1991 y 1994.
Historia de la Web
 Un millón entre 1991 y 1997.
Tamaño de la Web
698.823.509 dominios (Jul ‘13)
La web es un grafo
 Páginas = nodo, hyperlinks = arcos
 Ignora contenido
 Grafo dirigido
 Alta vinculación
 8-10 links/páginas en promedio
 Grado de distribución según ley de potencia
Buscando en la Web
Agregadores
de contenido
La Web Consumidores
de contenido
Publicidad vs. búsqueda
Historia de la Web
 El año 1994 fue clave para la WWW
 Fundación de Mosaic Communications Corp.
 Primera conferencia World Wide Web
 MIT y CERN acuerdan establecer el World Wide
Web Consortium (W3C)
Historia de la Web
 Sucesores del browser World Wide Web
 Erwise (1992)
 Viola (1992)
 Midas (1993)
 Mosaic (1993)
 Fácil de usar
 Soporta imágenes
Historia de la Web
 Netspace (1994)
 Soporte de múltiples conexiones TCP-IP
 Cookies
 <CENTER> tag
 Distribución gratuita para ciertos grupos
 Netscape 2 (1996)
 Frames
 Javascript
 Netscape 3 (1996)
 Mouseovers
 Estándar de oro
Historia de la Web
 Microsoft Explorer 1 y 2 (1995)
 Microsoft Explorer 3 (1996)
 Casi comparable a Netscape
 CSS: autores y lectores pueden asignar estilos a
las páginas
 Distribución gratuita (con SO)
Uso actual
Web: Medio participativo y
accesible
 Número de escritores no tan lejanos al
número de lectores
 La revolución de los MEMEX
 Richard Dawkins (1976) propuso que las ideas,
teorías, expresiones artísticas, etc. se replican y
propagan de persona a persona por imitación.
 La Web fue una meme en sí misma.
 Ahora facilita la propagación de otras
memes.
Crisis de abundancia y
autoridad
 Cultura liberal e informal para generar y
diseminar contenido.
 Acceso uniforme (no existe autoridad que
defina calidad de contenidos).
 Contenidos no estandarizados y redundancia.
 Millones de páginas para una consulta general
 Ejemplo: Java, Google, USA
Partes de la Web
Partes de la Web
 Para conocer que páginas apuntan a otras es
necesario recorrer la Web, algo que los
buscadores hacen a diario.
Ley de Zipf
 Sea P(i) la probabilidad del i-
ésimo evento más frecuente:
P(i) es proporcional a
 Se caracteriza por tener
muchos eventos muy
frecuentes y pocos eventos
muy infrecuentes
 Genera una recta al graficarse
en escala log-log
George Zipf (1902-1950)
Ley de Zipf
 Ejemplos:
 Tamaño de las páginas (u otro tipo de archivos)
 Número de enlaces que salen de una página
 Número de enlaces que llegan a una página
 Fechas de actualización
 Número de componentes conexos de distintos
tamaños
 Uso de las palabras en las interrogaciones a los
buscadores
Ley de Zipf
Web Mining
 El proceso de descubrir relaciones o patrones
interesantes en un conjunto de datos es
llamado data mining y en el caso de la web
web mining.
Ejemplos de Web Mining
 Buscadores: Google, Yahoo, Bing, Ask, …
 Buscadores especializados: Froogle, Flipdog,
…
 E-Commerce
 Recomendaciones: Amazon, Netflix, …
 Up Selling: siguiente mejor producto a ofrecer
 Publicidad: Google Adsende
 Fraude: Análisis de clicks
 Mejora de diseño Web y performance
Categorias de Web Mining
 Web Content Mining
 Minería del contenido de la Web
 Web Structure Mining
 Minería de la estructura de la Web
 Web Usage Mining
 Minería del uso de la Web
Web Content Mining
 Extracción de elementos del texto para:
 Crear índices.
 Instanciar estructura de datos (ej. representación
por medio de vectores).
 Incorporación a base de datos.
 Algoritmos de minería de texto:
 Aprendizaje automático de texto.
 Categorización.
 Clustering.
 LSA (Análisis de Semántica Latente).
Web Structure Mining
 Análisis de la Web como un grafo:
 Las páginas se representan como nodos.
 Los hiperenlaces se representan como arcos.
 Permiten análisis de conectividad:
 Premisa: buscar prestigio en las páginas además
de relevancia.
 Page Rank (Brin y Page 1998) y HITS (Kleinberg
1999).
Estructura macroscópica de la
Web
Estructura macroscópica de la
Web
Impacto en el diseño de sitios
Web

Introducción a Web Mining

  • 1.
  • 2.
    Historia del hipertexto Memex [Vannevar Bush, 1945]  extension de memoria (“memory extension”)  dispositivo de almacenamiento y computación (fotoeléctrico y mecánico)  objetivo: crear y ayudar a seguir hiperenlaces a través de documentos.  El concepto de Memex influenció el desarrollo de sistemas de hipertexto (liderando la creación de la World Wide Web) y bases de software para conocimiento personal.
  • 3.
  • 4.
    Historia del hipertexto El término fue acuñado por el profesor Ted Nelson en los 60s.  Sistema de hipertexto Xanadu:  Hiperenlances,  Manejo de versiones,  Manejo de controversias,  Manejo de anotaciones,  Manejo de derecho de auditorias
  • 5.
    La hipótesis dela web estructurada  La información de la web es suficientemente estructurada como para que sea posible la minería de la Web [Etzioni, 1996].
  • 6.
    Hipertexto  Hipertexto  Texto Enlaces (links)  Permite al usuario el fácil manejo de información de fuentes diversas  Crear  Agregar  Enlazar  Compartir
  • 7.
    Hypercard  Creado porBill Atkinson y disponible en 1987 en los sistemas Macintosh.  Sistema programable de tarjetas que podían ser organizadas en pilas.  Perdió popularidad con el crecimiento de la WWW.
  • 8.
    Historia de laWeb  Tim Berners-Lee, consultor del laboratorio CERN es conocido como el inventor de la WWW.  Sistemas en red para publicar reportes científicos (1980).  GUI para hipertexto llamado World Wide Web (1990).
  • 9.
    Historia de laWeb  El tráfico HTTP en CERN se multiplica por un factor de mil entre 1991 y 1994.
  • 10.
    Historia de laWeb  Un millón entre 1991 y 1997.
  • 11.
    Tamaño de laWeb 698.823.509 dominios (Jul ‘13)
  • 12.
    La web esun grafo  Páginas = nodo, hyperlinks = arcos  Ignora contenido  Grafo dirigido  Alta vinculación  8-10 links/páginas en promedio  Grado de distribución según ley de potencia
  • 13.
    Buscando en laWeb Agregadores de contenido La Web Consumidores de contenido
  • 14.
  • 15.
    Historia de laWeb  El año 1994 fue clave para la WWW  Fundación de Mosaic Communications Corp.  Primera conferencia World Wide Web  MIT y CERN acuerdan establecer el World Wide Web Consortium (W3C)
  • 16.
    Historia de laWeb  Sucesores del browser World Wide Web  Erwise (1992)  Viola (1992)  Midas (1993)  Mosaic (1993)  Fácil de usar  Soporta imágenes
  • 17.
    Historia de laWeb  Netspace (1994)  Soporte de múltiples conexiones TCP-IP  Cookies  <CENTER> tag  Distribución gratuita para ciertos grupos  Netscape 2 (1996)  Frames  Javascript  Netscape 3 (1996)  Mouseovers  Estándar de oro
  • 18.
    Historia de laWeb  Microsoft Explorer 1 y 2 (1995)  Microsoft Explorer 3 (1996)  Casi comparable a Netscape  CSS: autores y lectores pueden asignar estilos a las páginas  Distribución gratuita (con SO)
  • 19.
  • 20.
    Web: Medio participativoy accesible  Número de escritores no tan lejanos al número de lectores  La revolución de los MEMEX  Richard Dawkins (1976) propuso que las ideas, teorías, expresiones artísticas, etc. se replican y propagan de persona a persona por imitación.  La Web fue una meme en sí misma.  Ahora facilita la propagación de otras memes.
  • 21.
    Crisis de abundanciay autoridad  Cultura liberal e informal para generar y diseminar contenido.  Acceso uniforme (no existe autoridad que defina calidad de contenidos).  Contenidos no estandarizados y redundancia.  Millones de páginas para una consulta general  Ejemplo: Java, Google, USA
  • 22.
  • 23.
    Partes de laWeb  Para conocer que páginas apuntan a otras es necesario recorrer la Web, algo que los buscadores hacen a diario.
  • 24.
    Ley de Zipf Sea P(i) la probabilidad del i- ésimo evento más frecuente: P(i) es proporcional a  Se caracteriza por tener muchos eventos muy frecuentes y pocos eventos muy infrecuentes  Genera una recta al graficarse en escala log-log George Zipf (1902-1950)
  • 25.
    Ley de Zipf Ejemplos:  Tamaño de las páginas (u otro tipo de archivos)  Número de enlaces que salen de una página  Número de enlaces que llegan a una página  Fechas de actualización  Número de componentes conexos de distintos tamaños  Uso de las palabras en las interrogaciones a los buscadores
  • 26.
  • 27.
    Web Mining  Elproceso de descubrir relaciones o patrones interesantes en un conjunto de datos es llamado data mining y en el caso de la web web mining.
  • 28.
    Ejemplos de WebMining  Buscadores: Google, Yahoo, Bing, Ask, …  Buscadores especializados: Froogle, Flipdog, …  E-Commerce  Recomendaciones: Amazon, Netflix, …  Up Selling: siguiente mejor producto a ofrecer  Publicidad: Google Adsende  Fraude: Análisis de clicks  Mejora de diseño Web y performance
  • 29.
    Categorias de WebMining  Web Content Mining  Minería del contenido de la Web  Web Structure Mining  Minería de la estructura de la Web  Web Usage Mining  Minería del uso de la Web
  • 30.
    Web Content Mining Extracción de elementos del texto para:  Crear índices.  Instanciar estructura de datos (ej. representación por medio de vectores).  Incorporación a base de datos.  Algoritmos de minería de texto:  Aprendizaje automático de texto.  Categorización.  Clustering.  LSA (Análisis de Semántica Latente).
  • 31.
    Web Structure Mining Análisis de la Web como un grafo:  Las páginas se representan como nodos.  Los hiperenlaces se representan como arcos.  Permiten análisis de conectividad:  Premisa: buscar prestigio en las páginas además de relevancia.  Page Rank (Brin y Page 1998) y HITS (Kleinberg 1999).
  • 32.
  • 33.
  • 34.
    Impacto en eldiseño de sitios Web