Minería Web: Introducción a su historia y conceptos clave

WEB MINING
IntroducciónJuan Azcurra

Historia del hipertexto
 Memex [Vannevar Bush, 1945]
 extension de memoria (“memory extension”)
 dispositivo de almacenamiento y
computación (fotoeléctrico y mecánico)
 objetivo: crear y ayudar a seguir
hiperenlaces a través de documentos.
 El concepto de Memex influenció el desarrollo de
sistemas de hipertexto (liderando la creación de la
World Wide Web) y bases de software para
conocimiento personal.

 Memex

 El término fue acuñado por el
profesor Ted Nelson en los
60s.
 Sistema de hipertexto
Xanadu:
 Hiperenlances,
 Manejo de versiones,
 Manejo de controversias,
 Manejo de anotaciones,
 Manejo de derecho de
auditorias

La hipótesis de la web
estructurada
 La información de la web es suficientemente
estructurada como para que sea posible la
minería de la Web [Etzioni, 1996].

Hipertexto
 Hipertexto
 Texto
 Enlaces (links)
 Permite al usuario el fácil manejo de
información de fuentes diversas
 Crear
 Agregar
 Enlazar
 Compartir

Hypercard
 Creado por Bill Atkinson y disponible en 1987
en los sistemas Macintosh.
 Sistema programable de tarjetas que podían
ser organizadas en pilas.
 Perdió popularidad con el
crecimiento de la WWW.

Historia de la Web
 Tim Berners-Lee, consultor del
laboratorio CERN es conocido
como el inventor de la WWW.
 Sistemas en red para publicar
reportes científicos (1980).
 GUI para hipertexto llamado
World Wide Web (1990).

Historia de la Web
 El tráfico HTTP en CERN se multiplica por un
factor de mil entre 1991 y 1994.

Historia de la Web
 Un millón entre 1991 y 1997.

Tamaño de la Web
698.823.509 dominios (Jul ‘13)

La web es un grafo
 Páginas = nodo, hyperlinks = arcos
 Ignora contenido
 Grafo dirigido
 Alta vinculación
 8-10 links/páginas en promedio
 Grado de distribución según ley de potencia

Buscando en la Web
Agregadores
de contenido
La Web Consumidores
de contenido

Historia de la Web
 El año 1994 fue clave para la WWW
 Fundación de Mosaic Communications Corp.
 Primera conferencia World Wide Web
 MIT y CERN acuerdan establecer el World Wide
Web Consortium (W3C)

Historia de la Web
 Sucesores del browser World Wide Web
 Erwise (1992)
 Viola (1992)
 Midas (1993)
 Mosaic (1993)
 Fácil de usar
 Soporta imágenes

Historia de la Web
 Netspace (1994)
 Soporte de múltiples conexiones TCP-IP
 Cookies
 <CENTER> tag
 Distribución gratuita para ciertos grupos
 Netscape 2 (1996)
 Frames
 Javascript
 Netscape 3 (1996)
 Mouseovers
 Estándar de oro

Historia de la Web
 Microsoft Explorer 1 y 2 (1995)
 Microsoft Explorer 3 (1996)
 Casi comparable a Netscape
 CSS: autores y lectores pueden asignar estilos a
las páginas
 Distribución gratuita (con SO)

Web: Medio participativo y
accesible
 Número de escritores no tan lejanos al
número de lectores
 La revolución de los MEMEX
 Richard Dawkins (1976) propuso que las ideas,
teorías, expresiones artísticas, etc. se replican y
propagan de persona a persona por imitación.
 La Web fue una meme en sí misma.
 Ahora facilita la propagación de otras
memes.

Crisis de abundancia y
autoridad
 Cultura liberal e informal para generar y
diseminar contenido.
 Acceso uniforme (no existe autoridad que
defina calidad de contenidos).
 Contenidos no estandarizados y redundancia.
 Millones de páginas para una consulta general
 Ejemplo: Java, Google, USA

Partes de la Web
 Para conocer que páginas apuntan a otras es
necesario recorrer la Web, algo que los
buscadores hacen a diario.

Ley de Zipf
 Sea P(i) la probabilidad del i-
ésimo evento más frecuente:
P(i) es proporcional a
 Se caracteriza por tener
muchos eventos muy
frecuentes y pocos eventos
muy infrecuentes
 Genera una recta al graficarse
en escala log-log
George Zipf (1902-1950)

Ley de Zipf
 Ejemplos:
 Tamaño de las páginas (u otro tipo de archivos)
 Número de enlaces que salen de una página
 Número de enlaces que llegan a una página
 Fechas de actualización
 Número de componentes conexos de distintos
tamaños
 Uso de las palabras en las interrogaciones a los
buscadores

Web Mining
 El proceso de descubrir relaciones o patrones
interesantes en un conjunto de datos es
llamado data mining y en el caso de la web
web mining.

Ejemplos de Web Mining
 Buscadores: Google, Yahoo, Bing, Ask, …
 Buscadores especializados: Froogle, Flipdog,
…
 E-Commerce
 Recomendaciones: Amazon, Netflix, …
 Up Selling: siguiente mejor producto a ofrecer
 Publicidad: Google Adsende
 Fraude: Análisis de clicks
 Mejora de diseño Web y performance

Categorias de Web Mining
 Web Content Mining
 Minería del contenido de la Web
 Web Structure Mining
 Minería de la estructura de la Web
 Web Usage Mining
 Minería del uso de la Web

Web Content Mining
 Extracción de elementos del texto para:
 Crear índices.
 Instanciar estructura de datos (ej. representación
por medio de vectores).
 Incorporación a base de datos.
 Algoritmos de minería de texto:
 Aprendizaje automático de texto.
 Categorización.
 Clustering.
 LSA (Análisis de Semántica Latente).

Web Structure Mining
 Análisis de la Web como un grafo:
 Las páginas se representan como nodos.
 Los hiperenlaces se representan como arcos.
 Permiten análisis de conectividad:
 Premisa: buscar prestigio en las páginas además
de relevancia.
 Page Rank (Brin y Page 1998) y HITS (Kleinberg
1999).

Estructura macroscópica de la
Web

Impacto en el diseño de sitios
Web

Minería Web: Introducción a su historia y conceptos clave

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (17)

Similar a Minería Web: Introducción a su historia y conceptos clave

Similar a Minería Web: Introducción a su historia y conceptos clave (20)

Más de Juan Azcurra

Más de Juan Azcurra (16)

Último

Último (20)

Minería Web: Introducción a su historia y conceptos clave