Este documento trata sobre la historia del hipertexto y la web. Explica que el concepto de Memex de Vannevar Bush en 1945 influyó en el desarrollo de sistemas hipertexto y bases de conocimiento personal. Luego describe sistemas pioneros como Xanadu de Ted Nelson y Hypercard de Apple, y detalla los orígenes y crecimiento exponencial de la World Wide Web desde su creación por Tim Berners-Lee en el CERN en 1990. Finalmente, analiza el uso actual de la web, su estructura a gran escala y el impacto del aná
2. Historia del hipertexto
Memex [Vannevar Bush, 1945]
extension de memoria (“memory extension”)
dispositivo de almacenamiento y
computación (fotoeléctrico y mecánico)
objetivo: crear y ayudar a seguir
hiperenlaces a través de documentos.
El concepto de Memex influenció el desarrollo de
sistemas de hipertexto (liderando la creación de la
World Wide Web) y bases de software para
conocimiento personal.
4. Historia del hipertexto
El término fue acuñado por el
profesor Ted Nelson en los
60s.
Sistema de hipertexto
Xanadu:
Hiperenlances,
Manejo de versiones,
Manejo de controversias,
Manejo de anotaciones,
Manejo de derecho de
auditorias
5. La hipótesis de la web
estructurada
La información de la web es suficientemente
estructurada como para que sea posible la
minería de la Web [Etzioni, 1996].
6. Hipertexto
Hipertexto
Texto
Enlaces (links)
Permite al usuario el fácil manejo de
información de fuentes diversas
Crear
Agregar
Enlazar
Compartir
7. Hypercard
Creado por Bill Atkinson y disponible en 1987
en los sistemas Macintosh.
Sistema programable de tarjetas que podían
ser organizadas en pilas.
Perdió popularidad con el
crecimiento de la WWW.
8. Historia de la Web
Tim Berners-Lee, consultor del
laboratorio CERN es conocido
como el inventor de la WWW.
Sistemas en red para publicar
reportes científicos (1980).
GUI para hipertexto llamado
World Wide Web (1990).
9. Historia de la Web
El tráfico HTTP en CERN se multiplica por un
factor de mil entre 1991 y 1994.
12. La web es un grafo
Páginas = nodo, hyperlinks = arcos
Ignora contenido
Grafo dirigido
Alta vinculación
8-10 links/páginas en promedio
Grado de distribución según ley de potencia
13. Buscando en la Web
Agregadores
de contenido
La Web Consumidores
de contenido
15. Historia de la Web
El año 1994 fue clave para la WWW
Fundación de Mosaic Communications Corp.
Primera conferencia World Wide Web
MIT y CERN acuerdan establecer el World Wide
Web Consortium (W3C)
16. Historia de la Web
Sucesores del browser World Wide Web
Erwise (1992)
Viola (1992)
Midas (1993)
Mosaic (1993)
Fácil de usar
Soporta imágenes
17. Historia de la Web
Netspace (1994)
Soporte de múltiples conexiones TCP-IP
Cookies
<CENTER> tag
Distribución gratuita para ciertos grupos
Netscape 2 (1996)
Frames
Javascript
Netscape 3 (1996)
Mouseovers
Estándar de oro
18. Historia de la Web
Microsoft Explorer 1 y 2 (1995)
Microsoft Explorer 3 (1996)
Casi comparable a Netscape
CSS: autores y lectores pueden asignar estilos a
las páginas
Distribución gratuita (con SO)
20. Web: Medio participativo y
accesible
Número de escritores no tan lejanos al
número de lectores
La revolución de los MEMEX
Richard Dawkins (1976) propuso que las ideas,
teorías, expresiones artísticas, etc. se replican y
propagan de persona a persona por imitación.
La Web fue una meme en sí misma.
Ahora facilita la propagación de otras
memes.
21. Crisis de abundancia y
autoridad
Cultura liberal e informal para generar y
diseminar contenido.
Acceso uniforme (no existe autoridad que
defina calidad de contenidos).
Contenidos no estandarizados y redundancia.
Millones de páginas para una consulta general
Ejemplo: Java, Google, USA
23. Partes de la Web
Para conocer que páginas apuntan a otras es
necesario recorrer la Web, algo que los
buscadores hacen a diario.
24. Ley de Zipf
Sea P(i) la probabilidad del i-
ésimo evento más frecuente:
P(i) es proporcional a
Se caracteriza por tener
muchos eventos muy
frecuentes y pocos eventos
muy infrecuentes
Genera una recta al graficarse
en escala log-log
George Zipf (1902-1950)
25. Ley de Zipf
Ejemplos:
Tamaño de las páginas (u otro tipo de archivos)
Número de enlaces que salen de una página
Número de enlaces que llegan a una página
Fechas de actualización
Número de componentes conexos de distintos
tamaños
Uso de las palabras en las interrogaciones a los
buscadores
27. Web Mining
El proceso de descubrir relaciones o patrones
interesantes en un conjunto de datos es
llamado data mining y en el caso de la web
web mining.
28. Ejemplos de Web Mining
Buscadores: Google, Yahoo, Bing, Ask, …
Buscadores especializados: Froogle, Flipdog,
…
E-Commerce
Recomendaciones: Amazon, Netflix, …
Up Selling: siguiente mejor producto a ofrecer
Publicidad: Google Adsende
Fraude: Análisis de clicks
Mejora de diseño Web y performance
29. Categorias de Web Mining
Web Content Mining
Minería del contenido de la Web
Web Structure Mining
Minería de la estructura de la Web
Web Usage Mining
Minería del uso de la Web
30. Web Content Mining
Extracción de elementos del texto para:
Crear índices.
Instanciar estructura de datos (ej. representación
por medio de vectores).
Incorporación a base de datos.
Algoritmos de minería de texto:
Aprendizaje automático de texto.
Categorización.
Clustering.
LSA (Análisis de Semántica Latente).
31. Web Structure Mining
Análisis de la Web como un grafo:
Las páginas se representan como nodos.
Los hiperenlaces se representan como arcos.
Permiten análisis de conectividad:
Premisa: buscar prestigio en las páginas además
de relevancia.
Page Rank (Brin y Page 1998) y HITS (Kleinberg
1999).