SlideShare una empresa de Scribd logo
1 de 34
WEB MINING
IntroducciónJuan Azcurra
Historia del hipertexto
 Memex [Vannevar Bush, 1945]
 extension de memoria (“memory extension”)
 dispositivo de almacenamiento y
computación (fotoeléctrico y mecánico)
 objetivo: crear y ayudar a seguir
hiperenlaces a través de documentos.
 El concepto de Memex influenció el desarrollo de
sistemas de hipertexto (liderando la creación de la
World Wide Web) y bases de software para
conocimiento personal.
Historia del hipertexto
 Memex
Historia del hipertexto
 El término fue acuñado por el
profesor Ted Nelson en los
60s.
 Sistema de hipertexto
Xanadu:
 Hiperenlances,
 Manejo de versiones,
 Manejo de controversias,
 Manejo de anotaciones,
 Manejo de derecho de
auditorias
La hipótesis de la web
estructurada
 La información de la web es suficientemente
estructurada como para que sea posible la
minería de la Web [Etzioni, 1996].
Hipertexto
 Hipertexto
 Texto
 Enlaces (links)
 Permite al usuario el fácil manejo de
información de fuentes diversas
 Crear
 Agregar
 Enlazar
 Compartir
Hypercard
 Creado por Bill Atkinson y disponible en 1987
en los sistemas Macintosh.
 Sistema programable de tarjetas que podían
ser organizadas en pilas.
 Perdió popularidad con el
crecimiento de la WWW.
Historia de la Web
 Tim Berners-Lee, consultor del
laboratorio CERN es conocido
como el inventor de la WWW.
 Sistemas en red para publicar
reportes científicos (1980).
 GUI para hipertexto llamado
World Wide Web (1990).
Historia de la Web
 El tráfico HTTP en CERN se multiplica por un
factor de mil entre 1991 y 1994.
Historia de la Web
 Un millón entre 1991 y 1997.
Tamaño de la Web
698.823.509 dominios (Jul ‘13)
La web es un grafo
 Páginas = nodo, hyperlinks = arcos
 Ignora contenido
 Grafo dirigido
 Alta vinculación
 8-10 links/páginas en promedio
 Grado de distribución según ley de potencia
Buscando en la Web
Agregadores
de contenido
La Web Consumidores
de contenido
Publicidad vs. búsqueda
Historia de la Web
 El año 1994 fue clave para la WWW
 Fundación de Mosaic Communications Corp.
 Primera conferencia World Wide Web
 MIT y CERN acuerdan establecer el World Wide
Web Consortium (W3C)
Historia de la Web
 Sucesores del browser World Wide Web
 Erwise (1992)
 Viola (1992)
 Midas (1993)
 Mosaic (1993)
 Fácil de usar
 Soporta imágenes
Historia de la Web
 Netspace (1994)
 Soporte de múltiples conexiones TCP-IP
 Cookies
 <CENTER> tag
 Distribución gratuita para ciertos grupos
 Netscape 2 (1996)
 Frames
 Javascript
 Netscape 3 (1996)
 Mouseovers
 Estándar de oro
Historia de la Web
 Microsoft Explorer 1 y 2 (1995)
 Microsoft Explorer 3 (1996)
 Casi comparable a Netscape
 CSS: autores y lectores pueden asignar estilos a
las páginas
 Distribución gratuita (con SO)
Uso actual
Web: Medio participativo y
accesible
 Número de escritores no tan lejanos al
número de lectores
 La revolución de los MEMEX
 Richard Dawkins (1976) propuso que las ideas,
teorías, expresiones artísticas, etc. se replican y
propagan de persona a persona por imitación.
 La Web fue una meme en sí misma.
 Ahora facilita la propagación de otras
memes.
Crisis de abundancia y
autoridad
 Cultura liberal e informal para generar y
diseminar contenido.
 Acceso uniforme (no existe autoridad que
defina calidad de contenidos).
 Contenidos no estandarizados y redundancia.
 Millones de páginas para una consulta general
 Ejemplo: Java, Google, USA
Partes de la Web
Partes de la Web
 Para conocer que páginas apuntan a otras es
necesario recorrer la Web, algo que los
buscadores hacen a diario.
Ley de Zipf
 Sea P(i) la probabilidad del i-
ésimo evento más frecuente:
P(i) es proporcional a
 Se caracteriza por tener
muchos eventos muy
frecuentes y pocos eventos
muy infrecuentes
 Genera una recta al graficarse
en escala log-log
George Zipf (1902-1950)
Ley de Zipf
 Ejemplos:
 Tamaño de las páginas (u otro tipo de archivos)
 Número de enlaces que salen de una página
 Número de enlaces que llegan a una página
 Fechas de actualización
 Número de componentes conexos de distintos
tamaños
 Uso de las palabras en las interrogaciones a los
buscadores
Ley de Zipf
Web Mining
 El proceso de descubrir relaciones o patrones
interesantes en un conjunto de datos es
llamado data mining y en el caso de la web
web mining.
Ejemplos de Web Mining
 Buscadores: Google, Yahoo, Bing, Ask, …
 Buscadores especializados: Froogle, Flipdog,
…
 E-Commerce
 Recomendaciones: Amazon, Netflix, …
 Up Selling: siguiente mejor producto a ofrecer
 Publicidad: Google Adsende
 Fraude: Análisis de clicks
 Mejora de diseño Web y performance
Categorias de Web Mining
 Web Content Mining
 Minería del contenido de la Web
 Web Structure Mining
 Minería de la estructura de la Web
 Web Usage Mining
 Minería del uso de la Web
Web Content Mining
 Extracción de elementos del texto para:
 Crear índices.
 Instanciar estructura de datos (ej. representación
por medio de vectores).
 Incorporación a base de datos.
 Algoritmos de minería de texto:
 Aprendizaje automático de texto.
 Categorización.
 Clustering.
 LSA (Análisis de Semántica Latente).
Web Structure Mining
 Análisis de la Web como un grafo:
 Las páginas se representan como nodos.
 Los hiperenlaces se representan como arcos.
 Permiten análisis de conectividad:
 Premisa: buscar prestigio en las páginas además
de relevancia.
 Page Rank (Brin y Page 1998) y HITS (Kleinberg
1999).
Estructura macroscópica de la
Web
Estructura macroscópica de la
Web
Impacto en el diseño de sitios
Web

Más contenido relacionado

La actualidad más candente

La actualidad más candente (17)

Tutoría sobre Nuevas Tecnologías - Maestría en Gestión Empresarial
Tutoría sobre Nuevas Tecnologías - Maestría en Gestión EmpresarialTutoría sobre Nuevas Tecnologías - Maestría en Gestión Empresarial
Tutoría sobre Nuevas Tecnologías - Maestría en Gestión Empresarial
 
SWB Suite
SWB SuiteSWB Suite
SWB Suite
 
Previsiones sobre la web 3
Previsiones sobre la web 3Previsiones sobre la web 3
Previsiones sobre la web 3
 
QUE SON BUSCADORES Y META-BUSCADORES
QUE SON BUSCADORES Y META-BUSCADORESQUE SON BUSCADORES Y META-BUSCADORES
QUE SON BUSCADORES Y META-BUSCADORES
 
Datos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivasDatos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivas
 
Buscadres de internet
Buscadres de internetBuscadres de internet
Buscadres de internet
 
Internet
Internet Internet
Internet
 
análisis de metadatos
análisis de metadatosanálisis de metadatos
análisis de metadatos
 
Deep web
Deep webDeep web
Deep web
 
Trabajo compu
Trabajo compuTrabajo compu
Trabajo compu
 
Experiencias con los datos abiertos y enlazados en el entorno del CCUC
Experiencias con los datos abiertos y enlazados en el entorno del CCUCExperiencias con los datos abiertos y enlazados en el entorno del CCUC
Experiencias con los datos abiertos y enlazados en el entorno del CCUC
 
Evidencia nº8
Evidencia nº8Evidencia nº8
Evidencia nº8
 
Todo sobre INTERNET
Todo sobre INTERNETTodo sobre INTERNET
Todo sobre INTERNET
 
Que es la web 3.0
Que es la web 3.0Que es la web 3.0
Que es la web 3.0
 
Ensayo argumentativo
Ensayo argumentativoEnsayo argumentativo
Ensayo argumentativo
 
Charla a Delegación de Paraguay
Charla a Delegación de ParaguayCharla a Delegación de Paraguay
Charla a Delegación de Paraguay
 
tarea de informatica
tarea de informaticatarea de informatica
tarea de informatica
 

Similar a Minería Web: Introducción a su historia y conceptos clave

Similar a Minería Web: Introducción a su historia y conceptos clave (20)

Web 2 - 4 - Metaweb
Web 2 - 4 - MetawebWeb 2 - 4 - Metaweb
Web 2 - 4 - Metaweb
 
Presentacion tejiendo la_red
Presentacion tejiendo la_redPresentacion tejiendo la_red
Presentacion tejiendo la_red
 
Ensayo world wibe web
Ensayo world wibe webEnsayo world wibe web
Ensayo world wibe web
 
WEB 2.0
WEB 2.0WEB 2.0
WEB 2.0
 
Web 1.0-2.0-3.0
Web 1.0-2.0-3.0Web 1.0-2.0-3.0
Web 1.0-2.0-3.0
 
World wide web
World wide webWorld wide web
World wide web
 
Informatica www
Informatica wwwInformatica www
Informatica www
 
Informatica www
Informatica wwwInformatica www
Informatica www
 
desarrollo de la web
desarrollo de la web desarrollo de la web
desarrollo de la web
 
Historia y evolución de la Web
Historia y evolución de la WebHistoria y evolución de la Web
Historia y evolución de la Web
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Informatica www
Informatica wwwInformatica www
Informatica www
 
Informatica www
Informatica wwwInformatica www
Informatica www
 
Historia De La Web
Historia De La WebHistoria De La Web
Historia De La Web
 
Historia de la web
Historia de la web Historia de la web
Historia de la web
 
Historia De La Web
Historia De La WebHistoria De La Web
Historia De La Web
 
Sistemas
SistemasSistemas
Sistemas
 
Sistemas
SistemasSistemas
Sistemas
 
Evolucion de la web
Evolucion de la webEvolucion de la web
Evolucion de la web
 
01 introd historia WWW
01 introd historia WWW01 introd historia WWW
01 introd historia WWW
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 

Último (20)

trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 

Minería Web: Introducción a su historia y conceptos clave

  • 2. Historia del hipertexto  Memex [Vannevar Bush, 1945]  extension de memoria (“memory extension”)  dispositivo de almacenamiento y computación (fotoeléctrico y mecánico)  objetivo: crear y ayudar a seguir hiperenlaces a través de documentos.  El concepto de Memex influenció el desarrollo de sistemas de hipertexto (liderando la creación de la World Wide Web) y bases de software para conocimiento personal.
  • 4. Historia del hipertexto  El término fue acuñado por el profesor Ted Nelson en los 60s.  Sistema de hipertexto Xanadu:  Hiperenlances,  Manejo de versiones,  Manejo de controversias,  Manejo de anotaciones,  Manejo de derecho de auditorias
  • 5. La hipótesis de la web estructurada  La información de la web es suficientemente estructurada como para que sea posible la minería de la Web [Etzioni, 1996].
  • 6. Hipertexto  Hipertexto  Texto  Enlaces (links)  Permite al usuario el fácil manejo de información de fuentes diversas  Crear  Agregar  Enlazar  Compartir
  • 7. Hypercard  Creado por Bill Atkinson y disponible en 1987 en los sistemas Macintosh.  Sistema programable de tarjetas que podían ser organizadas en pilas.  Perdió popularidad con el crecimiento de la WWW.
  • 8. Historia de la Web  Tim Berners-Lee, consultor del laboratorio CERN es conocido como el inventor de la WWW.  Sistemas en red para publicar reportes científicos (1980).  GUI para hipertexto llamado World Wide Web (1990).
  • 9. Historia de la Web  El tráfico HTTP en CERN se multiplica por un factor de mil entre 1991 y 1994.
  • 10. Historia de la Web  Un millón entre 1991 y 1997.
  • 11. Tamaño de la Web 698.823.509 dominios (Jul ‘13)
  • 12. La web es un grafo  Páginas = nodo, hyperlinks = arcos  Ignora contenido  Grafo dirigido  Alta vinculación  8-10 links/páginas en promedio  Grado de distribución según ley de potencia
  • 13. Buscando en la Web Agregadores de contenido La Web Consumidores de contenido
  • 15. Historia de la Web  El año 1994 fue clave para la WWW  Fundación de Mosaic Communications Corp.  Primera conferencia World Wide Web  MIT y CERN acuerdan establecer el World Wide Web Consortium (W3C)
  • 16. Historia de la Web  Sucesores del browser World Wide Web  Erwise (1992)  Viola (1992)  Midas (1993)  Mosaic (1993)  Fácil de usar  Soporta imágenes
  • 17. Historia de la Web  Netspace (1994)  Soporte de múltiples conexiones TCP-IP  Cookies  <CENTER> tag  Distribución gratuita para ciertos grupos  Netscape 2 (1996)  Frames  Javascript  Netscape 3 (1996)  Mouseovers  Estándar de oro
  • 18. Historia de la Web  Microsoft Explorer 1 y 2 (1995)  Microsoft Explorer 3 (1996)  Casi comparable a Netscape  CSS: autores y lectores pueden asignar estilos a las páginas  Distribución gratuita (con SO)
  • 20. Web: Medio participativo y accesible  Número de escritores no tan lejanos al número de lectores  La revolución de los MEMEX  Richard Dawkins (1976) propuso que las ideas, teorías, expresiones artísticas, etc. se replican y propagan de persona a persona por imitación.  La Web fue una meme en sí misma.  Ahora facilita la propagación de otras memes.
  • 21. Crisis de abundancia y autoridad  Cultura liberal e informal para generar y diseminar contenido.  Acceso uniforme (no existe autoridad que defina calidad de contenidos).  Contenidos no estandarizados y redundancia.  Millones de páginas para una consulta general  Ejemplo: Java, Google, USA
  • 23. Partes de la Web  Para conocer que páginas apuntan a otras es necesario recorrer la Web, algo que los buscadores hacen a diario.
  • 24. Ley de Zipf  Sea P(i) la probabilidad del i- ésimo evento más frecuente: P(i) es proporcional a  Se caracteriza por tener muchos eventos muy frecuentes y pocos eventos muy infrecuentes  Genera una recta al graficarse en escala log-log George Zipf (1902-1950)
  • 25. Ley de Zipf  Ejemplos:  Tamaño de las páginas (u otro tipo de archivos)  Número de enlaces que salen de una página  Número de enlaces que llegan a una página  Fechas de actualización  Número de componentes conexos de distintos tamaños  Uso de las palabras en las interrogaciones a los buscadores
  • 27. Web Mining  El proceso de descubrir relaciones o patrones interesantes en un conjunto de datos es llamado data mining y en el caso de la web web mining.
  • 28. Ejemplos de Web Mining  Buscadores: Google, Yahoo, Bing, Ask, …  Buscadores especializados: Froogle, Flipdog, …  E-Commerce  Recomendaciones: Amazon, Netflix, …  Up Selling: siguiente mejor producto a ofrecer  Publicidad: Google Adsende  Fraude: Análisis de clicks  Mejora de diseño Web y performance
  • 29. Categorias de Web Mining  Web Content Mining  Minería del contenido de la Web  Web Structure Mining  Minería de la estructura de la Web  Web Usage Mining  Minería del uso de la Web
  • 30. Web Content Mining  Extracción de elementos del texto para:  Crear índices.  Instanciar estructura de datos (ej. representación por medio de vectores).  Incorporación a base de datos.  Algoritmos de minería de texto:  Aprendizaje automático de texto.  Categorización.  Clustering.  LSA (Análisis de Semántica Latente).
  • 31. Web Structure Mining  Análisis de la Web como un grafo:  Las páginas se representan como nodos.  Los hiperenlaces se representan como arcos.  Permiten análisis de conectividad:  Premisa: buscar prestigio en las páginas además de relevancia.  Page Rank (Brin y Page 1998) y HITS (Kleinberg 1999).
  • 34. Impacto en el diseño de sitios Web