SlideShare una empresa de Scribd logo
1 de 19
WEB MINING
Extracción de Datos Estructurados
Web Content MiningJuan Azcurra
Introducción
2
 Una gran cantidad de información en la Web está contenida
en objetos de datos de estructuras regulares.
 Muchas veces los registros de datos son recuperados de bases
de datos.
 Tales registros de datos en la Web son importantes: listas de
productos y servicios.
 Aplicaciones: Recopilar datos para proporcionar servicios de
valor agregado.
 Shopping comparativo, búsqueda de objetos (más que
búsquedas de páginas, etc.)
 Dos tipos de páginas con datos estructurados:
 Páginas de listas y páginas de detalle.
 Enfoques:
 Wrapper inducido (aprendizaje supervisado)
 Extracción automática (aprendizaje no supervisado)
Tipos de datos
3
 Páginas de listas
 Cada página contiene una o más listas de
registros de datos.
 Cada lista se encuentra en una región de la
página.
 Dos tipos de registros: plano y anidado.
 Páginas de detalle
 Cada página se enfoca en un objetivo individual.
 Puede contener información relacionada o no.
Página de Listas
4
2 listas de
productos
Página de detalle – descripción del
producto6
Resultados de la extracción
7
anidadas
Modelo de datos y soluciones
8
 Modelo de datos Web: Relaciones anidadas
 Solución al problema
 Dos técnicas importantes
 Wrapper inductivo – supervisado
 Extracción automática – no supervisada
 Información que puede ser explotada
 Archivos fuentes (páginas Web en HTML)
 Representadas como strings o árboles
 Información visual
Información visual y árbol
9
Wrapper por inducción
10
 Utilizando máquinas de aprendizaje para generar las reglas de
extracción
 El usuario marca los item objetivos en algunas páginas de
entrenamiento.
 El sistema entrena las reglas de extracción con estas páginas.
 Las reglas son aplicadas a items a extraer en otras páginas.
 Ejemplos de entrenamiento
E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515
E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570
E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293
E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008
 Reglas de extracción
Start rules: End rules:
R1: SkipTo(() SkipTo())
R2: SkipTo(-<b>) SkipTo(</b>)
Extracción automática
11
 Existen 2 formulaciones principales:
 Problema 1: Extracción basada en páginas de
listas simples
 Problema 2: Extracción basada en páginas
de múltiple entrada del mismo tipo (páginas de
lista o página de detalles)
Extracción automática:
Problema 112
Técnicas de solución
13
 Identificar regiones de datos y registros de
datos
 Buscando patrones repetitivos
 String matching (tratar a la fuente HTML como string).
 Tree matching (tratar a la fuente HTML como árbol).
 Alineación de items de datos: Múltiple
alineación
Integración de información
14
 Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases
de datos consistentes.
 Integración significa:
 Schema match: encontrar columnas en diferentes
tablas que contengan el mismo tipo de
información (ej. Nombres de productos)
 Data instance match: encontrar valores que son
semanticamente identificos pero se representan
de forma diferente en distintos sitios (ej., “Coke” y
“Coca Cola”).
Web Query Interface Integration
15
Descubrir atributos sinónimos
16
 En el dominio de libros (autor – escritor, tema
– categoría)
Schema Matching como
descubrimiento de correlaciones17
 Esta técnica necesita un gran número de
consultas de entrada.
 Atributos sinónimos están corelacionados
negativamente.
 Son alternativos, raramente co-ocurren
 ej. autor = escritor
 Grupos de atributos con correlación positiva.
 Frecuentemente co-ocurren en las consultas.
 ej, {Apellido, Nombre}
Efecto puente
18
 Es asdfasd
 Asdfasd
 Asdf
 Asdf
Observaciones:
• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B
• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a
• Entonces, C puede ser como puente para conectar A y B.
Modelo de datos
19
 Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas.
 objetos con tipos permiten conjuntos anidados y tuplas.
 Una instancia de un tipo T es simplemente un
elemento de dom(T).
Un ejemplo de tipo de tupla
anidada20
 Relaciones clásicas planes son tipos no anidados.
 Relaciones anidadas son tipos de conjuntos arbitrarios.

Más contenido relacionado

La actualidad más candente

Objetivos de las bases de datos
Objetivos de las bases de datosObjetivos de las bases de datos
Objetivos de las bases de datosdavidsantiagoleiva
 
base de datos relacionales en access 2010
base de datos relacionales en access 2010base de datos relacionales en access 2010
base de datos relacionales en access 2010cristianavalenciar
 
BASE DE DATOS
BASE DE DATOSBASE DE DATOS
BASE DE DATOSneasaka
 
Creación para formularios 2 (practica n.-1)
Creación para formularios 2 (practica n.-1)Creación para formularios 2 (practica n.-1)
Creación para formularios 2 (practica n.-1)Sari D
 
Leonel presentacion
Leonel presentacionLeonel presentacion
Leonel presentacionUUNNOO
 

La actualidad más candente (9)

Objetivos de las bases de datos
Objetivos de las bases de datosObjetivos de las bases de datos
Objetivos de las bases de datos
 
Repositorios de informacion
Repositorios de informacionRepositorios de informacion
Repositorios de informacion
 
base de datos relacionales en access 2010
base de datos relacionales en access 2010base de datos relacionales en access 2010
base de datos relacionales en access 2010
 
Base de datos
Base de datosBase de datos
Base de datos
 
BASE DE DATOS
BASE DE DATOSBASE DE DATOS
BASE DE DATOS
 
Access: organizando datos
Access: organizando datosAccess: organizando datos
Access: organizando datos
 
Creación para formularios 2 (practica n.-1)
Creación para formularios 2 (practica n.-1)Creación para formularios 2 (practica n.-1)
Creación para formularios 2 (practica n.-1)
 
Leonel presentacion
Leonel presentacionLeonel presentacion
Leonel presentacion
 
Access
AccessAccess
Access
 

Destacado

SEO Mining Lakil Essady Search Congress Barcelona
SEO Mining Lakil Essady Search Congress BarcelonaSEO Mining Lakil Essady Search Congress Barcelona
SEO Mining Lakil Essady Search Congress BarcelonaLakil Essady
 
S1.3_PRES_Centre_of_Gravity_BMcCallum
S1.3_PRES_Centre_of_Gravity_BMcCallumS1.3_PRES_Centre_of_Gravity_BMcCallum
S1.3_PRES_Centre_of_Gravity_BMcCallumBruce McCallum
 
NDT resume DONNIE W. TIPTON II
NDT resume DONNIE W. TIPTON IINDT resume DONNIE W. TIPTON II
NDT resume DONNIE W. TIPTON IIWayne Tipton
 
CampOutfitters-Brochure
CampOutfitters-BrochureCampOutfitters-Brochure
CampOutfitters-BrochureJosh Saathoff
 
How to Boost Christmas Conversions
How to Boost Christmas Conversions How to Boost Christmas Conversions
How to Boost Christmas Conversions Rachel Waterman
 
Consideraciones Importantes Para Crear Presentaciones
Consideraciones Importantes Para Crear PresentacionesConsideraciones Importantes Para Crear Presentaciones
Consideraciones Importantes Para Crear PresentacionesMichelle Cortez
 
C1 solution 20160713
C1 solution 20160713C1 solution 20160713
C1 solution 20160713健二 西山
 
Diseño de una Base de Datos
Diseño de una Base de DatosDiseño de una Base de Datos
Diseño de una Base de DatosVannesa Salazar
 

Destacado (16)

SEO Mining Lakil Essady Search Congress Barcelona
SEO Mining Lakil Essady Search Congress BarcelonaSEO Mining Lakil Essady Search Congress Barcelona
SEO Mining Lakil Essady Search Congress Barcelona
 
S1.3_PRES_Centre_of_Gravity_BMcCallum
S1.3_PRES_Centre_of_Gravity_BMcCallumS1.3_PRES_Centre_of_Gravity_BMcCallum
S1.3_PRES_Centre_of_Gravity_BMcCallum
 
NDT resume DONNIE W. TIPTON II
NDT resume DONNIE W. TIPTON IINDT resume DONNIE W. TIPTON II
NDT resume DONNIE W. TIPTON II
 
CampOutfitters-Brochure
CampOutfitters-BrochureCampOutfitters-Brochure
CampOutfitters-Brochure
 
How to Boost Christmas Conversions
How to Boost Christmas Conversions How to Boost Christmas Conversions
How to Boost Christmas Conversions
 
Consideraciones Importantes Para Crear Presentaciones
Consideraciones Importantes Para Crear PresentacionesConsideraciones Importantes Para Crear Presentaciones
Consideraciones Importantes Para Crear Presentaciones
 
13. TIEMPO DE DAR
13. TIEMPO DE DAR13. TIEMPO DE DAR
13. TIEMPO DE DAR
 
Rede alumni - Estágio 1 (Interação web)
Rede alumni - Estágio 1 (Interação web)Rede alumni - Estágio 1 (Interação web)
Rede alumni - Estágio 1 (Interação web)
 
LA PASIÓN POR VILLARGORDO
LA PASIÓN POR VILLARGORDOLA PASIÓN POR VILLARGORDO
LA PASIÓN POR VILLARGORDO
 
18. PADRE NUESTRO
18. PADRE NUESTRO18. PADRE NUESTRO
18. PADRE NUESTRO
 
Ducati Case Brief
Ducati Case BriefDucati Case Brief
Ducati Case Brief
 
C1 solution 20160713
C1 solution 20160713C1 solution 20160713
C1 solution 20160713
 
Ducati
DucatiDucati
Ducati
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Diseño de una Base de Datos
Diseño de una Base de DatosDiseño de una Base de Datos
Diseño de una Base de Datos
 
Bases de Datos Relacionales
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
 

Similar a Web Content Mining - Datos estructurados

Similar a Web Content Mining - Datos estructurados (20)

Bd
BdBd
Bd
 
Microsoft Access Teoría Parte I
Microsoft Access Teoría Parte IMicrosoft Access Teoría Parte I
Microsoft Access Teoría Parte I
 
Base de datos
Base de datosBase de datos
Base de datos
 
Bd
BdBd
Bd
 
Analisis seo
Analisis seoAnalisis seo
Analisis seo
 
Presentación html5
Presentación html5Presentación html5
Presentación html5
 
Analisis seo.ppt2
Analisis seo.ppt2Analisis seo.ppt2
Analisis seo.ppt2
 
Trabajo de informsita
Trabajo de informsitaTrabajo de informsita
Trabajo de informsita
 
Seo
SeoSeo
Seo
 
data_collection-es.pptx
data_collection-es.pptxdata_collection-es.pptx
data_collection-es.pptx
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Base de datos de scrap
Base de datos de scrapBase de datos de scrap
Base de datos de scrap
 
Resumen de antologia sobre base de datos y macro
Resumen de antologia sobre base de datos y macroResumen de antologia sobre base de datos y macro
Resumen de antologia sobre base de datos y macro
 
Diapositivas informatik!
Diapositivas informatik!Diapositivas informatik!
Diapositivas informatik!
 
Dynamics saturday madrid 2019 web api
Dynamics saturday madrid 2019   web apiDynamics saturday madrid 2019   web api
Dynamics saturday madrid 2019 web api
 
Manual del programador cap 5 al 8
Manual del programador cap 5 al 8Manual del programador cap 5 al 8
Manual del programador cap 5 al 8
 
Base de datos en acces
Base de datos en accesBase de datos en acces
Base de datos en acces
 
Base de datos en acces
Base de datos en accesBase de datos en acces
Base de datos en acces
 
Bases de datos    introducción
Bases de datos    introducciónBases de datos    introducción
Bases de datos    introducción
 
elaboracio base de datos
elaboracio base de datoselaboracio base de datos
elaboracio base de datos
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 

Último (20)

dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 

Web Content Mining - Datos estructurados

  • 1. WEB MINING Extracción de Datos Estructurados Web Content MiningJuan Azcurra
  • 2. Introducción 2  Una gran cantidad de información en la Web está contenida en objetos de datos de estructuras regulares.  Muchas veces los registros de datos son recuperados de bases de datos.  Tales registros de datos en la Web son importantes: listas de productos y servicios.  Aplicaciones: Recopilar datos para proporcionar servicios de valor agregado.  Shopping comparativo, búsqueda de objetos (más que búsquedas de páginas, etc.)  Dos tipos de páginas con datos estructurados:  Páginas de listas y páginas de detalle.  Enfoques:  Wrapper inducido (aprendizaje supervisado)  Extracción automática (aprendizaje no supervisado)
  • 3. Tipos de datos 3  Páginas de listas  Cada página contiene una o más listas de registros de datos.  Cada lista se encuentra en una región de la página.  Dos tipos de registros: plano y anidado.  Páginas de detalle  Cada página se enfoca en un objetivo individual.  Puede contener información relacionada o no.
  • 4. Página de Listas 4 2 listas de productos
  • 5. Página de detalle – descripción del producto6
  • 6. Resultados de la extracción 7 anidadas
  • 7. Modelo de datos y soluciones 8  Modelo de datos Web: Relaciones anidadas  Solución al problema  Dos técnicas importantes  Wrapper inductivo – supervisado  Extracción automática – no supervisada  Información que puede ser explotada  Archivos fuentes (páginas Web en HTML)  Representadas como strings o árboles  Información visual
  • 9. Wrapper por inducción 10  Utilizando máquinas de aprendizaje para generar las reglas de extracción  El usuario marca los item objetivos en algunas páginas de entrenamiento.  El sistema entrena las reglas de extracción con estas páginas.  Las reglas son aplicadas a items a extraer en otras páginas.  Ejemplos de entrenamiento E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515 E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570 E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293 E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008  Reglas de extracción Start rules: End rules: R1: SkipTo(() SkipTo()) R2: SkipTo(-<b>) SkipTo(</b>)
  • 10. Extracción automática 11  Existen 2 formulaciones principales:  Problema 1: Extracción basada en páginas de listas simples  Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)
  • 12. Técnicas de solución 13  Identificar regiones de datos y registros de datos  Buscando patrones repetitivos  String matching (tratar a la fuente HTML como string).  Tree matching (tratar a la fuente HTML como árbol).  Alineación de items de datos: Múltiple alineación
  • 13. Integración de información 14  Los datos extractados desde diferentes sites necesitan ser integrados para producir bases de datos consistentes.  Integración significa:  Schema match: encontrar columnas en diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)  Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).
  • 14. Web Query Interface Integration 15
  • 15. Descubrir atributos sinónimos 16  En el dominio de libros (autor – escritor, tema – categoría)
  • 16. Schema Matching como descubrimiento de correlaciones17  Esta técnica necesita un gran número de consultas de entrada.  Atributos sinónimos están corelacionados negativamente.  Son alternativos, raramente co-ocurren  ej. autor = escritor  Grupos de atributos con correlación positiva.  Frecuentemente co-ocurren en las consultas.  ej, {Apellido, Nombre}
  • 17. Efecto puente 18  Es asdfasd  Asdfasd  Asdf  Asdf Observaciones: • Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B • Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a • Entonces, C puede ser como puente para conectar A y B.
  • 18. Modelo de datos 19  Gran parte de los datos de la Web pueden ser modelados como relaciones anidadas.  objetos con tipos permiten conjuntos anidados y tuplas.  Una instancia de un tipo T es simplemente un elemento de dom(T).
  • 19. Un ejemplo de tipo de tupla anidada20  Relaciones clásicas planes son tipos no anidados.  Relaciones anidadas son tipos de conjuntos arbitrarios.