2. Introducción
2
Una gran cantidad de información en la Web está contenida
en objetos de datos de estructuras regulares.
Muchas veces los registros de datos son recuperados de bases
de datos.
Tales registros de datos en la Web son importantes: listas de
productos y servicios.
Aplicaciones: Recopilar datos para proporcionar servicios de
valor agregado.
Shopping comparativo, búsqueda de objetos (más que
búsquedas de páginas, etc.)
Dos tipos de páginas con datos estructurados:
Páginas de listas y páginas de detalle.
Enfoques:
Wrapper inducido (aprendizaje supervisado)
Extracción automática (aprendizaje no supervisado)
3. Tipos de datos
3
Páginas de listas
Cada página contiene una o más listas de
registros de datos.
Cada lista se encuentra en una región de la
página.
Dos tipos de registros: plano y anidado.
Páginas de detalle
Cada página se enfoca en un objetivo individual.
Puede contener información relacionada o no.
7. Modelo de datos y soluciones
8
Modelo de datos Web: Relaciones anidadas
Solución al problema
Dos técnicas importantes
Wrapper inductivo – supervisado
Extracción automática – no supervisada
Información que puede ser explotada
Archivos fuentes (páginas Web en HTML)
Representadas como strings o árboles
Información visual
9. Wrapper por inducción
10
Utilizando máquinas de aprendizaje para generar las reglas de
extracción
El usuario marca los item objetivos en algunas páginas de
entrenamiento.
El sistema entrena las reglas de extracción con estas páginas.
Las reglas son aplicadas a items a extraer en otras páginas.
Ejemplos de entrenamiento
E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515
E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570
E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293
E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008
Reglas de extracción
Start rules: End rules:
R1: SkipTo(() SkipTo())
R2: SkipTo(-<b>) SkipTo(</b>)
10. Extracción automática
11
Existen 2 formulaciones principales:
Problema 1: Extracción basada en páginas de
listas simples
Problema 2: Extracción basada en páginas
de múltiple entrada del mismo tipo (páginas de
lista o página de detalles)
12. Técnicas de solución
13
Identificar regiones de datos y registros de
datos
Buscando patrones repetitivos
String matching (tratar a la fuente HTML como string).
Tree matching (tratar a la fuente HTML como árbol).
Alineación de items de datos: Múltiple
alineación
13. Integración de información
14
Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases
de datos consistentes.
Integración significa:
Schema match: encontrar columnas en diferentes
tablas que contengan el mismo tipo de
información (ej. Nombres de productos)
Data instance match: encontrar valores que son
semanticamente identificos pero se representan
de forma diferente en distintos sitios (ej., “Coke” y
“Coca Cola”).
16. Schema Matching como
descubrimiento de correlaciones17
Esta técnica necesita un gran número de
consultas de entrada.
Atributos sinónimos están corelacionados
negativamente.
Son alternativos, raramente co-ocurren
ej. autor = escritor
Grupos de atributos con correlación positiva.
Frecuentemente co-ocurren en las consultas.
ej, {Apellido, Nombre}
17. Efecto puente
18
Es asdfasd
Asdfasd
Asdf
Asdf
Observaciones:
• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B
• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a
• Entonces, C puede ser como puente para conectar A y B.
18. Modelo de datos
19
Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas.
objetos con tipos permiten conjuntos anidados y tuplas.
Una instancia de un tipo T es simplemente un
elemento de dom(T).
19. Un ejemplo de tipo de tupla
anidada20
Relaciones clásicas planes son tipos no anidados.
Relaciones anidadas son tipos de conjuntos arbitrarios.