Web Content Mining - Datos estructurados

WEB MINING
Extracción de Datos Estructurados
Web Content MiningJuan Azcurra

Introducción
2
 Una gran cantidad de información en la Web está contenida
en objetos de datos de estructuras regulares.
 Muchas veces los registros de datos son recuperados de bases
de datos.
 Tales registros de datos en la Web son importantes: listas de
productos y servicios.
 Aplicaciones: Recopilar datos para proporcionar servicios de
valor agregado.
 Shopping comparativo, búsqueda de objetos (más que
búsquedas de páginas, etc.)
 Dos tipos de páginas con datos estructurados:
 Páginas de listas y páginas de detalle.
 Enfoques:
 Wrapper inducido (aprendizaje supervisado)
 Extracción automática (aprendizaje no supervisado)

Tipos de datos
3
 Páginas de listas
 Cada página contiene una o más listas de
registros de datos.
 Cada lista se encuentra en una región de la
página.
 Dos tipos de registros: plano y anidado.
 Páginas de detalle
 Cada página se enfoca en un objetivo individual.
 Puede contener información relacionada o no.

Página de Listas
4
2 listas de
productos

Página de detalle – descripción del
producto6

Resultados de la extracción
7
anidadas

Modelo de datos y soluciones
8
 Modelo de datos Web: Relaciones anidadas
 Solución al problema
 Dos técnicas importantes
 Wrapper inductivo – supervisado
 Extracción automática – no supervisada
 Información que puede ser explotada
 Archivos fuentes (páginas Web en HTML)
 Representadas como strings o árboles
 Información visual

Información visual y árbol
9

Wrapper por inducción
10
 Utilizando máquinas de aprendizaje para generar las reglas de
extracción
 El usuario marca los item objetivos en algunas páginas de
entrenamiento.
 El sistema entrena las reglas de extracción con estas páginas.
 Las reglas son aplicadas a items a extraer en otras páginas.
 Ejemplos de entrenamiento
E1: 513 Pico, Venice, Phone 1-800-555-1515
E2: 90 Colfax, Palms, Phone (800) 508-1570
E3: 523 1st St., LA, Phone 1-800-578-2293
E4: 403 La Tijera, Watts, Phone: (310) 798-0008
 Reglas de extracción
Start rules: End rules:
R1: SkipTo(() SkipTo())
R2: SkipTo(-) SkipTo()

Extracción automática
11
 Existen 2 formulaciones principales:
 Problema 1: Extracción basada en páginas de
listas simples
 Problema 2: Extracción basada en páginas
de múltiple entrada del mismo tipo (páginas de
lista o página de detalles)

Extracción automática:
Problema 112

Técnicas de solución
13
 Identificar regiones de datos y registros de
datos
 Buscando patrones repetitivos
 String matching (tratar a la fuente HTML como string).
 Tree matching (tratar a la fuente HTML como árbol).
 Alineación de items de datos: Múltiple
alineación

Integración de información
14
 Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases
de datos consistentes.
 Integración significa:
 Schema match: encontrar columnas en diferentes
tablas que contengan el mismo tipo de
información (ej. Nombres de productos)
 Data instance match: encontrar valores que son
semanticamente identificos pero se representan
de forma diferente en distintos sitios (ej., “Coke” y
“Coca Cola”).

Web Query Interface Integration
15

Descubrir atributos sinónimos
16
 En el dominio de libros (autor – escritor, tema
– categoría)

Schema Matching como
descubrimiento de correlaciones17
 Esta técnica necesita un gran número de
consultas de entrada.
 Atributos sinónimos están corelacionados
negativamente.
 Son alternativos, raramente co-ocurren
 ej. autor = escritor
 Grupos de atributos con correlación positiva.
 Frecuentemente co-ocurren en las consultas.
 ej, {Apellido, Nombre}

Efecto puente
18
 Es asdfasd
 Asdfasd
 Asdf
 Asdf
Observaciones:
• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B
• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a
• Entonces, C puede ser como puente para conectar A y B.

Modelo de datos
19
 Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas.
 objetos con tipos permiten conjuntos anidados y tuplas.
 Una instancia de un tipo T es simplemente un
elemento de dom(T).

Un ejemplo de tipo de tupla
anidada20
 Relaciones clásicas planes son tipos no anidados.
 Relaciones anidadas son tipos de conjuntos arbitrarios.

Web Content Mining - Datos estructurados

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Web Content Mining - Datos estructurados

Más de Juan Azcurra

Web Content Mining - Datos estructurados