WEB MINING
Extracción de Datos Estructurados
Web Content MiningJuan Azcurra
Introducción
2
 Una gran cantidad de información en la Web está contenida
en objetos de datos de estructuras regulares.
 Muchas veces los registros de datos son recuperados de bases
de datos.
 Tales registros de datos en la Web son importantes: listas de
productos y servicios.
 Aplicaciones: Recopilar datos para proporcionar servicios de
valor agregado.
 Shopping comparativo, búsqueda de objetos (más que
búsquedas de páginas, etc.)
 Dos tipos de páginas con datos estructurados:
 Páginas de listas y páginas de detalle.
 Enfoques:
 Wrapper inducido (aprendizaje supervisado)
 Extracción automática (aprendizaje no supervisado)
Tipos de datos
3
 Páginas de listas
 Cada página contiene una o más listas de
registros de datos.
 Cada lista se encuentra en una región de la
página.
 Dos tipos de registros: plano y anidado.
 Páginas de detalle
 Cada página se enfoca en un objetivo individual.
 Puede contener información relacionada o no.
Página de Listas
4
2 listas de
productos
Página de detalle – descripción del
producto6
Resultados de la extracción
7
anidadas
Modelo de datos y soluciones
8
 Modelo de datos Web: Relaciones anidadas
 Solución al problema
 Dos técnicas importantes
 Wrapper inductivo – supervisado
 Extracción automática – no supervisada
 Información que puede ser explotada
 Archivos fuentes (páginas Web en HTML)
 Representadas como strings o árboles
 Información visual
Información visual y árbol
9
Wrapper por inducción
10
 Utilizando máquinas de aprendizaje para generar las reglas de
extracción
 El usuario marca los item objetivos en algunas páginas de
entrenamiento.
 El sistema entrena las reglas de extracción con estas páginas.
 Las reglas son aplicadas a items a extraer en otras páginas.
 Ejemplos de entrenamiento
E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515
E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570
E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293
E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008
 Reglas de extracción
Start rules: End rules:
R1: SkipTo(() SkipTo())
R2: SkipTo(-<b>) SkipTo(</b>)
Extracción automática
11
 Existen 2 formulaciones principales:
 Problema 1: Extracción basada en páginas de
listas simples
 Problema 2: Extracción basada en páginas
de múltiple entrada del mismo tipo (páginas de
lista o página de detalles)
Extracción automática:
Problema 112
Técnicas de solución
13
 Identificar regiones de datos y registros de
datos
 Buscando patrones repetitivos
 String matching (tratar a la fuente HTML como string).
 Tree matching (tratar a la fuente HTML como árbol).
 Alineación de items de datos: Múltiple
alineación
Integración de información
14
 Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases
de datos consistentes.
 Integración significa:
 Schema match: encontrar columnas en diferentes
tablas que contengan el mismo tipo de
información (ej. Nombres de productos)
 Data instance match: encontrar valores que son
semanticamente identificos pero se representan
de forma diferente en distintos sitios (ej., “Coke” y
“Coca Cola”).
Web Query Interface Integration
15
Descubrir atributos sinónimos
16
 En el dominio de libros (autor – escritor, tema
– categoría)
Schema Matching como
descubrimiento de correlaciones17
 Esta técnica necesita un gran número de
consultas de entrada.
 Atributos sinónimos están corelacionados
negativamente.
 Son alternativos, raramente co-ocurren
 ej. autor = escritor
 Grupos de atributos con correlación positiva.
 Frecuentemente co-ocurren en las consultas.
 ej, {Apellido, Nombre}
Efecto puente
18
 Es asdfasd
 Asdfasd
 Asdf
 Asdf
Observaciones:
• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B
• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a
• Entonces, C puede ser como puente para conectar A y B.
Modelo de datos
19
 Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas.
 objetos con tipos permiten conjuntos anidados y tuplas.
 Una instancia de un tipo T es simplemente un
elemento de dom(T).
Un ejemplo de tipo de tupla
anidada20
 Relaciones clásicas planes son tipos no anidados.
 Relaciones anidadas son tipos de conjuntos arbitrarios.

Web Content Mining - Datos estructurados

  • 1.
    WEB MINING Extracción deDatos Estructurados Web Content MiningJuan Azcurra
  • 2.
    Introducción 2  Una grancantidad de información en la Web está contenida en objetos de datos de estructuras regulares.  Muchas veces los registros de datos son recuperados de bases de datos.  Tales registros de datos en la Web son importantes: listas de productos y servicios.  Aplicaciones: Recopilar datos para proporcionar servicios de valor agregado.  Shopping comparativo, búsqueda de objetos (más que búsquedas de páginas, etc.)  Dos tipos de páginas con datos estructurados:  Páginas de listas y páginas de detalle.  Enfoques:  Wrapper inducido (aprendizaje supervisado)  Extracción automática (aprendizaje no supervisado)
  • 3.
    Tipos de datos 3 Páginas de listas  Cada página contiene una o más listas de registros de datos.  Cada lista se encuentra en una región de la página.  Dos tipos de registros: plano y anidado.  Páginas de detalle  Cada página se enfoca en un objetivo individual.  Puede contener información relacionada o no.
  • 4.
    Página de Listas 4 2listas de productos
  • 5.
    Página de detalle– descripción del producto6
  • 6.
    Resultados de laextracción 7 anidadas
  • 7.
    Modelo de datosy soluciones 8  Modelo de datos Web: Relaciones anidadas  Solución al problema  Dos técnicas importantes  Wrapper inductivo – supervisado  Extracción automática – no supervisada  Información que puede ser explotada  Archivos fuentes (páginas Web en HTML)  Representadas como strings o árboles  Información visual
  • 8.
  • 9.
    Wrapper por inducción 10 Utilizando máquinas de aprendizaje para generar las reglas de extracción  El usuario marca los item objetivos en algunas páginas de entrenamiento.  El sistema entrena las reglas de extracción con estas páginas.  Las reglas son aplicadas a items a extraer en otras páginas.  Ejemplos de entrenamiento E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515 E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570 E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293 E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008  Reglas de extracción Start rules: End rules: R1: SkipTo(() SkipTo()) R2: SkipTo(-<b>) SkipTo(</b>)
  • 10.
    Extracción automática 11  Existen2 formulaciones principales:  Problema 1: Extracción basada en páginas de listas simples  Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)
  • 11.
  • 12.
    Técnicas de solución 13 Identificar regiones de datos y registros de datos  Buscando patrones repetitivos  String matching (tratar a la fuente HTML como string).  Tree matching (tratar a la fuente HTML como árbol).  Alineación de items de datos: Múltiple alineación
  • 13.
    Integración de información 14 Los datos extractados desde diferentes sites necesitan ser integrados para producir bases de datos consistentes.  Integración significa:  Schema match: encontrar columnas en diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)  Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).
  • 14.
    Web Query InterfaceIntegration 15
  • 15.
    Descubrir atributos sinónimos 16 En el dominio de libros (autor – escritor, tema – categoría)
  • 16.
    Schema Matching como descubrimientode correlaciones17  Esta técnica necesita un gran número de consultas de entrada.  Atributos sinónimos están corelacionados negativamente.  Son alternativos, raramente co-ocurren  ej. autor = escritor  Grupos de atributos con correlación positiva.  Frecuentemente co-ocurren en las consultas.  ej, {Apellido, Nombre}
  • 17.
    Efecto puente 18  Esasdfasd  Asdfasd  Asdf  Asdf Observaciones: • Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B • Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a • Entonces, C puede ser como puente para conectar A y B.
  • 18.
    Modelo de datos 19 Gran parte de los datos de la Web pueden ser modelados como relaciones anidadas.  objetos con tipos permiten conjuntos anidados y tuplas.  Una instancia de un tipo T es simplemente un elemento de dom(T).
  • 19.
    Un ejemplo detipo de tupla anidada20  Relaciones clásicas planes son tipos no anidados.  Relaciones anidadas son tipos de conjuntos arbitrarios.