SlideShare una empresa de Scribd logo
1 de 91
Rubén Izquierdo Beviá 
dirigida por: 
Armando Suárez 
German Rigau
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
6) Evaluación 
7) Conclusiones y Trabajo futuro 
2
Introducción y Motivación 
• Procesamiento del Lenguaje Natural 
Principal problema  Ambigüedad del Lenguaje 
• Polisemia Una palabra con varios significados 
• Gato 
1.- Animal de la familia de los felinos 
2.- Herramienta para levantar objetos pesados 
3.- Danza nativa de argentina 
4.- Tipo de juego 
… 
3
Introducción y Motivación 
Desambiguación del Sentido de las Palabras 
• Tarea intermedia de PLN (WSD, Word Sense Disambiguation) 
• Trata de resolver la ambigüedad 
• Asignar a una palabra su significado correcto en función del contexto 
donde aparece (Weaver, 1949) 
“El carpintero cortó la madera usando la sierra” 
sierra. (Del lat. serra). 
1. f. Herramienta para cortar madera u otros objetos duros, que 
generalmente consiste en una hoja de acero dentada sujeta a una 
empuñadura. 
2. … 
3. … 
4. f. Parte de una cordillera 
4
Introducción y Motivación 
Origenes y Evolución 
• Surgió como una necesidad para la Traducción 
Automática (Weaver, 1949) 
– El sentido de una palabra es necesario para traducirla 
Bill  Pico / Cuenta ¿? 
• 1970-1980  sistemas basados en reglas 
• 1980-1990  sistemas basados en conocimiento 
• 1990-2000  sistemas supervisados basados en corpus 
• 2000-  sistemas híbridos / explotación de la web 
5
Introducción y Motivación 
Aplicaciones de WSD 
 Traducción Automática 
sierra: saw / mountain range 
 Recuperación de Información 
“Dolores en la columna” (vertebral, no de edificio) 
 Búsqueda de Respuestas 
 Implicación Textual 
 … 
6
Introducción 
Motivación 
 Aproximación tradicional  aprendizaje automático 
supervisado basado en sentidos (WordNet) 
 Este tipo de aproximaciones parece haber alcanzado 
un límite en su rendimiento (Mihalcea y Edmons, 2004) 
 Posibles causas: 
 Excesiva granularidad de los sentidos de WordNet 
 Escasez de recursos anotados con sentidos 
7
Introducción 
Motivación 
CLASES SEMANTICAS 
 Conceptos que engloban palabras con coherencia léxica 
y que comparten propiedades 
 Clases semánticas podemos usarlas para representar: 
 Textos 
 Contextos 
 Sentidos de palabras 
8
Introducción 
Motivación 
Aproximación basada en sentidos 
“El banco de aquel parque era de madera” 
1.- Lugar para sentarse 
2.- Conjunto de peces 
3.- Institución financiera 
4.- Edificio de una institución financiera 
5.- Estrato de gran espesor 
6.- Lugar donde guardar dinero 
… 
9
Introducción 
Motivación 
Aproximación basada en sentidos 
“El banco.n#1 de aquel parque era de madera” 
1.- Lugar para sentarse 
2.- Conjunto de peces 
3.- Institución financiera 
4.- Edificio de una institución financiera 
5.- Estrato de gran espesor 
6.- Lugar donde guardar dinero 
… 
10
Introducción 
Motivación 
11 
Aproximación basada en clases 
“El banco.n de aquel parque era de madera” 
1.- Lugar para sentarse MOBILIARIO 
2.- Conjunto de peces GRUPO 
3.- Institución financiera INSTITUCION 
4.- Edificio de una institución financiera ARTEFACTO 
5.- Estrato de gran espesor FORMACION 
GEOLOGICA 
6.- Lugar donde guardar dinero CONTENEDOR 
…
Introducción 
Motivación 
Aproximación basada en clases 
“El banco.n#MOBILIARIO de aquel parque era de madera” 
1.- Lugar para sentarse MOBILIARIO 
2.- Conjunto de peces GRUPO 
3.- Institución financiera INSTITUCION 
4.- Edificio de una institución financiera ARTEFACTO 
5.- Estrato de gran espesor FORMACION 
GEOLOGICA 
6.- Lugar donde guardar dinero CONTENEDOR 
… 
12
Introducción 
Motivación 
Una antigua iglesia_EDIFICIO de piedra_ARTEFACTO 
aparece_APARECER entre los campos_AREA-GEOGRAFICA, 
el sonido_PROPIEDAD de las 
campanas_DISPOSITIVO sonando_SONAR desde su 
torre_CONSTRUCCION llama_COMUNICAR a los 
fieles_GRUPO a misa_COMUNICACION 
13
Introducción 
Motivación 
¿Por qué clases semánticas? 
 Reducción de polisemia 
 Nivel de abstracción más elevado que el de sentidos y 
posiblemente más adecuado paraWSD y su aplicación 
 Mayor robustez e independencia del dominio 
 Aumento del número de ejemplos de entrenamiento 
 Etiquetado de palabras desconocidas 
14
Introducción 
Aportaciones de las clases semánticas I 
1. Arquitectura del sistema de WSD basado en clases 
2. Análisis de diferentes niveles de abstracción paraWSD 
3. Método automático de selección de clases semánticas 
desdeWordNet 
15
Introducción 
Aportaciones de las clases semánticas II 
4. Atributos para el método de aprendizaje 
5. Integración de las clases en un sistema de 
Recuperación de Información 
6. Análisis de la independencia del dominio del sistema 
de WSD basado en clases 
16
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
6) Evaluación 
7) Conclusiones y Trabajo futuro 
17
Estado de la Cuestión 
Aproximaciones a WSD 
• Técnicas basadas en conocimiento 
– Usan fuentes de información como diccionarios o 
tesauros 
• Técnicas supervisadas 
– Usan ejemplos de entrenamiento etiquetados 
• Técnicas no supervisadas 
– Usan corpus no etiquetados 
18
Estado de la Cuestión 
Aproximaciones Supervisadas 
 Utilizan un conjunto de ejemplos etiquetados 
representativos de las clases a aprender 
 Identifican y extraen patrones asociados con las clases 
 Se generan una serie de reglas de clasificación 
 Se utilizan estas reglas para clasificar nuevos ejemplos 
19
Estado de la Cuestión 
Aproximaciones Supervisadas 
 Tipos generales de métodos supervisados 
 Probabilísticos 
 Distribuciones de probabilidad que asocian contextos y 
sentidos 
 Naive Bayes, Máxima Entropía… 
 Basados en ejemplos 
 Similitud entre ejemplos. Se almacenan ejemplos y se devuelve 
el más similar 
 K-nearest neighbor 
20
Estado de la Cuestión 
Aproximaciones Supervisadas 
 Tipos generales de métodos supervisados 
 Basados en reglas 
 Se aprenden un conjunto de reglas condicionales 
 Se les suele asociar un peso 
 Listas o arboles de decisión, C4.5 
 Clasificadores lineales 
 Representan los ejemplos en un hiperespacio de 
características 
 Se calcula el hiperplano que separa los ejemplos 
 Máquinas de Soporte Vectorial (Support Vector Machines SVM) 
21
Estado de la Cuestión 
Aprox. basadas en clases semánticas 
• Yarowski, 1992 (aprox. híbrida) 
 Categorías del tesauro Roget a modo de clases 
conceptuales 
 Contextos para cada categoría desde la enciclopedia 
Grolier y palabras representativas 
 Para clasificar un ejemplo  clase que maximiza la suma 
de pesos de palabras comunes en contextos 
 Evaluación de 12 palabras polisémicas  92% acierto 
22
Estado de la Cuestión 
Aprox. basadas en clases semánticas 
 Segond et al., 1997 (aprox. supervisada) 
 Ficheros lexicográficos de WordNet 
 Ejemplos del corpus Brown 
 Modelos ocultos de Markov 
 Tres evaluaciones sobre Brown 
 Clase más frecuente  81% acierto 
 Clasificadores sin categoría gramatical  86% 
 Clasificares considerando categoría gram.atical  89% 
23
Estado de la Cuestión 
Aprox. basadas en clases semánticas 
 Ciaramita & Johnson, 2003 (aprox. hibrida) 
 Afronta etiquetado de palabras no disponibles para entrenamiento 
 Utilizan ejemplos monosémicos del corpus Bllip y ejemplos de 
WN16 y WN171 
 Ficheros lexicográficos de WordNet 
 Algoritmo multiclase basado en un perceptrón 
 Evaluación 
 Palabras en WN171 que no están en WN16: 52,9% 
 Palabras en WN16 eliminadas del training: 53,4% 
24
Estado de la Cuestión 
Aprox. basadas en clases semánticas 
 Villarejo et at., 2005 (aprox. supervisada) 
 SVM y AdaBoost sobre SemCor 
 Clases semánticas: Ficheros Lexicográficos WN y SUMO 
 Clasificadores basados en clases para cada palabra 
 Dos conjuntos básicos de atributos 
 Evaluación sobre un conjunto aleatorio de SemCor 
 SVM  82,5% 
 AdaBoost  71,9% 
25
Estado de la Cuestión 
Aprox. basadas en clases semántica 
• Ciaramita & Altun, 2006 (aprox. supervisada) 
– WSD como etiquetado secuencial  HMM 
– F. Lexicográficos WN como clases semánticas 
– SemCor como corpus de aprendizaje 
– Conjunto básico de atributos 
– Evaluación 
• Validación cruzada sobre SemCor  77,18 F1 
• Corpus de SensEval-3  70,54 F1 
26
Estado de la Cuestión 
Sistemas en SensEval 
SE1 SE2 SE3 SEM1 SEM2 
Año 1998 2001 2004 2007 2010 
Lugar Sussex Toulouse Barcelona Praga Uppsala 
Tarea Lexical 
Sample 
All 
Words 
All 
Words 
All 
Words 
All 
Words 
Num instancias 3500 2473 2037 3500 1398 
Num sistemas 25 22 26 15 29 
Acuerdo Anot. 80 75 62 79 --- 
Baseline 68,9 57,0 60,9 51,4 50,5 
Mejor resultado 78,1 69,0 65,1 59,1 57,0 
Mejor 
aproximación 
Listas 
decisión 
Aprendizaje 
patrones 
Aprendizaje 
memoria 
Máx. 
Entr. 
Redes 
Hopfield 
27
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
6) Evaluación del sistema 
7) Conclusiones y Trabajo futuro 
28
Clases Semánticas 
 Conjuntos predefinidos que usamos 
 SuperSenses (Fellbaum, 1998) 
 WordNet Domains (Magnini & Cavaglià, 2000) 
 Conceptos ontología SUMO (Niles & Pease, 2001) 
 Conjuntos extraídos automáticamente desde WordNet 
con un método que proponemos 
 Basic Level Concepts (Rosch, 1997) 
29
Clases Semánticas 
SuperSenses 
 Ficheros lexicográficos de WN, WN Semantic Tags, 
Semantic Classes of WN 
 Organización de trabajo para los lexicógrafos 
desarrolladores de WN 
 Conjunto de 45 etiquetas que organizan todos los 
synsets 
 En función de su categoría sintáctica 
 En base a agrupaciones semánticas 
30
Clases Semánticas 
WordNet Domains 
Sentido Glosa 
WordNet 1.6 WordNet 1.6 
Sentido Derivado de 
WordNet 1.6 SuperSense 
hospital.bank.n#1 n#1 A Depository health facility financial where institution 
patients 
bank.n#3 A supply held in reserve for future use 
bank.n#5 The funds held by a gambling house 
bank.n#6 Money box, container 
 Alrededor de athlete.160 n#categorías 1 receive treatment 
organizadas noun.person 
de acuerdo al 
Dewey Decimal operate.game_v#Classification 
equipment.7 Perform n#1 surgery noun.on 
artifact 
 Extensión de WN, synsets anotados con una o más 
categorías. 
ECONOMY 
MEDICINE 
SPORT 
 Un mismo dominio puede agrupar: 
 Varios sentidos de la misma palabra 
 Sentidos con categoría sintáctica diferente 
 Sentidos de sub-jerarquías de WN distintas 
31
Clases Semánticas 
SUMO 
 Ontología estándar de alto nivel, que define conceptos, 
axiomas y relaciones 
 Definen ontologías específicas para dominios 
concretos 
 Correspondencia SUMO  Synsets WN 1.6 
(Niles, Pease, 1998) 
32
Clases Semánticas 
33 
Clases semánticas para church.n 
Sentido SuperSense WND SUMO 
1 Grupo noun.group Religion Religious 
Organization 
2 Edificio noun.artifact Buildings Building 
3 Misa noun.act Religion Religious 
Process
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
1) Descripción 
2) Nuestro algoritmo de selección automática de BLC 
3) Conjuntos BLC. Características 
4) Evaluación inicial 
5) Arquitectura del sistema 
6) Evaluación 
7) Conclusiones y Trabajo futuro 
34
 BLC  tipo de conceptos descritos por (Rosch, 1977) 
 Representan a un gran número de subconceptos 
 Representan a un gran número de características 
 Tienen una frecuencia elevada 
 No confundir con Base Concepts (BC) 
 Surgen en EuroWordNet como conceptos 
fundamentales 
 Tienen una posición elevada en jerarquía 
 Tienen muchas relaciones con otros conceptos 
35 
Basic Level Concepts 
Descripción
Basic Level Concepts 
Nuestro algoritmo 
 Algoritmo de selección automática de BLC 
 Explotando la estructura jerárquica de WordNet 
 Con nivel de abstracción ajustable 
 Definido para nombres y verbos 
 Para cada synset en WN se selecciona un synset en su cadena 
hiperonimia que será su BLC 
 Recorrido ascendente cadena hiperonimia en WN 
 Considera el número de relaciones /frecuencia de cada synset 
 Selecciona el primer máximo local como BLC 
 La unión de synsets seleccionados como BLC compone el 
conjunto de BLC candidatos 
36
Basic Level Concepts 
Nuestro algoritmo 
37
 Filtrado final 
 Cada BLC debe englobar un mínimo número de 
conceptos (synsets) 
 Aquellos que no superan el umbral son eliminados y los 
conceptos englobados son reasignados 
 Nivel abstracción ajustable – parámetros 
 Umbral mínimo número de conceptos 
 Criterio a considerar por el algoritmo 
 Número de relaciones en WordNet (hiperonimia / todas) 
 Frecuencia de las palabras del synset (WordNet / SemCor) 
38 
Basic Level Concepts 
Nuestro algoritmo
Basic Level Concepts 
Conjuntos BLC sobre WordNet 1.6 
39 
Max. Prof. 15 nombres 
11 verbos
Basic Level Concepts 
Evaluación 
• In vitro (de forma directa) 
• Evaluación tarea deWSD 
• Sistema de WSD basado en clases semánticas 
BLC 
• In vivo (de forma indirecta) 
• Evaluación tarea de Recuperación de 
Información 
• Integración de los BLC en un sistema de 
Recuperación de Información (CLEF’09) 
40
Basic Level Concepts 
Evaluación in vitro 
41 
• Evaluación inicial para obtener el potencial 
rendimiento de los BLC en un sistema de WSD 
• Corpus SensEval-3 
– A cada synset se le asocia su BLC 
– Evaluación a nivel de BLC 
• Heurística sencilla 
– Palabra  sentidos WN1.6  BLC posibles 
– Se selecciona aquel BLC más frecuente para la 
palabra en SemCor
Basic Level Concepts 
Evaluación in vitro 
Valor F1 para palabras polisémicas en SensEval-3 
Número de relaciones 
42
Basic Level Concepts 
Evaluación in vitro 
Valor F1 para palabras polisémicas en SensEval-3 
Frecuencia de synsets 
43
Basic Level Concepts 
Evaluación in vitro 
• Resultados altos y coherentes con la polisemia de las 
clases 
• Mejores resultados con el criterio de relaciones y en 
concreto All 
• Muy buenos resultados de BLC—20 (nivel de 
abstracción media) 
• Clasificadores robustos para WSD 
44
Basic Level Concepts 
Evaluación in vivo 
• Tarea Robust WSD CLEF’09 
• Impacto de la información semántica en un sistema de 
RI 
• Consultas y documentos anotados con sentidos 
 Automáticamente por 2 sistemas 
 Ofrecen el ranking de sentidos junto probabilidad 
45
Basic Level Concepts 
Evaluación in vivo 
46
Basic Level Concepts 
Evaluación in vivo 
• Nuestra aproximación 
 Utilizar Lucene (motor de RI basado en modelo BM25) y 
técnicas de expansión de la consulta Bo1 
 Asociar el ranking de sentidos a clases semánticas 
 WND 
 BLC-20 
 Representar documentos y consulta mediante un vector 
de clases semánticas 
47
Basic Level Concepts 
Evaluación in vivo 
• Nuestra aproximación 
 Obtener similitud entre documentos y consultas 
mediante la fórmula del coseno de los vectores 
semánticos 
 Reordenar lista de documentos considerando el valor de 
Lucene y el valor de similitud basada en clases 
semánticas 
48
Basic Level Concepts 
Evaluación in vivo 
 MAP: media aritmética de la precisión por pregunta 
 GMAP: media geométrica de la precisión por pregunta 
 R-Prec: precisión tras recuperar tantos como docs. 
relevantes 
49
Basic Level Concepts 
Evaluación in vivo 
 Mejora del rendimiento del sistema de RI con 
reordenación semántica 
 Buen funcionamiento con BLC-20 
 Ranking de sentidos automático 
 Posiblemente tasa error elevada 
50
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
1) Arquitectura basada en sentidos vs. clases 
2) Diseño de la arquitectura basada en clases 
3) Recursos 
4) Tipos de atributos 
6) Evaluación 
7) Conclusiones y Trabajo futuro 
51
Arquitectura del sistema 
Aproximación basada en sentidos 
 Aprendizaje automático supervisado 
 Clasificadores basados en sentidos, asignan el sentido a 
una palabra 
 Cada clasificador para una palabra 
 Ejemplos solo de la palabra, con sus diversos sentidos 
 Num ejemplos clasificador church.n en SemCor 
 church.n#1  60 
 church.n#2  58 TOTAL= 128 ejemplos 
 church.n#3  10 
52
Arquitectura del sistema 
Aproximación basada en clases 
• Aprendizaje automático supervisado 
• Clasificadores basados en clases semánticas, asignan su 
clase semántica a una palabra 
• Cada clasificador para una clase 
– Ejemplos de todos los sentidos de palabras pertenecientes a la 
clase semántica 
– Num ejemplos clasificador para BUILDING en SemCor 
• church.n#2  58 
• building.n#1  48 
• hotel.n#1  39 
• barn.n#1, hospital.n#1 .. 
53 
TOTAL 371 ejemplos
Arquitectura del sistema 
Sentidos vs. clases 
54
Arquitectura del sistema 
Aproximación basada en clases. Recursos 
• Método de aprendizaje automático 
– Máquinas de Soporte Vectorial (SVM) 
• Método de aprendizaje estadístico basado en 
clasificadores lineales 
• Hiperplano que maximiza el margen de 
separación de los ejemplos (binarios) 
• Buen funcionamiento en espacios de alta 
dimensionalidad (muchos atributos) 
• WordNet & Mappings (Daudé et al., 2000) 
• Clases semánticas 
– Basic Level Concepts 
– SuperSenses 
– WordNet Domains 
– SUMO 
55
Arquitectura del sistema 
Aproximación basada en clases. Recursos 
 Corpus 
– SemCor  entrenamiento 
– SensEval y SemEval  evaluación 
 Tipos de atributos 
 Locales: bigramas y trigramas alrededor de la palabra 
objetivo 
 De tópico: palabras o lemas en un cierto contexto 
 Semánticos: construídos con nuestras clases semánticas 
56
Arquitectura del sistema 
Aproximación basada en clases. Atributos 
 Atributos BASE 
 Partimos de atributos tradicionalmente usados 
(Yarowski, 1994) 
 Análisis de atributos y configuraciones 
 Atributos IXA 
 Definidos por el grupo de investigación IXA de EHU 
57
Arquitectura del sistema 
Aproximación basada en clases. Atributos 
Atributos BASE 
 Palabras y Lemas en ventana 10 
 Etiquetas POS 
 3-5 anteriores/posteriores 
 Bigramas y trigramas en ventana 5 tokens 
 De palabras y lemas 
 Generalización de atributos 
 Atributos semánticos 
 Clase más frecuente de la palabra objetivo 
 Clase de palabras monosémicas en ventana 5 tokens 
58
Arquitectura del sistema 
Aproximación basada en clases. Atributos 
Atributos IXA 
 Atributos locales 
 Unigramas, bigramas y trigramas de palabras, lemas y POS 
 Lema y palabra del token anterior y posterior con contenido 
semántico 
 Bolsa de palabras 
 BOW-win: palabras en un contexto de 4 tokens 
 BOW-par: palabras en el párrafo 
 Atributos semánticos 
 Clase más frecuente de la palabra objetivo 
 Clase de palabras monosémicas en ventana 5 tokens 
59
Arquitectura del sistema 
Aproximación basada en clases. Atributos 
Filtrado de atributos 
 Selecciona para cada clase un conjunto de atributos 
específico 
 Se elimina ruido y atributos no relevantes 
 Se obtienen todos los atributos para todas las clases y 
para cada atributo 
 Frecuencia del atributo para la clase f_clase 
 Frecuencia del atributo para todas las clases f_total 
 Si f_clase / f_total < Umbral  eliminar atributo 
 Empíricamente umbral = 0,25 
60
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
6) Evaluación 
1) Niveles de abstracción en WSD 
2) Comparación con SensEval 
3) Participación en SemEval 
7) Conclusiones y Trabajo futuro 
61
Evaluación 
Niveles de Abstracción en WSD 
 Analizar el rendimiento del sistema en diferentes niveles de 
abstracción  Clases Semánticas 
 Arquitectura de WSD basada en clase semánticas y SVM 
 Experimentos 
 Atributos BASE 
 Clase semántica para clasificadores 
 Clase semántica para construir atributos 
 Atributos IXA 
 Clase semántica para clasificadores 
 Tipos de atributo 
 Curvas aprendizaje con atributos BASE 
62
 Clases semánticas 
 BLC-20 y BLC-50 
 WordNet Domains 
 SuperSenses 
 SUMO 
 Sentidos 
Polisemia de las diferentes clases semánticas 
63 
Evaluación 
Niveles de Abstracción en WSD 
 Corpus 
 Entrenamiento  SemCor 
 Evaluación  SensEval-2, 
SenseVal-3 y SemEval-1
Atributos Base. Resultados para nombres (F1) 
64 
Evaluación 
Niveles de Abstracción en WSD
Atributos Base. Resultados para verbos (F1) 
65 
Evaluación 
Niveles de Abstracción en WSD
Atributos Base. Resultados para verbos (F1) 
66 
Evaluación 
Niveles de Abstracción en WSD
Atributos IXA. Resultados para nombres (F1) 
67 
Evaluación 
Niveles de Abstracción en WSD
Atributos IXA. Resultados para nombres (F1) 
68 
Evaluación 
Niveles de Abstracción en WSD
Atributos IXA. Resultados para verbos (F1) 
69 
Evaluación 
Niveles de Abstracción en WSD
Curva aprendizaje sobre SE2. Clasificadores BLC-20 
Atributos base + semanticos WND 
70 
Evaluación 
Niveles de Abstracción en WSD
Curva aprendizaje sobre SE3. Clasificadores BLC-20 
Atributos base + semanticos WND 
71 
Evaluación 
Niveles de Abstracción en WSD
 Buenos resultados con niveles de abstracción 
intermedia sin excesiva penalización (BLC-20, BLC-50 
y WND) 
 Los atributos semánticos mejoran el aprendizaje 
 Se reduce la necesidad de ejemplos de entrenamiento 
mediante clases semánticas 
72 
Evaluación 
Niveles de Abstracción en WSD
 Comparación a posteriori 
 Sistemas SensEval  Sentidos 
bank.n#ECONOMY 
 Nuestro sistema  Clases Semánticas 
bank.n#1 Depository financial institution 
bank.n#3 A supply held in reserve for future use 
bank.n#5 The funds held by a gambling house 
bank.n#6 Money box, container 
 Para poder comparar 
 A nivel de sentido 
 Transformar nuestras clases a sentidos  primer sentido de 
WordNet que encaje con la clase 
 A nivel de clase 
bank.n#1 
 Transformar sentidos a clases semánticas  asociación directa 
73 
Evaluación 
Comparación con SensEval
- Atributos BASE y semánticos según WND 
- Seleccionamos el primer sentido de WN que encaja con la clase semántica 
74 
Evaluación 
Comparación con SensEval. Sentidos
75 
Evaluación 
Comparación con SensEval. Sentidos
- Atributos BASE y diferentes atributos semánticos 
- Sentidos de WordNet se transforman a clases semánticas 
- Corpus SensEval-2 y clases semánticas BLC-20 
76 
Evaluación 
Comparación con SensEval. Clases
- Atributos BASE y diferentes atributos semánticos 
- Sentidos de WordNet se transforman a clases semánticas 
- Corpus SensEval-3 y clases semánticas BLC-50 
77 
Evaluación 
Comparación con SensEval. Clases
 A nivel de sentidos 
 Buenos resultados de BLC-20 y BLC-50 
 Buenos resultados  no se pierde poder discriminatorio 
 A nivel de clases 
 Buen resultado con BLC-20 y BLC-50 
 En muchos casos se alcanza la primera posición 
 El sistema de clases no solo obtiene ventaja de la 
reducción de polisemia 
78 
Evaluación 
Comparación con SensEval
 Evaluación internacional para la evaluación y 
comparación de sistemas de WSD y de análisis 
semántico 
 SemEval-1 
 Praga, 2007 
 Tarea “Coarse-grained English All Words” 
 5ª posición alcanzada 
 SemEval-2 
 Uppsala, 2010 
 Tarea “All Words WSD on a specific Domain” 
 5ª posición alcanzada 
79 
Evaluación 
Participación en SemEval
 Tarea “Coarse-grained English All Words” 
 Arquitectura semántica de dos niveles: BLC-20 y 
senseClusters 
 Arquitectura aprendizaje  SVM + SemCor 
 Conjunto básico de atributos 
 Lemas, palabras y etiquetas PoS en ventana 3 
 Clase más frecuente en SemCor 
 Etiqueta BLC-20 para clasificadores SenseCluster 
80 
Evaluación 
Participación en SemEval-1
81 
Evaluación 
Participación en SemEval-1
82 
Evaluación 
Participación en SemEval-1
 Tarea “All Words WSD on a specific Domain” 
 BLC-20 para extraer ejemplos monosémicos desde 
documentos del dominio no anotados 
 Arquitectura aprendizaje  SVM + SemCor + Docs Dominio 
 Conjunto básico de atributos 
 Lemas, palabras y etiquetas PoS en ventana 5 
 Bigramas y trigramas 
 Clase más frecuente en SemCor palabra objetivo 
 Primer sentido de WN que encaja con la clase BLC-20 
83 
Evaluación 
Participación en SemEval-2
84 
Evaluación 
Participación en SemEval-2
85 
Evaluación 
Participación en SemEval-2
Indice 
1) Introducción y Motivación 
2) Estado de la cuestión 
3) Clases semánticas 
4) Basic Level Concepts 
5) Arquitectura del sistema 
6) Evaluación 
7) Conclusiones y Trabajo futuro 
86
Conclusiones I 
1. Mayor nivel de abstracción que el de sentidos, sin 
perder poder discriminatorio (nivel intermedio) 
2. Nivel de abstracción ajustable  método selección 
BLC 
 BLC usados en proyecto europeo Kyoto 
3. Mejora de los resultados absolutos 
4. Comparación sistemas SensEval 
87
Conclusiones II 
5. Buenos resultados en SemEval-1 y SemEval-2 
6. Aumento en el número de ejemplos de entrenamiento 
7. Mayor robustez e independencia respecto al dominio 
8. Clases semánticas para construir atributos 
9. Disponibles de forma libre para investigación 
 Conjuntos BLC extraídos de WordNet 
 Sistema de WSD basado en clases semánticas 
(Descargar/Online) 
88
Trabajo Futuro I 
1. Detección de palabras clave o tópicos 
2. Método algebraico de factorización de matrices SVD 
como sustitución de la técnica de filtrado 
3. Nuevos recursos: corpus, clases semánticas, 
métodos de aprendizaje… 
89
Trabajo Futuro II 
4. Atributos más complejos 
5. Combinación de clasificadores 
6. Integración del sistema de WSD y clases semánticas a 
otras aplicaciones de PLN 
90
Rubén Izquierdo Beviá

Más contenido relacionado

Similar a Thesis presentation (WSD and Semantic Classes)

Prueba para docentes
Prueba para docentesPrueba para docentes
Prueba para docentesyomarmorales
 
Instrumento Metodologia Cesar Monagas
Instrumento Metodologia  Cesar MonagasInstrumento Metodologia  Cesar Monagas
Instrumento Metodologia Cesar Monagascesarmonagas
 
Es lo mismo la busqueda por palabras claves y por tema rev.nov. 2011
Es lo mismo la busqueda por palabras claves y por tema  rev.nov. 2011Es lo mismo la busqueda por palabras claves y por tema  rev.nov. 2011
Es lo mismo la busqueda por palabras claves y por tema rev.nov. 2011Ketty Rodriguez
 
Comprension de textos
Comprension de textosComprension de textos
Comprension de textosdetlefsen
 
Frame netspanish
Frame netspanishFrame netspanish
Frame netspanishLaura Menna
 
Tabla espec y taxonomia bloom
Tabla espec y taxonomia bloomTabla espec y taxonomia bloom
Tabla espec y taxonomia bloomdraw123
 
Tabla especificaciones y taxonomiabloom
Tabla especificaciones y taxonomiabloomTabla especificaciones y taxonomiabloom
Tabla especificaciones y taxonomiabloomAaron IV Martínez
 
Discursos Del Razonamiento
Discursos Del RazonamientoDiscursos Del Razonamiento
Discursos Del RazonamientoNury
 
Complement del verb
Complement del verbComplement del verb
Complement del verbguest9f5196
 
Pruebas de base estructurada la salle
Pruebas de base estructurada la sallePruebas de base estructurada la salle
Pruebas de base estructurada la salleJose Arcos
 
diseños de teoría fundamental
diseños de teoría fundamentaldiseños de teoría fundamental
diseños de teoría fundamentallblanquice
 
Conectivos y relacionantes
Conectivos y relacionantesConectivos y relacionantes
Conectivos y relacionantesHugo Araujo
 
Ensayos conectivosyrelacionantes
Ensayos conectivosyrelacionantesEnsayos conectivosyrelacionantes
Ensayos conectivosyrelacionantessilvanitaap
 
Conectores
ConectoresConectores
Conectoresvega86
 
Ensayos conectivosyrelacionantes
Ensayos conectivosyrelacionantesEnsayos conectivosyrelacionantes
Ensayos conectivosyrelacionantesSarai Veliz Cis
 
El siguiente es un resumen general de las algunas competencias propuestas par...
El siguiente es un resumen general de las algunas competencias propuestas par...El siguiente es un resumen general de las algunas competencias propuestas par...
El siguiente es un resumen general de las algunas competencias propuestas par...joseluish
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...GIANCARLOORDINOLAORD
 

Similar a Thesis presentation (WSD and Semantic Classes) (20)

Prueba para docentes
Prueba para docentesPrueba para docentes
Prueba para docentes
 
Instrumento Metodologia Cesar Monagas
Instrumento Metodologia  Cesar MonagasInstrumento Metodologia  Cesar Monagas
Instrumento Metodologia Cesar Monagas
 
Es lo mismo la busqueda por palabras claves y por tema rev.nov. 2011
Es lo mismo la busqueda por palabras claves y por tema  rev.nov. 2011Es lo mismo la busqueda por palabras claves y por tema  rev.nov. 2011
Es lo mismo la busqueda por palabras claves y por tema rev.nov. 2011
 
Comprension de textos
Comprension de textosComprension de textos
Comprension de textos
 
Frame netspanish
Frame netspanishFrame netspanish
Frame netspanish
 
Tabla espec y taxonomia bloom
Tabla espec y taxonomia bloomTabla espec y taxonomia bloom
Tabla espec y taxonomia bloom
 
Tabla especificaciones y taxonomiabloom
Tabla especificaciones y taxonomiabloomTabla especificaciones y taxonomiabloom
Tabla especificaciones y taxonomiabloom
 
Discursos Del Razonamiento
Discursos Del RazonamientoDiscursos Del Razonamiento
Discursos Del Razonamiento
 
Complement del verb
Complement del verbComplement del verb
Complement del verb
 
Sistemas Expertos
Sistemas ExpertosSistemas Expertos
Sistemas Expertos
 
Sistemas Expertos
Sistemas ExpertosSistemas Expertos
Sistemas Expertos
 
Pruebas de base estructurada la salle
Pruebas de base estructurada la sallePruebas de base estructurada la salle
Pruebas de base estructurada la salle
 
diseños de teoría fundamental
diseños de teoría fundamentaldiseños de teoría fundamental
diseños de teoría fundamental
 
Conectivos y relacionantes
Conectivos y relacionantesConectivos y relacionantes
Conectivos y relacionantes
 
Ensayos conectivosyrelacionantes
Ensayos conectivosyrelacionantesEnsayos conectivosyrelacionantes
Ensayos conectivosyrelacionantes
 
Conectores
ConectoresConectores
Conectores
 
Ensayos conectivosyrelacionantes
Ensayos conectivosyrelacionantesEnsayos conectivosyrelacionantes
Ensayos conectivosyrelacionantes
 
Planeación 1
Planeación 1Planeación 1
Planeación 1
 
El siguiente es un resumen general de las algunas competencias propuestas par...
El siguiente es un resumen general de las algunas competencias propuestas par...El siguiente es un resumen general de las algunas competencias propuestas par...
El siguiente es un resumen general de las algunas competencias propuestas par...
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
 

Más de Rubén Izquierdo Beviá

ULM-1 Understanding Languages by Machines: The borders of Ambiguity
ULM-1 Understanding Languages by Machines: The borders of AmbiguityULM-1 Understanding Languages by Machines: The borders of Ambiguity
ULM-1 Understanding Languages by Machines: The borders of AmbiguityRubén Izquierdo Beviá
 
DutchSemCor workshop: Domain classification and WSD systems
DutchSemCor workshop: Domain classification and WSD systemsDutchSemCor workshop: Domain classification and WSD systems
DutchSemCor workshop: Domain classification and WSD systemsRubén Izquierdo Beviá
 
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged Corpus
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged CorpusRANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged Corpus
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged CorpusRubén Izquierdo Beviá
 
Topic modeling and WSD on the Ancora corpus
Topic modeling and WSD on the Ancora corpusTopic modeling and WSD on the Ancora corpus
Topic modeling and WSD on the Ancora corpusRubén Izquierdo Beviá
 
Error analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationError analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationRubén Izquierdo Beviá
 
KafNafParserPy: a python library for parsing/creating KAF and NAF files
KafNafParserPy: a python library for parsing/creating KAF and NAF filesKafNafParserPy: a python library for parsing/creating KAF and NAF files
KafNafParserPy: a python library for parsing/creating KAF and NAF filesRubén Izquierdo Beviá
 
CLTL python course: Object Oriented Programming (3/3)
CLTL python course: Object Oriented Programming (3/3)CLTL python course: Object Oriented Programming (3/3)
CLTL python course: Object Oriented Programming (3/3)Rubén Izquierdo Beviá
 
CLTL python course: Object Oriented Programming (2/3)
CLTL python course: Object Oriented Programming (2/3)CLTL python course: Object Oriented Programming (2/3)
CLTL python course: Object Oriented Programming (2/3)Rubén Izquierdo Beviá
 
CLTL python course: Object Oriented Programming (1/3)
CLTL python course: Object Oriented Programming (1/3)CLTL python course: Object Oriented Programming (1/3)
CLTL python course: Object Oriented Programming (1/3)Rubén Izquierdo Beviá
 
CLTL: Description of web services and sofware. Nijmegen 2013
CLTL: Description of web services and sofware. Nijmegen 2013CLTL: Description of web services and sofware. Nijmegen 2013
CLTL: Description of web services and sofware. Nijmegen 2013Rubén Izquierdo Beviá
 
CLTL presentation: training an opinion mining system from KAF files using CRF
CLTL presentation: training an opinion mining system from KAF files using CRFCLTL presentation: training an opinion mining system from KAF files using CRF
CLTL presentation: training an opinion mining system from KAF files using CRFRubén Izquierdo Beviá
 
CLIN 2012: DutchSemCor Building a semantically annotated corpus for Dutch
CLIN 2012: DutchSemCor  Building a semantically annotated corpus for DutchCLIN 2012: DutchSemCor  Building a semantically annotated corpus for Dutch
CLIN 2012: DutchSemCor Building a semantically annotated corpus for DutchRubén Izquierdo Beviá
 
RANLP 2013: DutchSemcor in quest of the ideal corpus
RANLP 2013: DutchSemcor in quest of the ideal corpusRANLP 2013: DutchSemcor in quest of the ideal corpus
RANLP 2013: DutchSemcor in quest of the ideal corpusRubén Izquierdo Beviá
 

Más de Rubén Izquierdo Beviá (17)

ULM-1 Understanding Languages by Machines: The borders of Ambiguity
ULM-1 Understanding Languages by Machines: The borders of AmbiguityULM-1 Understanding Languages by Machines: The borders of Ambiguity
ULM-1 Understanding Languages by Machines: The borders of Ambiguity
 
DutchSemCor workshop: Domain classification and WSD systems
DutchSemCor workshop: Domain classification and WSD systemsDutchSemCor workshop: Domain classification and WSD systems
DutchSemCor workshop: Domain classification and WSD systems
 
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged Corpus
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged CorpusRANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged Corpus
RANLP2013: DutchSemCor, in Quest of the Ideal Sense Tagged Corpus
 
Topic modeling and WSD on the Ancora corpus
Topic modeling and WSD on the Ancora corpusTopic modeling and WSD on the Ancora corpus
Topic modeling and WSD on the Ancora corpus
 
Information Extraction
Information ExtractionInformation Extraction
Information Extraction
 
Error analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationError analysis of Word Sense Disambiguation
Error analysis of Word Sense Disambiguation
 
Juan Calvino y el Calvinismo
Juan Calvino y el CalvinismoJuan Calvino y el Calvinismo
Juan Calvino y el Calvinismo
 
KafNafParserPy: a python library for parsing/creating KAF and NAF files
KafNafParserPy: a python library for parsing/creating KAF and NAF filesKafNafParserPy: a python library for parsing/creating KAF and NAF files
KafNafParserPy: a python library for parsing/creating KAF and NAF files
 
CLTL python course: Object Oriented Programming (3/3)
CLTL python course: Object Oriented Programming (3/3)CLTL python course: Object Oriented Programming (3/3)
CLTL python course: Object Oriented Programming (3/3)
 
CLTL python course: Object Oriented Programming (2/3)
CLTL python course: Object Oriented Programming (2/3)CLTL python course: Object Oriented Programming (2/3)
CLTL python course: Object Oriented Programming (2/3)
 
CLTL python course: Object Oriented Programming (1/3)
CLTL python course: Object Oriented Programming (1/3)CLTL python course: Object Oriented Programming (1/3)
CLTL python course: Object Oriented Programming (1/3)
 
CLTL Software and Web Services
CLTL Software and Web Services CLTL Software and Web Services
CLTL Software and Web Services
 
ULM1 - The borders of Ambiguity
ULM1 - The borders of AmbiguityULM1 - The borders of Ambiguity
ULM1 - The borders of Ambiguity
 
CLTL: Description of web services and sofware. Nijmegen 2013
CLTL: Description of web services and sofware. Nijmegen 2013CLTL: Description of web services and sofware. Nijmegen 2013
CLTL: Description of web services and sofware. Nijmegen 2013
 
CLTL presentation: training an opinion mining system from KAF files using CRF
CLTL presentation: training an opinion mining system from KAF files using CRFCLTL presentation: training an opinion mining system from KAF files using CRF
CLTL presentation: training an opinion mining system from KAF files using CRF
 
CLIN 2012: DutchSemCor Building a semantically annotated corpus for Dutch
CLIN 2012: DutchSemCor  Building a semantically annotated corpus for DutchCLIN 2012: DutchSemCor  Building a semantically annotated corpus for Dutch
CLIN 2012: DutchSemCor Building a semantically annotated corpus for Dutch
 
RANLP 2013: DutchSemcor in quest of the ideal corpus
RANLP 2013: DutchSemcor in quest of the ideal corpusRANLP 2013: DutchSemcor in quest of the ideal corpus
RANLP 2013: DutchSemcor in quest of the ideal corpus
 

Último

Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 

Último (15)

Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 

Thesis presentation (WSD and Semantic Classes)

  • 1. Rubén Izquierdo Beviá dirigida por: Armando Suárez German Rigau
  • 2. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 6) Evaluación 7) Conclusiones y Trabajo futuro 2
  • 3. Introducción y Motivación • Procesamiento del Lenguaje Natural Principal problema  Ambigüedad del Lenguaje • Polisemia Una palabra con varios significados • Gato 1.- Animal de la familia de los felinos 2.- Herramienta para levantar objetos pesados 3.- Danza nativa de argentina 4.- Tipo de juego … 3
  • 4. Introducción y Motivación Desambiguación del Sentido de las Palabras • Tarea intermedia de PLN (WSD, Word Sense Disambiguation) • Trata de resolver la ambigüedad • Asignar a una palabra su significado correcto en función del contexto donde aparece (Weaver, 1949) “El carpintero cortó la madera usando la sierra” sierra. (Del lat. serra). 1. f. Herramienta para cortar madera u otros objetos duros, que generalmente consiste en una hoja de acero dentada sujeta a una empuñadura. 2. … 3. … 4. f. Parte de una cordillera 4
  • 5. Introducción y Motivación Origenes y Evolución • Surgió como una necesidad para la Traducción Automática (Weaver, 1949) – El sentido de una palabra es necesario para traducirla Bill  Pico / Cuenta ¿? • 1970-1980  sistemas basados en reglas • 1980-1990  sistemas basados en conocimiento • 1990-2000  sistemas supervisados basados en corpus • 2000-  sistemas híbridos / explotación de la web 5
  • 6. Introducción y Motivación Aplicaciones de WSD  Traducción Automática sierra: saw / mountain range  Recuperación de Información “Dolores en la columna” (vertebral, no de edificio)  Búsqueda de Respuestas  Implicación Textual  … 6
  • 7. Introducción Motivación  Aproximación tradicional  aprendizaje automático supervisado basado en sentidos (WordNet)  Este tipo de aproximaciones parece haber alcanzado un límite en su rendimiento (Mihalcea y Edmons, 2004)  Posibles causas:  Excesiva granularidad de los sentidos de WordNet  Escasez de recursos anotados con sentidos 7
  • 8. Introducción Motivación CLASES SEMANTICAS  Conceptos que engloban palabras con coherencia léxica y que comparten propiedades  Clases semánticas podemos usarlas para representar:  Textos  Contextos  Sentidos de palabras 8
  • 9. Introducción Motivación Aproximación basada en sentidos “El banco de aquel parque era de madera” 1.- Lugar para sentarse 2.- Conjunto de peces 3.- Institución financiera 4.- Edificio de una institución financiera 5.- Estrato de gran espesor 6.- Lugar donde guardar dinero … 9
  • 10. Introducción Motivación Aproximación basada en sentidos “El banco.n#1 de aquel parque era de madera” 1.- Lugar para sentarse 2.- Conjunto de peces 3.- Institución financiera 4.- Edificio de una institución financiera 5.- Estrato de gran espesor 6.- Lugar donde guardar dinero … 10
  • 11. Introducción Motivación 11 Aproximación basada en clases “El banco.n de aquel parque era de madera” 1.- Lugar para sentarse MOBILIARIO 2.- Conjunto de peces GRUPO 3.- Institución financiera INSTITUCION 4.- Edificio de una institución financiera ARTEFACTO 5.- Estrato de gran espesor FORMACION GEOLOGICA 6.- Lugar donde guardar dinero CONTENEDOR …
  • 12. Introducción Motivación Aproximación basada en clases “El banco.n#MOBILIARIO de aquel parque era de madera” 1.- Lugar para sentarse MOBILIARIO 2.- Conjunto de peces GRUPO 3.- Institución financiera INSTITUCION 4.- Edificio de una institución financiera ARTEFACTO 5.- Estrato de gran espesor FORMACION GEOLOGICA 6.- Lugar donde guardar dinero CONTENEDOR … 12
  • 13. Introducción Motivación Una antigua iglesia_EDIFICIO de piedra_ARTEFACTO aparece_APARECER entre los campos_AREA-GEOGRAFICA, el sonido_PROPIEDAD de las campanas_DISPOSITIVO sonando_SONAR desde su torre_CONSTRUCCION llama_COMUNICAR a los fieles_GRUPO a misa_COMUNICACION 13
  • 14. Introducción Motivación ¿Por qué clases semánticas?  Reducción de polisemia  Nivel de abstracción más elevado que el de sentidos y posiblemente más adecuado paraWSD y su aplicación  Mayor robustez e independencia del dominio  Aumento del número de ejemplos de entrenamiento  Etiquetado de palabras desconocidas 14
  • 15. Introducción Aportaciones de las clases semánticas I 1. Arquitectura del sistema de WSD basado en clases 2. Análisis de diferentes niveles de abstracción paraWSD 3. Método automático de selección de clases semánticas desdeWordNet 15
  • 16. Introducción Aportaciones de las clases semánticas II 4. Atributos para el método de aprendizaje 5. Integración de las clases en un sistema de Recuperación de Información 6. Análisis de la independencia del dominio del sistema de WSD basado en clases 16
  • 17. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 6) Evaluación 7) Conclusiones y Trabajo futuro 17
  • 18. Estado de la Cuestión Aproximaciones a WSD • Técnicas basadas en conocimiento – Usan fuentes de información como diccionarios o tesauros • Técnicas supervisadas – Usan ejemplos de entrenamiento etiquetados • Técnicas no supervisadas – Usan corpus no etiquetados 18
  • 19. Estado de la Cuestión Aproximaciones Supervisadas  Utilizan un conjunto de ejemplos etiquetados representativos de las clases a aprender  Identifican y extraen patrones asociados con las clases  Se generan una serie de reglas de clasificación  Se utilizan estas reglas para clasificar nuevos ejemplos 19
  • 20. Estado de la Cuestión Aproximaciones Supervisadas  Tipos generales de métodos supervisados  Probabilísticos  Distribuciones de probabilidad que asocian contextos y sentidos  Naive Bayes, Máxima Entropía…  Basados en ejemplos  Similitud entre ejemplos. Se almacenan ejemplos y se devuelve el más similar  K-nearest neighbor 20
  • 21. Estado de la Cuestión Aproximaciones Supervisadas  Tipos generales de métodos supervisados  Basados en reglas  Se aprenden un conjunto de reglas condicionales  Se les suele asociar un peso  Listas o arboles de decisión, C4.5  Clasificadores lineales  Representan los ejemplos en un hiperespacio de características  Se calcula el hiperplano que separa los ejemplos  Máquinas de Soporte Vectorial (Support Vector Machines SVM) 21
  • 22. Estado de la Cuestión Aprox. basadas en clases semánticas • Yarowski, 1992 (aprox. híbrida)  Categorías del tesauro Roget a modo de clases conceptuales  Contextos para cada categoría desde la enciclopedia Grolier y palabras representativas  Para clasificar un ejemplo  clase que maximiza la suma de pesos de palabras comunes en contextos  Evaluación de 12 palabras polisémicas  92% acierto 22
  • 23. Estado de la Cuestión Aprox. basadas en clases semánticas  Segond et al., 1997 (aprox. supervisada)  Ficheros lexicográficos de WordNet  Ejemplos del corpus Brown  Modelos ocultos de Markov  Tres evaluaciones sobre Brown  Clase más frecuente  81% acierto  Clasificadores sin categoría gramatical  86%  Clasificares considerando categoría gram.atical  89% 23
  • 24. Estado de la Cuestión Aprox. basadas en clases semánticas  Ciaramita & Johnson, 2003 (aprox. hibrida)  Afronta etiquetado de palabras no disponibles para entrenamiento  Utilizan ejemplos monosémicos del corpus Bllip y ejemplos de WN16 y WN171  Ficheros lexicográficos de WordNet  Algoritmo multiclase basado en un perceptrón  Evaluación  Palabras en WN171 que no están en WN16: 52,9%  Palabras en WN16 eliminadas del training: 53,4% 24
  • 25. Estado de la Cuestión Aprox. basadas en clases semánticas  Villarejo et at., 2005 (aprox. supervisada)  SVM y AdaBoost sobre SemCor  Clases semánticas: Ficheros Lexicográficos WN y SUMO  Clasificadores basados en clases para cada palabra  Dos conjuntos básicos de atributos  Evaluación sobre un conjunto aleatorio de SemCor  SVM  82,5%  AdaBoost  71,9% 25
  • 26. Estado de la Cuestión Aprox. basadas en clases semántica • Ciaramita & Altun, 2006 (aprox. supervisada) – WSD como etiquetado secuencial  HMM – F. Lexicográficos WN como clases semánticas – SemCor como corpus de aprendizaje – Conjunto básico de atributos – Evaluación • Validación cruzada sobre SemCor  77,18 F1 • Corpus de SensEval-3  70,54 F1 26
  • 27. Estado de la Cuestión Sistemas en SensEval SE1 SE2 SE3 SEM1 SEM2 Año 1998 2001 2004 2007 2010 Lugar Sussex Toulouse Barcelona Praga Uppsala Tarea Lexical Sample All Words All Words All Words All Words Num instancias 3500 2473 2037 3500 1398 Num sistemas 25 22 26 15 29 Acuerdo Anot. 80 75 62 79 --- Baseline 68,9 57,0 60,9 51,4 50,5 Mejor resultado 78,1 69,0 65,1 59,1 57,0 Mejor aproximación Listas decisión Aprendizaje patrones Aprendizaje memoria Máx. Entr. Redes Hopfield 27
  • 28. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 6) Evaluación del sistema 7) Conclusiones y Trabajo futuro 28
  • 29. Clases Semánticas  Conjuntos predefinidos que usamos  SuperSenses (Fellbaum, 1998)  WordNet Domains (Magnini & Cavaglià, 2000)  Conceptos ontología SUMO (Niles & Pease, 2001)  Conjuntos extraídos automáticamente desde WordNet con un método que proponemos  Basic Level Concepts (Rosch, 1997) 29
  • 30. Clases Semánticas SuperSenses  Ficheros lexicográficos de WN, WN Semantic Tags, Semantic Classes of WN  Organización de trabajo para los lexicógrafos desarrolladores de WN  Conjunto de 45 etiquetas que organizan todos los synsets  En función de su categoría sintáctica  En base a agrupaciones semánticas 30
  • 31. Clases Semánticas WordNet Domains Sentido Glosa WordNet 1.6 WordNet 1.6 Sentido Derivado de WordNet 1.6 SuperSense hospital.bank.n#1 n#1 A Depository health facility financial where institution patients bank.n#3 A supply held in reserve for future use bank.n#5 The funds held by a gambling house bank.n#6 Money box, container  Alrededor de athlete.160 n#categorías 1 receive treatment organizadas noun.person de acuerdo al Dewey Decimal operate.game_v#Classification equipment.7 Perform n#1 surgery noun.on artifact  Extensión de WN, synsets anotados con una o más categorías. ECONOMY MEDICINE SPORT  Un mismo dominio puede agrupar:  Varios sentidos de la misma palabra  Sentidos con categoría sintáctica diferente  Sentidos de sub-jerarquías de WN distintas 31
  • 32. Clases Semánticas SUMO  Ontología estándar de alto nivel, que define conceptos, axiomas y relaciones  Definen ontologías específicas para dominios concretos  Correspondencia SUMO  Synsets WN 1.6 (Niles, Pease, 1998) 32
  • 33. Clases Semánticas 33 Clases semánticas para church.n Sentido SuperSense WND SUMO 1 Grupo noun.group Religion Religious Organization 2 Edificio noun.artifact Buildings Building 3 Misa noun.act Religion Religious Process
  • 34. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 1) Descripción 2) Nuestro algoritmo de selección automática de BLC 3) Conjuntos BLC. Características 4) Evaluación inicial 5) Arquitectura del sistema 6) Evaluación 7) Conclusiones y Trabajo futuro 34
  • 35.  BLC  tipo de conceptos descritos por (Rosch, 1977)  Representan a un gran número de subconceptos  Representan a un gran número de características  Tienen una frecuencia elevada  No confundir con Base Concepts (BC)  Surgen en EuroWordNet como conceptos fundamentales  Tienen una posición elevada en jerarquía  Tienen muchas relaciones con otros conceptos 35 Basic Level Concepts Descripción
  • 36. Basic Level Concepts Nuestro algoritmo  Algoritmo de selección automática de BLC  Explotando la estructura jerárquica de WordNet  Con nivel de abstracción ajustable  Definido para nombres y verbos  Para cada synset en WN se selecciona un synset en su cadena hiperonimia que será su BLC  Recorrido ascendente cadena hiperonimia en WN  Considera el número de relaciones /frecuencia de cada synset  Selecciona el primer máximo local como BLC  La unión de synsets seleccionados como BLC compone el conjunto de BLC candidatos 36
  • 37. Basic Level Concepts Nuestro algoritmo 37
  • 38.  Filtrado final  Cada BLC debe englobar un mínimo número de conceptos (synsets)  Aquellos que no superan el umbral son eliminados y los conceptos englobados son reasignados  Nivel abstracción ajustable – parámetros  Umbral mínimo número de conceptos  Criterio a considerar por el algoritmo  Número de relaciones en WordNet (hiperonimia / todas)  Frecuencia de las palabras del synset (WordNet / SemCor) 38 Basic Level Concepts Nuestro algoritmo
  • 39. Basic Level Concepts Conjuntos BLC sobre WordNet 1.6 39 Max. Prof. 15 nombres 11 verbos
  • 40. Basic Level Concepts Evaluación • In vitro (de forma directa) • Evaluación tarea deWSD • Sistema de WSD basado en clases semánticas BLC • In vivo (de forma indirecta) • Evaluación tarea de Recuperación de Información • Integración de los BLC en un sistema de Recuperación de Información (CLEF’09) 40
  • 41. Basic Level Concepts Evaluación in vitro 41 • Evaluación inicial para obtener el potencial rendimiento de los BLC en un sistema de WSD • Corpus SensEval-3 – A cada synset se le asocia su BLC – Evaluación a nivel de BLC • Heurística sencilla – Palabra  sentidos WN1.6  BLC posibles – Se selecciona aquel BLC más frecuente para la palabra en SemCor
  • 42. Basic Level Concepts Evaluación in vitro Valor F1 para palabras polisémicas en SensEval-3 Número de relaciones 42
  • 43. Basic Level Concepts Evaluación in vitro Valor F1 para palabras polisémicas en SensEval-3 Frecuencia de synsets 43
  • 44. Basic Level Concepts Evaluación in vitro • Resultados altos y coherentes con la polisemia de las clases • Mejores resultados con el criterio de relaciones y en concreto All • Muy buenos resultados de BLC—20 (nivel de abstracción media) • Clasificadores robustos para WSD 44
  • 45. Basic Level Concepts Evaluación in vivo • Tarea Robust WSD CLEF’09 • Impacto de la información semántica en un sistema de RI • Consultas y documentos anotados con sentidos  Automáticamente por 2 sistemas  Ofrecen el ranking de sentidos junto probabilidad 45
  • 46. Basic Level Concepts Evaluación in vivo 46
  • 47. Basic Level Concepts Evaluación in vivo • Nuestra aproximación  Utilizar Lucene (motor de RI basado en modelo BM25) y técnicas de expansión de la consulta Bo1  Asociar el ranking de sentidos a clases semánticas  WND  BLC-20  Representar documentos y consulta mediante un vector de clases semánticas 47
  • 48. Basic Level Concepts Evaluación in vivo • Nuestra aproximación  Obtener similitud entre documentos y consultas mediante la fórmula del coseno de los vectores semánticos  Reordenar lista de documentos considerando el valor de Lucene y el valor de similitud basada en clases semánticas 48
  • 49. Basic Level Concepts Evaluación in vivo  MAP: media aritmética de la precisión por pregunta  GMAP: media geométrica de la precisión por pregunta  R-Prec: precisión tras recuperar tantos como docs. relevantes 49
  • 50. Basic Level Concepts Evaluación in vivo  Mejora del rendimiento del sistema de RI con reordenación semántica  Buen funcionamiento con BLC-20  Ranking de sentidos automático  Posiblemente tasa error elevada 50
  • 51. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 1) Arquitectura basada en sentidos vs. clases 2) Diseño de la arquitectura basada en clases 3) Recursos 4) Tipos de atributos 6) Evaluación 7) Conclusiones y Trabajo futuro 51
  • 52. Arquitectura del sistema Aproximación basada en sentidos  Aprendizaje automático supervisado  Clasificadores basados en sentidos, asignan el sentido a una palabra  Cada clasificador para una palabra  Ejemplos solo de la palabra, con sus diversos sentidos  Num ejemplos clasificador church.n en SemCor  church.n#1  60  church.n#2  58 TOTAL= 128 ejemplos  church.n#3  10 52
  • 53. Arquitectura del sistema Aproximación basada en clases • Aprendizaje automático supervisado • Clasificadores basados en clases semánticas, asignan su clase semántica a una palabra • Cada clasificador para una clase – Ejemplos de todos los sentidos de palabras pertenecientes a la clase semántica – Num ejemplos clasificador para BUILDING en SemCor • church.n#2  58 • building.n#1  48 • hotel.n#1  39 • barn.n#1, hospital.n#1 .. 53 TOTAL 371 ejemplos
  • 54. Arquitectura del sistema Sentidos vs. clases 54
  • 55. Arquitectura del sistema Aproximación basada en clases. Recursos • Método de aprendizaje automático – Máquinas de Soporte Vectorial (SVM) • Método de aprendizaje estadístico basado en clasificadores lineales • Hiperplano que maximiza el margen de separación de los ejemplos (binarios) • Buen funcionamiento en espacios de alta dimensionalidad (muchos atributos) • WordNet & Mappings (Daudé et al., 2000) • Clases semánticas – Basic Level Concepts – SuperSenses – WordNet Domains – SUMO 55
  • 56. Arquitectura del sistema Aproximación basada en clases. Recursos  Corpus – SemCor  entrenamiento – SensEval y SemEval  evaluación  Tipos de atributos  Locales: bigramas y trigramas alrededor de la palabra objetivo  De tópico: palabras o lemas en un cierto contexto  Semánticos: construídos con nuestras clases semánticas 56
  • 57. Arquitectura del sistema Aproximación basada en clases. Atributos  Atributos BASE  Partimos de atributos tradicionalmente usados (Yarowski, 1994)  Análisis de atributos y configuraciones  Atributos IXA  Definidos por el grupo de investigación IXA de EHU 57
  • 58. Arquitectura del sistema Aproximación basada en clases. Atributos Atributos BASE  Palabras y Lemas en ventana 10  Etiquetas POS  3-5 anteriores/posteriores  Bigramas y trigramas en ventana 5 tokens  De palabras y lemas  Generalización de atributos  Atributos semánticos  Clase más frecuente de la palabra objetivo  Clase de palabras monosémicas en ventana 5 tokens 58
  • 59. Arquitectura del sistema Aproximación basada en clases. Atributos Atributos IXA  Atributos locales  Unigramas, bigramas y trigramas de palabras, lemas y POS  Lema y palabra del token anterior y posterior con contenido semántico  Bolsa de palabras  BOW-win: palabras en un contexto de 4 tokens  BOW-par: palabras en el párrafo  Atributos semánticos  Clase más frecuente de la palabra objetivo  Clase de palabras monosémicas en ventana 5 tokens 59
  • 60. Arquitectura del sistema Aproximación basada en clases. Atributos Filtrado de atributos  Selecciona para cada clase un conjunto de atributos específico  Se elimina ruido y atributos no relevantes  Se obtienen todos los atributos para todas las clases y para cada atributo  Frecuencia del atributo para la clase f_clase  Frecuencia del atributo para todas las clases f_total  Si f_clase / f_total < Umbral  eliminar atributo  Empíricamente umbral = 0,25 60
  • 61. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 6) Evaluación 1) Niveles de abstracción en WSD 2) Comparación con SensEval 3) Participación en SemEval 7) Conclusiones y Trabajo futuro 61
  • 62. Evaluación Niveles de Abstracción en WSD  Analizar el rendimiento del sistema en diferentes niveles de abstracción  Clases Semánticas  Arquitectura de WSD basada en clase semánticas y SVM  Experimentos  Atributos BASE  Clase semántica para clasificadores  Clase semántica para construir atributos  Atributos IXA  Clase semántica para clasificadores  Tipos de atributo  Curvas aprendizaje con atributos BASE 62
  • 63.  Clases semánticas  BLC-20 y BLC-50  WordNet Domains  SuperSenses  SUMO  Sentidos Polisemia de las diferentes clases semánticas 63 Evaluación Niveles de Abstracción en WSD  Corpus  Entrenamiento  SemCor  Evaluación  SensEval-2, SenseVal-3 y SemEval-1
  • 64. Atributos Base. Resultados para nombres (F1) 64 Evaluación Niveles de Abstracción en WSD
  • 65. Atributos Base. Resultados para verbos (F1) 65 Evaluación Niveles de Abstracción en WSD
  • 66. Atributos Base. Resultados para verbos (F1) 66 Evaluación Niveles de Abstracción en WSD
  • 67. Atributos IXA. Resultados para nombres (F1) 67 Evaluación Niveles de Abstracción en WSD
  • 68. Atributos IXA. Resultados para nombres (F1) 68 Evaluación Niveles de Abstracción en WSD
  • 69. Atributos IXA. Resultados para verbos (F1) 69 Evaluación Niveles de Abstracción en WSD
  • 70. Curva aprendizaje sobre SE2. Clasificadores BLC-20 Atributos base + semanticos WND 70 Evaluación Niveles de Abstracción en WSD
  • 71. Curva aprendizaje sobre SE3. Clasificadores BLC-20 Atributos base + semanticos WND 71 Evaluación Niveles de Abstracción en WSD
  • 72.  Buenos resultados con niveles de abstracción intermedia sin excesiva penalización (BLC-20, BLC-50 y WND)  Los atributos semánticos mejoran el aprendizaje  Se reduce la necesidad de ejemplos de entrenamiento mediante clases semánticas 72 Evaluación Niveles de Abstracción en WSD
  • 73.  Comparación a posteriori  Sistemas SensEval  Sentidos bank.n#ECONOMY  Nuestro sistema  Clases Semánticas bank.n#1 Depository financial institution bank.n#3 A supply held in reserve for future use bank.n#5 The funds held by a gambling house bank.n#6 Money box, container  Para poder comparar  A nivel de sentido  Transformar nuestras clases a sentidos  primer sentido de WordNet que encaje con la clase  A nivel de clase bank.n#1  Transformar sentidos a clases semánticas  asociación directa 73 Evaluación Comparación con SensEval
  • 74. - Atributos BASE y semánticos según WND - Seleccionamos el primer sentido de WN que encaja con la clase semántica 74 Evaluación Comparación con SensEval. Sentidos
  • 75. 75 Evaluación Comparación con SensEval. Sentidos
  • 76. - Atributos BASE y diferentes atributos semánticos - Sentidos de WordNet se transforman a clases semánticas - Corpus SensEval-2 y clases semánticas BLC-20 76 Evaluación Comparación con SensEval. Clases
  • 77. - Atributos BASE y diferentes atributos semánticos - Sentidos de WordNet se transforman a clases semánticas - Corpus SensEval-3 y clases semánticas BLC-50 77 Evaluación Comparación con SensEval. Clases
  • 78.  A nivel de sentidos  Buenos resultados de BLC-20 y BLC-50  Buenos resultados  no se pierde poder discriminatorio  A nivel de clases  Buen resultado con BLC-20 y BLC-50  En muchos casos se alcanza la primera posición  El sistema de clases no solo obtiene ventaja de la reducción de polisemia 78 Evaluación Comparación con SensEval
  • 79.  Evaluación internacional para la evaluación y comparación de sistemas de WSD y de análisis semántico  SemEval-1  Praga, 2007  Tarea “Coarse-grained English All Words”  5ª posición alcanzada  SemEval-2  Uppsala, 2010  Tarea “All Words WSD on a specific Domain”  5ª posición alcanzada 79 Evaluación Participación en SemEval
  • 80.  Tarea “Coarse-grained English All Words”  Arquitectura semántica de dos niveles: BLC-20 y senseClusters  Arquitectura aprendizaje  SVM + SemCor  Conjunto básico de atributos  Lemas, palabras y etiquetas PoS en ventana 3  Clase más frecuente en SemCor  Etiqueta BLC-20 para clasificadores SenseCluster 80 Evaluación Participación en SemEval-1
  • 83.  Tarea “All Words WSD on a specific Domain”  BLC-20 para extraer ejemplos monosémicos desde documentos del dominio no anotados  Arquitectura aprendizaje  SVM + SemCor + Docs Dominio  Conjunto básico de atributos  Lemas, palabras y etiquetas PoS en ventana 5  Bigramas y trigramas  Clase más frecuente en SemCor palabra objetivo  Primer sentido de WN que encaja con la clase BLC-20 83 Evaluación Participación en SemEval-2
  • 86. Indice 1) Introducción y Motivación 2) Estado de la cuestión 3) Clases semánticas 4) Basic Level Concepts 5) Arquitectura del sistema 6) Evaluación 7) Conclusiones y Trabajo futuro 86
  • 87. Conclusiones I 1. Mayor nivel de abstracción que el de sentidos, sin perder poder discriminatorio (nivel intermedio) 2. Nivel de abstracción ajustable  método selección BLC  BLC usados en proyecto europeo Kyoto 3. Mejora de los resultados absolutos 4. Comparación sistemas SensEval 87
  • 88. Conclusiones II 5. Buenos resultados en SemEval-1 y SemEval-2 6. Aumento en el número de ejemplos de entrenamiento 7. Mayor robustez e independencia respecto al dominio 8. Clases semánticas para construir atributos 9. Disponibles de forma libre para investigación  Conjuntos BLC extraídos de WordNet  Sistema de WSD basado en clases semánticas (Descargar/Online) 88
  • 89. Trabajo Futuro I 1. Detección de palabras clave o tópicos 2. Método algebraico de factorización de matrices SVD como sustitución de la técnica de filtrado 3. Nuevos recursos: corpus, clases semánticas, métodos de aprendizaje… 89
  • 90. Trabajo Futuro II 4. Atributos más complejos 5. Combinación de clasificadores 6. Integración del sistema de WSD y clases semánticas a otras aplicaciones de PLN 90

Notas del editor

  1. Este trabajo presenta una aproximación a la desambiguación del sentido de las palabras basada en clases semánticas y aprendizaje automático. El punto central es el uso de clases semánticas en el ámbito de un sistema de WSD.
  2. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  3. Es conocido que el principal problema del PLN es la ambigüedad del lenguaje. En concreto un caso de ambigüedad es la polisemia, que una palabra tenga varios signigicados No hay que confundirlo con el fenómeno de la homonimia, que es cuando dos palabras con diferentes origenes se escriben o suenan igual, en este caso no hay polisemia
  4. En cuanto a la tarea de WSD es una tarea intermedia del PLN que trata de resolver la polisemia, o dicho de otro modo, De asignar a una palabra su significado correcto en función del contexto en que aparece. Leer el ejemplo..
  5. Esta tarea surgió como una necesidad para la Traducción automática En la decada de los 70 los sistemas de WSD se centraron en el uso de reglas, Del 90 a 2000 fueron sistemas supervisados basados en aprendizaje automático, y a partir del 2000 se han centrao en el uso Intensivo de la web como corpus.
  6. Algunas de las aplicaciones donde se puede aplicar WSD son: Traducción automática Recuperación de información BR IT…
  7. Las aproximaciones tradicionales a WSD se han basado en aprendizaje automatico basado en sentidos de WordNet Sin embargo este tipo de aproximaciones han alcanzado una cota superior en su rendimiento, que no han logrado superar, como Se ha visto en las ultimas ediciones de la competicion SensEval Entre las posibles causas que se barajan están la excesiva granularidad de los sentidos de WN, e sdecir, q sean demasido detallados. Por otro lado estan la escasez de recursos anotados necesarios para las aproximaciones supervisadas Además existe un cierto debate sobre la utilidad de WSD en general en otras aplicaciones y en concreto de la utilidad de los sentidos.
  8. Nuestra
  9. Por tanto la aproximación
  10. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  11. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  12. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  13. Comentar Aumento del umbral -> menor número de BLC -> menor profundidad -> mas generales Nivel de abstracción intermedio, de 3094 con umbral 0 a 253 con umbral 50, pero profundidad solo de 7.09 a 5,21 Jerarquías verbales de WN más cortas Comportamiento similar All / Hypo Especial caso de frecuencias con umbral 0
  14. Mayor resultados para SuperSenses, el grupo más abstracto y con menos polisemia Mejor que los BC de los proyectos meaning y balkanet Mejor para todo tipo de relaciones Buenos resultados de BLC-20 interesante con 558 clases frente a solo las 26 de SuperSenses  NIVEL INTERMEDIO ADECUADO A WSD
  15. Resultados ligeramente peores que en el caso del número de relaicones No siempre se superan los de meaning o balkanet Mejor con frecuancias de WordNet
  16. Baseline -> el sistema sin reordenación semántica Los dos sistemas usando WND y BLC20 Observamos que el mejor resultado se consigue con la reordenación con BLC-20, aunque la mejora es muy ligera Posiblemente no saber cual es el sentido correcto , solo el ranking es uno de los problemas.
  17. Baseline -> el sistema sin reordenación semántica Los dos sistemas usando WND y BLC20 Observamos que el mejor resultado se consigue con la reordenación con BLC-20, aunque la mejora es muy ligera Posiblemente no saber cual es el sentido correcto , solo el ranking es uno de los problemas.
  18. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  19. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.
  20. Describir las columnas En SE2 se suele mejorar Buenos resultados de BLC-20 Mejora de resultados usando atributos semánticos, sobre todo WND
  21. En general los resultados son más bajos Más bajos para SE2 que para SE3 Muy buenos resultados para WND, pero la polisemia es baja En la mayoría de los casos se supera el baseline
  22. En general los resultados son más bajos Más bajos para SE2 que para SE3 Muy buenos resultados para WND, pero la polisemia es baja En la mayoría de los casos se supera el baseline
  23. Resultados para atributos IXA con diferentes conjuntos de atributos Atributos semánticos con BLC-20 opr buenos resultados con atributos BASE Sobre SE2 se supera casi siempre el baseline En SE2 y SEM1 no siempre, pero con BLC-20 y -50 buenos resultados En general buenos resultados incluyen atributos semánticos
  24. Resultados para atributos IXA con diferentes conjuntos de atributos Atributos semánticos con BLC-20 opr buenos resultados con atributos BASE Sobre SE2 se supera casi siempre el baseline En SE2 y SEM1 no siempre, pero con BLC-20 y -50 buenos resultados En general buenos resultados incluyen atributos semánticos
  25. Resultados para verbos SE2 baselines sobrepasados en casi todos los casos Buenos resultados de nuevo para BLC20 y BLC50
  26. Elegimos esta prueba xq ha obtenido buenos resultados. SOLO para nombres Dividimos el corpus SemCor en porciones de 5% para ir entrenando Solo 2 puntos de mejora de utilizar el 25% a utilizar el 100% El baseline está informado ya que en caso de no haber ocurrencias para la palabra se elige la clase más frecuente sobre el corpus
  27. Comportamiento similar de BLC-50 sobre SE3 Solo 1% de 50% al 100%
  28. Resultados para verbos SE2 baselines sobrepasados en casi todos los casos Buenos resultados de nuevo para BLC20 y BLC50
  29. A nivel de sentidos Nuestro experimento BASE y semánticos según WND ya que es de los que mejores resultados obtienen en general Heurística de seleccionar el primer sentido de WN Sobre SenseEval-3 Describir que queire decir SVM-BLC50
  30. Agrupaciones de sentidos para una misma palabra Arquitectura tipica utilizando BLC-20 y senseClusters
  31. Describir la arquitectura
  32. Este es el indice de la presentación. Veremos en primer lugar una breve introduccíón y motivación al problema. En segundo lugar el estado de la cuestión, aproximaciones y sistemas que trabajan en este mismo campo. Luego una descripción de las clases semánticas que utilizamos y un caso concreto de clases, al que hemos llamado Basic Level Concepts. Seguidamente veremos la arquitectura del sistema de WSD basado en clases semánticas, sus características y ventajas, Las aproximaciones que hemos seguido en las competiciones internacionales SemEval. Posteriormente una evaluación del rendimiento de los clasificadores a diferentes niveles de abstracción, la comparación de nuestro Sistema con los participantes en SensEval y finalmente algunas conclusiones y trabajo futuro.