LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
Relación contextual de palabras en libros de Shakespeare usando mapas autoorganizados
1. Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación
3rd International Symposium on Language & Knowledge
Engineering
Relación contextual de palabras en libros de
Shakespeare usando mapas auto-organizados
Autores:
Luis Alfredo Moctezuma
Jessica Lopez
Caleb Jimenez
Maya Carrillo
Luis Colmenares
J. Guadalupe Ramos
Octubre 2015
3. INTRODUCCIÓN
El procesamiento de lenguaje natural (PLN) se ocupa
del reconocimiento y utilización de la información
expresada en lenguaje humano para ser empleada en
sistemas computacionales.
Generalmente se consideran tres niveles de análisis:
Léxico
Sintáctico
Semántico
4. INTRODUCCIÓN
Es posible distinguir entre significado independiente y
significado dependiente del contexto.
En este trabajo se intenta capturar el significado de la
palabra en función de su contexto(pragmática).
Pragmática:
Según la RAE es una disciplina que estudia el
lenguaje en su relación con los usuarios y las
circunstancias de la comunicación.
Es una disciplina que estudia el lenguaje en relación
al contexto donde se desarrolla la idea.
5. INTRODUCCIÓN
Es posible distinguir entre significado independiente y
significado dependiente del contexto.
En este trabajo se intenta capturar el significado de la
palabra en función de su contexto(pragmática).
Pragmática:
Según la RAE es una disciplina que estudia el
lenguaje en su relación con los usuarios y las
circunstancias de la comunicación.
Es una disciplina que estudia el lenguaje en relación
al contexto donde se desarrolla la idea.
7. PREPROCESAMIENTO
Las obras de Shakespeare fueron preprocesadas de
acuerdo a los siguientes pasos:
Eliminación de marcas de puntuación y caracteres
especiales
Conversión de texto a minúsculas
Eliminación de palabras vacías
Eliminación de palabras con una frecuencia menor a
3
9. REPRESENTACIÓN VECTORIAL
Para una palabra a que denominaremos clave, el
contexto fue capturado considerando la palabra que
la precede y sucede (“predecesor”, “clave”,
“sucesor”).
Cada palabra fue representada con una sucesión de
24 dígitos binarios únicos.
Palabra Clave
reason 000000000000000000010000
beare 000000000000000001101000
heart 000000000000000000010100
roome 000000000000000000110001
10. REPRESENTACIÓN VECTORIAL
(fragmento tomado de Macbeth)
A divinely appointed monarch has been assassinated,
and it is a calamity of such epic proportion that even
the workings of nature are disrupted.
divinely appointed monarch assassinated calamity epic
proportion workings nature disrupted.
divinely appointed monarch
appointed monarch assassinated
monarch assassinated calamity
11. REPRESENTACIÓN VECTORIAL
(fragmento tomado de Macbeth)
A divinely appointed monarch has been assassinated,
and it is a calamity of such epic proportion that even
the workings of nature are disrupted.
divinely appointed monarch assassinated calamity epic
proportion workings nature disrupted.
divinely appointed monarch
appointed monarch assassinated
monarch assassinated calamity
12. REPRESENTACIÓN VECTORIAL
(fragmento tomado de Macbeth)
A divinely appointed monarch has been assassinated,
and it is a calamity of such epic proportion that even
the workings of nature are disrupted.
divinely appointed monarch assassinated calamity epic
proportion workings nature disrupted.
divinely appointed monarch
appointed monarch assassinated
monarch assassinated calamity
13. REPRESENTACIÓN VECTORIAL
(fragmento tomado de Macbeth)
A divinely appointed monarch has been assassinated,
and it is a calamity of such epic proportion that even
the workings of nature are disrupted.
divinely appointed monarch assassinated calamity epic
proportion workings nature disrupted.
divinely appointed monarch
appointed monarch assassinated
monarch assassinated calamity
14. REPRESENTACIÓN VECTORIAL
(fragmento tomado de Macbeth)
A divinely appointed monarch has been assassinated,
and it is a calamity of such epic proportion that even
the workings of nature are disrupted.
divinely appointed monarch assassinated calamity epic
proportion workings nature disrupted.
divinely appointed monarch
appointed monarch assassinated
monarch assassinated calamity
15. REPRESENTACIÓN VECTORIAL
Para capturar el contexto se crearon vectores de
dimensión 72.
En los primeros 24 dígitos se almaceno la suma vectorial
de todas las de las palabras que precedían a la palabra
clave
En los últimos 24 dígitos se almaceno la suma vectorial
de todas las palabras que sucedían a la palabra clave
Los 24 dígitos intermedios representaron las diferentes
palabras del vocabulario
16. REPRESENTACIÓN VECTORIAL
Predecesor Clave Sucesor
reason beare heart
roome beare reason
Predecesor Clave Sucesor Palabra
00010000 01101000 00010100 beare
00110001 01101000 00010000 beare
Representación de la palabra Palabra
01000001 11010001 00100100 beare
Una vez obtenidos los vectores de contexto para las
palabras del vocabulario, estos fueron la entrada del
mapa auto-organizado.
Palabra Clave
reason 00010000
beare 01101000
heart 00010100
roome 00110001
17. MAPAS AUTO-ORGANIZADOS
Una SOM(Self organizing map) es un tipo de red
neuronal artificial de aprendizaje no supervisado.
Usa una función de vecindad para preservar las
propiedades topológicas del espacio de entrada.
Es útil para tareas de agrupamiento y auto-organización
de grandes cantidades de datos de manera eficiente.
18. MAPAS AUTO-ORGANIZADOS
00001100 00000110 01001100 lord
00001110 00000111 01000100 man
00100010 00010001 00100100 crime
00000010 00000100 00101000 people
lord
heart
power
honor
man
crime
people
ghost
Paso 1: Cada nodo
se inicia con un peso
aleatorio.
20. MAPAS AUTO-ORGANIZADOS
lord
man
crime
people
Paso 3: Se calcula
el nodo de la red
que tiene el peso
mas similar al vector
de entrenamiento.
𝑫 𝒍𝒐𝒓𝒅, 𝒑𝒆𝒐𝒑𝒍𝒆 = 𝟎𝟎𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟎𝟎𝟎
𝑫 𝒍𝒐𝒓𝒅, 𝒄𝒓𝒊𝒎𝒆 = 𝟏𝟎𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟏𝟎𝟏𝟎𝟏𝟏
𝑫 𝒍𝒐𝒓𝒅, 𝒎𝒂𝒏 = 𝟎𝟎𝟎𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏
heart
power
honor
ghost
21. MAPAS AUTO-ORGANIZADOS
lord
man
crime
people
Paso 4: Calcular
radio de vecindad.
˄𝑖𝑗 𝑛 = 𝑒
[
−𝑑2
𝑖𝑗
2𝜎2(𝑛)
]
Donde d es la distancia entre neuronas y 𝜎(𝑠𝑖𝑔𝑚𝑎) disminuye
en cada iteración.
heart
power
honor
ghost
22. ˄𝑖𝑗 𝑛 = 𝑒
[
−𝑑2
𝑖𝑗
2𝜎2(𝑛)
]
Donde d es la distancia entre neuronas y 𝜎(𝑠𝑖𝑔𝑚𝑎) disminuye
en cada iteración.
lord
man
crime
people
Paso 4: Calcular
radio de vecindad.
heart
power
ghost
honor
MAPAS AUTO-ORGANIZADOS
23. MAPAS AUTO-ORGANIZADOS
lord
man
crime
people
Paso 5: Cada nodo
en el radio de la
vecindad ajusta su
peso para parecerse
al vector de
entrenamiento, los
nodos vecinos se
ven mas
modificados
𝑾𝒋 𝒏 + 𝟏 = 𝑾𝒋 𝒏 + ˄𝒊𝒋(𝒏)𝜼 𝒏 𝑿 𝒏 − 𝑾𝒋 𝒏
heart
power
honor
ghost
24. MAPAS AUTO-ORGANIZADOS
lord
man
crime
people
Paso 5: Cada nodo
en el radio de la
vecindad ajusta su
peso para parecerse
al vector de
entrenamiento, los
nodos vecinos se
ven mas
modificados
heart
power
honor
ghost
31. RESULTADOS
Se obtuvo que la similitud entre palabras puede
definirse indirectamente, capturando su significado en
función del contexto en el que aparecen.
35. CONCLUSIONES
Temática en las obras de Shakespeare:
El rol de la humanidad en la sociedad, guerra,
lealtad, muerte, entre otras.
Por los resultados obtenidos en este trabajo, se puede
ver que se puede aplicar esta misma técnica a otros
autores y ver las diferentes temáticas en cada uno de
ellos.