SlideShare una empresa de Scribd logo
1 de 33
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Modelos de redes neuronales para identificar
entidades en documentos
David Redondo Laencina
Universidad de Zaragoza
13 de septiembre de 2023
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Motivación del trabajo
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
1 Fundamentos teóricos
Aprendizaje automático
Aprendizaje supervisado
Aprendizaje no supervisado
Redes neuronales
Modelos de lenguaje en NLP
2 Identificación de entidades en documentos
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
3 DocLayNet y LayoutLM: Análisis y explicación
LayoutLMv2
DocLayNet
4 Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje automático
Es el área de la inteligencia artificial que tiene como objetivo que
las máquinas aprendan. Diferenciamos dos ramas:
Aprendizaje supervisado.
Aprendizaje no supervisado.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje supervisado
Los algoritmos son entrenados con datos etiquetados.
Destacamos:
Regresión lineal y gradiente descendente.
Regresión logística.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje no supervisado
Los algoritmos son entrenados con datos sin etiquetar.
Destacamos dos algoritmos:
Algoritmo K-means.
Anomaly detection algorithm.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
La unidad básica es la neurona, esta se distribuye en layers que
pueden ser:
Input layers
Hidden layers
Output layers
En cada neurona hay una función de activación que procesa la
información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
Tipos de redes neuronales:
Feedforward Neural Networks (FNN): La información fluye
de la capa de entrada a la de salida en una única dirección.
Recurrent Neural Networks (RNN): Cada neurona puede
recordar el estado de la información en la neurona anterior.
Convolutional Neural Networks (CNN): Distintas neuronas
procesan la misma información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Modelos de lenguaje en NLP
Se divide en tres grandes ramas:
Comprensión del lenguaje.
Generación del lenguaje.
Interacción humano máquina.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Definición del problema
El objetivo de este problema es reconocer las distintas entidades de
un documento para así poder estructurarlo y obtener la información
necesaria. Las entidades se eligen en base a dos criterios:
Criterios semánticos y gramaticales.
Criterios estructurales y de localización.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Enfoques tradicionales
Métodos lingüísticos.
Métodos basados en diccionarios y palabras clave.
Modelos ocultos de Markov.
Campo aleatorio condicional.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
Es una arquitectura de red neuronal propuesta en 2017, en la que
se basan:
BERT
GPT
LayoutLM
Los transformers se basan en una estructura de atención, que es un
mecanismo que asigna un peso a cada elemento de la secuencia.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
LayoutLM es una familia de modelos multimodales orientados al
análisis de texto, imagen y layout.
Es capaz de resolver las siguientes tareas:
Question answering
Text classification
Token classification
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP],
[PAD].
ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Imagen: Primero se redimensiona la imagen, después se pasa
por el encoder, se redimensiona el output y se hace una
proyección lineal.
vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Layout: Primero se representan las bbox
bbox = (xmin,xmax ,ymin,ymax ,width,height)
y después se codifican las coordenadas en dos layers diferentes:
li = Concat(PosEmb2Dx (xmin,xmax ,width),
PosEmb2Dy (ymin,ymax ,height))
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
2 Encoder:
Primero concatena las diferentes vi y ti obteniendo
X = {v0,...,vWH−1,t0,...,tL−1}
a continuación le suma la codificación de las bbox obteniendo
xi = Xi +li .
El resto del proceso es igual al explicado anteriormente con la
diferencia de que añadimos la información sobre la posición relativa
explícitamente.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
Model FUNSD CORD SROIE Kleister-NDA
LayoutLMBASE 0.7866 0.9472 0.9438 0.8270
LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340
LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330
LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train: 69375 imágenes con 941123 anotaciones.
Validation: 6489 imágenes con 99816 anotaciones.
Test: 4999 imágenes con 66531 anotaciones.
Compuesto por: informes financieros (32%), manuales (21%),
artículos científicos (17%), leyes y regulaciones (16%), patentes
(8%), y licitaciones del gobierno (6%).
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Preprocesado
Ajuste de las bbox.
Unificación de formula y footnote en text.
Asignación de categorías a las celdas.
Eliminación de imágenes inservibles.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train Validation Test
Categorías Num. % Num. % Num. %
Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58
Patentes 5526 8.02 483 7.48 442 8.89
Artículos científicos 12225 17.75 944 14.62 941 18.94
Informes financieros 22413 32.54 1731 26.80 1739 35.00
Manuales 14332 20.80 1853 28.69 800 16.10
Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49
Total 68881 6458 4969
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
1 Tokenización
Nuestra función recibe como inputs la imagen (formato PIL),
texto palabra a palabra, sus respectivas categorías y las
distintas bbox [x1,y1,x2,y2].
Devuelve una lista con un id para cada palabra, una lista que
identifica el tipo de token, la attention mask y la
representación de las bbox, categorías e imagen.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
2 Argumentos del entrenamiento
Número de epochs.
Tamaño del lote.
Optimizador.
Learning rate.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy:
TP +TN
TP +FP +TN +FN
Precision:
TP
TP +FP
Recall:
TP
TP +FN
F1 Score: F1 = 2
precision∗recall
precision+recall
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
LayoutLMv2 0.7934 0.0542 0.0394 0.0456
Epoch 1 0.9871 0.8939 0.9481 0.9202
Epoch 2 0.9902 0.9476 0.9557 0.9516
Epoch 3 0.9933 0.9553 0.9679 0.9626
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026
Patentes 0.7958 0.5643 0.4864 0.5225
Informes financieros 0.7264 0.4560 0.3512 0.3968
Manuales 0.8311 0.4608 0.3391 0.3907
Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Desafíos futuros
Continuación del entrenamiento con otro tipo de documentos.
Investigar sobre como optimizar los tiempos de entrenamiento.
Entrenar con los mismos documentos en otra orientación.
Dividir el entrenamiento para exigir menos memoria y
almacenamiento.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
¡Gracias!
¡Gracias por su atención!
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos

Más contenido relacionado

Similar a 2023-TFG4_NLP_Transformers

Banco de reactivos total
Banco de reactivos totalBanco de reactivos total
Banco de reactivos total
Janeth Mtz
 
Bases de Datos Relacionales
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
Arnulfo Gomez
 
Analisis y diseño de sistemas
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca6
 
Analisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A ObjetosAnalisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A Objetos
joalmerca6
 
Analisis orientado a objetos
Analisis orientado a objetosAnalisis orientado a objetos
Analisis orientado a objetos
Messenger Adictos
 
Analisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A ObjetosAnalisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A Objetos
yoiner santiago
 
Taller campus party .net
Taller campus party .netTaller campus party .net
Taller campus party .net
campus party
 
Taller campus party
Taller campus partyTaller campus party
Taller campus party
campus party
 

Similar a 2023-TFG4_NLP_Transformers (20)

Banco de reactivos total
Banco de reactivos totalBanco de reactivos total
Banco de reactivos total
 
Doo
DooDoo
Doo
 
Clase No.01.pptx
Clase No.01.pptxClase No.01.pptx
Clase No.01.pptx
 
Bases de Datos Relacionales
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
 
Analisis y diseño de sistemas
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
 
Analisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A ObjetosAnalisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A Objetos
 
Analisis y diseño de sistemas
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
 
Diseño oo
Diseño ooDiseño oo
Diseño oo
 
Unidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del software
 
2024-T8-Redes_Neuronales_I.ppsx
2024-T8-Redes_Neuronales_I.ppsx2024-T8-Redes_Neuronales_I.ppsx
2024-T8-Redes_Neuronales_I.ppsx
 
Analisis orientado a objetos
Analisis orientado a objetosAnalisis orientado a objetos
Analisis orientado a objetos
 
Analisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A ObjetosAnalisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A Objetos
 
Modelo de Datos E-R
Modelo de Datos E-RModelo de Datos E-R
Modelo de Datos E-R
 
Taller campus party .net
Taller campus party .netTaller campus party .net
Taller campus party .net
 
Taller campus party
Taller campus partyTaller campus party
Taller campus party
 
Introduccion SRI
Introduccion SRIIntroduccion SRI
Introduccion SRI
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
Recomendaciones prácticas para el diseño de sistemas
Recomendaciones prácticas para el diseño de sistemasRecomendaciones prácticas para el diseño de sistemas
Recomendaciones prácticas para el diseño de sistemas
 
Tutorial neo4j en español
Tutorial neo4j en españolTutorial neo4j en español
Tutorial neo4j en español
 
Diseño y analisis de bd
Diseño y analisis de bdDiseño y analisis de bd
Diseño y analisis de bd
 

Más de Ricardo Lopez-Ruiz

Más de Ricardo Lopez-Ruiz (20)

2024-T20-Katherine_Johnson.ppsx
2024-T20-Katherine_Johnson.ppsx2024-T20-Katherine_Johnson.ppsx
2024-T20-Katherine_Johnson.ppsx
 
2024-T19-Redes_Neuronales_II.pdf
2024-T19-Redes_Neuronales_II.pdf2024-T19-Redes_Neuronales_II.pdf
2024-T19-Redes_Neuronales_II.pdf
 
2024-T18-Disfunciones_Cerebrales.ppsx
2024-T18-Disfunciones_Cerebrales.ppsx2024-T18-Disfunciones_Cerebrales.ppsx
2024-T18-Disfunciones_Cerebrales.ppsx
 
2024-T17-Num_Perfect_Defect_Abund.ppsx
2024-T17-Num_Perfect_Defect_Abund.ppsx2024-T17-Num_Perfect_Defect_Abund.ppsx
2024-T17-Num_Perfect_Defect_Abund.ppsx
 
2024-T16-JuegoDeLaVida.ppsx
2024-T16-JuegoDeLaVida.ppsx2024-T16-JuegoDeLaVida.ppsx
2024-T16-JuegoDeLaVida.ppsx
 
2024-T15-Tipos_Numeros_Primos.ppsx
2024-T15-Tipos_Numeros_Primos.ppsx2024-T15-Tipos_Numeros_Primos.ppsx
2024-T15-Tipos_Numeros_Primos.ppsx
 
2024-T14-Primos_Gemelos.ppsx
2024-T14-Primos_Gemelos.ppsx2024-T14-Primos_Gemelos.ppsx
2024-T14-Primos_Gemelos.ppsx
 
2024-T13-NarcisoMonturiol_IsaacPeral.ppsx
2024-T13-NarcisoMonturiol_IsaacPeral.ppsx2024-T13-NarcisoMonturiol_IsaacPeral.ppsx
2024-T13-NarcisoMonturiol_IsaacPeral.ppsx
 
2024-T12-Distribución_Num_Primos.ppsx
2024-T12-Distribución_Num_Primos.ppsx2024-T12-Distribución_Num_Primos.ppsx
2024-T12-Distribución_Num_Primos.ppsx
 
2024-T11-Sam_Altman.pdf
2024-T11-Sam_Altman.pdf2024-T11-Sam_Altman.pdf
2024-T11-Sam_Altman.pdf
 
2024-T10-El_Número_de_Oro.ppsx
2024-T10-El_Número_de_Oro.ppsx2024-T10-El_Número_de_Oro.ppsx
2024-T10-El_Número_de_Oro.ppsx
 
2024-T9-Carl_Friedrich_Gauss.ppsx
2024-T9-Carl_Friedrich_Gauss.ppsx2024-T9-Carl_Friedrich_Gauss.ppsx
2024-T9-Carl_Friedrich_Gauss.ppsx
 
2024-T7-GeoGebra.pdf
2024-T7-GeoGebra.pdf2024-T7-GeoGebra.pdf
2024-T7-GeoGebra.pdf
 
2024-T6-Paradoja_de_Russell.ppsx
2024-T6-Paradoja_de_Russell.ppsx2024-T6-Paradoja_de_Russell.ppsx
2024-T6-Paradoja_de_Russell.ppsx
 
2024-T5-Telescopio_James_Webb.ppsx
2024-T5-Telescopio_James_Webb.ppsx2024-T5-Telescopio_James_Webb.ppsx
2024-T5-Telescopio_James_Webb.ppsx
 
2024-T4-Abaco-y-OtrasCalculadoras.ppsx
2024-T4-Abaco-y-OtrasCalculadoras.ppsx2024-T4-Abaco-y-OtrasCalculadoras.ppsx
2024-T4-Abaco-y-OtrasCalculadoras.ppsx
 
2024-T3-Redes.ppsx
2024-T3-Redes.ppsx2024-T3-Redes.ppsx
2024-T3-Redes.ppsx
 
2024-T2-ProgramaVoyager-Pioneer.ppsx
2024-T2-ProgramaVoyager-Pioneer.ppsx2024-T2-ProgramaVoyager-Pioneer.ppsx
2024-T2-ProgramaVoyager-Pioneer.ppsx
 
2024-T1-ChatGPT.ppsx
2024-T1-ChatGPT.ppsx2024-T1-ChatGPT.ppsx
2024-T1-ChatGPT.ppsx
 
2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_Turismo2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_Turismo
 

Último

METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
JoselynGoeTmara
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
andreadiaz555157
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 

Último (20)

Mapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosMapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costos
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
 
Problemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptxProblemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptx
 
presentación del tema FIEBRE Y NEUTROPENIA ONCOLOGIA.pptx
presentación del tema FIEBRE Y NEUTROPENIA ONCOLOGIA.pptxpresentación del tema FIEBRE Y NEUTROPENIA ONCOLOGIA.pptx
presentación del tema FIEBRE Y NEUTROPENIA ONCOLOGIA.pptx
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 

2023-TFG4_NLP_Transformers

  • 1. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Modelos de redes neuronales para identificar entidades en documentos David Redondo Laencina Universidad de Zaragoza 13 de septiembre de 2023 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 2. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Motivación del trabajo David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 3. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 1 Fundamentos teóricos Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Redes neuronales Modelos de lenguaje en NLP 2 Identificación de entidades en documentos Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 4. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 3 DocLayNet y LayoutLM: Análisis y explicación LayoutLMv2 DocLayNet 4 Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 5. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje automático Es el área de la inteligencia artificial que tiene como objetivo que las máquinas aprendan. Diferenciamos dos ramas: Aprendizaje supervisado. Aprendizaje no supervisado. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 6. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje supervisado Los algoritmos son entrenados con datos etiquetados. Destacamos: Regresión lineal y gradiente descendente. Regresión logística. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 7. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje no supervisado Los algoritmos son entrenados con datos sin etiquetar. Destacamos dos algoritmos: Algoritmo K-means. Anomaly detection algorithm. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 8. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales La unidad básica es la neurona, esta se distribuye en layers que pueden ser: Input layers Hidden layers Output layers En cada neurona hay una función de activación que procesa la información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 9. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales Tipos de redes neuronales: Feedforward Neural Networks (FNN): La información fluye de la capa de entrada a la de salida en una única dirección. Recurrent Neural Networks (RNN): Cada neurona puede recordar el estado de la información en la neurona anterior. Convolutional Neural Networks (CNN): Distintas neuronas procesan la misma información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 10. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Modelos de lenguaje en NLP Se divide en tres grandes ramas: Comprensión del lenguaje. Generación del lenguaje. Interacción humano máquina. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 11. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Definición del problema El objetivo de este problema es reconocer las distintas entidades de un documento para así poder estructurarlo y obtener la información necesaria. Las entidades se eligen en base a dos criterios: Criterios semánticos y gramaticales. Criterios estructurales y de localización. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 12. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Enfoques tradicionales Métodos lingüísticos. Métodos basados en diccionarios y palabras clave. Modelos ocultos de Markov. Campo aleatorio condicional. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 13. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 14. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers Es una arquitectura de red neuronal propuesta en 2017, en la que se basan: BERT GPT LayoutLM Los transformers se basan en una estructura de atención, que es un mecanismo que asigna un peso a cada elemento de la secuencia. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 15. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 16. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 LayoutLM es una familia de modelos multimodales orientados al análisis de texto, imagen y layout. Es capaz de resolver las siguientes tareas: Question answering Text classification Token classification David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 17. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP], [PAD]. ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 18. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Imagen: Primero se redimensiona la imagen, después se pasa por el encoder, se redimensiona el output y se hace una proyección lineal. vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 19. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Layout: Primero se representan las bbox bbox = (xmin,xmax ,ymin,ymax ,width,height) y después se codifican las coordenadas en dos layers diferentes: li = Concat(PosEmb2Dx (xmin,xmax ,width), PosEmb2Dy (ymin,ymax ,height)) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 20. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 2 Encoder: Primero concatena las diferentes vi y ti obteniendo X = {v0,...,vWH−1,t0,...,tL−1} a continuación le suma la codificación de las bbox obteniendo xi = Xi +li . El resto del proceso es igual al explicado anteriormente con la diferencia de que añadimos la información sobre la posición relativa explícitamente. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 21. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 Model FUNSD CORD SROIE Kleister-NDA LayoutLMBASE 0.7866 0.9472 0.9438 0.8270 LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340 LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330 LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 22. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train: 69375 imágenes con 941123 anotaciones. Validation: 6489 imágenes con 99816 anotaciones. Test: 4999 imágenes con 66531 anotaciones. Compuesto por: informes financieros (32%), manuales (21%), artículos científicos (17%), leyes y regulaciones (16%), patentes (8%), y licitaciones del gobierno (6%). David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 23. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 24. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Preprocesado Ajuste de las bbox. Unificación de formula y footnote en text. Asignación de categorías a las celdas. Eliminación de imágenes inservibles. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 25. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train Validation Test Categorías Num. % Num. % Num. % Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58 Patentes 5526 8.02 483 7.48 442 8.89 Artículos científicos 12225 17.75 944 14.62 941 18.94 Informes financieros 22413 32.54 1731 26.80 1739 35.00 Manuales 14332 20.80 1853 28.69 800 16.10 Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49 Total 68881 6458 4969 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 26. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 1 Tokenización Nuestra función recibe como inputs la imagen (formato PIL), texto palabra a palabra, sus respectivas categorías y las distintas bbox [x1,y1,x2,y2]. Devuelve una lista con un id para cada palabra, una lista que identifica el tipo de token, la attention mask y la representación de las bbox, categorías e imagen. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 27. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 2 Argumentos del entrenamiento Número de epochs. Tamaño del lote. Optimizador. Learning rate. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 28. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy: TP +TN TP +FP +TN +FN Precision: TP TP +FP Recall: TP TP +FN F1 Score: F1 = 2 precision∗recall precision+recall David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 29. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 LayoutLMv2 0.7934 0.0542 0.0394 0.0456 Epoch 1 0.9871 0.8939 0.9481 0.9202 Epoch 2 0.9902 0.9476 0.9557 0.9516 Epoch 3 0.9933 0.9553 0.9679 0.9626 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 30. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 31. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026 Patentes 0.7958 0.5643 0.4864 0.5225 Informes financieros 0.7264 0.4560 0.3512 0.3968 Manuales 0.8311 0.4608 0.3391 0.3907 Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 32. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Desafíos futuros Continuación del entrenamiento con otro tipo de documentos. Investigar sobre como optimizar los tiempos de entrenamiento. Entrenar con los mismos documentos en otra orientación. Dividir el entrenamiento para exigir menos memoria y almacenamiento. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 33. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros ¡Gracias! ¡Gracias por su atención! David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos