1. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Modelos de redes neuronales para identificar
entidades en documentos
David Redondo Laencina
Universidad de Zaragoza
13 de septiembre de 2023
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
2. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Motivación del trabajo
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
3. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
1 Fundamentos teóricos
Aprendizaje automático
Aprendizaje supervisado
Aprendizaje no supervisado
Redes neuronales
Modelos de lenguaje en NLP
2 Identificación de entidades en documentos
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
4. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
3 DocLayNet y LayoutLM: Análisis y explicación
LayoutLMv2
DocLayNet
4 Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
5. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje automático
Es el área de la inteligencia artificial que tiene como objetivo que
las máquinas aprendan. Diferenciamos dos ramas:
Aprendizaje supervisado.
Aprendizaje no supervisado.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
6. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje supervisado
Los algoritmos son entrenados con datos etiquetados.
Destacamos:
Regresión lineal y gradiente descendente.
Regresión logística.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
7. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje no supervisado
Los algoritmos son entrenados con datos sin etiquetar.
Destacamos dos algoritmos:
Algoritmo K-means.
Anomaly detection algorithm.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
8. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
La unidad básica es la neurona, esta se distribuye en layers que
pueden ser:
Input layers
Hidden layers
Output layers
En cada neurona hay una función de activación que procesa la
información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
9. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
Tipos de redes neuronales:
Feedforward Neural Networks (FNN): La información fluye
de la capa de entrada a la de salida en una única dirección.
Recurrent Neural Networks (RNN): Cada neurona puede
recordar el estado de la información en la neurona anterior.
Convolutional Neural Networks (CNN): Distintas neuronas
procesan la misma información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
10. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Modelos de lenguaje en NLP
Se divide en tres grandes ramas:
Comprensión del lenguaje.
Generación del lenguaje.
Interacción humano máquina.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
11. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Definición del problema
El objetivo de este problema es reconocer las distintas entidades de
un documento para así poder estructurarlo y obtener la información
necesaria. Las entidades se eligen en base a dos criterios:
Criterios semánticos y gramaticales.
Criterios estructurales y de localización.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
12. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Enfoques tradicionales
Métodos lingüísticos.
Métodos basados en diccionarios y palabras clave.
Modelos ocultos de Markov.
Campo aleatorio condicional.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
13. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
14. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
Es una arquitectura de red neuronal propuesta en 2017, en la que
se basan:
BERT
GPT
LayoutLM
Los transformers se basan en una estructura de atención, que es un
mecanismo que asigna un peso a cada elemento de la secuencia.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
15. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
16. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
LayoutLM es una familia de modelos multimodales orientados al
análisis de texto, imagen y layout.
Es capaz de resolver las siguientes tareas:
Question answering
Text classification
Token classification
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
17. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP],
[PAD].
ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
18. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Imagen: Primero se redimensiona la imagen, después se pasa
por el encoder, se redimensiona el output y se hace una
proyección lineal.
vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
19. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Layout: Primero se representan las bbox
bbox = (xmin,xmax ,ymin,ymax ,width,height)
y después se codifican las coordenadas en dos layers diferentes:
li = Concat(PosEmb2Dx (xmin,xmax ,width),
PosEmb2Dy (ymin,ymax ,height))
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
20. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
2 Encoder:
Primero concatena las diferentes vi y ti obteniendo
X = {v0,...,vWH−1,t0,...,tL−1}
a continuación le suma la codificación de las bbox obteniendo
xi = Xi +li .
El resto del proceso es igual al explicado anteriormente con la
diferencia de que añadimos la información sobre la posición relativa
explícitamente.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
21. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
Model FUNSD CORD SROIE Kleister-NDA
LayoutLMBASE 0.7866 0.9472 0.9438 0.8270
LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340
LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330
LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
22. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train: 69375 imágenes con 941123 anotaciones.
Validation: 6489 imágenes con 99816 anotaciones.
Test: 4999 imágenes con 66531 anotaciones.
Compuesto por: informes financieros (32%), manuales (21%),
artículos científicos (17%), leyes y regulaciones (16%), patentes
(8%), y licitaciones del gobierno (6%).
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
23. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
24. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Preprocesado
Ajuste de las bbox.
Unificación de formula y footnote en text.
Asignación de categorías a las celdas.
Eliminación de imágenes inservibles.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
25. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train Validation Test
Categorías Num. % Num. % Num. %
Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58
Patentes 5526 8.02 483 7.48 442 8.89
Artículos científicos 12225 17.75 944 14.62 941 18.94
Informes financieros 22413 32.54 1731 26.80 1739 35.00
Manuales 14332 20.80 1853 28.69 800 16.10
Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49
Total 68881 6458 4969
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
26. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
1 Tokenización
Nuestra función recibe como inputs la imagen (formato PIL),
texto palabra a palabra, sus respectivas categorías y las
distintas bbox [x1,y1,x2,y2].
Devuelve una lista con un id para cada palabra, una lista que
identifica el tipo de token, la attention mask y la
representación de las bbox, categorías e imagen.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
27. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
2 Argumentos del entrenamiento
Número de epochs.
Tamaño del lote.
Optimizador.
Learning rate.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
28. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy:
TP +TN
TP +FP +TN +FN
Precision:
TP
TP +FP
Recall:
TP
TP +FN
F1 Score: F1 = 2
precision∗recall
precision+recall
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
29. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
LayoutLMv2 0.7934 0.0542 0.0394 0.0456
Epoch 1 0.9871 0.8939 0.9481 0.9202
Epoch 2 0.9902 0.9476 0.9557 0.9516
Epoch 3 0.9933 0.9553 0.9679 0.9626
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
30. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
31. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026
Patentes 0.7958 0.5643 0.4864 0.5225
Informes financieros 0.7264 0.4560 0.3512 0.3968
Manuales 0.8311 0.4608 0.3391 0.3907
Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
32. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Desafíos futuros
Continuación del entrenamiento con otro tipo de documentos.
Investigar sobre como optimizar los tiempos de entrenamiento.
Entrenar con los mismos documentos en otra orientación.
Dividir el entrenamiento para exigir menos memoria y
almacenamiento.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
33. Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
¡Gracias!
¡Gracias por su atención!
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos