2023-TFG4_NLP_Transformers

Ricardo Lopez-Ruiz
Ricardo Lopez-RuizProfessor en University of Zaragoza
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Modelos de redes neuronales para identificar
entidades en documentos
David Redondo Laencina
Universidad de Zaragoza
13 de septiembre de 2023
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Motivación del trabajo
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
1 Fundamentos teóricos
Aprendizaje automático
Aprendizaje supervisado
Aprendizaje no supervisado
Redes neuronales
Modelos de lenguaje en NLP
2 Identificación de entidades en documentos
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
3 DocLayNet y LayoutLM: Análisis y explicación
LayoutLMv2
DocLayNet
4 Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje automático
Es el área de la inteligencia artificial que tiene como objetivo que
las máquinas aprendan. Diferenciamos dos ramas:
Aprendizaje supervisado.
Aprendizaje no supervisado.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje supervisado
Los algoritmos son entrenados con datos etiquetados.
Destacamos:
Regresión lineal y gradiente descendente.
Regresión logística.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje no supervisado
Los algoritmos son entrenados con datos sin etiquetar.
Destacamos dos algoritmos:
Algoritmo K-means.
Anomaly detection algorithm.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
La unidad básica es la neurona, esta se distribuye en layers que
pueden ser:
Input layers
Hidden layers
Output layers
En cada neurona hay una función de activación que procesa la
información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
Tipos de redes neuronales:
Feedforward Neural Networks (FNN): La información fluye
de la capa de entrada a la de salida en una única dirección.
Recurrent Neural Networks (RNN): Cada neurona puede
recordar el estado de la información en la neurona anterior.
Convolutional Neural Networks (CNN): Distintas neuronas
procesan la misma información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Modelos de lenguaje en NLP
Se divide en tres grandes ramas:
Comprensión del lenguaje.
Generación del lenguaje.
Interacción humano máquina.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Definición del problema
El objetivo de este problema es reconocer las distintas entidades de
un documento para así poder estructurarlo y obtener la información
necesaria. Las entidades se eligen en base a dos criterios:
Criterios semánticos y gramaticales.
Criterios estructurales y de localización.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Enfoques tradicionales
Métodos lingüísticos.
Métodos basados en diccionarios y palabras clave.
Modelos ocultos de Markov.
Campo aleatorio condicional.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
Es una arquitectura de red neuronal propuesta en 2017, en la que
se basan:
BERT
GPT
LayoutLM
Los transformers se basan en una estructura de atención, que es un
mecanismo que asigna un peso a cada elemento de la secuencia.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
LayoutLM es una familia de modelos multimodales orientados al
análisis de texto, imagen y layout.
Es capaz de resolver las siguientes tareas:
Question answering
Text classification
Token classification
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP],
[PAD].
ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Imagen: Primero se redimensiona la imagen, después se pasa
por el encoder, se redimensiona el output y se hace una
proyección lineal.
vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Layout: Primero se representan las bbox
bbox = (xmin,xmax ,ymin,ymax ,width,height)
y después se codifican las coordenadas en dos layers diferentes:
li = Concat(PosEmb2Dx (xmin,xmax ,width),
PosEmb2Dy (ymin,ymax ,height))
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
2 Encoder:
Primero concatena las diferentes vi y ti obteniendo
X = {v0,...,vWH−1,t0,...,tL−1}
a continuación le suma la codificación de las bbox obteniendo
xi = Xi +li .
El resto del proceso es igual al explicado anteriormente con la
diferencia de que añadimos la información sobre la posición relativa
explícitamente.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
Model FUNSD CORD SROIE Kleister-NDA
LayoutLMBASE 0.7866 0.9472 0.9438 0.8270
LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340
LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330
LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train: 69375 imágenes con 941123 anotaciones.
Validation: 6489 imágenes con 99816 anotaciones.
Test: 4999 imágenes con 66531 anotaciones.
Compuesto por: informes financieros (32%), manuales (21%),
artículos científicos (17%), leyes y regulaciones (16%), patentes
(8%), y licitaciones del gobierno (6%).
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Preprocesado
Ajuste de las bbox.
Unificación de formula y footnote en text.
Asignación de categorías a las celdas.
Eliminación de imágenes inservibles.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train Validation Test
Categorías Num. % Num. % Num. %
Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58
Patentes 5526 8.02 483 7.48 442 8.89
Artículos científicos 12225 17.75 944 14.62 941 18.94
Informes financieros 22413 32.54 1731 26.80 1739 35.00
Manuales 14332 20.80 1853 28.69 800 16.10
Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49
Total 68881 6458 4969
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
1 Tokenización
Nuestra función recibe como inputs la imagen (formato PIL),
texto palabra a palabra, sus respectivas categorías y las
distintas bbox [x1,y1,x2,y2].
Devuelve una lista con un id para cada palabra, una lista que
identifica el tipo de token, la attention mask y la
representación de las bbox, categorías e imagen.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
2 Argumentos del entrenamiento
Número de epochs.
Tamaño del lote.
Optimizador.
Learning rate.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy:
TP +TN
TP +FP +TN +FN
Precision:
TP
TP +FP
Recall:
TP
TP +FN
F1 Score: F1 = 2
precision∗recall
precision+recall
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
LayoutLMv2 0.7934 0.0542 0.0394 0.0456
Epoch 1 0.9871 0.8939 0.9481 0.9202
Epoch 2 0.9902 0.9476 0.9557 0.9516
Epoch 3 0.9933 0.9553 0.9679 0.9626
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026
Patentes 0.7958 0.5643 0.4864 0.5225
Informes financieros 0.7264 0.4560 0.3512 0.3968
Manuales 0.8311 0.4608 0.3391 0.3907
Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Desafíos futuros
Continuación del entrenamiento con otro tipo de documentos.
Investigar sobre como optimizar los tiempos de entrenamiento.
Entrenar con los mismos documentos en otra orientación.
Dividir el entrenamiento para exigir menos memoria y
almacenamiento.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
¡Gracias!
¡Gracias por su atención!
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
1 de 33

Recomendados

Unidad 4 clas int datos.pptx por
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxfernandalemus15
2 vistas35 diapositivas
Deep Learning + R by Gabriel Valverde por
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeVictoria López
2K vistas57 diapositivas
BASE DE DATOS.pdf por
BASE DE DATOS.pdfBASE DE DATOS.pdf
BASE DE DATOS.pdfSistemadeEstudiosMed
321 vistas11 diapositivas
Diseno orientado a objetos por
Diseno orientado a objetosDiseno orientado a objetos
Diseno orientado a objetosCecilia Lemus
369 vistas11 diapositivas
Tema1 (2) por
Tema1 (2)Tema1 (2)
Tema1 (2)Pedro Sánchez
404 vistas25 diapositivas
CIITEC Fundamentos de Deep Learning.pptx por
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
196 vistas54 diapositivas

Más contenido relacionado

Similar a 2023-TFG4_NLP_Transformers

Banco de reactivos total por
Banco de reactivos totalBanco de reactivos total
Banco de reactivos totalJaneth Mtz
1.2K vistas122 diapositivas
Doo por
DooDoo
Dooyoglentigre
473 vistas10 diapositivas
Clase No.01.pptx por
Clase No.01.pptxClase No.01.pptx
Clase No.01.pptxJorgeAlbertoCamposRo
5 vistas38 diapositivas
Bases de Datos Relacionales por
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos RelacionalesArnulfo Gomez
3.7K vistas72 diapositivas
Analisis y diseño de sistemas por
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
455 vistas29 diapositivas
Analisis y diseño de sistemas por
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
8.9K vistas29 diapositivas

Similar a 2023-TFG4_NLP_Transformers(20)

Banco de reactivos total por Janeth Mtz
Banco de reactivos totalBanco de reactivos total
Banco de reactivos total
Janeth Mtz1.2K vistas
Bases de Datos Relacionales por Arnulfo Gomez
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
Arnulfo Gomez3.7K vistas
Analisis y diseño de sistemas por joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca6455 vistas
Analisis y diseño de sistemas por joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca68.9K vistas
Analisis Y Diseño De Sistemas Orientado A Objetos por joalmerca6
Analisis Y Diseño De Sistemas Orientado A ObjetosAnalisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A Objetos
joalmerca618.2K vistas
Unidad 3 paradigmas de la ingeniería del software por Andhy H Palma
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del software
Andhy H Palma282 vistas
Analisis Y DiseñO Orientado A Objetos por yoiner santiago
Analisis Y DiseñO Orientado A ObjetosAnalisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A Objetos
yoiner santiago51.1K vistas
Modelo de Datos E-R por Carol Puche
Modelo de Datos E-RModelo de Datos E-R
Modelo de Datos E-R
Carol Puche63 vistas
Taller campus party .net por campus party
Taller campus party .netTaller campus party .net
Taller campus party .net
campus party486 vistas
Taller campus party por campus party
Taller campus partyTaller campus party
Taller campus party
campus party268 vistas
Intelligent Methods for Information Access in Context: The Role of Topic Desc... por Carlos Lorenzetti
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Carlos Lorenzetti490 vistas

Más de Ricardo Lopez-Ruiz

2023-TFG5_Metaheuristicas_para_Turismo por
2023-TFG5_Metaheuristicas_para_Turismo2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_TurismoRicardo Lopez-Ruiz
11 vistas44 diapositivas
2023-TFG3_ArbolesDecision_Basket por
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_BasketRicardo Lopez-Ruiz
21 vistas73 diapositivas
2023-TFG2_RedesNeuronalesAplicadas_F1 por
2023-TFG2_RedesNeuronalesAplicadas_F12023-TFG2_RedesNeuronalesAplicadas_F1
2023-TFG2_RedesNeuronalesAplicadas_F1Ricardo Lopez-Ruiz
33 vistas45 diapositivas
2023-TFG1_MercadosLibres.ppsx por
2023-TFG1_MercadosLibres.ppsx2023-TFG1_MercadosLibres.ppsx
2023-TFG1_MercadosLibres.ppsxRicardo Lopez-Ruiz
8 vistas27 diapositivas
2022-TFG1_ReglasAsociacion.pdf por
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdfRicardo Lopez-Ruiz
26 vistas30 diapositivas
2023-T14-Estudio_Histórico_Pandemias.pdf por
2023-T14-Estudio_Histórico_Pandemias.pdf2023-T14-Estudio_Histórico_Pandemias.pdf
2023-T14-Estudio_Histórico_Pandemias.pdfRicardo Lopez-Ruiz
13 vistas14 diapositivas

Más de Ricardo Lopez-Ruiz(20)

Último

Modelos atómicos por
Modelos atómicos Modelos atómicos
Modelos atómicos qai21190302mjimenez
5 vistas26 diapositivas
Portafolio acción psicosocial y trabajo.pdf por
Portafolio acción psicosocial y trabajo.pdfPortafolio acción psicosocial y trabajo.pdf
Portafolio acción psicosocial y trabajo.pdfadela928205
29 vistas94 diapositivas
Tecnología e informática .pdf por
Tecnología e informática .pdfTecnología e informática .pdf
Tecnología e informática .pdfAnaSofaRosmaya
8 vistas10 diapositivas
Trabajo-1.docx por
Trabajo-1.docxTrabajo-1.docx
Trabajo-1.docxAnaSofaRosmaya
10 vistas3 diapositivas
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E... por
BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E...Orlando Hernandez
305 vistas25 diapositivas
Trabajo anggi villalobos por
Trabajo anggi villalobos Trabajo anggi villalobos
Trabajo anggi villalobos AnggiVillalobod
8 vistas5 diapositivas

Último(17)

Portafolio acción psicosocial y trabajo.pdf por adela928205
Portafolio acción psicosocial y trabajo.pdfPortafolio acción psicosocial y trabajo.pdf
Portafolio acción psicosocial y trabajo.pdf
adela92820529 vistas
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E... por Orlando Hernandez
BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E...
Orlando Hernandez305 vistas
Desarrollo de Habilidades de Pensamiento tecnologia.docx por Saritaxuvu
Desarrollo de Habilidades de Pensamiento tecnologia.docxDesarrollo de Habilidades de Pensamiento tecnologia.docx
Desarrollo de Habilidades de Pensamiento tecnologia.docx
Saritaxuvu10 vistas
Análisis de preguntas Grafotécnicas por ShuduSnuff
Análisis de preguntas GrafotécnicasAnálisis de preguntas Grafotécnicas
Análisis de preguntas Grafotécnicas
ShuduSnuff5 vistas
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf por IrapuatoCmovamos
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdfREPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
IrapuatoCmovamos21 vistas

2023-TFG4_NLP_Transformers

  • 1. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Modelos de redes neuronales para identificar entidades en documentos David Redondo Laencina Universidad de Zaragoza 13 de septiembre de 2023 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 2. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Motivación del trabajo David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 3. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 1 Fundamentos teóricos Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Redes neuronales Modelos de lenguaje en NLP 2 Identificación de entidades en documentos Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 4. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 3 DocLayNet y LayoutLM: Análisis y explicación LayoutLMv2 DocLayNet 4 Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 5. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje automático Es el área de la inteligencia artificial que tiene como objetivo que las máquinas aprendan. Diferenciamos dos ramas: Aprendizaje supervisado. Aprendizaje no supervisado. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 6. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje supervisado Los algoritmos son entrenados con datos etiquetados. Destacamos: Regresión lineal y gradiente descendente. Regresión logística. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 7. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje no supervisado Los algoritmos son entrenados con datos sin etiquetar. Destacamos dos algoritmos: Algoritmo K-means. Anomaly detection algorithm. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 8. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales La unidad básica es la neurona, esta se distribuye en layers que pueden ser: Input layers Hidden layers Output layers En cada neurona hay una función de activación que procesa la información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 9. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales Tipos de redes neuronales: Feedforward Neural Networks (FNN): La información fluye de la capa de entrada a la de salida en una única dirección. Recurrent Neural Networks (RNN): Cada neurona puede recordar el estado de la información en la neurona anterior. Convolutional Neural Networks (CNN): Distintas neuronas procesan la misma información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 10. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Modelos de lenguaje en NLP Se divide en tres grandes ramas: Comprensión del lenguaje. Generación del lenguaje. Interacción humano máquina. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 11. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Definición del problema El objetivo de este problema es reconocer las distintas entidades de un documento para así poder estructurarlo y obtener la información necesaria. Las entidades se eligen en base a dos criterios: Criterios semánticos y gramaticales. Criterios estructurales y de localización. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 12. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Enfoques tradicionales Métodos lingüísticos. Métodos basados en diccionarios y palabras clave. Modelos ocultos de Markov. Campo aleatorio condicional. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 13. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 14. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers Es una arquitectura de red neuronal propuesta en 2017, en la que se basan: BERT GPT LayoutLM Los transformers se basan en una estructura de atención, que es un mecanismo que asigna un peso a cada elemento de la secuencia. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 15. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 16. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 LayoutLM es una familia de modelos multimodales orientados al análisis de texto, imagen y layout. Es capaz de resolver las siguientes tareas: Question answering Text classification Token classification David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 17. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP], [PAD]. ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 18. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Imagen: Primero se redimensiona la imagen, después se pasa por el encoder, se redimensiona el output y se hace una proyección lineal. vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 19. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Layout: Primero se representan las bbox bbox = (xmin,xmax ,ymin,ymax ,width,height) y después se codifican las coordenadas en dos layers diferentes: li = Concat(PosEmb2Dx (xmin,xmax ,width), PosEmb2Dy (ymin,ymax ,height)) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 20. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 2 Encoder: Primero concatena las diferentes vi y ti obteniendo X = {v0,...,vWH−1,t0,...,tL−1} a continuación le suma la codificación de las bbox obteniendo xi = Xi +li . El resto del proceso es igual al explicado anteriormente con la diferencia de que añadimos la información sobre la posición relativa explícitamente. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 21. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 Model FUNSD CORD SROIE Kleister-NDA LayoutLMBASE 0.7866 0.9472 0.9438 0.8270 LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340 LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330 LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 22. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train: 69375 imágenes con 941123 anotaciones. Validation: 6489 imágenes con 99816 anotaciones. Test: 4999 imágenes con 66531 anotaciones. Compuesto por: informes financieros (32%), manuales (21%), artículos científicos (17%), leyes y regulaciones (16%), patentes (8%), y licitaciones del gobierno (6%). David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 23. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 24. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Preprocesado Ajuste de las bbox. Unificación de formula y footnote en text. Asignación de categorías a las celdas. Eliminación de imágenes inservibles. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 25. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train Validation Test Categorías Num. % Num. % Num. % Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58 Patentes 5526 8.02 483 7.48 442 8.89 Artículos científicos 12225 17.75 944 14.62 941 18.94 Informes financieros 22413 32.54 1731 26.80 1739 35.00 Manuales 14332 20.80 1853 28.69 800 16.10 Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49 Total 68881 6458 4969 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 26. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 1 Tokenización Nuestra función recibe como inputs la imagen (formato PIL), texto palabra a palabra, sus respectivas categorías y las distintas bbox [x1,y1,x2,y2]. Devuelve una lista con un id para cada palabra, una lista que identifica el tipo de token, la attention mask y la representación de las bbox, categorías e imagen. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 27. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 2 Argumentos del entrenamiento Número de epochs. Tamaño del lote. Optimizador. Learning rate. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 28. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy: TP +TN TP +FP +TN +FN Precision: TP TP +FP Recall: TP TP +FN F1 Score: F1 = 2 precision∗recall precision+recall David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 29. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 LayoutLMv2 0.7934 0.0542 0.0394 0.0456 Epoch 1 0.9871 0.8939 0.9481 0.9202 Epoch 2 0.9902 0.9476 0.9557 0.9516 Epoch 3 0.9933 0.9553 0.9679 0.9626 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 30. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 31. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026 Patentes 0.7958 0.5643 0.4864 0.5225 Informes financieros 0.7264 0.4560 0.3512 0.3968 Manuales 0.8311 0.4608 0.3391 0.3907 Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 32. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Desafíos futuros Continuación del entrenamiento con otro tipo de documentos. Investigar sobre como optimizar los tiempos de entrenamiento. Entrenar con los mismos documentos en otra orientación. Dividir el entrenamiento para exigir menos memoria y almacenamiento. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 33. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros ¡Gracias! ¡Gracias por su atención! David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos