SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.




UA – Spanish Language
Presentación del trabajo lingüístico



Madrid, BNE, 5 de octubre de 2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
          Netherlands.




       Índice
            Universidad de Alicante
            Descripción del corpus
            Producción del GT
            Trabajo lingüístico
            Herramientas utilizadas
            Resultados preliminares




Madrid, BNE, 5 de octubre de 2011                                                                                                                     2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                 Universidad de Alicante




Madrid, BNE, 5 de octubre de 2011                                                                                                                   3
Universidad de Alicante
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                                      UA: Sede científica de la BVMC (partner de
                                                        IMPACT)

                                                      DLSI: Departamento de lenguajes y sistemas
                                                        informáticos. Grupo de investigación
                                                        Transducens creadores de Apertium.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                   Descripción del corpus




Madrid, BNE, 5 de octubre de 2011                                                                                                                   5
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Selección de textos

      Obras clave de los siglos XVI y XVII aportadas por la Biblioteca
       Nacional de España:
             – Principales autores del Siglo de Oro español (Cervantes, Quevedo,
               Góngora, Garcilaso, Calderón, Lope de Vega)
             – Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)

      Diccionario de Autoridades de la Real Academia Española (Seis
       volúmenes publicados entre 1726 y 1739), también de la BNE.
      Textos entre finales del siglo XV y el siglo XVII de la Biblioteca
       Virtual Miguel de Cervantes


Madrid, BNE, 5 de octubre de 2011                                                                                                                   6
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




  División del corpus
    División del corpus en tres bloques:



        Development                                             Evaluation                                      Demonstration
       Creación de un                                           Test de                                        Demostración de
         diccionario                                        herramientas y                                      los resultados
        histórico para                                        lexicones.                                        obtenidos y las
          mejorar el                                                                                             herramientas
     reconocimiento del                                                                                         desarrolladas.
       OCR en textos
          antiguos.



Madrid, BNE, 5 de octubre de 2011                                                                                                                   7
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
         Impresión defectuosa y degradación




Madrid, BNE, 5 de octubre de 2011                                                                                                                   8
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Bordes estrechos, partes de la página opuesta.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   9
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Páginas inclinadas, papel doblado, bordes visibles




Madrid, BNE, 5 de octubre de 2011                                                                                                                   10
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Transparencias




Madrid, BNE, 5 de octubre de 2011                                                                                                                   11
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Manchas, sellos, notas manuscritas...




Madrid, BNE, 5 de octubre de 2011                                                                                                                   12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                    Producción del GT




Madrid, BNE, 5 de octubre de 2011                                                                                                                   13
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



    Flujo de trabajo

                                Envío a empresa                                                Devolución a
OCR imágenes                        externa                 Creación del GT                      cliente               Control de calidad




                                                                                                    No
                                                                                                                               ¿GT OK?



                                                                        Publicación en                                  Sí

                                                                           PrIMA


Madrid, BNE, 5 de octubre de 2011                                                                                                                   14
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Curiosidades del GT

      Reglas de acentuación en Diccionario de Autoridades
      Uso del punctus elevatus
      Abreviaturas y ligaduras
      Ideogramas




Madrid, BNE, 5 de octubre de 2011                                                                                                                   15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   16
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Punctus elevatus




                 
Madrid, BNE, 5 de octubre de 2011                                                                                                                   17
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



    Abreviaturas y ligaduras




Madrid, BNE, 5 de octubre de 2011                                                                                                                   18
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Ideogramas




 ♃                                                                             ♌

   ♉                                                                           ♎
Madrid, BNE, 5 de octubre de 2011                                                                                                                   19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                   Trabajo lingüístico




Madrid, BNE, 5 de octubre de 2011                                                                                                                   20
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Tareas de la UA
      Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)
                                                                               OCR (Optical Character Recognition)
      Construcción de los lexicones
                                                                               IR (Information Retrieval)
      Reglas de variación

      Lematización del corpus

      Apertium usado como base del lexicón




Madrid, BNE, 5 de octubre de 2011                                                                                                                   21
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Dificultades a resolver
 Palabras que han desaparecido: arcaz (arca)
 Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád
 Palabras en latín: quid, haec, aliquid, sum
 Nombres propios: Quixote, Garcilasso, Rosimunda, Lope
 Errores de impresión
 Uso de apóstrofes: d'aver, a'scala
 Dos formas antiguas, una moderna: al rededor – alrededor
 Una forma antigua, dos modernas: dél – de él
 Uso de 's' larga: 'ſ'




                                                                                                          ſ f
 Abreviaturas
 Ligaduras
 Espacios
 Cambios en la flexión verbal

Madrid, BNE, 5 de octubre de 2011                                                                                                                   22
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Dificultades a resolver
    Flexión verbal. Ejemplo: Verbo 'haber'
      a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla,
      auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués,
      Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose,
      auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian,
      avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré,
      avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos,
      haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole,
      habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai,
      hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate,
      hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido,
      hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse,
      haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela,
      hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo,
      huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran,
      huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese,
      uviesse, uvo, vuiera, vuiesse,                vuo...

Madrid, BNE, 5 de octubre de 2011                                                                                                                   23
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   24
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   25
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   26
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Variación ortográfica
      Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción
      Ruptura de diptongo con 'h' en lugar de acento: ohir – oír
      'u'       'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron
      Caída de la 'd' final del imperativo: volvé – volved
      Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban
      Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo
      Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro
      Consonantes duplicadas: offender – ofender, assi – así, rromano – romano
      Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó



Madrid, BNE, 5 de octubre de 2011                                                                                                                   27
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                 Herramientas utilizadas




Madrid, BNE, 5 de octubre de 2011                                                                                                                   28
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Aletheia




Madrid, BNE, 5 de octubre de 2011                                                                                                                   29
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Lexicon Tool




Madrid, BNE, 5 de octubre de 2011                                                                                                                   30
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Taverna




Madrid, BNE, 5 de octubre de 2011                                                                                                                   31
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                Resultados preliminares




Madrid, BNE, 5 de octubre de 2011                                                                                                                   32
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Datos del lexicón
      Dividido en diferentes corpus:
                   –   Corpus BVMC
                   –   GT – Development
                   –   Diccionario Autoridades
                   –   IR Evaluation
      Cifras del lexicón:
                   – Lexicón OCR:
                                 • 5,617,815 palabras.
                                 • 334,157 palabras distintas.
                   – Lexicón IR:
                                 • 582,386 palabras analizadas.
                                 • 34,296 palabras distintas analizadas.
                                 • 12,360 lemas analizados.


Madrid, BNE, 5 de octubre de 2011                                                                                                                   33
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Métricas
      Precisión (p) y Cobertura (c):
                     – Precisión: Porcentaje de palabras que ha acertado de las que ha
                          reconocido.
                     – Cobertura: Porcentaje de palabras que ha acertado de las que
                          debería haber reconocido
                     – Ejemplo con precisión 0.25 y cobertura 0.5
                                      • Estaba en hora buena (resultado OCR)
                                      • Estaba enhorabuena (texto original)

      False friend: Error del OCR cuyo resultado coincide con una
       palabra del diccionario.



Madrid, BNE, 5 de octubre de 2011                                                                                                                   34
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Resultados
       Con el diccionario interno “OldSpanish” de Finereader
           Precisión: 0.76 , Cobertura: 0.72
       Con el lexicón histórico de español
               Precisión: 0.79 , Cobertura: 0.76
     100

      90
                                              79,68                                              81,66
      80                     75,97                    75,78                     77,48                    78,1
            75,03                                                                       73,38
                    71,65            70,47                                                                                  Cobertura Lexicón
      70                                                       65,1                                                         Histórico
                                                                      59,95                                                 Cobertura Diccionario
      60                                                                                                                    Interno
      50

      40

      30

      20

      10

       0
             Sor Juana           Inca          Quevedo           Boscán             Lope           Lazarillo
Madrid, BNE, 5 de octubre de 2011                                                                                                                   35
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Resultados

 Imagen: 00438810

 Fuente: Obras de Garcilasso de la Vega

 Diccionario interno:
 (p= 76% , c= 69% ) 
 Añadiendo diccionario externo:
 (p= 85% , c= 78% )




Madrid, BNE, 5 de octubre de 2011                                                                                                                   36
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.

GARCILASSO; 3«                                                                                     Garcilasso;
«jue hara el enemigo?                                                                              que hara el enemigo?
Salid sin duelo lagrimal corriendo.                                                                Salid sin duelo lagrimal corriendo.
Porti el silencio déla selua vmbrosa,                                                              Porti el silencio dela selua vmbrosa,
por ti la esquiuidad,y apartamiento                                                                por ti la esquiuidad,y apartamiento
del solitario monte me agradaua:                                                                   del solitario monte me agradaua:
porti la verdeyerua,y fresco viento,1                                                              porti la verde yerua,y fresco viento,
elhlanco lirio,y colorada rosa,                                                                    elblanco lirio,y colorada rosa,
y dulce Priipauera desteaua.                                                                       y dulce Primauera Desseaua.
Ayquantomeengañaua,                                                                                Ay quanto me engañaua,
ay quan diferente era,                                                                             ay quan diferente era,
y quan de otra manera,                                                                             y quan de otra manera,
lo que en tu falso pecho se escondía?                                                              lo que en tu falso pecho se escondía?
bien claro qcn su voz me lo dczia                                                                  bien claro qcn su voz me lo dezia
la siniestra corneja, repitiendo 8$                                                                la siniestra corneja, repitiendo 8$
ladefuentura mia,                                                                                  la desuentura mia,
Salid sin duelo lagrimas corriendo.                                                                Salid sin duelo lagrimas corriendo.
Quantas vezes durmiendo en la floresta                                                             Quantas vezes durmiendo enla floresta
(reputando yo por desuario)                                                                        (reputando yo por desuario)
vi mi mal entre sueños desdic hados                                                                vi mi mal entre sueños desdic hados
Soñaua que en el tiempo del Estío                                                                  Soñaua que en el tiempo del Estip
lleuaua,por pastar aiii la siesta,                                                                 lleuaua,por passar alli la siesta,
a beuer en el Tajo mi ganado:                                                                      a beuer en el Tajo mi ganado:
y despucs de llegado,                 Negrita: error                                               y despues de llegado,
fin saber de quai arte,               Subrayado: False friend                                      jón saber de qual arte,
Madrid, BNE, 5 de octubre de 2011                                                                                                                   37
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                             UA – Spanish Language




Madrid, BNE, 5 de octubre de 2011                                                                                                                   38

Más contenido relacionado

Destacado

Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...
Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...
Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...Biblioteca Nacional de España
 
Bibliotecas nacionales y redes sociales. Mar Pérez Morillo
Bibliotecas nacionales y redes sociales. Mar Pérez MorilloBibliotecas nacionales y redes sociales. Mar Pérez Morillo
Bibliotecas nacionales y redes sociales. Mar Pérez MorilloBiblioteca Nacional de España
 
Public-Private partnership. José Luis Bueren Gómez-Acebo
Public-Private  partnership. José Luis Bueren Gómez-AceboPublic-Private  partnership. José Luis Bueren Gómez-Acebo
Public-Private partnership. José Luis Bueren Gómez-AceboBiblioteca Nacional de España
 
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...Biblioteca Nacional de España
 
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...Biblioteca Nacional de España
 
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...Biblioteca Nacional de España
 
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-Acebo
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-AceboBNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-Acebo
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-AceboBiblioteca Nacional de España
 
Centre of Competence in digitisation. Clemens Neudecker
Centre of Competence in digitisation. Clemens NeudeckerCentre of Competence in digitisation. Clemens Neudecker
Centre of Competence in digitisation. Clemens NeudeckerBiblioteca Nacional de España
 
Petición de propuestas MARC a MARBI. Pilar Tejero López
Petición de propuestas MARC a MARBI. Pilar Tejero LópezPetición de propuestas MARC a MARBI. Pilar Tejero López
Petición de propuestas MARC a MARBI. Pilar Tejero LópezBiblioteca Nacional de España
 
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...Biblioteca Nacional de España
 
IMPACT Interoperability and Evaluation Framework. Clemens Neudecker
IMPACT Interoperability and Evaluation Framework. Clemens NeudeckerIMPACT Interoperability and Evaluation Framework. Clemens Neudecker
IMPACT Interoperability and Evaluation Framework. Clemens NeudeckerBiblioteca Nacional de España
 
TR5 Prolifer and Post-Correction System. Ludwig Maximilians
TR5 Prolifer and Post-Correction System. Ludwig MaximiliansTR5 Prolifer and Post-Correction System. Ludwig Maximilians
TR5 Prolifer and Post-Correction System. Ludwig MaximiliansBiblioteca Nacional de España
 
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...Biblioteca Nacional de España
 
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez MorilloEl archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez MorilloBiblioteca Nacional de España
 

Destacado (20)

Biblioteca Digital del Patrimonio Iberoamericano
Biblioteca Digital del Patrimonio IberoamericanoBiblioteca Digital del Patrimonio Iberoamericano
Biblioteca Digital del Patrimonio Iberoamericano
 
Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...
Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...
Máster / Curso de experto en bibliotecas y patrimonio documental. Rosario Lóp...
 
Bibliotecas nacionales y redes sociales. Mar Pérez Morillo
Bibliotecas nacionales y redes sociales. Mar Pérez MorilloBibliotecas nacionales y redes sociales. Mar Pérez Morillo
Bibliotecas nacionales y redes sociales. Mar Pérez Morillo
 
Public-Private partnership. José Luis Bueren Gómez-Acebo
Public-Private  partnership. José Luis Bueren Gómez-AceboPublic-Private  partnership. José Luis Bueren Gómez-Acebo
Public-Private partnership. José Luis Bueren Gómez-Acebo
 
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...
Imagine Libraries...: beyond a future that is already here. Glòria Pérez- Sal...
 
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...
Structural analysis of documents Functional Extension Parser (FEP). Günter Mü...
 
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...
Biblioteca Nacional de España and Casa Árabe: practical case of collaboration...
 
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-Acebo
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-AceboBNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-Acebo
BNE-Telefónica: Strategic Partner Agreement. José Luis Bueren Gómez-Acebo
 
Centre of Competence in digitisation. Clemens Neudecker
Centre of Competence in digitisation. Clemens NeudeckerCentre of Competence in digitisation. Clemens Neudecker
Centre of Competence in digitisation. Clemens Neudecker
 
Biblioteca Digital del Patrimonio Iberoamericano
Biblioteca Digital del Patrimonio IberoamericanoBiblioteca Digital del Patrimonio Iberoamericano
Biblioteca Digital del Patrimonio Iberoamericano
 
Petición de propuestas MARC a MARBI. Pilar Tejero López
Petición de propuestas MARC a MARBI. Pilar Tejero LópezPetición de propuestas MARC a MARBI. Pilar Tejero López
Petición de propuestas MARC a MARBI. Pilar Tejero López
 
El proyecto de enlace de autores BNE - Dialnet
El proyecto de enlace de autores BNE - DialnetEl proyecto de enlace de autores BNE - Dialnet
El proyecto de enlace de autores BNE - Dialnet
 
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...
Las cuatro primeras sedes de la Real Biblioteca: El pasadizo de la Encarnació...
 
IMPACT Interoperability and Evaluation Framework. Clemens Neudecker
IMPACT Interoperability and Evaluation Framework. Clemens NeudeckerIMPACT Interoperability and Evaluation Framework. Clemens Neudecker
IMPACT Interoperability and Evaluation Framework. Clemens Neudecker
 
Intranet Social de la BNE. Ana Carrillo Pozas
Intranet Social de la BNE. Ana Carrillo PozasIntranet Social de la BNE. Ana Carrillo Pozas
Intranet Social de la BNE. Ana Carrillo Pozas
 
TR5 Prolifer and Post-Correction System. Ludwig Maximilians
TR5 Prolifer and Post-Correction System. Ludwig MaximiliansTR5 Prolifer and Post-Correction System. Ludwig Maximilians
TR5 Prolifer and Post-Correction System. Ludwig Maximilians
 
Computer Lexica in OCR and Retrieval
Computer Lexica in OCR and RetrievalComputer Lexica in OCR and Retrieval
Computer Lexica in OCR and Retrieval
 
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...
The Sección Femenina folklore archive at the Biblioteca Nacional de España. I...
 
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez MorilloEl archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
 
Cuaderno de bitácora digital: BDH 2008-2012
Cuaderno de bitácora digital: BDH 2008-2012Cuaderno de bitácora digital: BDH 2008-2012
Cuaderno de bitácora digital: BDH 2008-2012
 

Más de Biblioteca Nacional de España

La colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de EspañaLa colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de EspañaBiblioteca Nacional de España
 
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos AramburoIdentidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos AramburoBiblioteca Nacional de España
 
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...Biblioteca Nacional de España
 
RDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. RelacionesRDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. RelacionesBiblioteca Nacional de España
 
Pleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de EspañaPleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de EspañaBiblioteca Nacional de España
 
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de EspañaObjetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de EspañaBiblioteca Nacional de España
 
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...Biblioteca Nacional de España
 
Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019Biblioteca Nacional de España
 
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos AramburoPleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos AramburoBiblioteca Nacional de España
 
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...Biblioteca Nacional de España
 

Más de Biblioteca Nacional de España (20)

La colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de EspañaLa colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de España
 
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos AramburoIdentidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
 
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
 
Data privacy in library authority files: a survey
Data privacy in library authority files: a surveyData privacy in library authority files: a survey
Data privacy in library authority files: a survey
 
Perfil de RDA de la BNE. Resumen de cambios
Perfil de RDA de la BNE. Resumen de cambiosPerfil de RDA de la BNE. Resumen de cambios
Perfil de RDA de la BNE. Resumen de cambios
 
RDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. RelacionesRDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
 
RDA: el nuevo texto
RDA: el nuevo textoRDA: el nuevo texto
RDA: el nuevo texto
 
Pleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de EspañaPleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de España
 
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de EspañaObjetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
 
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
 
Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019
 
Dirección Técnica. Objetivos 2019
Dirección Técnica. Objetivos 2019Dirección Técnica. Objetivos 2019
Dirección Técnica. Objetivos 2019
 
Evaluación 2018. Objetivos 2019
Evaluación 2018. Objetivos 2019Evaluación 2018. Objetivos 2019
Evaluación 2018. Objetivos 2019
 
Evaluación actuaciones 2018. Dirección Cultural
Evaluación actuaciones 2018. Dirección CulturalEvaluación actuaciones 2018. Dirección Cultural
Evaluación actuaciones 2018. Dirección Cultural
 
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos AramburoPleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
 
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
 
VIAF GDPR
VIAF GDPRVIAF GDPR
VIAF GDPR
 
Renacer prensa historica
Renacer prensa historicaRenacer prensa historica
Renacer prensa historica
 
RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)
 
Desarrollo actual de RDA (Pilar Tejero López)
Desarrollo actual de RDA (Pilar Tejero López)Desarrollo actual de RDA (Pilar Tejero López)
Desarrollo actual de RDA (Pilar Tejero López)
 

Último

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 

Último (19)

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 

UA Spanish Language: presentación del trabajo lingüístico

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA – Spanish Language Presentación del trabajo lingüístico Madrid, BNE, 5 de octubre de 2011
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Índice  Universidad de Alicante  Descripción del corpus  Producción del GT  Trabajo lingüístico  Herramientas utilizadas  Resultados preliminares Madrid, BNE, 5 de octubre de 2011 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Universidad de Alicante Madrid, BNE, 5 de octubre de 2011 3
  • 4. Universidad de Alicante IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA: Sede científica de la BVMC (partner de IMPACT) DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium. Madrid, BNE, 5 de octubre de 2011 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Descripción del corpus Madrid, BNE, 5 de octubre de 2011 5
  • 6. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Selección de textos  Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España: – Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega) – Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)  Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.  Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de Cervantes Madrid, BNE, 5 de octubre de 2011 6
  • 7. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. División del corpus  División del corpus en tres bloques: Development Evaluation Demonstration Creación de un Test de Demostración de diccionario herramientas y los resultados histórico para lexicones. obtenidos y las mejorar el herramientas reconocimiento del desarrolladas. OCR en textos antiguos. Madrid, BNE, 5 de octubre de 2011 7
  • 8. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Impresión defectuosa y degradación Madrid, BNE, 5 de octubre de 2011 8
  • 9. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Bordes estrechos, partes de la página opuesta. Madrid, BNE, 5 de octubre de 2011 9
  • 10. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Páginas inclinadas, papel doblado, bordes visibles Madrid, BNE, 5 de octubre de 2011 10
  • 11. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Transparencias Madrid, BNE, 5 de octubre de 2011 11
  • 12. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Manchas, sellos, notas manuscritas... Madrid, BNE, 5 de octubre de 2011 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Producción del GT Madrid, BNE, 5 de octubre de 2011 13
  • 14. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Flujo de trabajo Envío a empresa Devolución a OCR imágenes externa Creación del GT cliente Control de calidad No ¿GT OK? Publicación en Sí PrIMA Madrid, BNE, 5 de octubre de 2011 14
  • 15. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Curiosidades del GT  Reglas de acentuación en Diccionario de Autoridades  Uso del punctus elevatus  Abreviaturas y ligaduras  Ideogramas Madrid, BNE, 5 de octubre de 2011 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Madrid, BNE, 5 de octubre de 2011 16
  • 17. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Punctus elevatus  Madrid, BNE, 5 de octubre de 2011 17
  • 18. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Abreviaturas y ligaduras Madrid, BNE, 5 de octubre de 2011 18
  • 19. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ideogramas ♃ ♌ ♉ ♎ Madrid, BNE, 5 de octubre de 2011 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Trabajo lingüístico Madrid, BNE, 5 de octubre de 2011 20
  • 21. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Tareas de la UA  Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español) OCR (Optical Character Recognition)  Construcción de los lexicones IR (Information Retrieval)  Reglas de variación  Lematización del corpus  Apertium usado como base del lexicón Madrid, BNE, 5 de octubre de 2011 21
  • 22. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver  Palabras que han desaparecido: arcaz (arca)  Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád  Palabras en latín: quid, haec, aliquid, sum  Nombres propios: Quixote, Garcilasso, Rosimunda, Lope  Errores de impresión  Uso de apóstrofes: d'aver, a'scala  Dos formas antiguas, una moderna: al rededor – alrededor  Una forma antigua, dos modernas: dél – de él  Uso de 's' larga: 'ſ' ſ f  Abreviaturas  Ligaduras  Espacios  Cambios en la flexión verbal Madrid, BNE, 5 de octubre de 2011 22
  • 23. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Flexión verbal. Ejemplo: Verbo 'haber' a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela, hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran, huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese, uviesse, uvo, vuiera, vuiesse, vuo... Madrid, BNE, 5 de octubre de 2011 23
  • 24. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 24
  • 25. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 25
  • 26. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 26
  • 27. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Variación ortográfica  Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción  Ruptura de diptongo con 'h' en lugar de acento: ohir – oír  'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron  Caída de la 'd' final del imperativo: volvé – volved  Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban  Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo  Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro  Consonantes duplicadas: offender – ofender, assi – así, rromano – romano  Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó Madrid, BNE, 5 de octubre de 2011 27
  • 28. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Herramientas utilizadas Madrid, BNE, 5 de octubre de 2011 28
  • 29. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Aletheia Madrid, BNE, 5 de octubre de 2011 29
  • 30. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lexicon Tool Madrid, BNE, 5 de octubre de 2011 30
  • 31. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Taverna Madrid, BNE, 5 de octubre de 2011 31
  • 32. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados preliminares Madrid, BNE, 5 de octubre de 2011 32
  • 33. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Datos del lexicón  Dividido en diferentes corpus: – Corpus BVMC – GT – Development – Diccionario Autoridades – IR Evaluation  Cifras del lexicón: – Lexicón OCR: • 5,617,815 palabras. • 334,157 palabras distintas. – Lexicón IR: • 582,386 palabras analizadas. • 34,296 palabras distintas analizadas. • 12,360 lemas analizados. Madrid, BNE, 5 de octubre de 2011 33
  • 34. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Métricas  Precisión (p) y Cobertura (c): – Precisión: Porcentaje de palabras que ha acertado de las que ha reconocido. – Cobertura: Porcentaje de palabras que ha acertado de las que debería haber reconocido – Ejemplo con precisión 0.25 y cobertura 0.5 • Estaba en hora buena (resultado OCR) • Estaba enhorabuena (texto original)  False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario. Madrid, BNE, 5 de octubre de 2011 34
  • 35. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Con el diccionario interno “OldSpanish” de Finereader Precisión: 0.76 , Cobertura: 0.72 Con el lexicón histórico de español Precisión: 0.79 , Cobertura: 0.76 100 90 79,68 81,66 80 75,97 75,78 77,48 78,1 75,03 73,38 71,65 70,47 Cobertura Lexicón 70 65,1 Histórico 59,95 Cobertura Diccionario 60 Interno 50 40 30 20 10 0 Sor Juana Inca Quevedo Boscán Lope Lazarillo Madrid, BNE, 5 de octubre de 2011 35
  • 36. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Imagen: 00438810 Fuente: Obras de Garcilasso de la Vega Diccionario interno: (p= 76% , c= 69% )  Añadiendo diccionario externo: (p= 85% , c= 78% ) Madrid, BNE, 5 de octubre de 2011 36
  • 37. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. GARCILASSO; 3« Garcilasso; «jue hara el enemigo? que hara el enemigo? Salid sin duelo lagrimal corriendo. Salid sin duelo lagrimal corriendo. Porti el silencio déla selua vmbrosa, Porti el silencio dela selua vmbrosa, por ti la esquiuidad,y apartamiento por ti la esquiuidad,y apartamiento del solitario monte me agradaua: del solitario monte me agradaua: porti la verdeyerua,y fresco viento,1 porti la verde yerua,y fresco viento, elhlanco lirio,y colorada rosa, elblanco lirio,y colorada rosa, y dulce Priipauera desteaua. y dulce Primauera Desseaua. Ayquantomeengañaua, Ay quanto me engañaua, ay quan diferente era, ay quan diferente era, y quan de otra manera, y quan de otra manera, lo que en tu falso pecho se escondía? lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dczia bien claro qcn su voz me lo dezia la siniestra corneja, repitiendo 8$ la siniestra corneja, repitiendo 8$ ladefuentura mia, la desuentura mia, Salid sin duelo lagrimas corriendo. Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo en la floresta Quantas vezes durmiendo enla floresta (reputando yo por desuario) (reputando yo por desuario) vi mi mal entre sueños desdic hados vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estío Soñaua que en el tiempo del Estip lleuaua,por pastar aiii la siesta, lleuaua,por passar alli la siesta, a beuer en el Tajo mi ganado: a beuer en el Tajo mi ganado: y despucs de llegado, Negrita: error y despues de llegado, fin saber de quai arte, Subrayado: False friend jón saber de qual arte, Madrid, BNE, 5 de octubre de 2011 37
  • 38. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA – Spanish Language Madrid, BNE, 5 de octubre de 2011 38