SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
Corpus diacrónico de la Biblioteca Virtual
Miguel de Cervantes
Gustavo Candela Romero gcandela@ua.es
Mª Pilar Escobar Esteban mpilar.escobar@ua.es
Departamento de Lenguajes y
Sistemas Informáticos
UNIVERSIDAD DE ALICANTE
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua,
educació y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
Gustavo Candela Romero
gcandela@ua.es
María Pilar Escobar Esteban
mpilar.escobar@ua.es
Corpus diacrónico de la Biblioteca Virtual Miguel de
Cervantes
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua, educació
y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
Índice
● Biblioteca Virtual Miguel de Cervantes
● IMPACT
● Proceso de creación de corpus diacrónico
● Selección de obras
● Edición en CoBaLT
● Fichero de sinónimos
● Herramienta de búsqueda
● Trabajo en curso
Biblioteca Virtual Miguel de Cervantes
Su catálogo se compone de alrededor de 230.000 registros, de los cuales 60.000 son libros,
aunque también ofrece estudios críticos y de investigación, materiales históricos, periódicos y
revistas, audiovisuales, archivos sonoros, vídeos en lengua de signos española, etc. Se trata
principalmente de obras antiguas, pertenecientes al dominio público, pero también de obras
actuales de jóvenes autores como Itziar Pascual, Mariam Budia o Carles Batlle, entre otros,
incluidas en el portal de Autores de Teatro.
Centro de competencia IMPACT - 2013
● Resultado del proyecto europeo IMPACT (2008 - 2012) gestionado por la
Universidad de Alicante y la FBVMC desde 2010.
● Tiene como objetivo realizar la digitalización de los textos históricos de forma
eficiente, rápida y económica (better, faster and cheaper).
● Proporciona herramientas y servicios para procesamiento de imágenes y
texto.
https://www.digitisation.eu/about/
Proceso de creación de corpus diacrónico
5
Herram
ienta
de
búsqueda
4
Fichero
de
sinónim
os
3
Exportación
a
TEI
Edición
en
CoBaLT
21
Selección
de
obras
Expertos literatura,
filólogos,...
Parte tecnológica
Selección de obras
● El corpus contiene 86 obras, proporcionadas por la Biblioteca Virtual Miguel
de Cervantes, impresas entre el siglo 15 y 17
● 2 millones de palabras en total
● El 27% de las palabras han sido anotadas con su lema, categoría gramatical
y su forma moderna equivalente (Text Encoding Initiative)
● Disponible con licencia abierta
Selección de obras
https://link.springer.com/article/10.1007%2Fs10579-013-9239-y#Sec7
Título Autor Primer edición Edición fuente
Oráculo manual y arte de la
prudencia
Baltasar Gracián 1647 1647
La Celestina Fernando Rojas 1499–1502 1499, 1514
Las Mocedades del Cid Guillén de Castro 1605–1615 1618
Laberinto de Fortuna Juan de Mena 1481 1505
Comedia del Príncipe Ynocente Lope de Vega 1590 1762
La Galatea Miguel de
Cervantes
Saavedra
1585 1585
Edición en CoBaLT
Fue desarrollado por el Institute for Dutch Lexicology (INL - Instituut voor
Nederlandse Lexicologie - https://ivdnt.org/)
CoBalt es una aplicación que permite la carga de documentos y la anotación de
cada una de las palabras con su lema y otras etiquetas:
1. Carga de documentos
2. Anotación de textos
3. Exportación a XML
Edición en CoBaLT
<entry xml:id="lex.f1d62ce3576c326bbf26db231898771a" n="necesario-adj">
<form type="lemma">
<orth type="normal">necesario</orth>
<gramGrp>
<gram type="PoS">adj</gram>
</gramGrp>
<lbl type="occurrences">282</lbl>
</form>
<form type="wordform">
<orth type="normal">necesarios</orth>
<form type="historical">
<orth type="normalised">necessarios</orth>
<form type="cited">
<orth type="exact">necessarios.</orth>
<cit>
<quote >ya no fuesse a hazer agua o a tomar bastimentos
<oVar>necessarios.</oVar> La barbara Ricla bien comprara a pedaços de oro que</quote>
<bibl>
<title>5412.xml.txt</title>
</bibl>
</cit>
</form>
Fichero de sinónimos
Las categorías gramaticales (pos#) que han sido anotadas son las siguientes:
Categoría Etiqueta
abreviación abr
adjetivo adj
adverbio adv
Categoría Etiqueta
determinante det
nombre n
conjunción cnj
Categoría Etiqueta
pronombre prn
pronombre
relativo
rel
verbo verb
Fichero de sinónimos
fazen => fazen, lemma#hacer, modern#hacen, pos#verb
ferido => ferido, lemma#herido, modern#herido, pos#adj
gastava => gastava, lemma#gastar, modern#gastaba, pos#verb
govierna => govierna, lemma#gobernar, modern#gobierna, pos#verb
segvndo => segvndo, lemma#segundo, modern#segundo, pos#det
Herramienta de búsqueda
Cada término puede ir precedido de un prefijo:
● Si no se añade prefijo, la búsqueda se realiza por texto.
● El prefijo modern# denota una forma moderna.
● El prefijo lemma# denota un lema.
● El prefijo pos# denota la categoría gramatical (part-of-speech).
Herramienta de búsqueda
Índice
Servidor
BVMC
Fichero
sinónimos
Ejemplos de anotación
La forma de la palabra celebrada genera 5
entradas:
● lemma#celebrar
● pos#verb
● modern#celebrada
● lemma#celebrado
● pos#adj
La forma de la palabra yerro genera 7 entradas:
● lemma#yerro
● pos#n
● modern#yerro
● lemma#hierro
● modern#hierro
● lemma#errar
● pos#verb
yerro => yerro, lemma#errar, modern#yerro, pos#verb
yerro => yerro, lemma#hierro, modern#hierro, pos#n
yerro => yerro, lemma#yerro, modern#yerro, pos#n
Ejemplos de búsqueda
● lemma#haber modern#de pos#verb (han de tener, han de negar)
● pos#verb
● modern#haber
● lemma#hacer
● pos#adj
Trabajo en curso
Selección
de Obras
Procesar
textos
Creación de
sinónimos
abogada => abogada, pos#noun,
lemma#abogado
esperaré => esperaré, pos#verb, lemma#esperar
expresa => expresa, pos#verb, lemma#expresar
mimada => mimada, pos#verb, lemma#mimar
resuenan => resuenan, pos#verb,
lemma#resonar
sabrá => sabrá, pos#verb, lemma#saber
santa => santa, pos#adjective, lemma#santo
santa => santa, pos#noun, lemma#santo
viejo => viejo, pos#adjective, lemma#viejo
Revisión
manual
FreeLing
Trabajo en curso
http://nlp.lsi.upc.edu/freeling/demo/demo.php
En un lugar de la Mancha, de cuyo
nombre no quiero acordarme, no ha
mucho tiempo que vivía un hidalgo de
los de lanza en astillero, adarga
antigua, rocín flaco y galgo corredor.
Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y
quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura
los domingos
<document>
<wordcount>69</wordcount>
<paragraph>
<sentence id="1">
<token begin="0" ctag="SP" end="2" form="En"
id="t1.1" lemma="en" pos="adposition" tag="SP"
type="preposition">
<morpho>
<analysis ctag="SP" lemma="en" pos="adposition"
selected="1" tag="SP" type="preposition"/>
</morpho>
</token>
<token begin="3" ctag="DI" end="5" form="un"
gen="masculine" id="t1.2" lemma="uno" num="singular"
pos="determiner" tag="DI0MS0" type="indefinite">
……..
Trabajo en curso
Formulario de
búsqueda
Opciones de
búsqueda
Trabajo en curso
Estadísticas
Concordancias
en el texto
Referencias
● http://data.cervantesvirtual.com/blog/documentacion-corpus-diacronico/
● http://data.cervantesvirtual.com/blog/diasearch/
● Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X., Carrasco, R.C.: An open diachronic corpus of historical
Spanish published in Language Resources and Evaluation.
http://link.springer.com/article/10.1007%2Fs10579-013-9239-y
● Rafael C. Carrasco, Isabel Martínez-Sempere, Enrique Mollá-Gandía, Felipe Sánchez-Martínez, Gustavo Candela
Romero, Maria Pilar Escobar Esteban: Linguistically-Enhanced Search over an Open Diachronic Corpus. ECIR
2015: 801-804. https://link.springer.com/chapter/10.1007%2F978-3-319-16354-3_89
● https://github.com/INL/COBALT/blob/master/Documentation/CoBaLT.pdf
● http://nlp.lsi.upc.edu/freeling/index.php/node/1

Más contenido relacionado

Similar a Xii simposi internacional noves tendencies

Similar a Xii simposi internacional noves tendencies (8)

Introducción a la ingeniería de sistemas
Introducción a la ingeniería de sistemasIntroducción a la ingeniería de sistemas
Introducción a la ingeniería de sistemas
 
Documentación aplicada a la traducción el manual de campo
Documentación aplicada a la traducción el manual de campoDocumentación aplicada a la traducción el manual de campo
Documentación aplicada a la traducción el manual de campo
 
Libros digitales
Libros digitales Libros digitales
Libros digitales
 
Presentación de Simplext
Presentación de SimplextPresentación de Simplext
Presentación de Simplext
 
La industria del lenguaje
La industria del lenguajeLa industria del lenguaje
La industria del lenguaje
 
La Edición Digital de Textos Literarios
La Edición Digital de Textos LiterariosLa Edición Digital de Textos Literarios
La Edición Digital de Textos Literarios
 
'Para qué sirve un traductor - Traducción de productos culturales' - Curso de...
'Para qué sirve un traductor - Traducción de productos culturales' - Curso de...'Para qué sirve un traductor - Traducción de productos culturales' - Curso de...
'Para qué sirve un traductor - Traducción de productos culturales' - Curso de...
 
Taller de compiladores
Taller de compiladoresTaller de compiladores
Taller de compiladores
 

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

Último

Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 

Último (20)

Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 

Xii simposi internacional noves tendencies

  • 1. Corpus diacrónico de la Biblioteca Virtual Miguel de Cervantes Gustavo Candela Romero gcandela@ua.es Mª Pilar Escobar Esteban mpilar.escobar@ua.es Departamento de Lenguajes y Sistemas Informáticos UNIVERSIDAD DE ALICANTE XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua, educació y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
  • 2. Gustavo Candela Romero gcandela@ua.es María Pilar Escobar Esteban mpilar.escobar@ua.es Corpus diacrónico de la Biblioteca Virtual Miguel de Cervantes XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua, educació y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
  • 3. Índice ● Biblioteca Virtual Miguel de Cervantes ● IMPACT ● Proceso de creación de corpus diacrónico ● Selección de obras ● Edición en CoBaLT ● Fichero de sinónimos ● Herramienta de búsqueda ● Trabajo en curso
  • 4. Biblioteca Virtual Miguel de Cervantes Su catálogo se compone de alrededor de 230.000 registros, de los cuales 60.000 son libros, aunque también ofrece estudios críticos y de investigación, materiales históricos, periódicos y revistas, audiovisuales, archivos sonoros, vídeos en lengua de signos española, etc. Se trata principalmente de obras antiguas, pertenecientes al dominio público, pero también de obras actuales de jóvenes autores como Itziar Pascual, Mariam Budia o Carles Batlle, entre otros, incluidas en el portal de Autores de Teatro.
  • 5. Centro de competencia IMPACT - 2013 ● Resultado del proyecto europeo IMPACT (2008 - 2012) gestionado por la Universidad de Alicante y la FBVMC desde 2010. ● Tiene como objetivo realizar la digitalización de los textos históricos de forma eficiente, rápida y económica (better, faster and cheaper). ● Proporciona herramientas y servicios para procesamiento de imágenes y texto. https://www.digitisation.eu/about/
  • 6. Proceso de creación de corpus diacrónico 5 Herram ienta de búsqueda 4 Fichero de sinónim os 3 Exportación a TEI Edición en CoBaLT 21 Selección de obras Expertos literatura, filólogos,... Parte tecnológica
  • 7. Selección de obras ● El corpus contiene 86 obras, proporcionadas por la Biblioteca Virtual Miguel de Cervantes, impresas entre el siglo 15 y 17 ● 2 millones de palabras en total ● El 27% de las palabras han sido anotadas con su lema, categoría gramatical y su forma moderna equivalente (Text Encoding Initiative) ● Disponible con licencia abierta
  • 8. Selección de obras https://link.springer.com/article/10.1007%2Fs10579-013-9239-y#Sec7 Título Autor Primer edición Edición fuente Oráculo manual y arte de la prudencia Baltasar Gracián 1647 1647 La Celestina Fernando Rojas 1499–1502 1499, 1514 Las Mocedades del Cid Guillén de Castro 1605–1615 1618 Laberinto de Fortuna Juan de Mena 1481 1505 Comedia del Príncipe Ynocente Lope de Vega 1590 1762 La Galatea Miguel de Cervantes Saavedra 1585 1585
  • 9. Edición en CoBaLT Fue desarrollado por el Institute for Dutch Lexicology (INL - Instituut voor Nederlandse Lexicologie - https://ivdnt.org/) CoBalt es una aplicación que permite la carga de documentos y la anotación de cada una de las palabras con su lema y otras etiquetas: 1. Carga de documentos 2. Anotación de textos 3. Exportación a XML
  • 10. Edición en CoBaLT <entry xml:id="lex.f1d62ce3576c326bbf26db231898771a" n="necesario-adj"> <form type="lemma"> <orth type="normal">necesario</orth> <gramGrp> <gram type="PoS">adj</gram> </gramGrp> <lbl type="occurrences">282</lbl> </form> <form type="wordform"> <orth type="normal">necesarios</orth> <form type="historical"> <orth type="normalised">necessarios</orth> <form type="cited"> <orth type="exact">necessarios.</orth> <cit> <quote >ya no fuesse a hazer agua o a tomar bastimentos <oVar>necessarios.</oVar> La barbara Ricla bien comprara a pedaços de oro que</quote> <bibl> <title>5412.xml.txt</title> </bibl> </cit> </form>
  • 11. Fichero de sinónimos Las categorías gramaticales (pos#) que han sido anotadas son las siguientes: Categoría Etiqueta abreviación abr adjetivo adj adverbio adv Categoría Etiqueta determinante det nombre n conjunción cnj Categoría Etiqueta pronombre prn pronombre relativo rel verbo verb
  • 12. Fichero de sinónimos fazen => fazen, lemma#hacer, modern#hacen, pos#verb ferido => ferido, lemma#herido, modern#herido, pos#adj gastava => gastava, lemma#gastar, modern#gastaba, pos#verb govierna => govierna, lemma#gobernar, modern#gobierna, pos#verb segvndo => segvndo, lemma#segundo, modern#segundo, pos#det
  • 13. Herramienta de búsqueda Cada término puede ir precedido de un prefijo: ● Si no se añade prefijo, la búsqueda se realiza por texto. ● El prefijo modern# denota una forma moderna. ● El prefijo lemma# denota un lema. ● El prefijo pos# denota la categoría gramatical (part-of-speech).
  • 15. Ejemplos de anotación La forma de la palabra celebrada genera 5 entradas: ● lemma#celebrar ● pos#verb ● modern#celebrada ● lemma#celebrado ● pos#adj La forma de la palabra yerro genera 7 entradas: ● lemma#yerro ● pos#n ● modern#yerro ● lemma#hierro ● modern#hierro ● lemma#errar ● pos#verb yerro => yerro, lemma#errar, modern#yerro, pos#verb yerro => yerro, lemma#hierro, modern#hierro, pos#n yerro => yerro, lemma#yerro, modern#yerro, pos#n
  • 16. Ejemplos de búsqueda ● lemma#haber modern#de pos#verb (han de tener, han de negar) ● pos#verb ● modern#haber ● lemma#hacer ● pos#adj
  • 17. Trabajo en curso Selección de Obras Procesar textos Creación de sinónimos abogada => abogada, pos#noun, lemma#abogado esperaré => esperaré, pos#verb, lemma#esperar expresa => expresa, pos#verb, lemma#expresar mimada => mimada, pos#verb, lemma#mimar resuenan => resuenan, pos#verb, lemma#resonar sabrá => sabrá, pos#verb, lemma#saber santa => santa, pos#adjective, lemma#santo santa => santa, pos#noun, lemma#santo viejo => viejo, pos#adjective, lemma#viejo Revisión manual FreeLing
  • 18. Trabajo en curso http://nlp.lsi.upc.edu/freeling/demo/demo.php En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lantejas los viernes, algún palomino de añadidura los domingos <document> <wordcount>69</wordcount> <paragraph> <sentence id="1"> <token begin="0" ctag="SP" end="2" form="En" id="t1.1" lemma="en" pos="adposition" tag="SP" type="preposition"> <morpho> <analysis ctag="SP" lemma="en" pos="adposition" selected="1" tag="SP" type="preposition"/> </morpho> </token> <token begin="3" ctag="DI" end="5" form="un" gen="masculine" id="t1.2" lemma="uno" num="singular" pos="determiner" tag="DI0MS0" type="indefinite"> ……..
  • 19. Trabajo en curso Formulario de búsqueda Opciones de búsqueda
  • 21. Referencias ● http://data.cervantesvirtual.com/blog/documentacion-corpus-diacronico/ ● http://data.cervantesvirtual.com/blog/diasearch/ ● Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X., Carrasco, R.C.: An open diachronic corpus of historical Spanish published in Language Resources and Evaluation. http://link.springer.com/article/10.1007%2Fs10579-013-9239-y ● Rafael C. Carrasco, Isabel Martínez-Sempere, Enrique Mollá-Gandía, Felipe Sánchez-Martínez, Gustavo Candela Romero, Maria Pilar Escobar Esteban: Linguistically-Enhanced Search over an Open Diachronic Corpus. ECIR 2015: 801-804. https://link.springer.com/chapter/10.1007%2F978-3-319-16354-3_89 ● https://github.com/INL/COBALT/blob/master/Documentation/CoBaLT.pdf ● http://nlp.lsi.upc.edu/freeling/index.php/node/1