1. Corpus diacrónico de la Biblioteca Virtual
Miguel de Cervantes
Gustavo Candela Romero gcandela@ua.es
Mª Pilar Escobar Esteban mpilar.escobar@ua.es
Departamento de Lenguajes y
Sistemas Informáticos
UNIVERSIDAD DE ALICANTE
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua,
educació y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
2. Gustavo Candela Romero
gcandela@ua.es
María Pilar Escobar Esteban
mpilar.escobar@ua.es
Corpus diacrónico de la Biblioteca Virtual Miguel de
Cervantes
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua, educació
y TIC sobre la Corona d'Aragó. De la Innovació al Cànon
3. Índice
● Biblioteca Virtual Miguel de Cervantes
● IMPACT
● Proceso de creación de corpus diacrónico
● Selección de obras
● Edición en CoBaLT
● Fichero de sinónimos
● Herramienta de búsqueda
● Trabajo en curso
4. Biblioteca Virtual Miguel de Cervantes
Su catálogo se compone de alrededor de 230.000 registros, de los cuales 60.000 son libros,
aunque también ofrece estudios críticos y de investigación, materiales históricos, periódicos y
revistas, audiovisuales, archivos sonoros, vídeos en lengua de signos española, etc. Se trata
principalmente de obras antiguas, pertenecientes al dominio público, pero también de obras
actuales de jóvenes autores como Itziar Pascual, Mariam Budia o Carles Batlle, entre otros,
incluidas en el portal de Autores de Teatro.
5. Centro de competencia IMPACT - 2013
● Resultado del proyecto europeo IMPACT (2008 - 2012) gestionado por la
Universidad de Alicante y la FBVMC desde 2010.
● Tiene como objetivo realizar la digitalización de los textos históricos de forma
eficiente, rápida y económica (better, faster and cheaper).
● Proporciona herramientas y servicios para procesamiento de imágenes y
texto.
https://www.digitisation.eu/about/
6. Proceso de creación de corpus diacrónico
5
Herram
ienta
de
búsqueda
4
Fichero
de
sinónim
os
3
Exportación
a
TEI
Edición
en
CoBaLT
21
Selección
de
obras
Expertos literatura,
filólogos,...
Parte tecnológica
7. Selección de obras
● El corpus contiene 86 obras, proporcionadas por la Biblioteca Virtual Miguel
de Cervantes, impresas entre el siglo 15 y 17
● 2 millones de palabras en total
● El 27% de las palabras han sido anotadas con su lema, categoría gramatical
y su forma moderna equivalente (Text Encoding Initiative)
● Disponible con licencia abierta
8. Selección de obras
https://link.springer.com/article/10.1007%2Fs10579-013-9239-y#Sec7
Título Autor Primer edición Edición fuente
Oráculo manual y arte de la
prudencia
Baltasar Gracián 1647 1647
La Celestina Fernando Rojas 1499–1502 1499, 1514
Las Mocedades del Cid Guillén de Castro 1605–1615 1618
Laberinto de Fortuna Juan de Mena 1481 1505
Comedia del Príncipe Ynocente Lope de Vega 1590 1762
La Galatea Miguel de
Cervantes
Saavedra
1585 1585
9. Edición en CoBaLT
Fue desarrollado por el Institute for Dutch Lexicology (INL - Instituut voor
Nederlandse Lexicologie - https://ivdnt.org/)
CoBalt es una aplicación que permite la carga de documentos y la anotación de
cada una de las palabras con su lema y otras etiquetas:
1. Carga de documentos
2. Anotación de textos
3. Exportación a XML
10. Edición en CoBaLT
<entry xml:id="lex.f1d62ce3576c326bbf26db231898771a" n="necesario-adj">
<form type="lemma">
<orth type="normal">necesario</orth>
<gramGrp>
<gram type="PoS">adj</gram>
</gramGrp>
<lbl type="occurrences">282</lbl>
</form>
<form type="wordform">
<orth type="normal">necesarios</orth>
<form type="historical">
<orth type="normalised">necessarios</orth>
<form type="cited">
<orth type="exact">necessarios.</orth>
<cit>
<quote >ya no fuesse a hazer agua o a tomar bastimentos
<oVar>necessarios.</oVar> La barbara Ricla bien comprara a pedaços de oro que</quote>
<bibl>
<title>5412.xml.txt</title>
</bibl>
</cit>
</form>
11. Fichero de sinónimos
Las categorías gramaticales (pos#) que han sido anotadas son las siguientes:
Categoría Etiqueta
abreviación abr
adjetivo adj
adverbio adv
Categoría Etiqueta
determinante det
nombre n
conjunción cnj
Categoría Etiqueta
pronombre prn
pronombre
relativo
rel
verbo verb
13. Herramienta de búsqueda
Cada término puede ir precedido de un prefijo:
● Si no se añade prefijo, la búsqueda se realiza por texto.
● El prefijo modern# denota una forma moderna.
● El prefijo lemma# denota un lema.
● El prefijo pos# denota la categoría gramatical (part-of-speech).
15. Ejemplos de anotación
La forma de la palabra celebrada genera 5
entradas:
● lemma#celebrar
● pos#verb
● modern#celebrada
● lemma#celebrado
● pos#adj
La forma de la palabra yerro genera 7 entradas:
● lemma#yerro
● pos#n
● modern#yerro
● lemma#hierro
● modern#hierro
● lemma#errar
● pos#verb
yerro => yerro, lemma#errar, modern#yerro, pos#verb
yerro => yerro, lemma#hierro, modern#hierro, pos#n
yerro => yerro, lemma#yerro, modern#yerro, pos#n
16. Ejemplos de búsqueda
● lemma#haber modern#de pos#verb (han de tener, han de negar)
● pos#verb
● modern#haber
● lemma#hacer
● pos#adj
17. Trabajo en curso
Selección
de Obras
Procesar
textos
Creación de
sinónimos
abogada => abogada, pos#noun,
lemma#abogado
esperaré => esperaré, pos#verb, lemma#esperar
expresa => expresa, pos#verb, lemma#expresar
mimada => mimada, pos#verb, lemma#mimar
resuenan => resuenan, pos#verb,
lemma#resonar
sabrá => sabrá, pos#verb, lemma#saber
santa => santa, pos#adjective, lemma#santo
santa => santa, pos#noun, lemma#santo
viejo => viejo, pos#adjective, lemma#viejo
Revisión
manual
FreeLing
18. Trabajo en curso
http://nlp.lsi.upc.edu/freeling/demo/demo.php
En un lugar de la Mancha, de cuyo
nombre no quiero acordarme, no ha
mucho tiempo que vivía un hidalgo de
los de lanza en astillero, adarga
antigua, rocín flaco y galgo corredor.
Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y
quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura
los domingos
<document>
<wordcount>69</wordcount>
<paragraph>
<sentence id="1">
<token begin="0" ctag="SP" end="2" form="En"
id="t1.1" lemma="en" pos="adposition" tag="SP"
type="preposition">
<morpho>
<analysis ctag="SP" lemma="en" pos="adposition"
selected="1" tag="SP" type="preposition"/>
</morpho>
</token>
<token begin="3" ctag="DI" end="5" form="un"
gen="masculine" id="t1.2" lemma="uno" num="singular"
pos="determiner" tag="DI0MS0" type="indefinite">
……..
21. Referencias
● http://data.cervantesvirtual.com/blog/documentacion-corpus-diacronico/
● http://data.cervantesvirtual.com/blog/diasearch/
● Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X., Carrasco, R.C.: An open diachronic corpus of historical
Spanish published in Language Resources and Evaluation.
http://link.springer.com/article/10.1007%2Fs10579-013-9239-y
● Rafael C. Carrasco, Isabel Martínez-Sempere, Enrique Mollá-Gandía, Felipe Sánchez-Martínez, Gustavo Candela
Romero, Maria Pilar Escobar Esteban: Linguistically-Enhanced Search over an Open Diachronic Corpus. ECIR
2015: 801-804. https://link.springer.com/chapter/10.1007%2F978-3-319-16354-3_89
● https://github.com/INL/COBALT/blob/master/Documentation/CoBaLT.pdf
● http://nlp.lsi.upc.edu/freeling/index.php/node/1