Xii simposi internacional noves tendencies

Corpus diacrónico de la Biblioteca Virtual
Miguel de Cervantes
Gustavo Candela Romero gcandela@ua.es
Mª Pilar Escobar Esteban mpilar.escobar@ua.es
Departamento de Lenguajes y
Sistemas Informáticos
UNIVERSIDAD DE ALICANTE
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua,
educació y TIC sobre la Corona d'Aragó. De la Innovació al Cànon

Gustavo Candela Romero
gcandela@ua.es
María Pilar Escobar Esteban
mpilar.escobar@ua.es
Corpus diacrónico de la Biblioteca Virtual Miguel de
Cervantes
XII Simposi Internacional Noves Tendències I+D+I en literatura, llengua, educació
y TIC sobre la Corona d'Aragó. De la Innovació al Cànon

Índice
● Biblioteca Virtual Miguel de Cervantes
● IMPACT
● Proceso de creación de corpus diacrónico
● Selección de obras
● Edición en CoBaLT
● Fichero de sinónimos
● Herramienta de búsqueda
● Trabajo en curso

Biblioteca Virtual Miguel de Cervantes
Su catálogo se compone de alrededor de 230.000 registros, de los cuales 60.000 son libros,
aunque también ofrece estudios críticos y de investigación, materiales históricos, periódicos y
revistas, audiovisuales, archivos sonoros, vídeos en lengua de signos española, etc. Se trata
principalmente de obras antiguas, pertenecientes al dominio público, pero también de obras
actuales de jóvenes autores como Itziar Pascual, Mariam Budia o Carles Batlle, entre otros,
incluidas en el portal de Autores de Teatro.

Centro de competencia IMPACT - 2013
● Resultado del proyecto europeo IMPACT (2008 - 2012) gestionado por la
Universidad de Alicante y la FBVMC desde 2010.
● Tiene como objetivo realizar la digitalización de los textos históricos de forma
eficiente, rápida y económica (better, faster and cheaper).
● Proporciona herramientas y servicios para procesamiento de imágenes y
texto.
https://www.digitisation.eu/about/

Proceso de creación de corpus diacrónico
5
Herram
ienta
de
búsqueda
4
Fichero
de
sinónim
os
3
Exportación
a
TEI
Edición
en
CoBaLT
21
Selección
de
obras
Expertos literatura,
filólogos,...
Parte tecnológica

Selección de obras
● El corpus contiene 86 obras, proporcionadas por la Biblioteca Virtual Miguel
de Cervantes, impresas entre el siglo 15 y 17
● 2 millones de palabras en total
● El 27% de las palabras han sido anotadas con su lema, categoría gramatical
y su forma moderna equivalente (Text Encoding Initiative)
● Disponible con licencia abierta

Selección de obras
https://link.springer.com/article/10.1007%2Fs10579-013-9239-y#Sec7
Título Autor Primer edición Edición fuente
Oráculo manual y arte de la
prudencia
Baltasar Gracián 1647 1647
La Celestina Fernando Rojas 1499–1502 1499, 1514
Las Mocedades del Cid Guillén de Castro 1605–1615 1618
Laberinto de Fortuna Juan de Mena 1481 1505
Comedia del Príncipe Ynocente Lope de Vega 1590 1762
La Galatea Miguel de
Cervantes
Saavedra
1585 1585

Edición en CoBaLT
Fue desarrollado por el Institute for Dutch Lexicology (INL - Instituut voor
Nederlandse Lexicologie - https://ivdnt.org/)
CoBalt es una aplicación que permite la carga de documentos y la anotación de
cada una de las palabras con su lema y otras etiquetas:
1. Carga de documentos
2. Anotación de textos
3. Exportación a XML

Edición en CoBaLT
<entry xml:id="lex.f1d62ce3576c326bbf26db231898771a" n="necesario-adj">
<form type="lemma">
<orth type="normal">necesario</orth>
<gramGrp>
<gram type="PoS">adj</gram>
</gramGrp>
<lbl type="occurrences">282</lbl>
</form>
<form type="wordform">
<orth type="normal">necesarios</orth>
<form type="historical">
<orth type="normalised">necessarios</orth>
<form type="cited">
<orth type="exact">necessarios.</orth>
<cit>
<quote >ya no fuesse a hazer agua o a tomar bastimentos
<oVar>necessarios.</oVar> La barbara Ricla bien comprara a pedaços de oro que</quote>
<bibl>
<title>5412.xml.txt</title>
</bibl>
</cit>
</form>

Fichero de sinónimos
Las categorías gramaticales (pos#) que han sido anotadas son las siguientes:
Categoría Etiqueta
abreviación abr
adjetivo adj
adverbio adv
Categoría Etiqueta
determinante det
nombre n
conjunción cnj
Categoría Etiqueta
pronombre prn
pronombre
relativo
rel
verbo verb

Fichero de sinónimos
fazen => fazen, lemma#hacer, modern#hacen, pos#verb
ferido => ferido, lemma#herido, modern#herido, pos#adj
gastava => gastava, lemma#gastar, modern#gastaba, pos#verb
govierna => govierna, lemma#gobernar, modern#gobierna, pos#verb
segvndo => segvndo, lemma#segundo, modern#segundo, pos#det

Herramienta de búsqueda
Cada término puede ir precedido de un prefijo:
● Si no se añade prefijo, la búsqueda se realiza por texto.
● El prefijo modern# denota una forma moderna.
● El prefijo lemma# denota un lema.
● El prefijo pos# denota la categoría gramatical (part-of-speech).

Herramienta de búsqueda
Índice
Servidor
BVMC
Fichero
sinónimos

Ejemplos de anotación
La forma de la palabra celebrada genera 5
entradas:
● lemma#celebrar
● pos#verb
● modern#celebrada
● lemma#celebrado
● pos#adj
La forma de la palabra yerro genera 7 entradas:
● lemma#yerro
● pos#n
● modern#yerro
● lemma#hierro
● modern#hierro
● lemma#errar
● pos#verb
yerro => yerro, lemma#errar, modern#yerro, pos#verb
yerro => yerro, lemma#hierro, modern#hierro, pos#n
yerro => yerro, lemma#yerro, modern#yerro, pos#n

Ejemplos de búsqueda
● lemma#haber modern#de pos#verb (han de tener, han de negar)
● pos#verb
● modern#haber
● lemma#hacer
● pos#adj

Trabajo en curso
Selección
de Obras
Procesar
textos
Creación de
sinónimos
abogada => abogada, pos#noun,
lemma#abogado
esperaré => esperaré, pos#verb, lemma#esperar
expresa => expresa, pos#verb, lemma#expresar
mimada => mimada, pos#verb, lemma#mimar
resuenan => resuenan, pos#verb,
lemma#resonar
sabrá => sabrá, pos#verb, lemma#saber
santa => santa, pos#adjective, lemma#santo
santa => santa, pos#noun, lemma#santo
viejo => viejo, pos#adjective, lemma#viejo
Revisión
manual
FreeLing

Trabajo en curso
http://nlp.lsi.upc.edu/freeling/demo/demo.php
En un lugar de la Mancha, de cuyo
nombre no quiero acordarme, no ha
mucho tiempo que vivía un hidalgo de
los de lanza en astillero, adarga
antigua, rocín flaco y galgo corredor.
Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y
quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura
los domingos
<document>
<wordcount>69</wordcount>
<paragraph>
<sentence id="1">
<token begin="0" ctag="SP" end="2" form="En"
id="t1.1" lemma="en" pos="adposition" tag="SP"
type="preposition">
<morpho>
<analysis ctag="SP" lemma="en" pos="adposition"
selected="1" tag="SP" type="preposition"/>
</morpho>
</token>
<token begin="3" ctag="DI" end="5" form="un"
gen="masculine" id="t1.2" lemma="uno" num="singular"
pos="determiner" tag="DI0MS0" type="indefinite">
……..

Trabajo en curso
Formulario de
búsqueda
Opciones de
búsqueda

Trabajo en curso
Estadísticas
Concordancias
en el texto

Referencias
● http://data.cervantesvirtual.com/blog/documentacion-corpus-diacronico/
● http://data.cervantesvirtual.com/blog/diasearch/
● Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X., Carrasco, R.C.: An open diachronic corpus of historical
Spanish published in Language Resources and Evaluation.
http://link.springer.com/article/10.1007%2Fs10579-013-9239-y
● Rafael C. Carrasco, Isabel Martínez-Sempere, Enrique Mollá-Gandía, Felipe Sánchez-Martínez, Gustavo Candela
Romero, Maria Pilar Escobar Esteban: Linguistically-Enhanced Search over an Open Diachronic Corpus. ECIR
2015: 801-804. https://link.springer.com/chapter/10.1007%2F978-3-319-16354-3_89
● https://github.com/INL/COBALT/blob/master/Documentation/CoBaLT.pdf
● http://nlp.lsi.upc.edu/freeling/index.php/node/1

Xii simposi internacional noves tendencies

Recomendados

Recomendados

Más contenido relacionado

Similar a Xii simposi internacional noves tendencies

Similar a Xii simposi internacional noves tendencies (8)

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Último

Último (20)

Xii simposi internacional noves tendencies