29 de marzo de 2014
Lingüística de Corpus aplicada
a la corrección automática y
profesional
Stilus es una marca de Daedalu...
Contenidos
 ¿Qué es la Lingüística de Corpus (LC)?
 Los corpus de la Academia vs. el de Mark Davies
 La LC en el ámbito...
¿Qué es la Lingüística de Corpus (LC)?
LC, ¿disciplina o metodología?
- de corpus. ???
1. Ha de ser representativo
2. Ha de estar almacenado en formato electrónico
3. Sus contenidos deben estar etiquetados seg...
Los corpus de la Academia vs. el de Mark Davies
Corpus RAE
Los corpus de la Academia vs. el de Mark Davies
+
=
CORDE CREA
Los corpus de la Academia vs. el de Mark Davies
Los corpus de la Academia vs. el de Mark Davies
www.corpusdelespanol.org
Pero si los filtros morfológicos de la
Academia n...
Los corpus de la Academia vs. el de Mark Davies
+ Gran volumen: CDH (+ 350 mill. de palabras);
CORPES XXI (se pretenden: 2...
La LC en el ámbito de la corrección automática y profesional
¿Para qué podría utilizar la Lingüística de Corpus
un correct...
La LC en el ámbito de la corrección automática y profesional
¿Por qué me interesa
automatizar procesos de
verificación tex...
La LC en el ámbito de la corrección automática y profesional
1
• Coleccionar patrones de errores frecuentes
2
• Conocer la...
«Lenguando que es gerundio». Algunos casos prácticos
¿Alguna vez has estado tentado
de automatizar la revisión de las
expr...
«Lenguando que es gerundio». Algunos casos prácticos
2. Observa…
«Lenguando que es gerundio». Algunos casos prácticos
3. ¡Y dispara!
«Lenguando que es gerundio». Algunos casos prácticos
A veces, habrá que sopesar si automatizar merece la pena…
1 excepción...
«Lenguando que es gerundio». Algunos casos prácticos
Y otras veces la automatización no estará a mi alcance…
/*
<test rule...
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaTratamEnMayúscula#3">
<case>Vimos al <error>Presi...
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaNoSolo,Pero">
<case>No solo destruyó nuestra hist...
«Lenguando que es gerundio». Algunos casos prácticos
Pero el valor de la «corrección automática avanzada» no solo reside e...
¡Gracias por vuestra atención!
Concepción Polo
Responsable de Lingüística
cpolo@daedalus.es
Daedalus, S. A.
Tel.: +34 9133...
Próxima SlideShare
Cargando en…5
×

Stilus lenguando-lc aplicada a la correccion

618 visualizaciones

Publicado el

Presentación de Stilus sobre "Lingüística de Corpus aplicada a la corrección automática y profesional" en Lenguando 2014 (Madrid)
Regístrate gratis en mystilus.com
Stilus es una marca de Daedalus, S. A.

Publicado en: Tecnología
0 comentarios
7 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
618
En SlideShare
0
De insertados
0
Número de insertados
76
Acciones
Compartido
0
Descargas
4
Comentarios
0
Recomendaciones
7
Insertados 0
No insertados

No hay notas en la diapositiva.

Stilus lenguando-lc aplicada a la correccion

  1. 1. 29 de marzo de 2014 Lingüística de Corpus aplicada a la corrección automática y profesional Stilus es una marca de Daedalus, S. A.
  2. 2. Contenidos  ¿Qué es la Lingüística de Corpus (LC)?  Los corpus de la Academia vs. el de Mark Davies  La LC en el ámbito de la corrección automática y profesional  « que es gerundio». Algunos casos prácticos
  3. 3. ¿Qué es la Lingüística de Corpus (LC)? LC, ¿disciplina o metodología? - de corpus. ???
  4. 4. 1. Ha de ser representativo 2. Ha de estar almacenado en formato electrónico 3. Sus contenidos deben estar etiquetados según unos criterios lingüísticos «útiles» 4. Debe poder responder a tareas de recuperación específicas ¿Qué es la Lingüística de Corpus (LC)? El corpus en LC… La Lingüística de Corpus permite llevar a cabo investigaciones empíricas en contextos «reales».
  5. 5. Los corpus de la Academia vs. el de Mark Davies Corpus RAE
  6. 6. Los corpus de la Academia vs. el de Mark Davies + = CORDE CREA
  7. 7. Los corpus de la Academia vs. el de Mark Davies
  8. 8. Los corpus de la Academia vs. el de Mark Davies www.corpusdelespanol.org Pero si los filtros morfológicos de la Academia no dan de sí, tenemos otras opciones…
  9. 9. Los corpus de la Academia vs. el de Mark Davies + Gran volumen: CDH (+ 350 mill. de palabras); CORPES XXI (se pretenden: 25 mill./año) + Codificación cuidadosa (proceso automático + validación humana) + Filtros de búsqueda: año, país, tipo de texto, área temática… + combinación de parámetros +/- Filtros de búsqueda morfológica básica + Filtros de búsqueda con desambiguación morfológica - Incómodo para análisis morfológicos detallados + Brillante y cómoda interfaz de consulta: rasgos formales, filtros morfológicos avanzados, filtros semánticos (búsqueda por sinónimos) + Posible combinación de parámetros mediante expresiones regulares + Rápida capacidad de respuesta - Incómodo para análisis diacrónicos o diatópicos (filtro temporal por siglos / filtro diatópico inexistente) Corpus del españolCDH / CORPES XXI
  10. 10. La LC en el ámbito de la corrección automática y profesional ¿Para qué podría utilizar la Lingüística de Corpus un corrector profesional?
  11. 11. La LC en el ámbito de la corrección automática y profesional ¿Por qué me interesa automatizar procesos de verificación textual? Mejora la consistencia de la revisión Garantiza el cumplimiento de la guía de estilo / Normalización corporativa Mejora mi eficiencia y eficacia Aumenta mi productividad y mis ingresos
  12. 12. La LC en el ámbito de la corrección automática y profesional 1 • Coleccionar patrones de errores frecuentes 2 • Conocer las capacidades del gestor de búsqueda y reemplazo de mi editor o procesador de textos 3 • Estudiar la viabilidad de automatización de dichos patrones sobre corpus 4 • Automatizar el reemplazo de los patrones que considere viables (p. ej., con macros sobre Word) 5 • Elegir un software de verificación textual sensible al contexto como complemento ¿Qué puedo hacer yo como corrector autónomo?
  13. 13. «Lenguando que es gerundio». Algunos casos prácticos ¿Alguna vez has estado tentado de automatizar la revisión de las expresiones incorrectas incluidas en un manual de dudas? 1. Apunta…
  14. 14. «Lenguando que es gerundio». Algunos casos prácticos 2. Observa…
  15. 15. «Lenguando que es gerundio». Algunos casos prácticos 3. ¡Y dispara!
  16. 16. «Lenguando que es gerundio». Algunos casos prácticos A veces, habrá que sopesar si automatizar merece la pena… 1 excepción de 31 casos 96,78 % de precisión
  17. 17. «Lenguando que es gerundio». Algunos casos prácticos Y otras veces la automatización no estará a mi alcance… /* <test rule="ReglaHaPorA"> <case>Va <error>ha</error> hacer la reforma de su vida.</case> <case>Se alquila habitación <error>ha</error> estudiantes.</case> <case>Va a hacer la reforma de su vida.</case> <case>Se alquila habitación a estudiantes.</case> <case>Si ha lugar</case> </test> */ RULE(L"ReglaHaPorA") FORM_I(POS(N), L"ha") AND UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG TagVerbInfinitiveCompound OR_TAG TagNoun) AND !FORM_I(POS(N+1), L"lugar") THEN SUG_WORD(POS(N),L"a"); ADD_ERROR(Error_Spelling, POS(N), POS(N), msg(ES, L"Posible confusión al emplear la forma verbal auxiliar <i>ha</i> en vez de la preposición <i>a</i>.", A1, L"ReglaHaPorA"); END_RULE Aquí entran en juego las capacidades del verificador automático que hayas elegido
  18. 18. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaTratamEnMayúscula#3"> <case>Vimos al <error>Presidente del Gobierno</error></case> <case>Estuvimos allí durante la visita de la <error>Reina</error></case> <case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case> <case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case> <case>Visitamos el Reina Sofía el domingo pasado </case> <case>El Prof. Fernández imparte clase en esa universidad </case> </test> */ RULE(L"ReglaTratamEnMayúscula#3") EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND !(FORM(POS(N), L"Reina Sofía") AND FORM_I(POS(N-1), L"el|al|del")) AND FIRST_LETTER_UPPERCASE(POS(N)) AND !EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND !ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND !IS_FIRST_WORD(POS(N)) THEN SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N))); ADD_ERROR(Error_Typographic, POS(N), POS(N), msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse con minúscula.", Check_OLE10, C2, L"ReglaTratamEnMayúscula#3"); END_RULE
  19. 19. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaNoSolo,Pero"> <case>No solo destruyó nuestra historia, <error>pero</error> también cambió nuestro nombre</case> <case>No solo destruyó nuestra historia, sino también cambió nuestro nombre</case> <case>Fue a comprar el pan, pero también compró chorizo</case> </test> */ RULE(L"ReglaNoSolo,Pero") EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND FORM(POS(N+1), L",") AND FORM_I(POS(N+2), L"pero") THEN SUG_WORD(POS(N+2), L"sino"); ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2), msg(ES, L"Posiblemente no haya utilizado la conjunción adecuada.", B2, L"ReglaNoSolo,Pero"); END_RULE
  20. 20. «Lenguando que es gerundio». Algunos casos prácticos Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad de verificación sintáctico-semántica, también nos ayuda en la detección masiva de errores independientes del contexto…
  21. 21. ¡Gracias por vuestra atención! Concepción Polo Responsable de Lingüística cpolo@daedalus.es Daedalus, S. A. Tel.: +34 913324301 http://www.daedalus.es

×