Este reporte describe aspectos relacionados al etiquetado gramatical, métodos
más comunes y su aplicación a la lengua española. Además, partiendo
de los conceptos presentados, se incluye una valoración personal sobre la situación actual y perspectivas en el futuro cercano del etiquetado de partes
del habla. Para la realización de este trabajo, la composición se llevó a cabo con el editor LATEX y se consultaron diversas fuentes secundarias, con el fin de ofrecer la información mas actualizada posible.
El documento describe el análisis semántico como parte del procesamiento de lenguajes. Explica que el objetivo del análisis semántico es asegurar que el programa cumpla con las reglas del lenguaje para garantizar su ejecución correcta. También describe los diferentes puntos de vista de la descripción semántica como la semántica operacional y denotacional, y las comprobaciones que realiza el análisis semántico como la declaración de identificadores, comprobaciones de tipo y dinámicas. Finalmente, explica que el
Prolog trabaja con programación lógica relacional y es más lento que C pero requiere menos líneas de código. Prolog se compila a código de byte que es interpretado por una máquina virtual. Carece de declaraciones pero usa variables lógicas, términos, cláusulas y unificación.
Este documento describe el proceso de extracción de ontología a partir de documentos escritos en lenguaje natural. Explica que primero se identifican y agrupan los términos clave, luego se construye una taxonomía de estos términos y por último se buscan asociaciones entre ellos. También establece reglas para la escritura de documentos que faciliten este proceso, como usar consistentemente los mismos nombres para los mismos conceptos. Finalmente, realiza un caso de estudio aplicando estos métodos a un documento largo para verificar su
El documento resume los principales conceptos de la gramática. Explica que la gramática estudia los elementos y combinaciones de una lengua y se compone de reglas que gobiernan su uso. Luego describe brevemente los diferentes niveles de estudio lingüístico y tipos de gramáticas.
La gramática estudia la lengua en sus formas oral y escrita, analizando los niveles fonológico, ortográfico, morfológico, semántico y sintáctico. La gramática ayuda a mejorar el uso del lenguaje escrito y oral al enseñar las reglas de ortografía, sintaxis, morfología y fonética. La gramática debe enseñarse para proporcionar conocimientos teóricos sobre la estructura lingüística necesarios para corregir textos, y solo se domina
Este documento proporciona una introducción a la gramática, incluyendo la morfología, sintaxis y unidades gramaticales. Explica conceptos como el monema, lexema, morfema, sintagma, función del sujeto y predicado, y tipos de oraciones como simples, compuestas, enunciativas, interrogativas y dubitativas.
Este documento presenta conceptos relacionados con los paradigmas de programación. Introduce los conceptos de abstracción en lenguajes de programación, incluyendo abstracciones de datos y control. Explica diferentes paradigmas como programación orientada a objetos, funcional y lógica. También discute principios de diseño de lenguajes como eficiencia, regularidad, simplicidad y expresividad.
Definición de la tabla de símbolos
Objetivos de la tabla de símbolos
Compilador de una pasada
Compilador de varias pasadas
Contenidos de la tabla de símbolos
Operaciones de la tabla de símbolos
Operación con lenguajes estructurados de bloques.
El documento describe el análisis semántico como parte del procesamiento de lenguajes. Explica que el objetivo del análisis semántico es asegurar que el programa cumpla con las reglas del lenguaje para garantizar su ejecución correcta. También describe los diferentes puntos de vista de la descripción semántica como la semántica operacional y denotacional, y las comprobaciones que realiza el análisis semántico como la declaración de identificadores, comprobaciones de tipo y dinámicas. Finalmente, explica que el
Prolog trabaja con programación lógica relacional y es más lento que C pero requiere menos líneas de código. Prolog se compila a código de byte que es interpretado por una máquina virtual. Carece de declaraciones pero usa variables lógicas, términos, cláusulas y unificación.
Este documento describe el proceso de extracción de ontología a partir de documentos escritos en lenguaje natural. Explica que primero se identifican y agrupan los términos clave, luego se construye una taxonomía de estos términos y por último se buscan asociaciones entre ellos. También establece reglas para la escritura de documentos que faciliten este proceso, como usar consistentemente los mismos nombres para los mismos conceptos. Finalmente, realiza un caso de estudio aplicando estos métodos a un documento largo para verificar su
El documento resume los principales conceptos de la gramática. Explica que la gramática estudia los elementos y combinaciones de una lengua y se compone de reglas que gobiernan su uso. Luego describe brevemente los diferentes niveles de estudio lingüístico y tipos de gramáticas.
La gramática estudia la lengua en sus formas oral y escrita, analizando los niveles fonológico, ortográfico, morfológico, semántico y sintáctico. La gramática ayuda a mejorar el uso del lenguaje escrito y oral al enseñar las reglas de ortografía, sintaxis, morfología y fonética. La gramática debe enseñarse para proporcionar conocimientos teóricos sobre la estructura lingüística necesarios para corregir textos, y solo se domina
Este documento proporciona una introducción a la gramática, incluyendo la morfología, sintaxis y unidades gramaticales. Explica conceptos como el monema, lexema, morfema, sintagma, función del sujeto y predicado, y tipos de oraciones como simples, compuestas, enunciativas, interrogativas y dubitativas.
Este documento presenta conceptos relacionados con los paradigmas de programación. Introduce los conceptos de abstracción en lenguajes de programación, incluyendo abstracciones de datos y control. Explica diferentes paradigmas como programación orientada a objetos, funcional y lógica. También discute principios de diseño de lenguajes como eficiencia, regularidad, simplicidad y expresividad.
Definición de la tabla de símbolos
Objetivos de la tabla de símbolos
Compilador de una pasada
Compilador de varias pasadas
Contenidos de la tabla de símbolos
Operaciones de la tabla de símbolos
Operación con lenguajes estructurados de bloques.
La tabla de símbolos es una estructura de datos que permite al compilador realizar operaciones de inserción, búsqueda y eliminación de información sobre identificadores en el código fuente. Contiene atributos como el nombre, tipo y ámbito de cada identificador. Las operaciones principales son inserción para añadir nuevos identificadores, búsqueda para recuperar información sobre ellos, y set y reset para gestionar el ámbito de los identificadores en bloques anidados.
El documento describe los conceptos fundamentales del análisis léxico, incluyendo su función de dividir la entrada en tokens, la construcción de autómatas de estados finitos para reconocer patrones léxicos, y el uso de diagramas de transición. También cubre brevemente los autómatas finitos no deterministas y sus transiciones vacías.
La programación lógica estudia el uso de la lógica formal para representar conocimiento y resolver problemas de manera automática. Lenguajes como Prolog permiten razonar deductiva e inductivamente mediante reglas y hechos. Otros lenguajes lógicos incluyen ALF, Gödel y Mercury, los cuales combinan programación lógica y funcional. La lógica computacional es fundamental para las ciencias de la computación al nivel de circuitos, programación y análisis de algoritmos.
Este documento presenta información sobre Prolog, un lenguaje de programación lógica basado en la lógica de predicados. Explica que Prolog fue creado en la década de 1970 y se utiliza principalmente para procesamiento de información simbólica y sistemas de inteligencia artificial. Luego resume algunas características clave de Prolog como su énfasis en la especificación declarativa de problemas y su capacidad para resolver consultas de manera procedural. Finalmente, menciona algunas aplicaciones comunes de Prolog como el desarrollo de sist
Marcalyc: Herramienta de Marcación XML JATS REDALYC
Este documento describe Marcalyc, una herramienta de marcación XML JATS. Explica brevemente el estándar JATS, validadores como PubMed Central y JATS4R, y el proceso de marcación, incluyendo la preparación de archivos, marcación de front, back y body, y manejo de tablas, figuras y ecuaciones. También cubre ventajas de la implementación de JATS como preservación digital y recuperación de información.
Este documento describe los operadores booleanos y de búsqueda que ayudan a delimitar búsquedas en motores de búsqueda. Explica que los operadores booleanos principales son AND, OR y NOT, y cómo cada uno afecta los resultados de la búsqueda. También describe operadores de proximidad como NEAR y WITH, y cómo truncar palabras para buscar variaciones lingüísticas. El documento proporciona ejemplos del uso de estos operadores para realizar búsquedas efectivas.
Para mayor comprencion de los conceptos basicos de la compilacion en referencia al analisis sintactico, se responde alguna de las principales preguntas del tema.
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS Infomania pro
El documento describe los conceptos clave del analizador sintáctico. Explica que el analizador sintáctico verifica que la secuencia de tokens proporcionada por el analizador léxico sea válida de acuerdo con la gramática del lenguaje. Construye un árbol sintáctico que representa la estructura de las sentencias del programa. También cubre temas como los tipos de análisis sintáctico, gramáticas de atributos, manejo de errores sintácticos y las funciones principales del analizador
Este documento trata sobre el diseño y uso de corpora en el trabajo con lenguajes de especialidad. Brevemente describe los corpora, incluyendo su definición, tipos, usuarios, diseño y tecnologías. Explica que los corpora son colecciones grandes de textos auténticos seleccionados según criterios específicos para un propósito, y que se utilizan para estudiar la lengua en uso en diversas áreas como la lingüística aplicada.
Este documento describe diferentes tipos de lenguajes de programación, incluyendo lenguajes imperativos, funcionales, lógicos y orientados a objetos. También discute el modelo CASE para el desarrollo de software asistido por computador.
Este documento presenta un módulo sobre autómatas y lenguajes formales. Contiene una introducción que explica la historia y motivación detrás de la teoría de autómatas y lenguajes formales. El módulo está dividido en tres unidades principales que cubren lenguajes regulares, lenguajes independientes del contexto y lenguajes estructurados por frases. Cada unidad contiene varios capítulos y lecciones sobre conceptos relevantes. El objetivo general es reconocer los lenguajes formales y los diferentes modelos de máqu
1) Los algoritmos son conjuntos de instrucciones bien definidas y ordenadas para resolver un problema.
2) Existen algoritmos cualitativos y cuantitativos. Los diagramas de flujo y pseudocódigo se usan para representar algoritmos.
3) Las estructuras de control como la secuencial, selección y repetición permiten controlar el flujo de ejecución de un programa.
XML fue desarrollado para permitir la mezcla de elementos de diferentes lenguajes, la creación de analizadores simples genéricos, y para asegurar que los documentos siempre sigan la sintaxis correcta. XML se basa en SGML pero se enfoca en hacer las cosas más sencillas para los programas que necesitan interpretar documentos. XML también permite la extensión con nuevas etiquetas y mejora la compatibilidad entre aplicaciones.
El documento describe los diferentes tipos de lenguajes de programación, incluyendo lenguajes de máquina, ensambladores, compiladores e intérpretes. También discute conceptos como el álgebra relacional, lenguaje de consulta estructurado (SQL), lenguajes de definición y manipulación de datos.
Este documento describe los lenguajes documentales, incluyendo su definición, tipos, estructuras y principales sistemas de clasificación. Explica que los lenguajes documentales surgen de la necesidad de facilitar la comunicación entre documentos, analistas y usuarios. Se definen como lenguajes convencionales que describen el contenido de los documentos para su almacenamiento y recuperación. Los principales tipos son lenguajes controlados como tesauros y clasificaciones, y lenguajes libres como listas de descriptores. Las estructuras incluyen jerárqu
Este documento presenta la información general sobre un curso de Teoría de la Computación, incluyendo el objetivo general y específicos, las unidades temáticas, la evaluación y la bibliografía. El objetivo general es aprender las bases teóricas para diseñar lenguajes de programación y dominar los conceptos de traducción de lenguajes. Las unidades incluyen introducción a lenguajes formales, lenguajes regulares, libres de contexto, y análisis sintáctico. La evaluación considera laboratorios, exámenes parciales y
Este documento describe una metodología propuesta para el desarrollo de ontologías. Explica que una metodología proporciona un marco de trabajo ordenado para construir una ontología, y que existen varios métodos comunes para diseñar ontologías. Luego, la metodología propuesta se basa en los métodos de Noy & McGuiness y Methontology, e incluye cinco pasos: 1) determinar requisitos, 2) reutilizar ontologías existentes, 3) elaborar un modelo conceptual, 4) implementar el modelo, y 5) evaluar
Este documento describe los diferentes paradigmas de programación, incluyendo la programación imperativa, declarativa, funcional y lógica. La programación imperativa se basa en una secuencia de instrucciones que cambian el estado del programa, mientras que la programación declarativa se enfoca en describir las propiedades de la solución en lugar de cómo lograrla. La programación funcional concibe la computación como la evaluación de funciones matemáticas, y la programación lógica se basa en reglas lógicas para responder preguntas.
Este documento describe las estrategias para realizar búsquedas de información efectivas, incluyendo identificar palabras clave y términos relacionados al tema, traducir términos a otros idiomas, y utilizar lenguaje controlado o descriptores de temas. Explica cómo usar operadores lógicos como AND, OR y NOT para combinar términos, así como operadores de truncamiento y proximidad. El objetivo es desarrollar una estrategia de búsqueda que identifique la información más relevante.
Este documento describe las estrategias para realizar búsquedas de información efectivas, incluyendo identificar palabras clave y términos relacionados al tema, traducir términos a otros idiomas, y utilizar lenguaje controlado o descriptores de temas. Explica cómo usar operadores lógicos como AND, OR y NOT para combinar términos, así como operadores de truncamiento y proximidad. El objetivo es desarrollar una estrategia de búsqueda que identifique la información más relevante.
It is widely agreed that complex diseases are typically caused by joint effects of multiple genetic variations, rather than a single genetic variation. Multi-SNP interactions, also known as epistatic interactions, have the potential to provide information about causes of complex diseases, and build on GWAS studies that look at associations between single SNPs and phenotypes. However, epistatic analysis methods are both computationally expensive, and have limited accessibility for biologists wanting to analyse GWAS datasets due to being command line based. Here we present APPistatic, a prototype desktop version of a pipeline for epistatic analysis of GWAS datasets. his application combines ease-of-use, via a GUI, with accelerated implementation of BOOST and FaST-LMM epistatic analysis methods.
WiSANCloud: a set of UML-based specifications for the integration of Wireless...Priscill Orue Esquivel
Giving the current trend to combine the advantages of Wireless Sensor and Actor Networks (WSANs) with the Cloud Computing technology, this work proposes a set of specifications, based on the Unified Modeling Language - UML, in order to provide the general framework for the design of the integration of said components. One of the keys of the integration is the architecture of the WSAN, due to its structural relationship with the Cloud in the definition of the combination. Regarding the standard applied in the integration, UML and its subset, Systems Modeling Language - SysML , are proposed by the Object Management Group - OMG to deal with cloud applications; so, this indicates the starting point of the process of the design of specifications for WSAN-Cloud Integration. Based on the current state of UML tools for analysis and design, there are several aspects to take into account in order to define the integration process.
Más contenido relacionado
Similar a Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española
La tabla de símbolos es una estructura de datos que permite al compilador realizar operaciones de inserción, búsqueda y eliminación de información sobre identificadores en el código fuente. Contiene atributos como el nombre, tipo y ámbito de cada identificador. Las operaciones principales son inserción para añadir nuevos identificadores, búsqueda para recuperar información sobre ellos, y set y reset para gestionar el ámbito de los identificadores en bloques anidados.
El documento describe los conceptos fundamentales del análisis léxico, incluyendo su función de dividir la entrada en tokens, la construcción de autómatas de estados finitos para reconocer patrones léxicos, y el uso de diagramas de transición. También cubre brevemente los autómatas finitos no deterministas y sus transiciones vacías.
La programación lógica estudia el uso de la lógica formal para representar conocimiento y resolver problemas de manera automática. Lenguajes como Prolog permiten razonar deductiva e inductivamente mediante reglas y hechos. Otros lenguajes lógicos incluyen ALF, Gödel y Mercury, los cuales combinan programación lógica y funcional. La lógica computacional es fundamental para las ciencias de la computación al nivel de circuitos, programación y análisis de algoritmos.
Este documento presenta información sobre Prolog, un lenguaje de programación lógica basado en la lógica de predicados. Explica que Prolog fue creado en la década de 1970 y se utiliza principalmente para procesamiento de información simbólica y sistemas de inteligencia artificial. Luego resume algunas características clave de Prolog como su énfasis en la especificación declarativa de problemas y su capacidad para resolver consultas de manera procedural. Finalmente, menciona algunas aplicaciones comunes de Prolog como el desarrollo de sist
Marcalyc: Herramienta de Marcación XML JATS REDALYC
Este documento describe Marcalyc, una herramienta de marcación XML JATS. Explica brevemente el estándar JATS, validadores como PubMed Central y JATS4R, y el proceso de marcación, incluyendo la preparación de archivos, marcación de front, back y body, y manejo de tablas, figuras y ecuaciones. También cubre ventajas de la implementación de JATS como preservación digital y recuperación de información.
Este documento describe los operadores booleanos y de búsqueda que ayudan a delimitar búsquedas en motores de búsqueda. Explica que los operadores booleanos principales son AND, OR y NOT, y cómo cada uno afecta los resultados de la búsqueda. También describe operadores de proximidad como NEAR y WITH, y cómo truncar palabras para buscar variaciones lingüísticas. El documento proporciona ejemplos del uso de estos operadores para realizar búsquedas efectivas.
Para mayor comprencion de los conceptos basicos de la compilacion en referencia al analisis sintactico, se responde alguna de las principales preguntas del tema.
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS Infomania pro
El documento describe los conceptos clave del analizador sintáctico. Explica que el analizador sintáctico verifica que la secuencia de tokens proporcionada por el analizador léxico sea válida de acuerdo con la gramática del lenguaje. Construye un árbol sintáctico que representa la estructura de las sentencias del programa. También cubre temas como los tipos de análisis sintáctico, gramáticas de atributos, manejo de errores sintácticos y las funciones principales del analizador
Este documento trata sobre el diseño y uso de corpora en el trabajo con lenguajes de especialidad. Brevemente describe los corpora, incluyendo su definición, tipos, usuarios, diseño y tecnologías. Explica que los corpora son colecciones grandes de textos auténticos seleccionados según criterios específicos para un propósito, y que se utilizan para estudiar la lengua en uso en diversas áreas como la lingüística aplicada.
Este documento describe diferentes tipos de lenguajes de programación, incluyendo lenguajes imperativos, funcionales, lógicos y orientados a objetos. También discute el modelo CASE para el desarrollo de software asistido por computador.
Este documento presenta un módulo sobre autómatas y lenguajes formales. Contiene una introducción que explica la historia y motivación detrás de la teoría de autómatas y lenguajes formales. El módulo está dividido en tres unidades principales que cubren lenguajes regulares, lenguajes independientes del contexto y lenguajes estructurados por frases. Cada unidad contiene varios capítulos y lecciones sobre conceptos relevantes. El objetivo general es reconocer los lenguajes formales y los diferentes modelos de máqu
1) Los algoritmos son conjuntos de instrucciones bien definidas y ordenadas para resolver un problema.
2) Existen algoritmos cualitativos y cuantitativos. Los diagramas de flujo y pseudocódigo se usan para representar algoritmos.
3) Las estructuras de control como la secuencial, selección y repetición permiten controlar el flujo de ejecución de un programa.
XML fue desarrollado para permitir la mezcla de elementos de diferentes lenguajes, la creación de analizadores simples genéricos, y para asegurar que los documentos siempre sigan la sintaxis correcta. XML se basa en SGML pero se enfoca en hacer las cosas más sencillas para los programas que necesitan interpretar documentos. XML también permite la extensión con nuevas etiquetas y mejora la compatibilidad entre aplicaciones.
El documento describe los diferentes tipos de lenguajes de programación, incluyendo lenguajes de máquina, ensambladores, compiladores e intérpretes. También discute conceptos como el álgebra relacional, lenguaje de consulta estructurado (SQL), lenguajes de definición y manipulación de datos.
Este documento describe los lenguajes documentales, incluyendo su definición, tipos, estructuras y principales sistemas de clasificación. Explica que los lenguajes documentales surgen de la necesidad de facilitar la comunicación entre documentos, analistas y usuarios. Se definen como lenguajes convencionales que describen el contenido de los documentos para su almacenamiento y recuperación. Los principales tipos son lenguajes controlados como tesauros y clasificaciones, y lenguajes libres como listas de descriptores. Las estructuras incluyen jerárqu
Este documento presenta la información general sobre un curso de Teoría de la Computación, incluyendo el objetivo general y específicos, las unidades temáticas, la evaluación y la bibliografía. El objetivo general es aprender las bases teóricas para diseñar lenguajes de programación y dominar los conceptos de traducción de lenguajes. Las unidades incluyen introducción a lenguajes formales, lenguajes regulares, libres de contexto, y análisis sintáctico. La evaluación considera laboratorios, exámenes parciales y
Este documento describe una metodología propuesta para el desarrollo de ontologías. Explica que una metodología proporciona un marco de trabajo ordenado para construir una ontología, y que existen varios métodos comunes para diseñar ontologías. Luego, la metodología propuesta se basa en los métodos de Noy & McGuiness y Methontology, e incluye cinco pasos: 1) determinar requisitos, 2) reutilizar ontologías existentes, 3) elaborar un modelo conceptual, 4) implementar el modelo, y 5) evaluar
Este documento describe los diferentes paradigmas de programación, incluyendo la programación imperativa, declarativa, funcional y lógica. La programación imperativa se basa en una secuencia de instrucciones que cambian el estado del programa, mientras que la programación declarativa se enfoca en describir las propiedades de la solución en lugar de cómo lograrla. La programación funcional concibe la computación como la evaluación de funciones matemáticas, y la programación lógica se basa en reglas lógicas para responder preguntas.
Este documento describe las estrategias para realizar búsquedas de información efectivas, incluyendo identificar palabras clave y términos relacionados al tema, traducir términos a otros idiomas, y utilizar lenguaje controlado o descriptores de temas. Explica cómo usar operadores lógicos como AND, OR y NOT para combinar términos, así como operadores de truncamiento y proximidad. El objetivo es desarrollar una estrategia de búsqueda que identifique la información más relevante.
Este documento describe las estrategias para realizar búsquedas de información efectivas, incluyendo identificar palabras clave y términos relacionados al tema, traducir términos a otros idiomas, y utilizar lenguaje controlado o descriptores de temas. Explica cómo usar operadores lógicos como AND, OR y NOT para combinar términos, así como operadores de truncamiento y proximidad. El objetivo es desarrollar una estrategia de búsqueda que identifique la información más relevante.
Similar a Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española (20)
It is widely agreed that complex diseases are typically caused by joint effects of multiple genetic variations, rather than a single genetic variation. Multi-SNP interactions, also known as epistatic interactions, have the potential to provide information about causes of complex diseases, and build on GWAS studies that look at associations between single SNPs and phenotypes. However, epistatic analysis methods are both computationally expensive, and have limited accessibility for biologists wanting to analyse GWAS datasets due to being command line based. Here we present APPistatic, a prototype desktop version of a pipeline for epistatic analysis of GWAS datasets. his application combines ease-of-use, via a GUI, with accelerated implementation of BOOST and FaST-LMM epistatic analysis methods.
WiSANCloud: a set of UML-based specifications for the integration of Wireless...Priscill Orue Esquivel
Giving the current trend to combine the advantages of Wireless Sensor and Actor Networks (WSANs) with the Cloud Computing technology, this work proposes a set of specifications, based on the Unified Modeling Language - UML, in order to provide the general framework for the design of the integration of said components. One of the keys of the integration is the architecture of the WSAN, due to its structural relationship with the Cloud in the definition of the combination. Regarding the standard applied in the integration, UML and its subset, Systems Modeling Language - SysML , are proposed by the Object Management Group - OMG to deal with cloud applications; so, this indicates the starting point of the process of the design of specifications for WSAN-Cloud Integration. Based on the current state of UML tools for analysis and design, there are several aspects to take into account in order to define the integration process.
TEMA: IA conexionista-RNA
Subtema: Prueba y entrenamiento con modelos de
RNA
Contenidos:
1. Repaso: prueba y entrenamiento
2. Métodos fijos
3. Método fijo 1: Red de Hamming
TEMA: IA conexionista-Redes Neuronales Artificiales
Contenidos:
1. Anatomía del sistema nervioso y fisiología de la
neurona
2. Codificación de información en las RNA
Este documento proporciona una guía para el desarrollo de contenidos de cursos impartidos en modalidades mixtas y a distancia. Incluye una plantilla para organizar la información de cada unidad de aprendizaje, con datos generales como objetivos, contenido y distribución horaria, así como una tabla para planificar las actividades, fechas y recursos a utilizar. El propósito es asegurar la coherencia del diseño instruccional y la evaluación de competencias en cada curso.
Este documento analiza la aplicación de redes Hopfield al problema de asignación. Describe el problema de asignación y cómo involucra asignar recursos humanos a proyectos de manera que cada recurso se asigne a un solo proyecto y cada proyecto tenga un solo recurso asignado. Explica cómo funcionan las redes Hopfield y modela matemáticamente el problema de asignación usando estas redes. Sin embargo, encuentra una diferencia en cómo las redes Hopfield y el modelo del problema definen una función de similitud clave, lo que impide resolver el
Análisis estáticos y dinámicos en la aplicación de pruebas de intrusión (Pene...Priscill Orue Esquivel
Este documento describe métodos para construir software fiable, incluyendo pruebas de penetración que identifican vulnerabilidades a través de la simulación de ataques. Explica los análisis estáticos y dinámicos utilizados en las pruebas de intrusión, así como herramientas asociadas a cada fase del proceso. Concluye que las pruebas de penetración ayudan a detectar vulnerabilidades en aplicaciones web y a mejorar la seguridad mediante el seguimiento periódico de vulnerabilidades comunes.
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...Priscill Orue Esquivel
La calidad de un programa a distancia se define por un conjunto de variables que están estrechamente vinculados y cumplen funciones vitales. Entre estas variables, se tiene al equipo docente, al diseño de contenidos y a la evaluación. Para el docente, la Educación a Distancia es un subsistema educativo que implica un “diálogo didáctico mediado”, el cual es una relación pedagógica con los estudiantes, en tiempos y espacios diferentes y para el alumno, una forma flexible para adquirir conocimientos sin la exigencia de su presencia física ni la del profesor en el mismo lugar ....
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...
Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española
1. Aprendizaje Computacional
Priscill Smilce Orue
Escuela Técnica Superior de Ingeniería Informática,
Universidad de Málaga,
Málaga - España
17 de febrero de 2012
Introducción
El Procesamiento del Lenguaje Natural (NLP - Natural Language Pro-
cessing) es un enfoque computacional del análisis textual que está basado en
un conjunto de teorías y tecnologías. La definición presentada por Liddy [7]
establece que el Procesamiento del Lenguaje Natural es un rango de técnicas
computacionales teóricas para el análisis y representación de textos natura-
les en uno o más niveles de análisis lingüísticos, con el propósito de lograr
un procesamiento análogo al ser humano, para un rango de tareas y apli-
caciones. Dentro del campo del PLN, una de las áreas de mayor desarrollo
es el etiquetado gramatical, el cual constituye el tema principal del presente
trabajo.
Este reporte describe aspectos relacionados al etiquetado gramatical, mé-
todos más comunes y su aplicación a la lengua española. Además, partiendo
de los conceptos presentados, se incluye una valoración personal sobre la si-
tuación actual y perspectivas en el futuro cercano del etiquetado de partes
del habla. Para la realización de este trabajo, la composición se llevó a cabo
con el editor L TEXy se consultaron diversas fuentes secundarias, con el fin
A
de ofrecer la información mas actualizada posible.
1. Conceptos de etiquetado gramatical
Los orígenes del Procesamiento del Lenguaje Natural se basan en varias
disciplinas. Liddy[7] afirma que los campos clave que aportaron sus conceptos
para formar dicha área del conocimiento son:
1
2. Lingüística (enfoque en modelos formales y estructurales del lenguaje);
por este motivo, el área de Procesamiento del Lenguaje Natural era
originalmente conocido como Lingüística Computacional.
Ciencias de la computación: dedicado al desarrollo de representaciones
internas de datos y procesamiento eficiente de dichas estructuras
Psicología cognitiva: ve al uso del lenguaje como una ventana a procesos
cognitivos humanos, y tiene el objetivo de modelar el uso del lenguaje
en una forma psicológicamente plausible.
Dentro del Procesamiento del Lenguaje Natural, el etiquetado gramatical
(o partes de la oración) forma parte de un proceso llamado «Extracción de
la Información» (EI). La EI se lleva a cabo con textos escritos y su objetivo
principal es identificar la información útil dentro de un campo de interés defi-
nido. Una vez identificada dicha información, se lo representa en un modelo.
En la Figura 1 se observan las actividades llevadas a cabo para completar
dcho proceso [11].
Figura 1: Proceso de la Extracción de la Informacion
En la Figura 1, el etiquetado gramatical (en inglés Part-of-speech tag-
ging) es una fase en el que el texto es dividido en unidades elementales y
se vinculan a etiquetas que «describen su morfología y/o función gramatical
en el texto»[11]. En otras palabras, el etiquetado gramatical es un proce-
so en donde los tokens son secuencialmente etiquetados con nomenclatura
sintáctica, tales como «verbo» o «gerundio» o «conjunción subordinada».
Un etiquetador puede ser entrenado y compilado para generar modelos, que
luego son evaluados y refinados para uso posterior [2].
2
3. Para comprender el concepto del etiquetado gramatical, se presenta el
siguiente ejemplo [5]. Se tienen dos reglas gramaticales como:
DT SUSTANTIVO (equivalente a determinante mas sustantivo)
ADJ SUSTANTIVO (equivalente a adjetivo mas sustantivo)
Estas dos reglas pueden ser aplicadas para el etiquetado gramatical de se-
cuencias de entrada, omitiendo toda la información lógica y léxica de cada
una de las palabras etiquetadas:
una hermosa montaña
DT ADJ SUSTANTIVO
Cuadro 1: Etiquetado Gramatical
2. Métodos para el etiquetado gramatical
A partir del concepto definido del etiquetado gramatical, esta sección
presenta tres de los métodos empleados para el mismo. En el proceso de
Extracción de la Información, el etiquetado gramatical es un análisis léxi-
co que explota al máximo la información contenida, usando únicamente la
información léxica de la muestra de texto. Para lograr esto se necesita de
un proceso de entrenamiento que se basa en «identificar y anotar todos los
datos deseados de un conjunto de documentos relevantes» [11].
Los primeros etiquetadores consistían en reglas construídas a mano para
asignar las etiquetas basándose en los patrones de las palabras y las eti-
quetas asignadas a palabras que los precedían, pero su contenido léxico era
restringido, primariamente para excepciones a las reglas. Más adelante, las
Cadenas Ocultas de Markov (HMM - del inglés Hidden Markov Model ) fue-
ron importadas de los estudios de reconocimiento de la voz y aplicados al
etiquetado gramatical; tales cadenas fueron desarrolladas hasta convertirse
en el estándar de la materia [1].
2.1. Etiquetadores basados en reglas
En los etiquetadores basados en reglas, un conjunto de etiquetas son
asignados a palabras sobre la base de análisis léxicos y morfológicos, y luego
dichas tiquetas son eliminadas de acuerdo a reglas contextuales (patrón-
acción); por ejemplo: «la palabra actual no es un verbo si la palabra pre-
cedente es un determinante»[1]. Es el enfoque más antiguo que utiliza re-
3
4. glas escritas a mano para el etiquetado. Los etiquetadores basados en reglas
dependen de los diccionarios para obtener las etiquetas para cada palabra
candidata al etiquetado. Las reglas escritas a mano son usadas para iden-
tificar la cetiqeuta correcta cuando una palabra tiene más de una etiqueta
posible. La disambiguación es hecha mediante el análisis de características
lingüísticas de cada palabra, su palabra predecesora y otros aspectos [8].
Una crítica a este tipo de etiquetadores es la cantidad de esfuerzo nece-
sario para escribir reglas de desambiguación, pero su rendimiento es mejor
que el etiquetador HMM, según estudios informales [1]. Las reglas pueden
ser reglas de patrones contextuales compiladas en un autómata de estados
finitos que están intersectados con representaciones de oraciones lexicamente
ambiguas. TAGGIT es el primer etiquetador basado en reglas que emplea un
conjunto de 71 eitquetas y 3300 de reglas de desambiguación. Estas reglas
desambiguaron el 77 % de un millón de palabras contenidas en el corpus de
la Universidad de Brown [8].
2.2. Etiquetadores de aprendizaje basados en transforma-
ción
El etiquetador de aprendizaje basado en transformación (TBL - del inglés
Transformation-Based Learning) arranca con un estado inicial, y requiere un
corpus de entrenamiento correctamente anotado, para el proceso de apren-
dizaje. El proceso iterativo de aprendizaje adquiere una lista ordenada de
reglas o transformaciones que corrige los errores del estado inicial. En cada
iteración, la transformación que logró el mayor beneficio es seleccionado. Du-
rante el proceso de aprendizaje, las plantillas de transformaciones permitidas
limitan el espacio de búsqueda para posibles reglas de transformación. Las
transformaciones propuestas son formadas por la instanciación de las planti-
llas de transformación en el contexto de etiquetas erróneas. El algoritmo de
aprendizaje se detiene cuando no se puede mejorar el estado actual de los
datos de entrenamiento o cuando un umbral prescrito es alcanzado [6].
La salida de un TBL es una secuencia ordenada de transformaciones
como: Tagi ->Tagj in context C.
Un aprendiente típico basado en transformaciones tiene un anotador de
estado inicial, un conjunto de transformaciones y una función objetivo. El
anotador es un programa que asigna etiquetas a cada palabra de un texto.
Puede ser uno que asigna etiquetas en forma aleatoria o siguiendo un modelo
de Markov. Usualmente asigna cada palabra con su etiqueta más probable,
tal como está indicado en el corpus. Por ejemplo, «walk» sería inicialmente
etiquetado como un verbo. Considere la siguiente oración: «The rabbit runs»
4
5. Un etiquetador TBL puede identificar facilmente que «rabbit» es un sustan-
tivo si se cumple la regla: si la etiqueta previa es un artículo, la siguiente
etiqueta es un verbo [8].
Las ventajas de este tipo de etiquetado son que se necesitan a priori de
un pequeño número de reglas simples para iniciar el proceso. Cuando dichas
reglas son aprendidas los procesos de desarrollo y depurado son más simples.
Además la lista de transformación puede ser compilada en una máquina de
estados finitos, resultando en un etiquetador más rápido. Las desventajas
son que este método no ofrece probabilidades de etiquetado y que el tiempo
de entrenamiento es largo, particularmente en cuerpos extensos, que son
comunes en el Procesamiento del Lenguaje Natural [8].
2.3. Cadenas ocultas de Markov - HMM
En las cadenas ocultas de Markov, HMM, se suponen que dos secuencias
de símbolos, una visible y otra oculta, existen. Los símbolos visibles repre-
sentan los símbolos observados en la muestra y su dependencia se basa en
los últimos símbolos de la secuencia oculta. La secuencia oculta no es obser-
vable en forma directa, define el estado actual del modelo y «la transición al
siguiente estado sólo depende del estado anterior» [10].
Al aplicar las HMM en el contexto del etiquetado gramatical, Abney [1]
menciona las probabilidades de transición y de emisión. Las probabilidades
de transición son las probabilidades de una etiqueta a partir de una etiqueta
previa. Las probabilidades de emisión son las probabilidades de una palabra
a partir de una etiqueta. La probabilidad de una secuencia gramatical par-
ticular mas una oración es el producto de las probabilidades de transición y
emisión. Consideremos el ejemplo 2 en inglés:
Figura 2: Ejemplo aplicando HMM
Dos ventajas de los etiquetadores basados en modelos HMM son su exac-
titud y el hecho que pueden ser entrenados con texto no registrado. Sin
embargo, es importante considerar que si se entrena un etiquetador HMM
5
6. sin código hecho a mano, tendrá éxito en encontrar un modelo cuya apro-
ximación (cross-entropy) será baja. Entonces, la salida tendrá poca relación
con las asignaciones de etiqueta que se desean obtener como salida. Para
obtener un buen rendimiento, se requiere una buena cantidad de material
preparado manualmente [1].
3. Métodos para el etiquetado gramatical de mues-
tras en Español
Varios son los estudios de etiquetado gramatical aplicados a la lengua Es-
pañola. En esta sección se presentan tres métodos con diferentes aplicaciones
a la misma lengua. Las mismas son: la Gramática de dependencias basada
en patrones de etiquetas, aplicado a la generación de formalisimos grama-
ticales; Grafos de Sufijos de Predicción Multiatributos (MPSG - del ingés
Multiattribute Prediction Suffix Graphs), aplicado al etiquetado de palabras
con diferentes funciones; y el Etiquetador de Español Simple, que sirve para
la detección y corrección de errores de acentuación.
3.1. Gramática de dependencias basada en patrones de eti-
quetas
Más que una herramienta de etiquetado gramatical de la lengua española,
la Gramática de dependencias basada en patrones de etiquetas consiste en un
formalismo gramatical. Su objetivo es escribir gramaticas de dependencias a
partir de los patrones PoS (del inglés Part-of-Speech) que contienen informa-
ción léxica y morfológica. Partiendo de las gramáticas escritas aplicando este
formalismo, «un compilador genera analizadores sintácticos robustos basa-
dos en expresiones regulares» para el español. De esta forma, los analizadores
creados identifican dependencias que pueden servir para mejorar las aplica-
ciones de Procesamiento del Lenguaje Natural [5]. Una gramática escrita con
este método tiene un conjunto de reglas dependientes del contexto. El objeti-
vo de cada regla es identificar una relación nucleo-dependiente «por medio de
patrones de etiquetas morfosintácticas asociadas a información morfológica
y léxica». Las reglas tienen dos partes: el patrón de etiquetas y el nombre
de la relación nucleodependiente. Por ejemplo:
DobjR: VERB [DT]? [ADJ]* NOUN
Los dos puntos sirven para separar el patrón de etiquetas, que está a la
derecha, del nombre de la dependencia, DobjR. Ambos, el nombre de las
6
7. dependencias con el de las etiquetas morfosintácticas se declaran en ficheros
aparte. Estos son los elementos esenciales de una regla. Por otra parte, se pue-
den especificar dichas reglas mediante el uso de estructuras tipo «atributo-
valor, provistas de información morfológica y léxica, asi como operaciones
tales como concordancia, recursividad, herencia», etc; todas especificadas en
ficheros externos y vinculados a los ficheros de la reglas [5].
3.2. Grafo de sufijos de predicción multiatributos
La lengua española tiene palabras que cumplen con más de una fun-
ción dentro del esquema gramatical. Por este motivo, es importante diseñar
etiquetadores que además de identificar los categorías gramaticales de una
palabra, también sean capaces de distinguir que categoría gramatical corres-
ponde a una palabra, dado su entorno de ocurrencia. El Grafo de sufijos de
predicción multiatributos (MPSG - del inglés Multiattribute Prediction Suffix
Graphs) combina tres enfoques para lograr el cometido de la distinción de
categorías gramaticales de palabras con más de una función [9]:
Un etiquetador de palabras simple basado en árboles de decisión
Un etiquetador grmaatical basado en el modelo de aprendizaje MPSG
Una estructura de etiquetas
La base de esta herramienta es la conjunción de los tres elementos para mejo-
rar el rendimiento del etiquetador gramatical, que permiten etiquetar corpus
limitados, pero con gran cantidad de funciones, como ocurre con el español.
La ventaja de trabajar con etiquetadores de palabras basados en árboles de
decision es que no se necesita elaborar lexicones que solamente enumeran
posibles etiquetas. Además, el MPSG toma sus características de las cade-
nas de Markov multiatributo, en donde un estado MPSG es equivalente a un
estado Markov, lo cual consiste en una expansión de los trabajos originales
con cadenas de Markov [9].
3.3. Etiquetador de español simple
Las herramientas anteriores consideraban la separación morfo-sintáctica
de las unidades de la lengua española. Este etiquetador detecta y corrige
errores de acentuación de la lengua española. La omisión del acento gráfico
es uno de los errores más comunes de la redacción escrita en español. El
problema consiste en que si dicha omisión cambia la categoría gramatical de
7
8. una palabra, entonces habrá un error en el etiquetado y su posterior procesa-
miento. La herramienta propuesta se basa en heurísticas que determinan un
contexto lineal y un pequeño conjunto de palabras que difieren solamente de
la marca del acento. La idea es aplicar a numerosos sustantivos o adjetivos
como la palabra número que se convierte en un verbo personal cuando carece
del acento gráfico [4].
El algoritmo, dado un sustantivo o un adjetivo, puede determinar si las
cuatro palabras contextuales a su alrededor son apropiadas para el mismo.
Luego se aplican los conceptos de verificadores de estilo que en lugar de
verificar la situación actual en el texto, se forma una hipótesis acerca de un
posible error en el texto, y a continuación se comprueba esta hipótesis. Si
la hipótesis es razonable, se reporta un error. El algoritmo analiza el texto.
Cada palabra se busca en dos listas: una lista de palabras acentuadas y la
lista automáticamente compilada de sus contrapartes no acentuadas. Las
características de la palabra encontrada, género y número, son tomadas de
la lista. Suponga que la palabra analizada es ω0, las palabras inmediatas en
el contexto linear serán, ω − 1, ω1, ω2, de manera que el orden será: ω − 1,
ω0, ω1, ω2 [4].
A partir de los datos obtenidos, el trabajo del algoritmo depende en que
lista fue encontrada la palabra. Si fue encontrada en la lista de acentuadas,
se considera un sustantivo o adjetivo y se verifica la propiedad en el contex-
to inmediato. Si la palabra fue encontrada en la lista de no-acentuados, se
lo considera un verbo. Como el algoritmo tiene limitaciones en el contexto
verbal, haciendo las correspondientes pruebas de hipótesis[4].
4. Valoraciones personales
Partiendo de los conceptos presentados en este trabajo, se detallan las
valoraciones personales con respecto al tema tratado. En primer lugar, es
importante destacar que el concepto principal de este estudio ha sido el
etiquetado gramatical de unidades morfo sintácticas en textos escritos. Cada
uno de los métodos presentados presenta sus ventajas y desventajas a la hora
de asignar una etiqueta con funciones gramaticales a una palabra de entrada.
Para entender mejor la posición actual del Procesamiento del Lenguaje
Natural y su perspectiva futura, es importante recordar las características
del lenguaje humano. La distinción del lenguaje humano de otros sistemas
de comunicación se inician en los procesos de producción y percepción, así
como de otros aspectos más abstractos como las conexiones arbitrarias entre
sonido y significado o la abilidad de crear nuevos mensajes. Particularmente,
8
9. la creatividad es un aspecto que influye directamente en la calidad de los
etiquetadores gramaticales.
El lenguaje humano crea o presta nuevas palabras cuando la ocasión lo
requiera. Es inherentemente flexible y se adapta a nuevas circunstancias y
nuevas cosas para expresar. Chomsky, en la década de 1950, mencionó que
los lenguajes son modificados para suplir una forma gramatical y su voca-
bulario. La noción de creatividad fue usada para vincular teorías asociativas
al argumentar que en principio, conexiones de estímulo-respuesta no pueden
explicar totalmente las nuevas oraciones. El secreto de la creatividad es el
sistema gramatical a través de las cuales nuevas aseveraciones pueden ser
producidas y comprendidas [3]. Además, la constante evolución tecnológica
hace que nuevas palabras ingresen al vocabulario de un idioma.
Considerando la capacidad creativa del lenguaje humano, la creación y
uso de nuevas palabras en teoría no afectaría al rendimiento de los etique-
tadores. Cada vez que se introduce un nuevo vocabulario, directamente se
entrena al etiquetador. Sin embargo, el problema principal radicaría en el
préstamo de palabras de un idioma a otro. Los extranjerismos deben ser
tratados teniendo en cuenta alguna clasificación en etiquetadores de más de
un idioma. Por ejemplo, la palabra software está en inglés, pero también se
lo usa en su forma original en el español. Entonces, ¿cómo un etiquetador
distinguiría a que idioma pertenece una palabra?, ¿puede un etiquetador
contener, además de información morfo-sintáctica, datos sobre el origen de
la palabra?
Con respecto al etiquetado gramatical en general, se recurren a árboles,
estructuras y modelos matemáticos para hacer el tratamiento de palabras. Al
comparar su rendimiento, se han obtenido valores altos y competitivos entre
sí. Sin embargo, un tema en común en los reportes de los métodos consultados
es el tratamiento del ruido. El ruido, concepto mencionado por Triviño [9]
en el modelo MPSG y afecta a otros métodos que requieran entrenamiento,
consiste en emplear etiquetas con errores durante en proceso de aprendizaje
del modelo. En los métodos estudiados no se presenta un mecanismo de
tratamiento de errores, porque se considera a priori que las etiquetas son
correctas, por lo que todo el proceso sigue su curso normal hasta hallar los
resultados no esperados.
Resumiendo, los extranjerismos y el ruido son aspectos que necesitan
mayor investigación en el área de etiquetado de palabras. Con lograr un
avance con estos puntos, se lograrán etiquetadores gramaticales más exactos.
Además, una vez lograda la exactitud, se pueden trabajar con otros métodos
que incorporen mayor eficacia y eficiencia, en términos de tiempo y calidad
de aprendizaje del corpus de entrenamiento.
9
10. Conclusión
Este trabajo ha presentado un estudio sobre los etiquetadores gramatica-
les. Primeramente se definió el concepto de etiquetadores gramaticales dentro
del contexto de la Extracción de la Información. A continuación se presen-
taron tres métodos de etiquetado gramatical. Debido a las características
propias del español, se detallaron tres herramientas aplicadas en el etiqueta-
do gramatical. Finalmente, considerando toda la base teórica explicada, se
incluyó una valoración personal sobre el tema.
El etiquetado gramatical (en inglés Part-of-speech tagging) es una fase en
el que la entrada es dividida en partes bàsicas y se vinculan a etiquetas que
describen su morfología y/o función gramatical en el texto. Existen varios
modelos matemático-lingüísticos que llevan a cabo esta tarea. Cada una de
ellas tiene sus ventajas y desventajas. Sin embargo, como se describió en la
valoración personal, dos puntos deben ser considerados en el momento de
diseñar futuros etiquetadores gramaticales: la existencia de extranjerismos
en etiquetadores multilingües y el tratamiento del ruido (entrenamiento con
etiquetas erróneas).
Referencias
[1] Steven Abney. Part-of-speech tagging and partial parsing. Corpus-Based
Methods in Language and Speech., 1996.
[2] Alias-i. Lingpipe 4.1.0. Sitio Web; accedido 15-Feb-2012.
[3] Vivian Cook. Senses of language, 1997. Sitio Web; accedido 16-Feb-
2012.
[4] S. N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. A simple spa-
nish part of speech tagger for detection and correction of accentuation
error. pages 219–222, 1999. Online; accedido 15-Feb-2012.
[5] Pablo Gamallo Otero and Gonzalo Gonzalez Sanchez. Una gramatica
de dependencias basada en patrones de etiquetas. Procesamiento del
Lenguaje Natural,, 34(43):315–323, 2009.
[6] Burcu Karagol-Ayan, David Doermann, , and Amy Weinberg. Adaptive
transformation-based learning for improving dictionary tagging. ACL
Anthology: A Digital Archive of Research Papers in Computational Lin-
guistics, 2012. Documento Web; accedido 16-feb-2012.
10
11. [7] Elizabeth D. Liddy. Natural Language Processing. Encyclopedia of
Library and Information Science, 2da edition, 2001.
[8] Natural Language Processing. Rule-based parts-of-speech tagging, De-
cember 2009. Sitio Web; accedido 16-Feb-2012.
[9] José L. Triviño and Rafael Morales-Bueno. Using multiattribute predic-
tion suffix-graphs for spanish part-of-speech tagging. Articulo Campus
Virtual.
[10] Jose Luis Triviño. Modelos de aprendizaje para el estudio de sequencias
de simbolos. PhD thesis, University of Málaga, Mayo 2003. Material
Campus Virtual.
[11] Luis Villaseñor, Aurelio Lopez, Manuel Montes, and Claudia Vazquez.
Tratamiento automático de textos en español. Red de Revistas Científi-
cas de América Latina y el Caribe, España y Portugal, 22(038):145–166,
Diciembre 2003.
11