República Bolivariana de VenezuelaMinisterio del Poder Popular para la Educación Superior  Instituto Universitario Politéc...
Contenido1 Introducción2 Historia3 Dificultades en el procesamiento de lenguajes naturales        2.1 Ambigüedad        2....
Procesamiento de lenguajes naturalesEl Procesamiento de Lenguajes Naturales —abreviado PLN, o NLP del idioma inglés Natura...
Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es latraducción de entradas en lenguaje n...
lugar de producir voz a partir de texto lo hacen a partir de representación lingüísticasimbólica en habla.La calidad de un...
La búsqueda de respuestas, llamado en inglés Question Answering (QA) es un tipo derecuperación de la información. Dada una...
Próxima SlideShare
Cargando en…5
×

Exposicion

295 visualizaciones

Publicado el

Publicado en: Educación
0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
295
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
3
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Exposicion

  1. 1. República Bolivariana de VenezuelaMinisterio del Poder Popular para la Educación Superior Instituto Universitario Politécnico Santiago Mariño Carrera 47 Nocturno Materia: Electiva IV PLN Alumnos: Luis Lamon Jesus Castillo Bárbara Rodríguez Moisés Castellanos Roberto García La Urbina, Junio 2011
  2. 2. Contenido1 Introducción2 Historia3 Dificultades en el procesamiento de lenguajes naturales 2.1 Ambigüedad 2.2 Detección de separación entre las palabras 2.3 Recepción imperfecta de datos4 Componentes5 Aplicaciones Síntesis del discurso Comprensión del lenguaje Generación de lenguajes naturales Traducción automática Respuesta a preguntas Recuperación de la información Extracción de la información
  3. 3. Procesamiento de lenguajes naturalesEl Procesamiento de Lenguajes Naturales —abreviado PLN, o NLP del idioma inglés NaturalLanguage Processing— es una subdisciplina de la Inteligencia Artificial y la rama ingenieril dela lingüística computacional. El PLN se ocupa de la formulación e investigación demecanismos eficaces computacionalmente para la comunicación entre personas o entrepersonas y máquinas por medio de lenguajes naturales. El PLN no trata de la comunicaciónpor medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos paracomunicarse que sean eficaces computacionalmente —que se puedan realizar por medio deprogramas que ejecuten o simulen la comunicación—. Los modelos aplicados se enfocan nosólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos ya la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estosfenómenos.HistoriaEl Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de lainteligencia artificial (IA). La Traducción automática, por ejemplo, nació a finales de ladécada de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial».No obstante, el PLN ha desempeñado múltiples papeles en el contexto de la IA, y suimportancia dentro de este campo ha crecido y decrecido a consecuencia de cambiostecnológicos y científicos. Los primeros intentos de traducir textos por ordenador a finalesde los cuarenta y durante los cincuenta fracasaron debido a la escasa potencia de losordenadores y a la escasa sofistificación lingüística. Sin embargo, los esfuerzos realizados enlas décadas de los sesenta y los setenta para producir interfaces en lenguaje natural parabases de datos y otras aplicaciones informáticas obtuvieron un cierto grado significativo deéxito. La década de los ochenta y el principio de la de los noventa han visto resurgir lainvestigación en el terreno de la Traducción Automática.Dificultades en el procesamiento de lenguajes naturalesAmbigüedad El lenguaje natural es inherentemente ambiguo a diferentes niveles:A nivel léxico, una misma palabra puede tener varios significados, y la selección delapropiado se debe deducir a partir del contexto oracional o conocimiento básico. Muchasinvestigaciones en el campo del procesamiento de lenguajes naturales han estudiadométodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases deconocimiento y correlaciones estadísticas.A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidadlingüística previa o posterior a que hacen referencia.A nivel estructural, se requiere de la semántica para desambiguar la dependencia de lossintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos.Por ejemplo, en la frase Rompió el dibujo de un ataque de nervios.A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo.Elementos tales como la ironía tienen un papel importante en la interpretación del mensaje.
  4. 4. Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es latraducción de entradas en lenguaje natural a una representación interna sin ambigüedad,como árboles de análisis.Detección de separación entre las palabrasEn la lengua hablada no se suelen hacer pausas entre palabra y palabra. El lugar en el que sedebe separar las palabras a menudo depende de cuál es la posibilidad que mantenga unsentido lógico tanto gramatical como contextual. En la lengua escrita, idiomas como el chinomandarín tampoco tienen separaciones entre las palabras.Recepción imperfecta de datosAcentos extranjeros, regionalismos o dificultades en la producción del habla, errores demecanografiado o expresiones no gramaticales, errores en la lectura de textos medianteOCRComponentesAnálisis morfológico. El análisis de las palabras para extraer raíces, rasgos flexivos, unidadesléxicas compuestas y otros fenómenos.Análisis sintáctico. El análisis de la estructura sintáctica de la frase mediante una gramáticade la lengua en cuestión.Análisis semántico. La extracción del significado de la frase, y la resolución de ambigüedadesléxicas y estructurales.Análisis pragmático. El análisis del texto más allá de los límites de la frase, por ejemplo, paradeterminar los antecedentes referenciales de los pronombres.Planificación de la frase. Estructurar cada frase del texto con el fin de expresar el significadoadecuado.Generación de la frase. La generación de la cadena lineal de palabras a partir de la estructurageneral de la frase, con sus correspondientes flexiones, concordancias y restantesfenómenos sintácticos y morfológicos.AplicacionesLas principales tareas de trabajo en el PLN son:Síntesis del discursoLa voz sintética es una voz artificial (no pregrabada), generada mediante un proceso desintetización del habla.La síntesis de habla es la producción artificial de habla humana. Un sistema usado con estepropósito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software oen hardware. La síntesis de voz se llama a menudo en inglés text-to-speech (TTS), enreferencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en
  5. 5. lugar de producir voz a partir de texto lo hacen a partir de representación lingüísticasimbólica en habla.La calidad de una voz sintética vendrá dada por:Su inteligibilidad: ¿con qué facilidad/dificultad es entendida?.Su naturalidad: ¿en qué medida se asemeja a la voz real de un humano?Comprensión del lenguajeEl Reconocimiento Automático del Habla (RAH) o Reconocimiento Automático de Voz es unaparte de la Inteligencia Artificial que tiene como objetivo permitir la comunicación habladaentre seres humanos y computadoras electrónicas. El problema que se plantea en unsistema de RAH es el de hacer cooperar un conjunto de informaciones que provienen dediversas fuentes de conocimiento (acústica, fonética, fonológica, léxica, sintáctica, semánticay pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables parallegar a obtener una interpretación aceptable del mensaje acústico recibido.Un sistema de reconocimiento de voz es una herramienta computacional capaz de procesarla señal de voz emitida por el ser humano y reconocer la información contenida en ésta,convirtiéndola en texto o emitiendo órdenes que actúan sobre un proceso. En su desarrollointervienen diversas disciplinas, tales como: la fisiología, la acústica, el procesamiento deseñales, la inteligencia artificial y la ciencia de la computación.Generación de lenguajes naturalesLa generación de lenguajes naturales (GLN) es el proceso de la construcción de un texto enlenguaje natural para la comunicación con fines específicos. Texto se refiere aquí a untérmino general y repetitivo aplicable a expresiones, o partes de ellas, de cualquier tamaño,tanto habladas como escritas. En el ser humano, el que sea hablado o escrito tieneconsecuencias en el nivel deliberativo y de edición que ha tenido lugar; si el lenguaje eshablado puede faltar revisión ya que la mayoría de los programas actuales pueden hablar, sibien casi todos sólo presentan palabras en una pantalla. La decisión de revisar o usar lapalabra escrita o hablada no es una opción para la generación del programa en la actualidad;pero se debe abordar el tema en el diseño de un programa en particular.Traducción automáticaLa traducción automática (TA), también llamada MT (del inglés Machine Translation), es unárea de la lingüística computacional que investiga el uso de software para traducir texto ohabla de un lenguaje natural a otro. En un nivel básico, la traducción por computadorarealiza una sustitución simple de las palabras atómicas de un lenguaje natural por las deotro. Por medio del uso de corpora lingüísticos se pueden intentar traducciones máscomplejas, lo que permite un manejo más apropiado de las diferencias en la Tipologíalingüística, el reconocimiento de frases, la traducción de expresiones idiomáticas y elaislamiento de anomalías.Respuesta a preguntas
  6. 6. La búsqueda de respuestas, llamado en inglés Question Answering (QA) es un tipo derecuperación de la información. Dada una cierta cantidad de documentos (tales como WorldWide Web), el sistema debería ser capaz de recuperar respuestas a preguntas planteadas enlengua natural. QA es observado como un método que requiere una tecnología deProcesamiento de lenguaje natural más compleja que otros tipos de sistemas para laRecuperación de documentos, y, en algunos casos, se le observa como un paso por delantede la tecnología del buscador.Recuperación de la informaciónLa Búsqueda y Recuperación de Información, llamada en inglés Information Search andRetrieval (ISR), es la ciencia de la búsqueda de información en documentos electrónicos ycualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstosmismos, búsqueda de metadatos que describan documentos, o también la búsqueda enbases de datos relacionales, ya sea a través de internet, intranet, y como objetivo realiza larecuperación en textos, imágenes, sonido o datos de otras características, de manerapertinente y relevante.La recuperación de información es un estudio interdisciplinario. Cubre tantas disciplinas queeso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva.Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, laarquitectura de la información, diseño de la información, inteligencia artificial, lingüística,semiótica, informática, biblioteconomía, archivística y documentación.Extracción de la informaciónLa Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipode recuperación de la información cuyo objetivo es extraer automáticamente informaciónestructurada o semiestructurada desde documentos legibles por una computadora.Una aplicación típica de IE es el escaneado de una serie de documentos escritos en unalengua natural y rellenar una base de datos con la información extraída. Las tendenciasactuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que secentran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference(MUC), o Conferencia para la Comprensión de Mensajes es una competición que se hacentrado en los siguientes aspectos durante los últimos años:

×