Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Gresladix, Expert System

109 visualizaciones

Publicado el

Proposta Iniciativa TIC 2019

Publicado en: Tecnología
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Gresladix, Expert System

  1. 1. 1 Festibity 2019 Proyecto: Gresladix Candidatura: Expert System Mayo 2019
  2. 2. 2 1. INTRODUCCIÓN Gresladix es un proyecto financiado por el CDTI que tiene como objetivo identificar acciones ilegales, delictivas o relacionadas con el terrorismo, mediante técnicas de análisis de lenguaje y sistemas de Inteligencia Artificial (IA) El proyecto ofrece a distintos organismos gubernamentales e instituciones ligadas al área de Defensa e Inteligencia la capacidad de analizar en tiempo real, en escenarios de múltiples idiomas (crosslingües) y múltiples fuentes/formatios (crossmodales), información procedente de fuentes abiertas (OSINT), incluyendo deep web, así como el resultado de investigaciones e informes de inteligencia, incluyendo la dark web. Gresladix ofrece una plataforma que incluye técnicas de procesamiento basadas en razonamiento cognitivo para identificar acciones y grupos delictivos, así como ideologías radicales que atenten contra la vida y la paz en la sociedad. En definitiva, gracias a la ejecución del presente proyecto se pueden identificar, extraer y agregar posts en Twitter o Facebook en diversos idiomas vinculados a colectivos radicalizados y enlazar esa información con noticias internacionales relacionadas con la amenaza detectada, así como con vídeos en YouTube en los que se exhiban logos o símbolos utilizados por las organizaciones identificadas. La información extraída es estructurada, agregada e integrada para cada caso en un único objeto de información mediante el uso de modelos y vocabularios semánticos, permitiendo su difusión entre distintos analistas y agencias de seguridad en diversos idiomas, y permitiendo habilitar mecanismos mucho más eficientes de búsqueda y distribución de la información.
  3. 3. 3 2. RESUMEN TÉCNICO Gresladix tiene como objetivo general, desarrollar una solución tecnológica y conceptualmente innovadora denominada “SISTEMA DE GENERACIÓN DE RECURSOS SEMÁNTICOS Y LINGÜÍSTICOS PARA EL ANÁLISIS DE INFORMACIÓN EN TIEMPO REAL EN ESCENARIOS CROSSLINGÜES Y CROSSMODALES PARA AGENCIAS DE SEGURIDAD E INTELIGENCIA”. Desde el punto de vista técnico, el proyecto abarca dos grandes áreas de desarrollo en el ámbito de los recursos semánticos y lingüísticos. Por una parte, se encuentran los escenarios crosslingües y por otra parte los crossmodales, en definitiva diversos idiomas, canales y modalidades. El proyecto dota de una extensión de la arquitectura propia de Expert System, la Cogito Intelligence Platform (CIP), y utiliza la base de conocimiento de Expert System (el Sensigrafo® Knowledge Graph que incluye los anotadores de texto y los anotadores de audio y vídeo de nivel comercial) permitiendo la consecución de una plataforma más cercana a las demandas del mercado de inteligencia y seguridad. A nivel estratégico, Expert System pretende afianzarse con este proyecto como líder en soluciones de sistemas con tecnología semántica y ser el propietario de la plataforma más avanzada tecnológicamente y eficiente del mercado en la identificación de grupos terroristas y organizaciones ilegales que atenten contra la seguridad y la vida de las personas. Este objetivo estratégico es avalado por la exitosa trayectoria de la compañía en sus más de 20 años de experiencia en la tecnología semántica, aportando las soluciones tecnológicas más innovadoras. Los principales desarrollos realizados se fundamentan en las siguientes actividades: Enlazado de datos, análisis e integración semántica para seguridad. En esta actividad se han llevado a cabo los desarrollos de los servicios que permiten crear los enlaces entre documentos de diferentes idiomas y modalidades para originar contenidos interrelacionados de información auto-contenida. Por otro lado, también se ha llevado a cabo el desarrollo de los algoritmos de IA Cognitivo para analizar y sintetizar los datos encontrados útiles para seguridad e inteligencia.
  4. 4. 4 3. OBJETIVOS DEL PROYECTO La plataforma desarrollada en este proyecto destaca como nivel de producto en la comunidad semántica y supone un importante hito tecnológico, pues hasta la fecha no existe ninguna solución en el mercado que integre todas las características técnicas y funcionales que se plantean en el presente proyecto como son el procesamiento del lenguaje natural, la desambiguación basada en Grafos de Conocimiento, el aprendizaje automático basado en Inteligencia Artificial, y las tecnologías del lenguaje aplicadas al análisis de audio y video. Los principales objetivos técnicos que se han alcanzado durante el desarrollo del proyecto se resumen a continuación: • Procesamiento de datos no estructurados independientemente del idioma y la modalidad, por ejemplo, texto, vídeo o audio. Este objetivo incluye el desarrollo de servicios de anotación y enlazado crosslinguales y crossmodales. • Basado en las capacidades mencionadas en el punto anterior, análisis de IA cognitiva de datos crosslinguales y crossmodales con aplicación en el ámbito de la seguridad e inteligencia. • Validación de la plataforma final desarrollada en el marco de casos de uso para inteligencia y seguridad
  5. 5. 5 4. DESCRIPCION DE ACTIVIDADES REALIZADAS El presente proyecto se plantea como una solución crosslingüe de gestión transversal de información en distintos idiomas y crossmodal referida a las distintas modalidades en las que se puede presentar la información, ya sea texto, imágenes, vídeo o audio. Gracias a este sistema, el usuario final tiene la capacidad de indicar un número de fuentes, las cuales podrán tener contenido textual, de imágenes, vídeos y sonidos, que el sistema será capaz de procesar mediante unas funcionalidades básicas de extracción y correlación. El usuario podrá obtener extracciones y categorizaciones que son relevantes para sus necesidades y que podrán resultar en desarrollos personalizados e integraciones de más procesos (anotadores). La recopilación de contenidos se podrá llevar a cabo en un tiempo cercano al tiempo real. Una vez los contenidos de las fuentes son ingeridos por el sistema, el usuario puede realizar diferentes funciones: • Buscar contenido mediante consultas en formato estructurado y en lenguaje natural. • Navegar a contenidos relacionados con un contexto de búsqueda, por ejemplo, contenidos similares o un conjunto específico de términos y conceptos. • Búsqueda exploratoria social y mediante ejemplos de contenidos (“algo como esto”). • Efectuar operaciones de monitorización (alertas) tomando en cuenta los contenidos ingeridos. • Monitorizar la procedencia, calidad, confiabilidad, consumos y nivel de difusión del conocimiento extraído. • Analizar perfiles de comportamiento a través de la interacción de las personas mediante redes sociales y sistemas de mensajería instantánea y su relación con este conocimiento.
  6. 6. 6 5. CONCLUSIONES Durante los dos años del proyecto Gresladix se ha diseñado e implementado una arquitectura que proporciona soporte al análisis crosslingual y crossmodal de contenido. El primer año del proyecto se centró en el diseño de la arquitectura y la implementación del core, así como en el análisis prospectivo de productos y servicios multimedia ya existentes que pudieran integrarse en el marco del proyecto. El segundo año se ha centrado en continuar la implementación de la arquitectura, validando y extendiendo el número de anotadores, externos y propios, que pueden ser alojados en la arquitectura, particularmente en el campo de Seguridad e Inteligencia. En este año también se ha puesto énfasis en la investigación y desarrollo de servicios que soporten el enlazado semiautomático de los distintos idiomas y modalidades. El propósito de este trabajo ha sido el de conseguir una infraestructura técnica que pueda ser explotada para facilitar las tareas propias de los analistas de las agencias y cuerpos de seguridad. Si bien Expert System es una empresa consolidada en el sector del procesamiento de lenguaje natural y la Inteligencia Artificial, Gresladix ha otorgado a la compañía capacidades que van más allá del análisis automatizado de texto. Gracias al proyecto, Expert System tiene la capacidad de cubrir el procesamiento de otras modalidades de datos, como imágenes, figuras, vídeo y audio, y además hacerlo de forma unificada, enlazando las anotaciones efectuadas de manera individual por cada modalidad o lenguaje. Esta capacidad en concreto es algo que hasta el momento no ofrece ningún competidor en el mercado. Por otro lado, Gresladix también ha brindado a Expert System la oportunidad de adoptar nuevas tecnologías que complementan su core tecnológico. En este sentido, el proyecto nos ha permitido incorporar enfoques de IA neuronal para el procesamiento de texto y de otras modalidades de datos, trabajando de manera conjunta con la tecnología ya existente y disponible en el mercado de Expert System. A continuación, se resumen las principales conclusiones que el trabajo desarrollado • En primer lugar, se ha desarrollado de manera fundamental la arquitectura, interfaces e infraestructura, así como los anotadores crosslinguales y crossmodales. A esto hay que añadir el índice neuronal, los plugíns implementados para integrar Lucene y Solr con la tecnología COGITO® de Expert System y el trabajo previo desarrollado sobre representaciones vectoriales basadas en embeddings.
  7. 7. 7 • Se han generado nuevos activos tecnológicos para el mapeado de distintos espacios vectoriales correspondientes a distintas modalidades e idiomas, que nos permiten enlazar las distintas formas en que se puede representar una misma entidad, lema o concepto. Como parte de este trabajo, se han descrito detalladamente los métodos utilizados y los resultados empíricos que arroja su evaluación. • Se han descrito innovaciones propias desarrolladas durante el proyecto para la anotación crossmodal de figuras, imágenes y texto, que han sido evaluadas formalmente en un dominio complementario, el dominio científico, gracias a la existencia de un corpus de tamaño y riqueza suficientes en ese dominio. Esto nos ha permitido extraer conclusiones de cara la aplicación de este enfoque en otros dominios de principal interés, en los que el acceso a corpus semejantes está mucho más restringido, como Seguridad e Inteligencia. • También se ha generado un pipeline completo para la generación de representaciones vectoriales asociadas a conceptos (o syncons, de acuerdo con la terminología propia de nuestra tecnología Cogito) en la modalidad visual (imágenes). Este pipeline define cómo recoger un conjunto de imágenes suficiente para cada concepto, filtrar las imágenes no relevantes, anotar objetos específicos dentro de esas imágenes y entrenar los clasificadores de imágenes y objetos correspondientes. • Se han producido una serie de servicios para el dominio específico de la Seguridad e Inteligencia. Estos servicios incluyen el análisis de narrativas de radicalización, servicios de detección crossmodal de desinformación, que incluye la detección de lenguaje intencionadamente engañoso y de imágenes manipuladas, y servicios para la detección de eventos. • También se han validado los servicios que ofrece Gresladix de manera integrada mientras que en el pasado el foco estaba centrado en la evaluación de los componentes individuales, como fue reportado en anteriores entregables. La evaluación integral de la plataforma ha permitido identificar también posibles puntos de mejora y limitaciones actuales que de otra forma no son aparentes. Para ello, el trabajo de evaluación ha intentado reunir un corpus de datos tan real como ha sido posible, en línea con los datos utilizados por los cuerpos de seguridad. Hemos configurado y utilizado Gresladix utilizando este corpus, ajustándonos a casos de uso específicos de este dominio, y desarrollado un interfaz de usuario que ayude a los analistas a buscar, explorar y analizar los datos resultantes.

×