La indexación en contenido en las empresas y gobierno es cosa seria. En esta charla se mostraran las alternativas que existen para lograr que sea sencillo encontrar información en cantidades de información muy grandes. Google ofrece el servicio Enterprise Search para cubrir esta necesidad.
6. INTRODUCCIÓN + 80% es no estructurada o semi estructurada. Keywords no son suficientes – CONTEXTO Operadores booleanos no siempre logra dar en el clavo en texto libre –CONTEXTO Page Ranking – Intranets (ligas artificiales) Lo más general primero: keywordsexpert (saber la info desde antes).
7. Introducción (2) Se hace necesaria una plataforma de infraestructura de la información que gestione todos los tipos de información. Esta plataforma permitiría a los ordenadores no sólo procesar datos estructurados sino también ingentes cantidades de datos semi y no estructurados a partir de un índice relacional global
8. Intelligent Data OperatingLayer(IDOL) Server La tecnología de Autonomy automatiza la gestión, el procesamiento y el suministro de información estructurada y desestructurada a partir de fuentes internas y externas dispares. Se integra con todos los sistemas heredados conocidos, eliminando la necesidad por parte de las organizaciones de reunir múltiples sistemas y soportar sus distintos componentes.
9. SOLUCIÓN DE BÚSQUEDA HERRAMIENTAS COLABORATIVAs IDOL INTELLIGENT DATA OPERATING LAYER CORREO ELECTRÓNICO INTEGRACIÓN DOCUMENTOS VIRAGE ETALK CONECTORES INTERNET INFORMACIÓN ESTRUCTURADA INFORMACIÓN NO ESTRUCTURADA LLAMADAS TELEFÓNICAS BASES DE DATOS APLICACIONES XML AUDIO + VIDEO MÁS DE 1000 FORMATOS DIFERENTES
10. INTEGRACIÓN DE LA INFORMACIÓN ÍNDICES METADATOS HERRAMIENTAS COLABORATIVAS LOTUS, MS EXCH, . Proceso de Indexación Proceso de Sincronización CORREO ELECTRÓNICO CONECTORES DE ACCESO DOCUMENTOS PDF, TEXTO… HTTP VOZ + AUDIO + VIDEO ODBC + ORACLE FILE SYSTEM INTERNET LLAMADAS TELEFÓNICAS FUENTES DE INFORMACIÓN BASES DE DATOS APLICACIONES SAP, SIEBEL,,.. AUDIO + VIDEO
11. BÚSQUEDA INTELIGENTE DE LA INFORMACIÓN BÚSQUEDA INTELIGENTE BÚSQUEDA CONCEPTUAL CORRELACIÓN AUTOMÁTICA HIPER-LIGAS AUTOMÁTICAS CORRECCIÓN ORTOGRÁFICA FILTROS DE BÚSQUEDA PARAMETRIZABLES IDENTIFICACIÓN DE TESAUROS SOPORTE PARA MÚLTIPLES LENGUAJES HERRAMIENTAS COLABORATIVAS LOTUS, MS EXCH, . IDOL Algoritmos aplicados sobre el lenguaje Bayes y Shannon CORREO ELECTRÓNICO DOCUMENTOS PDF, TEXTO… INTEGRACIÓN DE LA INFORMACIÓN INTERNET LLAMADAS TELEFÓNICAS FUENTES DE INFORMACIÓN BASES DE DATOS APLICACIONES SAP, SIEBEL,,.. AUDIO + VIDEO
12. ORGANIZACIÓN DE LA INFORMACIÓN ORGANIZACIÓN DE LA INFORMACIÓN DEFINICIÓN / REUTILIZACIÓN DE MÚLTIPLES TAXONOMÍAS COLABORACIÓN AGRUPACIÓN CONCEPTUAL CATEGORIZACIÓN AUTOMÁTICA PERSONALIZACIÓN HERRAMIENTAS COLABORATIVAS LOTUS, MS EXCH, . IDOL Algoritmos aplicados sobre el lenguaje Bayes y Shannon CORREO ELECTRÓNICO DOCUMENTOS PDF, TEXTO… INTEGRACIÓN DE LA INFORMACIÓN INTERNET LLAMADAS TELEFÓNICAS FUENTES DE INFORMACIÓN BASES DE DATOS APLICACIONES SAP, SIEBEL,,.. AUDIO + VIDEO
13. MONITOREO DE LA INFORMACIÓN MONITOREO DE LA INFORMACIÓN AUDIO VIDEO OTROS FORMATOS AGENTES PERSONALIZADOS ALERTAS MAIL, SMS LLAMADAS TELEFÓNICAS ETALK VIRAGE IDOL CORREO ELECTRÓNICO DOCUMENTOS PDF, TEXTO, CALC, … AUDIO & VIDEO INTEGRACIÓN DE LA INFORMACIÓN INTERNET FUENTES DE INFORMACIÓN APLICACIONES SAP, SIEBEL,.. BASES DE DATOS XML LLAMADAS TELEFÓNICAS
14. SOLUCIÓN INTEGRAL INTERFACES PORTAL IN A BOX RETINA PORTLETS ACI API INTEGRATION J2EE / .NET IDOLme AWE IDOL SERVER IDOL BÚSQUEDA CONCEPTUAL•HIPERLINK AUTOMÁTICO•CATEGORIZACIÓN AUTOMÁTICA•TAXONOMÍAS•AGENTESPERSONALIZADOS•NOTIFICACIÓN• RELEVANCIA CONCEPTUAL•CLUSTERING•SOPORTE MULTI LENGUAJE IAS SEGURIDAD ACL•SSL•LDAP DASHBOARD ADMINISTRACIÓN LOGS•ESTADISTICAS HERRAMIENTAS COLABORATIVAs CORREO ELECTRÓNICO DOCUMENTOS CONECTORES Y ANÁLISIS HTTP•FTP•FILESYSTEM•POP3•OPENTEXT•NOTES•EXCHAGE•DOCUMENTUM•ODBC•SQL•DB2•ORACLE•SYBASE•INFORMIX•SAP•SIEBEL•SHAREPOINT•+ DE 1000 FORMATOS DIFERENTES VIRAGE ANALISIS Y MONIOREO AUDIO Y VIDEO ETALK ANALISIS Y MONITOREO CALL CENTER INTERNET FUENTES DE INFORMACIÓN BASES DE DATOS APLICACIONES XML AUDIO + VIDEO
16. Bases Matemáticas Redes y estadística bayesianas Entre más información tengas más precisa será tu visión del mundo Información previa debe ser integrada para mejorar nuevos datos. Esto nos da varios beneficios: AdaptiveProbabilistic Concept Modeling–correlación entre agentes e información. Agentes pueden ser entrenados.
17. Bases matemáticas Teoría de Información (Shannon) Entropía o medida de incertidumbre en la información puede es medida. Si la probabilidad de las palabras son las mismas en un texto, el texto es aleatorio. Es decir, redundante. Sin valor. Detectar secciones relevantes, dada que su entropía es baja. Extraer conceptos en medio de la redundancia. Entre menos aparezca una unidad de comunicación más información dará. Así se encuentran los conceptos más importantes en un documento.
18. Funcionalidades clave Hipervinculación automática Elaboración automática de resúmenes Agrupación automática Eduction Interlinking Visualización de agrupaciones Categorización automática Generación automática de taxonomías Agentes personalizados y alertas
19. Funcionalidades clave Hipervinculaciónautomática IDOL permite vincular de forma manual y completamente automática fragmentos de información relacionados independientemente de su formato. Estos datos se vinculan a contenidos contextualmente similares y pueden utilizarse para recomendar artículos relacionados, documentos, productos o servicios a fines o conceptos de correo de voz y vídeo.
20. Funcionalidades clave Elaboración automática de resúmenes Para cada contenido, IDOL elabora un resumen de la información incluyendo los conceptos más destacados. Además, pueden elaborarse resúmenes vinculados al contenido de la consulta original, lo que permite proporcionar el resumen dinámico más adecuado en los resultados de una consulta dada.
21. Funcionalidades clave Agrupación automática IDOL puede tomar un gran repositorio de datos y partirlo automáticamente de forma que se agrupe la información similar, incluso procedente de formatos distintos. Cada agrupación representa un área conceptual de la base de conocimientos, lo que hace que les resulte más sencillo a las empresas identificar los temas inherentes.
22. Funcionalidades clave Visualización de agrupaciones IDOL proporciona tres interfaces de usuario intuitivas basadas en Java (espectrógrafo, mapa 2D y mapa 3D) para hacer visibles las agrupaciones e identificar fácilmente las tendencias clave de un intervalo de tiempo especificado.
23. Funcionalidades clave Categorización automática Se extraen categorías precisas a partir de los conceptos encontrados en el contenido no estructurado, lo que garantiza que todos los datos se clasifiquen en el contexto correcto con la mayor precisión. Las taxonomías heredadas existentes pueden conservarse o mejorarse con la comprensión contextual.
24. Funcionalidades clave Eduction Identificar relaciones entre documentos en servidores en diferentes lugares geográficamente, en diferentes unidades de negocio. Se crea estructura de contenido no estructurado propagando contenido clave en una base de datos.
25. Funcionalidades Clave Interlinking Se identifican subáreas de documentos para las cuales hay ligas relevantes y se insertan hipervínculos en el documento.
26. Funcionalidades clave Generación automática de taxonomías Comprensión conceptual de la información Generación automática de taxonomías Agnosticismo taxonomías a partir de cualquier tipo de datos, ya sean estructurados o no estructurados. Taxonomía actualizada automáticamente con nuevos datos. Aproximación Manual (problemas) No aprende –estática Escalabilidad (error de clasificación cuando crecen las etiquetas). Interoperabilidad de la clasificación.
27. Funcionalidades clave Generación automática de taxonomías (cont.) Mejor de ambos mundos: se pueden editar y refinar las taxonomías manualmente. Operadores y modificadores. Seleccionar documentos y textos para entrenar al motor. Excluír documentos. Peso para diferentes lugares donde una palabra está.
28. Funcionalidades clave Agentes personalizados y alertas IDOL le permite a los usuarios definir Agentes para supervisar en todo momento la información sobre temas específicos a partir de distintas fuentes de datos. Definirse o formarse expresamente. Entrenando al motor mostrándole un documento, vídeo u otro contenido que coincida con los intereses del usuario.
29. Funcionalidades clave Redes de colaboración y especialización Dado que IDOL puede comprender los intereses de la persona a partir de la navegación, el consumo de contenidos y/o la contribución de contenidos, también puede relacionar automáticamente a usuarios con agentes de intereses explícitos comunes o perfiles implícitos.
30. ¿Desarrolladores? API en Java y .NET en la capa de servicios que ofrece toda la funcionalidad básica con la ventaja de parametrizar finamente toda la funcionalidad. Capa de servicios de negocio (de alto nivel) que atienden requerimientos puntuales de diferentes verticales (Seguridad, Administración del Conocimiento, Sector Financiero)
31. Beneficios Despliegue de información relevante y correlacionada de manera automática. Asegurar el desempeño, tiempo de respuesta y disponibilidad (alta disponibilidad) de la herramienta de búsquedas. Generación de reportes de estadísticas de uso del Sistema. Posibilidad de integrar la solución de búsquedas en cualquier Portal que requiera capacidades de búsqueda o localización de información.
32. Beneficios (2) Posibilidad de escalamiento en el tiempo ante iniciativas exitosas con número creciente de usuarios. Disminución de los esfuerzos en desarrollos manuales para obtener los resultados requeridos por los usuarios para la herramienta de búsquedas. Agnóstico al idioma. Aunque también se ofrece traducciones.
34. Desempeño Un solo motor IDOL puede: Soportar más de 470 millones de documentos en plataformas de 64-bit. Ejecutar más de 2.600 consultas por segundo, con tiempos de respuesta menores a un segundo en una sola máquina con dos procesadores cuando se utiliza contra 70 millones de piezas de contenido. Apoyo a cientos de miles de usuarios de la empresa, o millones de web. Los usuarios tienen acceso a cientos de terabytes de datos Guardar espacio de almacenamiento con una huella global de menos del 15% del tamaño del archivo original