Este documento presenta un resumen de un webinar sobre información no estructurada impartido por Jackson Garcés y Carlos Marín. El webinar explica qué son los datos no estructurados, por qué son importantes, cómo se almacenan y analizan utilizando herramientas como Hadoop y Spotfire de Tibco. Además, muestra demos de análisis de audio y text mining para ilustrar cómo los datos no estructurados pueden generar valor para diferentes industrias.
2. Resolvemos
sus
preguntas de
negocio
Acerca de IT-NOVA
Somos una empresa de servicios profesionales de consultoría enfocada en lograr que la tecnología apoye y
potencialice los procesos de negocio de nuestros clientes, orientándonos en su satisfacción a través de servicios de
calidad para enfrentar y resolver los retos a nivel operativo y estratégico de las organizaciones. Nuestro portafolio
de productos y servicios se enfoca en:
Analítica
Inteligencia
de
negocios
Integramos la estrategia de su compañíaIntegramos la estrategia de su compañía
3. Acerca de TIBCO
Casa Matriz en Palo Alto
Más de 10,000 clientes
Oficinas en más de
30 países
$1B anual en ingresos
Más de 3.500 empleados
Una comunidad de
500 mil personas
1M de visitas web
mensualmente
500 empleados
9. ¿Qué son “DATOS no Estructurados”?
Son aquellos datos que no se enmarcan dentro de un
modelo de datos predefinido (como las tablas) y
usualmente están compuestos por texto pesado.
Sin embargo, existen otros tipos de datos no
estructurados como:
Imágenes satelitales
Archivos de audio
Archivos de video
Señales IoT
Redes sociales
Datos móviles
Páginas WEB
10. ¿Por qué son importantes los “DATOS
no Estructurados”?
Los datos no estructurados, son de lejos, los de mayor
peso en la ecuación de la analítica y la información. Se
dice que un 80% de la información
producida es no estructurada y a su vez suele
ser la que más se relaciona con las personas, de ahí
su valor.
Sin embargo, la brecha analítica y de almacenamiento
es grande aunque se ha ido estrechando con las
nuevas tecnologías.
11. Datos no Estructurados y BIG DATA
Es el Big Data el encargado de reducir la
brecha en la capacidad de almacenamiento
y análisis. El objetivo es transformar
datos no estructurados a datos
estructurados.
El ecosistema Hadoop es tal vez el entorno
más conocido o del que más se habla, pero
no es la única herramienta que permite
almacenar, analizar o procesar Big Data.
Datos
estructurados
Datos no
estructurados
Datos hiper
estructurados
12. Almacenamiento
Herramientas para DATOS NO
ESTRUCTURADOS
En general las herramientas para "tratar y
almacenar" datos no estructurados son
conocidas como herramientas NoSQL; las
diferencias entre los diferentes desarrollos se
basa en tres requerimientos fundamentales:
Consistencia: cada cliente siempre tiene la
misma vista de datos.
Disponibilidad: todos los clientes siempre
pueden leer y escribir datos.
Tolerancia a la partición: el sistema debe
trabajar bien a través de redes físicas.
Tomado de: http://blog.flux7.com/blogs/nosql/cap-theorem-why-does-it-matter
13. Almacenamiento
Herramientas para DATOS NO
ESTRUCTURADOS
Por ejemplo en los (RDBMS) son del tipo CA, es decir consistentes
y con disponibilidad tienen problemas de replicación
(paralelismo).
En otra "arista" están las tipo CP tienen problemas de
disponibilidad pero son consistentes a través de sistemas
distribuidos, aquí están herramientas como HBase, MongoDB,
Terrastore, Redis entre otras.
Por último, se tiene as tipo AP con alta disponibilidad y tolerables
a un entorno de partición como Cassandra, SimpleDB, Dynamo
entre otras
14. Analítica
Herramientas para DATOS NO
ESTRUCTURADOS
Cuando los datos han sido capturados surge la
incógnita de ¿cómo los analizo?, ¿cómo les agrego
valor?, ¿cómo los visualizo?.
Las teorías tienen que ver con los desarrollos que se
han hecho desde la academia, y las herramientas son
los programas y software donde han sido
implementados para uso final.Teorías
•Text Minnig
•Procesamiento lenguaje natural
•Geomática
•Análisis de redes
•Web Scrapping
15. ¿ Cómo los datos no estructurados pueden generar valor
en mi negocio?
•La aerolíneas aplican el análisis de sentimientos para establecer cómo se sienten sus
clientes respecto a las demoras, la comida, el tratamiento del personal. Los tuits
positivos ayudan a determinar comportamientos exitosos.
•Las Compañías financieras dotan a los analistas de una ventaja al proporcionarles
información de las compañías y las personas involucradas. Con esto se busca detectar
cambios en los comportamientos y cómo estos pueden impactar el mercado.
•Entidades de salud, procesan sus historias clínicas para encontrar correlaciones entre
diagnósticos.
16. ¿ Por qué Tibco Spotfire es la mejor elección para manejar
sus datos no estructurados?
Spotfire permite conectarse a múltiples fuentes de datos,
entre ellas, la gran mayoría de plataformas NoSQL.
Spotfire integra la capacidad analítica de R, Matlab y/o SAS
con la potencia de visualización de Tibco.
Con Spotfire se pueden obtener nuevas reglas de negocio
a partir de información no estructurada.
Spotfire tiene desarrollo nativo para conexiones y analítica
en ecosistemas Big Data.
Spotfire es escalable.