¿Buscas salud integral? Usa tu cerebro por Inmaculada Cubero
"Casos de uso del Big Data" por Wolfram Rozas
1. Casos de Uso
de Big Data
Wolfram Rozas
31 Octubre 2014
2. 2
Agenda
• Introducción
• El Lago de Datos
• Cambio en el Paradigma Analítico
• El rol del Chief Data Officer
• Las cinco categorías de Casos de Uso
• Ejemplos de Casos de Uso
• Experiencias reales
• Taller
3. 3
Los datos son el
nuevo recurso
natural
Social, Móvilidad, Big Data
Juntas están enriqueciendo a la sociedad
con conocimiento, a través de redes
que generan expectativas de valor a
cambio de su información
4. 4
Las 3 ies son la causa del Big Data
instrumentado
interconectado
inteligente
Hasta
10.000x
más
volumen
Analítica Compleja
Hasta 10.000x
más rápido
Datos en
reposo
Mexcla (no)estructurados
Data Warehouse
traditional e Inteligencia
de Negocio
Data Scale
Volumen
Datos en
movimiento
año mes sem día hora min seg … ms
Hexa
Peta
Tera
Giga
Mega
Kilo
ocasionalmente frecuentemente tiempo real
Velocidad Tiempo esperado de decisión
6. 6
Para poder ejecutar las nuevas
oportunidades, hay en fuentes de datos
no tradicionales
Datos transaccionales
y de aplicación
Datos Máquina
(M2M)
Datos Sociales
• Volumen
• Estructurado
• Throughput
• Velocidad
• Semiestructurados
• Ingestión
• Variedad
• Altamente
desestructurados
• Veracidad
Contenido
Empresarial
• Variedad
• Altamente
desestructurados
• Volumen
7. 7
Por tanto, ¿cuál es la paradoja de Big
Data?
• El porcentaje de datos disponibles que una empresa puede analizar decrece
en relación proporcional a la disponibilidad de los mismos.
Datos DISPONIBLES
para una organización
Datos que una organización
puede PROCESAR
Volumen Datos mundiales
2009 0,8 Zb (*)
2010 1 Zb
2011 1,8 Zb
2018 estimado 35 Zb
(*) Zb (Zettabyte) = 10 3 Exabyte = 10 6 Petabyte = 10 9 Terabyte
8. 8
¿Qué es Big Data?
Volumen Velocidad Variedad Veracidad
Datos en Reposo
Deben procesarse
TB-EB
Datos en Movimiento
Datos en “streaming”,
no almacenados,
decision necesaria en
ms
Datos con múltiples
formatos
Estructurados, no
estructurados,
texto, multimedia
Datos ruidosos
Fiabilidad de los datos:
desfasados, incom-pletos,
conflictivos,
irónicos, equivocados,
vagos, erróneos
Grande
App Clásicas
Tiempo Real
M2M
No estructurados
Docs Corporativos
Calidad
Social Media
9. 9
Volumen
180millones
Registros de préstamos
analizados cada día
Velocidad
2billones
Cálculos de datos de bonos
en 1 minuto
Variedad
40millones
Emails analizados
mensualmente
Analizar más préstamos
por niveles de riesgo y
patrones de fraude
Analizar más
profundamente para
descubrir sentimiento y
actitudes de los clientes
Descubrir riesgo e identificar
oportunidades más rápido
que antes
º de negocio no confían en la información
que usan para tomar decisiones
Confirmar la
Veracidad de las
fuentes Big Data
Retos y oportunidades en Banca
10. 10
Volumen
4petabytes
Retos y oportunidades en Utilities
Velocidad
248millones
Variedad
80%
datos no estructurados
… de datos de
modelización de
climatología para la
optimización de la
situación de
aerogeneradores
…de una smart grid,
predicciones de tiempo,
documentos, etc.
…lecturas diarias en un
proyecto estándar de
contadores inteligentes
6.000 millones $ perdidos en US
anualmente debido a pérdidas no
técnicas
Confirmar la
Veracidad de las
fuentes Big Data
11. 11
Volumen
>1000 Millones
Retos y oportunidades en Retail
Velocidad
6000
Varieda
d
Perfiles de Redes
Sociales
Posts de facebook diarios abonados de móviles
y crecimiento de datos
Analizar enormes volúmenes
de datos para conseguir una
“nítida” vista de 260º del
cliente
Los clientes envían
variedad de datos -–
blogs, videos, emails,
pins, tweets, etc.
Conocer dónde están los
clientes para ofertas
lanzadas en tiempo real
empresarial
Millones 2800 Millones
º de negocio no confían en la información
que usan para tomar decisiones
Confirmar la
Veracidad de las
fuentes Big Data
12. Arquitectura de Nueva Generación
Aplicaciones
Mejoradas
Nuevos modelos
de Negocio
12
Analítica en Tiempo Real
Exploración,
landing y
archivo
Enterprise
warehouse
Data mart
Analytic
appliances
Información
Operacional
Gobierno de la Información
Experiencia de
cliente
Mejoras
económico-financieras
Gestión del
Riesgo
Fuentes de Datos
S. Cognitivos
Apoyo a Toma de
SISTEMAS-SEGURIDAD-ALMACENAMIENTO
Datos de
máquinas y
sensores
Imagen y video
Contenido
Empresarial
Datos de
aplicaciones y
transformaciones
Datos de
Redes
Sociales
Datos de
Terceros
Enterprise
warehouse
Data mart
Appliances
Analíticos
Decisiones
Modelización
predictiva
Reporting, análisis,
analítica contenidos
Descubrimiento y
exploración
+
+
Gestión de
Operaciones
y del Fraude
Ahorros IT
Area de
Entendimiento
13. 13
Exploración y Descubrimiento
Aplicaciones Exploración
Text Analytics
Motor Búsqueda
Ruting Federación Queires
Subscripciones Feeds ResultadosWeb
Metadata Extraction
Framework Aplicación
Modelo Entidad
Aplicaciones Vista 360O
Extendida
User Profiles
CM, RM, DM RDBMS Feeds Web 2.0 Email Web CRM, ERP
File Systems
Framework
Conector
MDM
14. 14
Plataforma Hadoop
• Datos almacenados en un sistema de ficheros distribuido en múltiples ordenadores económicos (intel)
• Se puede operar con funciones en los datos
• Escalable a miles de nodes y petabytes de datos
public static class TokenizerMapper
extends Mapper<Object,Text,Text,IntWritable> {
private final static IntWritable
one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text val, Context
StringTokenizer itr =
Aplicación MapReduce
1. Fase de Mapeo
(divide el trabajo en
muchas partes)
2. Fase de Combinación
(transfiere el output para
procesamiento final)
3. Fase de Reducción
(Reduce todo el output a un
juego sencillo de datos)
Devuelve un conjunto sencillo
de resultados
Juego resultado
Combinar
public static class TokenizerMapper
extends Mapper<Object,Text,Text,IntWritable> {
private final static IntWritable
one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text val, Context
StringTokenizer itr =
new StringTokenizer(val.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWrita
private IntWritable result = new IntWritable();
public void reduce(Text key,
Iterable<IntWritable> val, Context context){
int sum = 0;
for (IntWritable v : val) {
sum += v.get();
. . .
new StringTokenizer(val.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWrita
private IntWritable result = new IntWritable();
public void reduce(Text key,
Iterable<IntWritable> val, Context context){
int sum = 0;
for (IntWritable v : val) {
sum += v.get();
. . .
Distribuye tareas al
cluster
Nodos de datos
15. 15
Análisis en Marcha (Streaming)
Modificar
Filtrar/Muestreo
Clasificar
Fusionar
Anotar
Puntuar
Agregar
Analizar
ANTES AHORA
Real-time
Analytics
16. 16
Data Warehousing de Alto Rendimiento
• Velocidad
– Considerar un appliance optimizado para
analítica
• Aceleración de queries basada en HW
• Procesamiento masivamente paralelo
(MPP)
• Base de Datos In Memory
• Escalabilidad
– Hasta petabytes
– Arquitectura en paralelo
• Simplicidad
– Integrar SW, procesador y
almacenamiento
– Facilitar interfaces estándar
– Minimizar gestión y optimización
Procesamiento Masivamente Paralelo (AMPP™)
Analítica
Avanzada
Analítica
Avanzada
CCaarrggaaddoorr
BBII EETTLL
Aplicaciones
FPGA
CPU
Memoria
FPGA
CPU
Memoria
FPGA
CPU
Memoria
Host
Hosts
Almacenar Procesar Conectar
Orquestrar
17. 17
Analítica de Texto
• Analiza texto y detecta significados con
anotadores
• Comprende el contexto en el que se
analiza el texto
• Incorpora anotadores preconstruidos
para construcciones estándar de texto
como nombres, direcciones, números
de teléfono, etc.
• Convierte información desestructurada
en texto estructurado
– Análisis de sentimiento
– Conducta del consumidor
– Actividades ilegales
– …
18. 18
Gobernanza del Big data
• Integrar cualquier tipo de dato
– Estructurado
– No estructurado
– Streaming
• Gobernanza
– Asegurar datos sensibles
– Gestionar el ciclo de vida del dato para
controlar el crecimiento de datos
– Perfiles de fuentes de datos
– Validar y gestionar la calidad de los datos
– Gestionar la metadata para trazar el linaje de
los datos
– Datos maestros, integrarlos y extenderlos con
big data para hacerlos fiables
Data Archiving
Data
Masking
Test Data Management Application Discover Retirement
PPaarrttnneerr--ddeelliivveerreedd SSoolluuttiioonnss
19. 19
Comprende lenguaje
natural y estilo de
comunicación humano
Evoluciona y aprende
mediante entrenamiento,
interacción y resultados
Los sistemas cognitivos representan
una nueva era de Computación
Genera y contrasta
hipótesis basadas en
evidencias
1 2
3
Watson de IBM
• Me comprende
• Me involucra
• Aprende y mejora en el tiempo
• Me ayuda a descubrir
• Genera confianza
• Tiene una enorme capacidad analítica
• Opera en tiempo real
20. 20
Big Data & Business Analytics
No existe lo uno sin lo otro
Sistemas Seguridad
Almacenamiento
Instalación propia, Cloud, Como un Servicio
Zona de
aterrijzaje,
exploración y
archivado
Infraestructura de Big Data Y Analytics
Aplicaciones
Nuevas/Mejoradas
Datos
Zona de
analítica en
tiempo real
Zona de DW
Corporativo y
appliances
Ingestión de
información y
zona de
información
operacional
Zona de Gobernanza de Información
¿Qué podría
ocurrir?
Modelos
predictivos
¿Qué acción
tomar?
Toma de
Decisiones
¿Qué está
ocurriendo?
Descubrimiento
y exploración
¿Por qué
ocurrió?
Reporting,
anáisis,
análisis de
contenidos
Fábrica
cognitiva
22. 22
El problema de los Datos
• Hay una desproporción en el tiempo empleado en preparación de datos en los proyectos de Análisis
• El Big Data complicará más la situación con la adición de datos de múltiples formatos y la ingesta en
tiempo real
23. 23
Una demanda creciente….
Negocio quiere...
• Acceso abierto a más información
• Herramientas de análisis y visualización
más potentes
A los equipos IT …
• les preocupan los costes
• les preocupan los requisitos de gobernanza y regulatorios
24. 24
¿Lagos o Pantanos?
• A medida que recogemos datos
– Podemos preservar la claridad?
– ¿Conocemos lo que recogemos?
– ¿Podemos encontrar lo que necesitamos?
• ¿Estamos creando pantanos de
datos?
• ¿Cómo construimos confianza en Big
Data?
– ¿Sabemos para qué se usan los datos?
¡Hay que gobernar el dato!
25. 25
¿Qué es un lago de datos?
• Un lago de datos facilita datos a una
organización para realizar análisis de todo
tipo
• Es posible introducir el análisis en el lago de
datos para generar conocimiento adicional de
los datos cargados
• Un lago de datos gestiona repositorios
compartidos de información para analizarla
• Cada repositorio del lago de datos se
optimiza para un procesamiento particular
• Los datos pueden replicarse en
múltiples repositorios en el lago de
datos y tener distintos
significados/usos
Servicios del Lago de Datos
Repositorios del Lago de
Datos
Gestión de Información y Gobierno del Dato
Lago de Datos
26. 26
Arquitectura lógica
Advanced Data
Provisioning
Operational
Governance
Hub
Data Lake
Catalog
Interfaces
Data Lake Repositories
Harvested
Data
Information Warehouse
Deep Data
Descriptive
Data
Information
Views
Shared
Operational
Data Operational
Status
Notifications
Information
Federation
Calls
Inter-lake
Exchange
Deposited
Data
Catalog
Data Refineries
Streaming
Analytics
Real-time
Interfaces
Publishing
Feeds
Information
Ingestion
Code
Hub
Information
Integration &
Governance
Information
Broker
Information
Broker
Operational
Governance
Hub
Code
Hub
Code
Hub
Information
Access
Find
Curate
Access
Provision
SSttaaggiinngg AArreeaass MMoonniittoorr WWoorrkkffllooww
Real-time
Analyics
Streaming
Analytics
Content
Hub
Events to
Evaluate
Information
Service Calls
Data Out
Data In
Understand
Information
Sources
Deploy
Decision
Models
Understand
Compliance
Understand
Information
Sources
Search
Requests
Curation
Interaction
Information
Service Calls
Data
Export
Data
Import
Report
Queries
Management
Information
Service Calls
Data
Export
Advertise
Information
Source
Deploy
Real-time
Decision
Models
Data
Import
Analyst
Interaction
Reporting
Data Marts
27. 27
Resumen
Lago de Datos = Gestión eficiente, Gobernanza, protección y acceso
• A medida que la analítica de una organización se hace más compleja, será
necesario:
– Acceder a datos históricos de muchos sistemas
– Estos datos incluyen datos sensible y valiosos que son el núcleo de la operación
– Hadoop felxible para almacenar muchos tipos de datso, pero no es suficientemente rápido
para alguna analítica en producción. Los datos necesitan ser reformateados y copiados en
una plataforma especializada paa el análisis
• Un lago o embalse suministra:
– Un extracción sencilla de datos
– Catalogar y gobernar el dato
– Interfaces sencillos para que la línea de negocio acceda a la infomración que precisan
29. 29
Cambios en el Paradigma Analítico
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
Analyze small subsets
of information
Analyzed
information
All
available
information
Analyze
all information
All
available
information
analyzed
Aprovechar más de los datos que se están capturando
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
Data Exploration
Insight Correlation
Lpos datos dirijen y algunas veces las correlaciones son
bastantes buenas
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
Small amount of carefully
organized information
Large
amount
of messy information
Carefully Analyze cleanse information as is,
information
before cleanse any as needed
analysis
Reducir el esfuerzo requerido para aprovechar los datos
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
Data
Analysis
Insight
Analyze data in motion as it’s generated,
Aprovechar los datos a medida que se capturan
Hypothesis Question
Answer Data
Start with Explore all data hypothesis and
and
test identify against selected correlations
data
Data Repository Analysis Insight
Analyze data after it’s been processed and landed
in a in real-warehouse time
or mart
30. 30
Cambios en el Paradigma Analítico
BIG DATA & ANALYTICS APPROACH
TRADITIONAL APPROACH
What will happen and what should you do
What has happened and why
Predecir y decidir la mejor acción
BIG DATA & ANALYTICS APPROACH
Learn to sense and predict using
all types of information
Sistemas cognitivos
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
the realm of the specialist
embedded in everything
Análisis intuitivo para cualquiera
BIG DATA & TRADITIONAL ANALYTICS APPROACH
APPROACH
Scheduled
Real-time
Análisis cómo y cuándo lo necesitas
TRADITIONAL APPROACH
Pre-programmed analysis
on structured data
32. 32
Chief Data Officer
Es un líder de negocio que crea y ejecuta datos y
estrategia de análisis para generar valor en su negocio
Es responsible de definir, desarrollar e implantar la
estrategia y los métodos por los que la organización
adquiere, gestiona, analiza y gobierna sus datos.
También se hace cargo de identificar nuevas
oportunidades de negocio mediante un uso creativo de
los datos corporativos
Fuente: IBM Institute for Business Value, “The New Hero of Big Data and Analytics, The Chief Data Officer”, June 2014
33. 33
Cinco maneras en las que los CDO
conducen crecimiento e innovación
34. 34
Entregar valor de negocio es la primera
prioridad del CDO
scarce
3 impulsores
para el CEO
1. Experiencia
Cliente/
Ciudadano
2. Eficiencia
operacional
mejorada
3. Capacidad
mejorada para
innovación
36. 36
Innúmeros casos de uso en cada
industria
Seguros
• Vista 360 del sujeto
• Modelización
catástrofes
• Fraude y Abuso
• Analítica de
rendimiento producto
Banca
• Optimización de ofertas
• Servicio a clientes y
eficiencia
• Detección e
investigación de fraude
• Riesgo de crédito y de
contrapartida
Telecom.
• Call Center proactivo
• Analítica de Red
• Servicios basados en
localización
Energía y
Utilities
• Analítica de Smart
Meter
• Predicción/
planificación de carga
• Mantenimiento basado
en condición
• Ofertas a clientes
(TOU)
Medios y
Entretenimiento
• Transformación de
procesos de negocio
• Optimización de
audiencias y
marketing
• Campañas multicanal
• Optimización de
comercio digital
Retail
• Analítica de Cliente y
Fidelización
• Optimización de
Mercancías
• Precios óptimos
Transporte y
Turismo
• Analítica de Cliente y
Fidelización
• Analítica de
Mantenimiento
Predictivo
• Optimización de
Capacidad y Precios
Gran
Consumo
• Disponibilidad Estante
• Optimización de Trade
Funds
• Cumplimiento de
mercancías
• Alertas/Excepciones de
promociones
Gobierno
• Servicios públicos
• Defensa e Inteligencia
• Servicios fiscales y
tributarios
Salud
• Medir y actuar sobre
los resultados de salud
• Involucrar a los
consumidores en su
salud
Automoción
• Monitorización
avanzada de condición
• Optimización Data
Warehouse
• Analítica de Cliente y
Fidelización
Farmacia
• Aumentar la visibilidad
de la seguridad y
efectividad de los
medicamentos
Química y
Petróleo
• Vigilancia, Análisis,
Optimización
Operacional
• Optimización Data
Warehouse
• Investigación Upstream
Aviación y
Defensa
• Plataforma de Acceso
Información Uniforme
• Optimización Data
Warehouse
• Plataforma de
Certificación Aerolínea
• Monitorización
avanzada de condición
Electrónica de
Consumo
• Analítica de clientes/
canal
• Monitorización
avanzada de condición
37. 37
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
38. 38
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
39. 39
Exploracion: Necesidades
Luchar para gestionar y
extraer valor de las 3 V’s en
la empresa; necesidad de
unificar la información en
fuentes federadas
Encontrar, visualizar, comprender todos los datos para
mejorar el proceso de toma de decisiones
Incapacidad de relacionar los datos
“brutos” recogidos de logs de
sistema, sensores, clickstreams,
etc., con datos de clientes y de
negocio
Riesgo de exponer información de
identificación personal y/o datos
privilegiados debido a carencias
de conciencia de la sensibilidad
de la información
40. 40
Call Center
Highly relevant, secure &
personalized results
Access all sources
or individual source
Dynamic
categorization
Refinements based
on metadata
Setup alert to
notify change
Narrow down results set
Identify topical experts
Tag results
Rate results
Comment results
Store &
share results
44. 44
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
45. 45
Necesidades
Extender las vistas actuales de clientes (MDM,
CRM, etc.) añadiendo fuentes de información
internas y externas
Necesita una mayor
comprensión del
sentimiento de la clientela
Deseo de mejorar la
fidelización (activa) del
cliente y la satisfacción
identificando acciones
significativas
necesarias
Desafío en facilitar la
información correcta a los
decisores para suministrar a los
clientes lo que realmente
necesitan (resolver problemas,
cross-sell, etc.)
47. 47
GeoMarketing 2.0 / Geofencing
Pisadas
• Patrones de movimiento de personas y
patrones de estancia
• Análisis por hora y día
• Inferencia para métricas de estancias
dentro de edificios
Sociodemográficos y Conducta
• Perfil sociodemográfico combinado con
movimiento
• Edad, género, país, dirección vivienda,
dirección trabajo, tipo dispositivo (datos,
status), patrón de actividad
Tránsito
• Inferencia de rutas de transporte público
incluyendo carreteras, trenes, autobuses
48. 48
Lista de Prospectos
Fan
BBiigg DDaattaa DDWW
DDaattooss lliinneeaalleess
Datos Datos no
no
lineales
lineales
Datos
Datos
suscripción
suscripción
Datos Datos afinidad
afinidad
y y de de gasto
gasto
Datos
demográficos
Datos Redes
Sociales
Datos Redes
Sociales
Gestión de Campañas
multicanal
MMaarrkkeettiinngg// RReesseeaarrcchh
Crear lista de prospectos mediante
Crear lista de prospectos mediante
modelos predictivos y producir
modelos predictivos y producir
campañas de marketing
VViissuuaalliizzaacciióónn
Motor de
Reglas
AAnnáálliissiiss PPrreeddiiccttiivvoo
Datos
demográficos
Gestión de Campañas
multicanal
Extraer datos y
Extraer datos y EEssttrruuccttuurraaddoo
ejecutar
integración de
entidades para
crear perfiles
individuales
Procesado
Tiempo Real DDeessaarrrroollllaa mmooddeellooss pprreeddiiccttiivvooss
Procesado
Tiempo Real
2
VViinnccuullaacciióónn
PPeerrffiill 336600ºº
TTiippoo FFaann
campañas de marketing
3
PPrrooppeennssiióónn
CChhuurrnn
PPoorrttaall
Text
Mining
Lista de Prospectos
Fan
No
estructurado
ejecutar
integración de
entidades para
crear perfiles
individuales
1
IInnfflluueenncciiaa
Análisis de Público Objetivo basado en
Fans
49. 49
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
50. 50
Necesidades
La extensión de Seguridad/Inteligencia mejora las
soluciones de seguridad analizando todo tipo de
fuentes
Inteligencia
mejorada y
Vigilancia
Predicción y
mitigación de
ciberataques en
tiempo real
Analizar el tráfico de red para:
• Descubrir nuevas amenazas tempranamente
• Detectar amenazas complejas conocidas
• Actuar en tiempo real
Analizar datos sociales y de
telecomunicaciones para:
• Reunir evidencia criminal
• Prevenir las actividades criminales
• Prender criminales proactivamente
Predicción y
protección de
crímenes
Analizar datos en movimiento y
parados para:
• Encontrar asociaciones
• Descubrir patrones y hechos
• Mantener la actualidad de la información
51. 51
Modelo Conceptual
Sistema de
Seguimiento de
Información
Criminal
Información s de
Seguridad y
Gestión de
Eventos (SIEM)
Conectores
Data
Warehouse
Sistema de
Monitorización de
Vigilancia
Conectores
Datos no estructurados/en streaming
Datos Estructurados Tradicionales
• Análisis profundo
• Análisis
operacional
• Gestión de datos
estructurado de
alto volumen
Appliance de monitorizacion de
telemetría de red (Opcional)
Ingesta y
procesamiento en
tiempo real
• Video/audio
• Red
• Geoespacial
• Predictivo
Almacenamiento y
Análisis
• Text mining
• Data mining
• Machine learning
Análisis de
Entidades/ Relaciones
52. Evolución
Adaptarse a
cambios en
negocios
clientes
productos
Problemas
Integridad?
Consistencia
del proceso
de gestión de
riesgo de
52
crédito
Reportar
Gestión de Riesgos
Informar
involucrados
Reporting
Limitado
Reporting
limitado de
exposiciones
y colaterales
Cobertura
Limitar el
daño usando
cobertura
Respuesta
a Tiempo
Falta de
herramientas
de
monitorización
de crédito
Preparar
Reunir datos
de posiciones,
mercados,
oportunidades
, etc.
Datos
Históricos
Muchos datos,
cambiando
muy rápido,
demasiada
variedad
Exposición
Estimar
Ratings y
exposiciones
Cálculos
Scoring
Complejos
Los cálculos
de scoring
necesitan
hacerse más
rápido
Límites
Comparar
exposición
agregada
contra límites
Demasiados
datos
No hay simple
vista del
riesgo de
crédito
(muchas
vistas)
Capital
Determinar
reqs. capital
Minimizar
Costes
Optimización
de las pérdi-das
de crédito,
capital,
colaterales
Stress
Stress testing
y Análisis de
Escenarios
Demasiados
What ifs?
Múltiples
escenarios de
stress ad hoc
Documentos
Mitigación de
riesgos
legales
Gestión
Información
Gestionar
datos no
estruc. de
oportunidades
y colaterales.
Reporting y
búsqueda
Datos no
estructurados:
Análisis de sentidos
como Análisis de
Entidades
Otras fuentes de
datos como
geoposicionamiento,
redes sociales
Análisis en
Tiempo Real:
Cálculos en casi
tiempo real
Appliance/función
calidad streams
Escalabilidad:
Capacidad a nivel
de petabytes para
grandes portfolios
de crédito
Gestión de Datos:
MDM para las
entidades de
contrapartida legal
App. Riesgo:
App de riesgo de
crédito y
colaterales
Análisis masivo:
10-100x más
rápido que
sistemas
tradicionales con
empleo de
Appliance
53. 53
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
54. 54
Necesidades
Analizar una variedad de datos máquina para
mejorar los resultados de negocio
La capacidad de analizar datos máquina y
combinarlos con los datos corporativos
obteniendo una vista completa puede capacitar
a las organizaciones a:
• Ganar una visibilidad en tiempo real de las
operaciones, experiencia de cliente,
transacciones y conducta
• Planificar proactivamente para mejorar la
eficiencia operacional
• Identificar e investigar anomalías
• Monitorizar la infraestructura punto a punto
para evitar proactivamente la degradación del
servicio o las cortes
55. 55
Logs brutos y datos máquina
Indexar, buscar
Modelización estadística
Análisis Causal
Exploración y
Descubrimiento
Sólo almacenar lo necesario
Análisis en tiempo real
Modelo Conceptual
Acelerador de
Datos Máquina
56. 56
Análisis de los Datos Máquina (M2M)
App. Server Logs
System Logs
Smart Meters
Sensor Data
Utility Systems
Facility Systems
Message Queues
Clickstream Data
Configuration Files
Web Access Logs
Database Audit
Logs and Tables
Web Proxy Logs
HDFS Logs
Ingestión Datos
Datos en reposo
Datos en movimiento
Extractores
Estructurado
Procesamiento
Análisis texto
Algoritmos adaptativos
Indexado
Búsqueda
Análisis
Causa raíz
Análisis Patrones
Detección de Anomalías
Análisis Predictivo
Queries Dinámicas
Tiempo real
Solución de Negocio
Visualización
No estructurado
Correlación
57. 57
Detección de Anomalías
Datos históricos Ultimos datos
1. Para cada punto de suministro se
identifican otros puntos que tengan
conducta de consumo similar
Contador Lectura
A 100
B 10
C 15
D 200
E 5
2. Se identifica cuánto se desvía
el último consumo del grupo
3. Se identifican los consumos más
anómalos para centrar la investigación
58. Soluciones
Aplicaciones
Mediación, Correlación y
58
Network Analytics
Análisis en tiempo real del uso de los clientes y de su experiencia de los
servicios de datos y aplicaciones, para mejorar la experiencia de cliente
Análisis
Recogida y extracción
de datos
1. Servicio a Clientes: priorizar problemas de clientes
2. Operaciones de Red: impacto de los eventos de red (cuellos de botella,, llamadas caídas, cortes, etc.) en la
calidad de la experiencia de los abonados
3. Ventas & Marketing: aumentar la tasa de aceptación
59. 59
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Las 5 Categorías de Casos de Uso
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
60. 60
Necesidades
Integrar las capacidades de big data y de data
warehouse par amejorar la eficiencia operacional
Necesidad de usar variedad de datos Extender la infraestructura
• Almacenamiento optimizado, mantenimiento y costes de
licenciamiento para migrar datos raramente usados (fríos)
a Hadoop
• Costes de almacenamiento reducidos por procesamiento
inteligente de datos en streaming
• Rendimiento del data warehouse mejorado determinando
• Análisis profundo en streaming de datos
estructurados, no estructurados
• Requerimientos de latencia baja (horas – semanas)
• Se requiere acceso a los datos
61. 61
Valor y Modelo Conceptual
Pre-Processing Hub Query-able Archive Exploratory Analysis
Information
Integration
Data Explorer
Data Warehouse
Streams
Real-time
processing
BigInsights
Landing zone for
all data
Data Warehouse
BigInsights
Can combine with
unstructured
information
Data Warehouse
1 2 3
Find and view the
data
Data Explorer
BigInsights
Streams
Offload analytics for
microsecond
latency
62. 62
Archivar “Datos Fríos”
Aplicar políticas de retención de datos
Capturar objetos de negocio completos
Preservar integridad de datos
Preservar metatada
Cargar datos a Hadoop según sea necesario
Almacén interrogable
utilizando Hive en
Hadoop
Archivar y purgar datos
InfoSphere
Optim
Archivos comprimidos,
auditables, y restaurables
Base de Datos
Distribución
Hadoop
Ficheros
Archive
Offloading
64. 64
Resultados
Interacciones proactivas
Aceptación mejorada de ofertas
Satisfacción clientes mejorada
Datos Externos
Cliente
Credit bureaus,
demográficos
(datos comprados)
Nuevas
Capacidades
• Detección eventos tiempo real
• Microsegmentación
• Sentimiento y Satisfacción
• Optimizar ofertas y timing
• Modelos predictivos más rápidos
y precisos
Geoespacial
Latitud, longitud (X,Y)
Datos Internos
Social
Actitudes,
preferencias
Clientes
Estructurados No
Estructurados
Contact Center
Notas y chats,
Interaccion con cliente
Transacciones
Multicanal
(Web, call-center,
oficinal)
Eventos
Triggers conducta
cliente
Correspondencia
Emails y chats
Optimización de ofertas y venta cruzada
65. 65
Resultados
Identificar oportunidades de trading rentables
Crear una adecuada estructura de pricing para
reducir los picos de demanda
Cumplir los objetivos de uso de nergía
renovables
Evitar sobrecargar la red de transmisión y
distribución
Nueva
capacidad
• Predicción de patrones de demanda
• Predicción de resultado de energía
renovable
• Predecir la necesidad de comprar o
la oportunidad de vender energía
en el mercado abierto
• Optimizar la planificación de
generación
Topografía de Distribución
de Energía
Planificación de
mantenimiento de
Equipamiento
Optciones de Generación de
Energía
•Patrones demanda históricos
•Límites de capacidad de activos
•Planes de producción industrial
Tiempo
•Predicciones
•Alertas
Clientes
Sensibilidad al
precio por tiempo
de uso (TOU)
Geoespacial y Temporal
Datos GIS
Trading
Datos de
mercado
actuales y
previstos de
precios de fuel
y energía
Predicción y planificación de carga en
Utilities
66. 66
Video
Vigilancia,
tráfico de pies en la
tienda
Resultados
Reducir los costes de marketing
Reducir abandonos
Incrementar fidelización
Ejecutar tácticas efectivas de Marketing
Nueva
capacidad
• Microsegmentación de
clientes y vista 360º extendida
• Obtener más conocimiento
del análisis de sentimiento y
de satisfacción
• Entregar ofertas a clientes a
tiempo
Geoespacial
Latitud, longitud
(X,Y)
Social Media
Sentimiento, intención,
preferencias,…
cliente
Socidemográficos,
transacciones y
patrones de compra
Clickstream
Actividades Online
POS
Logs
Transaccional
Eventos
Tiempo, eventos
locales
Call Center
Llamadas: texto y audio
Email
Analizar texto
para encontrar
patrones
Competidores
Producto, pricing, etc.
Optimización de carga en Retail
68. Fabricante aeroespacial global
incrementa la eficiencia de la fuerza
laboral y ahorra 36M$ anualmente
68
• Necesidad
– Los retrasos en resolución de problemas
de mantenimiento son caros y
potencialmente incurren en penalizaciones
financieras por tener equipos fuera de
servicio
– Aumentar la eficiencia de su
mantenimiento y apoyar a los técnicos,
personal de apoyo e ingenieros
• Beneficios
– Dar apoyo a 5,000 agentes de servicio
– Uso de manuales de papel eliminado que
previamente se empleaban para
investigación
– Poner en servicio más de 40 aviones
adicionales sin más personal de apoyo
– Tiempo de llamadas de servicio reducido
en un 70% (de 50 a 15 min)
69. Compañía de Emailing Americana analiza
miles de millones de emails no
estructurados
Necesidad
Sus clientes envían 35 millardos de emails cada año (a
sus bases de clientes)
• Analizar la efectividad de emails es crítica
para el éxito del cliente
• Poder analizar las tendencias
• Reducir el tiempo de enviar emails
• Saber qué contenidos son más efectivos en
campaña
Beneficios
• 40X mejora de rendimiento
• Tiempo de análisis reducido de horas a
segundos
• Mejora directamente la experiencia de
clientes 15%-25% mejora de respuesta de las
campañas
• Fácil de usar por la organización
• Mejora los sistemas de análisis
69 69
70. 70
Fabricante de tecnología de datos en
streaming de sistemas de vigilancia
• Necesidad
– Desplegar un sistema de vigilancia para
detectar, clasificar, localizar, y rastrear
amenazas potenciales en un laboratoro
nacional altamente sensible
• Beneficios
– Tiempo de captura reducido para analizar
275MB de datos acústicos de horas a 1/14
de segundo
– Análisis de datos en tiempo real de
diferentes tipos de sensores y 1,024 canales
individuales para apoyar el perímetro de
seguridad
– Respuesta más rápida e inteligente a
cualquier amenaza
71. Un mercado de Bolsa amerciano
mejora notablemente el rendimiento
de su gestión de información
71
Necesidad
• Mayor flexibilidad para cumplir las
demandas del mercado
• Reducir el tiempo necesario para
acceder a datos críticos de negocio
en su red, que solía ser 26 horas
• El anterior sistema era ineficiente
en las búsqueda rastreando
múltiple información irrelevante
Beneficios
• Capacidad de ejecutar rápidas
búsquedas de 650 Tb ;
almacenando alrededor de 1Pb
• El tiempo de acceso a datos
críticos de negocio se ha reducido
de 26 horas a 2 minutos
72. Bureau Salud Asiático reduce
72
errores de diagnóstico
Necesidad
• El servicio telemédico de diagnóstico
por imágenes tiene como objetivo
aumentar la salud rural
• Automaticamente mueve y analiza
grandes collecciones de imágnes
buscando anomalías y enfermedades
• Hace posible que radiólogos y
patólogos analicen 1000s imágenes de
pacientes cada día
Mejoras esperadas:
• Reducción en errores de diagnóstico
• Resultados mejorados aprovechando el
tratamiento médico de casos similares
73. 73
El Instituto de la Universidad de
Ontario detecta los síntomas de
neonatos con anterioridad
• Ejecuta analítica en tiempo real utilizando
datos fisiológicos de los neonatos
• Correlaciona datos continuamente de
monitores médicos para detectar cambios
sútiles y alertar al personal médico antes
• El sistema avisa a los cuidadores de
posibles complicaciones
Beneficios:
• Ayuda a detectar condiciones de amenaza
hasta 24 horas antes
• Reducción de mortandad infantil y mejora
de los cuidados de los pacientes
74. Una gran organización no lucrativa de
I+D conduce una proyecto de
demostración regional para validar las
tecnologías de smart grid
74
• Necesidad
– Reunir y analizar datos del rendimiento
de la smart grid de 15 sitios de prueba
que representan el terreno,
meteorología, y demografía de la
región para derivar conocimiento y
validar las tecnologías smart grid
• Beneficios
– 50% de caídas a corto plazo en horas
punta
– 15% de caidas en picos generales
– 10% reducción de las facturas de
electricidad (recomendaciones de
consumo)
– 70 mil M$ de ahorros proyectados en
20 años
– Poder analizar 10 Pb en minutos
75. Ayudar a reducir los costes de
energía y la fiabilidad y rendimiento
de la red
75
Necesidad
• Validar la viabilidad de una técnica de la
smart grid llamada control transactivo
Beneficios
• Une a consumidores con activos mediante
un sistema de señal-respuesta optimiza el
sistema e integrar mejor los recursos
renovables
• Permite analizar y ganar conocimiento de
10Pb en minutos
• Aumenta la eficiencia y la fiabilidad de la
red mediante la auto-monitorización y
feedback
• Se capacita a la ciudad para evitar una
potencial caída de tensión
75
76. 76
Fabricante de aerogeneradores
optimiza inversiones de capital
Necesidad
• Definir modelos climáticos para
optimizar la localización de las turbinas,
maximizando la generación de energía y
la vida residual del equipamiento
Beneficios
• Reduce el tiempo requerido para
identificar la localización de la turbina
de semanas a horas
• Reduce los costes de IT y disminuye el
consumod e energía en un 40%
• Incorpora 2,5Pb de flujos de información
estructurada y no estructurada. Se
espera que el volumen de datos crezca
hasta 6Pb 76
77. 77
Detección de cambios
medioambientales de recursos hídricos
en tiempo real
Necesidad
• Recoger y procesar múltiples flujos de datos físicos,
químicos, y biológicvos de sensores instalados en la
Bahía de Hudson
• Los datos de sensores se analizan junto con datos
meteorológicos y se agregan
• Los datos medioambientales en tiempo real se
entregan en formato estándar a los científicos,
ingenieros, políticos y educadores
Beneficios
• Estimula la colaboración publicando los datos del
mundo reales a sistemas externos, investigadores, y
políticos
• Ayuda a la gestión de recursos a responder más
efectivamente ante cambios en los recursos hídricos
locales
7777
78. 78
Centro de la Ciudad de Dublin:
sistema de control de tráfico robusto
y eficiente que
Necesidad
• Una solución eficiente en presupuesto para
mejorar el sistema de control de tráfico
• Su objetivo es incrementar la precisión en
detección de eventos, inferencia de las
condiciones de tráfico (velocidad) y predicción
de llegada de autobuses
• El resto es analizar adecuadamente los datos
GPS, que son normalmente masivos y difíciles de
capturar
Beneficios
• Monitorizar 600 autobuses de 150 líneas
diariamente
• Analizar 50 actualizaciones de localizaciones de
autobús por segundo
• Recoge, procesa y visualiza los datos de
localización de todos los vehículos de transporte
público
7788
80. 80
problema u
Seleccionamos
sectores
industriales de
interés
1
2
3
6
4 5
Definimos la
necesidad,
oportunidad de
negocio
Identificamos la
idea innovadora
que nos permite
implantar la
tecnología
conceptual de la
arquitectura
Listamos los
datos estructu-rados
y no
estructurados
Enumeramos los
beneficios o
nuevas
capacidades de
su implantación
Dibujar la
solución
81. 81
Valoración de Ideas
Innovación Factibilidad
Técnica
Factibilidad
Económica
Valoramos del 1 al 10