2. 2
Agenda
• Introducción
• El Lago de Datos
• Cambio en el Paradigma Analítico
• El rol del Chief Data Officer
• Las cinco categorías de Casos de Uso
• Ejemplos de Casos de Uso
• Experiencias reales
• Taller
3. 3
Los datos son el
nuevo recurso
natural
Social, Móvilidad, Big Data
Juntas están enriqueciendo a la sociedad
con conocimiento, a través de redes
que generan expectativas de valor a
cambio de su información
4. 4
Las 3 ies son la causa del Big Data
instrumentado
interconectado
inteligente
Hasta
10.000x
más
volumen
Hasta 10.000x
más rápido
Data Warehouse
traditional e Inteligencia
de Negocio
DataScale
Volumen
año mes sem día hora min seg … ms
Hexa
Peta
Tera
Giga
Mega
Kilo
Velocidad Tiempo esperado de decisión
ocasionalmente frecuentemente tiempo real
Datos en
movimiento
Datosen
reposo
Mexcla (no)estructurados
AnalíticaCompleja
6. 6
Para poder ejecutar las nuevas
oportunidades, hay en fuentes de datos
no tradicionales
Datos transaccionales
y de aplicación
Datos Máquina
(M2M)
Datos Sociales
• Volumen
• Estructurado
• Throughput
• Velocidad
• Semiestructurados
• Ingestión
• Variedad
• Altamente
desestructurados
• Veracidad
Contenido
Empresarial
• Variedad
• Altamente
desestructurados
• Volumen
7. 7
Datos DISPONIBLES
para una organización
Datos que una organización
puede PROCESAR
Por tanto, ¿cuál es la paradoja de Big
Data?
• El porcentaje de datos disponibles que una empresa puede analizar decrece
en relación proporcional a la disponibilidad de los mismos.
2009 0,8 Zb (*)
2010 1 Zb
2011 1,8 Zb
2018 estimado 35 Zb
Volumen Datos mundiales
(*) Zb (Zettabyte) = 10 3 Exabyte = 10 6 Petabyte = 10 9 Terabyte
8. 8
Datos en Reposo
Deben procesarse
TB-EB
Datos en Movimiento
Datos en “streaming”,
no almacenados,
decision necesaria en
ms
Datos con múltiples
formatos
Estructurados, no
estructurados,
texto, multimedia
Datos ruidosos
Fiabilidad de los datos:
desfasados, incom-
pletos, conflictivos,
irónicos, equivocados,
vagos, erróneos
Volumen Velocidad Variedad Veracidad
¿Qué es Big Data?
Grande
App Clásicas
Tiempo Real
M2M
No estructuradosDocs Corporativos
Calidad
Social Media
9. 9
Volumen
Registros de préstamos
analizados cada día
180millones
Velocidad
Cálculos de datos de bonos
en 1 minuto
2billones
Variedad
Emails analizados
mensualmente
40millones
Analizar más préstamos
por niveles de riesgo y
patrones de fraude
Analizar más
profundamente para
descubrir sentimiento y
actitudes de los clientes
Descubrir riesgo e identificar
oportunidades más rápido
que antes
º de negocio no confían en la información
que usan para tomar decisiones
Confirmar la
Veracidad de las
fuentes Big Data
Retos y oportunidades en Banca
10. 10
Volumen
4petabytes
Velocidad
248millones
Variedad
datos no estructurados
80%
… de datos de
modelización de
climatología para la
optimización de la
situación de
aerogeneradores
…de una smart grid,
predicciones de tiempo,
documentos, etc.
…lecturas diarias en un
proyecto estándar de
contadores inteligentes
6.000 millones $ perdidos en US
anualmente debido a pérdidas no
técnicas
Retos y oportunidades en Utilities
Confirmar la
Veracidad de las
fuentes Big Data
11. 11
Volumen
>1000Millones
Velocidad
6000
Varieda
d
Perfiles de Redes
Sociales
Analizar enormes volúmenes
de datos para conseguir una
“nítida” vista de 260º del
cliente
Los clientes envían
variedad de datos -–
blogs, videos, emails,
pins, tweets, etc.
Conocer dónde están los
clientes para ofertas
lanzadas en tiempo real
abonados de móvilesPosts de facebook diarios
y crecimiento de datos
empresarial
Millones 2800Millones
Retos y oportunidades en Retail
º de negocio no confían en la información
que usan para tomar decisiones
Confirmar la
Veracidad de las
fuentes Big Data
12. 12
Exploración,
landing y
archivo
Enterprise
warehouse
Gobierno de la Información
Analítica en Tiempo Real
Data mart
Analytic
appliances
Información
Operacional
Experiencia de
cliente
Gestión del
Riesgo
Mejoras
económico-
financieras
Fuentes de Datos
SISTEMAS-SEGURIDAD-ALMACENAMIENTO
Datos de
aplicaciones y
transformaciones
Datos de
máquinas y
sensores
Contenido
Empresarial
Datos de
Redes
Sociales
Imagen y video
Datos de
Terceros
Enterprise
warehouse
Data mart
Appliances
Analíticos
Reporting, análisis,
analítica contenidos
Modelización
predictiva
Apoyo a Toma de
Decisiones
Descubrimiento y
exploración
S. Cognitivos
+
+
Gestión de
Operaciones
y del Fraude
Ahorros IT
Nuevos modelos
de Negocio
Aplicaciones
Mejoradas
Area de
Entendimiento
Arquitectura de Nueva Generación
13. 13
Exploración y Descubrimiento
Text Analytics
Motor Búsqueda
Metadata Extraction
Resultados WebFeedsSubscripciones
Ruting Federación Queires
Framework Aplicación
Modelo Entidad
Aplicaciones Vista 360O
Extendida
User Profiles
Aplicaciones Exploración
CM, RM, DM RDBMS Feeds Web 2.0 Email Web CRM, ERP
File Systems
Framework
Conector
MDM
14. 14
Plataforma Hadoop
• Datos almacenados en un sistema de ficheros distribuido en múltiples ordenadores económicos (intel)
• Se puede operar con funciones en los datos
• Escalable a miles de nodes y petabytes de datos
Aplicación MapReduce
1. Fase de Mapeo
(divide el trabajo en
muchas partes)
2. Fase de Combinación
(transfiere el output para
procesamiento final)
3. Fase de Reducción
(Reduce todo el output a un
juego sencillo de datos)
Devuelve un conjunto sencillo
de resultados
Juego resultado
Combinar
public static class TokenizerMapper
extends Mapper<Object,Text,Text,IntWritable> {
private final static IntWritable
one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text val, Context
StringTokenizer itr =
new StringTokenizer(val.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWrita
private IntWritable result = new IntWritable();
public void reduce(Text key,
Iterable<IntWritable> val, Context context){
int sum = 0;
for (IntWritable v : val) {
sum += v.get();
. . .
public static class TokenizerMapper
extends Mapper<Object,Text,Text,IntWritable> {
private final static IntWritable
one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text val, Context
StringTokenizer itr =
new StringTokenizer(val.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWrita
private IntWritable result = new IntWritable();
public void reduce(Text key,
Iterable<IntWritable> val, Context context){
int sum = 0;
for (IntWritable v : val) {
sum += v.get();
. . .
Distribuye tareas al
cluster
Nodos de datos
16. 16
Data Warehousing de Alto Rendimiento
• Velocidad
– Considerar un appliance optimizado para
analítica
• Aceleración de queries basada en HW
• Procesamiento masivamente paralelo
(MPP)
• Base de Datos In Memory
• Escalabilidad
– Hasta petabytes
– Arquitectura en paralelo
• Simplicidad
– Integrar SW, procesador y
almacenamiento
– Facilitar interfaces estándar
– Minimizar gestión y optimización
Analítica
Avanzada
Analítica
Avanzada
CargadorCargador
ETLETLBIBI
Aplicaciones
FPGA
Memoria
CPU
FPGA
Memoria
CPU
FPGA
Memoria
CPU
Hosts
Host
Almacenar Procesar Conectar
Procesamiento Masivamente Paralelo (AMPP™)
Orquestrar
17. 17
Analítica de Texto
• Analiza texto y detecta significados con
anotadores
• Comprende el contexto en el que se
analiza el texto
• Incorpora anotadores preconstruidos
para construcciones estándar de texto
como nombres, direcciones, números
de teléfono, etc.
• Convierte información desestructurada
en texto estructurado
– Análisis de sentimiento
– Conducta del consumidor
– Actividades ilegales
– …
18. 18
Gobernanza del Big data
• Integrar cualquier tipo de dato
– Estructurado
– No estructurado
– Streaming
• Gobernanza
– Asegurar datos sensibles
– Gestionar el ciclo de vida del dato para
controlar el crecimiento de datos
– Perfiles de fuentes de datos
– Validar y gestionar la calidad de los datos
– Gestionar la metadata para trazar el linaje de
los datos
– Datos maestros, integrarlos y extenderlos con
big data para hacerlos fiables
Data Archiving
Data
Masking
Test Data Management Application RetirementDiscover
PartnerPartner--delivered Solutionsdelivered Solutions
19. 19
Comprende lenguaje
natural y estilo de
comunicación humano
Evoluciona y aprende
mediante entrenamiento,
interacción y resultados
Genera y contrasta
hipótesis basadas en
evidencias
1 2
3
• Me comprende
• Me involucra
• Aprende y mejora en el tiempo
• Me ayuda a descubrir
• Genera confianza
• Tiene una enorme capacidad analítica
• Opera en tiempo real
Los sistemas cognitivos representan
una nueva era de Computación
Watson de IBM
20. 20
Sistemas Seguridad
Instalación propia, Cloud, Como un Servicio
Almacenamiento
Infraestructura de Big Data Y Analytics
Aplicaciones
Nuevas/Mejoradas
Datos
Zona de
analítica en
tiempo real
Zona de DW
Corporativo y
appliances
Zona de Gobernanza de Información
Zona de
aterrijzaje,
exploración y
archivado
Ingestión de
información y
zona de
información
operacional
¿Qué podría
ocurrir?
Modelos
predictivos
¿Qué acción
tomar?
Toma de
Decisiones
¿Qué está
ocurriendo?
Descubrimiento
y exploración
¿Por qué
ocurrió?
Reporting,
anáisis,
análisis de
contenidos
Fábrica
cognitiva
Big Data & Business Analytics
No existe lo uno sin lo otro
22. 22
El problema de los Datos
• Hay una desproporción en el tiempo empleado en preparación de datos en los proyectos de Análisis
• El Big Data complicará más la situación con la adición de datos de múltiples formatos y la ingesta en
tiempo real
23. 23
Una demanda creciente….
Negocio quiere...
• Acceso abierto a más información
• Herramientas de análisis y visualización
más potentes
A los equipos IT …
• les preocupan los costes
• les preocupan los requisitos de gobernanza y regulatorios
24. 24
¿Lagos o Pantanos?
• A medida que recogemos datos
– Podemos preservar la claridad?
– ¿Conocemos lo que recogemos?
– ¿Podemos encontrar lo que necesitamos?
• ¿Estamos creando pantanos de
datos?
• ¿Cómo construimos confianza en Big
Data?
– ¿Sabemos para qué se usan los datos?
¡Hay que gobernar el dato!
25. 25
¿Qué es un lago de datos?
• Un lago de datos facilita datos a una
organización para realizar análisis de todo
tipo
• Es posible introducir el análisis en el lago de
datos para generar conocimiento adicional de
los datos cargados
• Un lago de datos gestiona repositorios
compartidos de información para analizarla
• Cada repositorio del lago de datos se
optimiza para un procesamiento particular
• Los datos pueden replicarse en
múltiples repositorios en el lago de
datos y tener distintos
significados/usos
Lago de Datos
Gestión de Información y Gobierno del Dato
Servicios del Lago de Datos
Repositorios del Lago de
Datos
26. 26
Arquitectura lógica
Data Lake
Catalog
Interfaces
DataLakeRepositories
Harvested
Data
Information Warehouse
Deep Data
Advanced Data
Provisioning
Descriptive
Data
Information
Views
Shared
Operational
Data Operational
Status
Inter-lake
Exchange
Deposited
Data
Catalog
Data Refineries
Real-time
Interfaces
Information
Ingestion
Publishing
Feeds
Code
Hub
Information
Integration &
Governance
Information
Broker
Information
Broker
Operational
Governance
Hub
Operational
Governance
Hub
Code
Hub
Code
Hub
MonitorMonitor WorkflowWorkflowStaging AreasStaging Areas
Real-time
Analyics
Streaming
Analytics
Streaming
Analytics
Content
Hub
Events to
Evaluate
Information
Service Calls
Data Out
Data In
Information
Federation
Calls
Notifications
Understand
Information
Sources
Deploy
Decision
Models
Information
Service Calls
Search
Requests
Report
Queries
Understand
Information
Sources
Curation
Interaction
Management
Data
Export
Data
Import
Understand
Compliance
Information
Service Calls
Data
Export
Advertise
Information
Source
Deploy
Real-time
Decision
Models
Data
Import
Analyst
Interaction
Reporting
Data Marts
Information
Access
Find
Curate
Access
Provision
27. 27
Resumen
• A medida que la analítica de una organización se hace más compleja, será
necesario:
– Acceder a datos históricos de muchos sistemas
– Estos datos incluyen datos sensible y valiosos que son el núcleo de la operación
– Hadoop felxible para almacenar muchos tipos de datso, pero no es suficientemente rápido
para alguna analítica en producción. Los datos necesitan ser reformateados y copiados en
una plataforma especializada paa el análisis
• Un lago o embalse suministra:
– Un extracción sencilla de datos
– Catalogar y gobernar el dato
– Interfaces sencillos para que la línea de negocio acceda a la infomración que precisan
Lago de Datos = Gestión eficiente, Gobernanza, protección y acceso
29. 29
Cambios en el Paradigma Analítico
TRADITIONAL APPROACH
Analyze small subsets
of information
Analyzed
information
All
available
information
BIG DATA & ANALYTICS APPROACH
Analyze
all information
All
available
information
analyzed
Aprovechar más de los datos que se están capturando
Lpos datos dirijen y algunas veces las correlaciones son
bastantes buenas
Reducir el esfuerzo requerido para aprovechar los datos
Aprovechar los datos a medida que se capturan
TRADITIONAL APPROACH
Carefully cleanse information
before any analysis
Small amount of carefully
organized information
BIG DATA & ANALYTICS APPROACH
Analyze information as is,
cleanse as needed
Large
amount
of messy information
Hypothesis Question
DataAnswer
TRADITIONAL APPROACH
Start with hypothesis and
test against selected data
BIG DATA & ANALYTICS APPROACH
Explore all data and
identify correlations
Data Exploration
CorrelationInsight
Repository InsightAnalysisData
TRADITIONAL APPROACH
Analyze data after it’s been processed and landed
in a warehouse or mart
Data
Insight
Analysis
BIG DATA & ANALYTICS APPROACH
Analyze data in motion as it’s generated,
in real-time
30. 30
Cambios en el Paradigma Analítico
Predecir y decidir la mejor acción
Sistemas cognitivos
Análisis intuitivo para cualquiera
Análisis cómo y cuándo lo necesitas
TRADITIONAL APPROACH
the realm of the specialist
BIG DATA & ANALYTICS APPROACH
embedded in everything
TRADITIONAL APPROACH
Scheduled
BIG DATA & ANALYTICS APPROACH
Real-time
TRADITIONAL APPROACH
Pre-programmed analysis
on structured data
BIG DATA & ANALYTICS APPROACH
Learn to sense and predict using
all types of information
TRADITIONAL APPROACH
What has happened and why
BIG DATA & ANALYTICS APPROACH
What will happen and what should you do
32. 32
Chief Data Officer
Fuente: IBM Institute for Business Value, “The New Hero of Big Data and Analytics, The Chief Data Officer”, June 2014
Es un líder de negocio que crea y ejecuta datos y
estrategia de análisis para generar valor en su negocio
Es responsible de definir, desarrollar e implantar la
estrategia y los métodos por los que la organización
adquiere, gestiona, analiza y gobierna sus datos.
También se hace cargo de identificar nuevas
oportunidades de negocio mediante un uso creativo de
los datos corporativos
34. 34
Entregar valor de negocio es la primera
prioridad del CDO
scarce
1. Experiencia
Cliente/
Ciudadano
2. Eficiencia
operacional
mejorada
3. Capacidad
mejorada para
innovación
3 impulsores
para el CEO
36. 36
Innúmeros casos de uso en cada
industria
Seguros
• Vista 360 del sujeto
• Modelización
catástrofes
• Fraude y Abuso
• Analítica de
rendimiento producto
Banca
• Optimización de ofertas
• Servicio a clientes y
eficiencia
• Detección e
investigación de fraude
• Riesgo de crédito y de
contrapartida
Telecom.
• Call Center proactivo
• Analítica de Red
• Servicios basados en
localización
Energía y
Utilities
• Analítica de Smart
Meter
• Predicción/
planificación de carga
• Mantenimiento basado
en condición
• Ofertas a clientes
(TOU)
Medios y
Entretenimiento
• Transformación de
procesos de negocio
• Optimización de
audiencias y
marketing
• Campañas multicanal
• Optimización de
comercio digital
Retail
• Analítica de Cliente y
Fidelización
• Optimización de
Mercancías
• Precios óptimos
Transporte y
Turismo
• Analítica de Cliente y
Fidelización
• Analítica de
Mantenimiento
Predictivo
• Optimización de
Capacidad y Precios
Gran
Consumo
• Disponibilidad Estante
• Optimización de Trade
Funds
• Cumplimiento de
mercancías
• Alertas/Excepciones de
promociones
Gobierno
• Servicios públicos
• Defensa e Inteligencia
• Servicios fiscales y
tributarios
Salud
• Medir y actuar sobre
los resultados de salud
• Involucrar a los
consumidores en su
salud
Automoción
• Monitorización
avanzada de condición
• Optimización Data
Warehouse
• Analítica de Cliente y
Fidelización
Farmacia
• Aumentar la visibilidad
de la seguridad y
efectividad de los
medicamentos
Química y
Petróleo
• Vigilancia, Análisis,
Optimización
Operacional
• Optimización Data
Warehouse
• Investigación Upstream
Aviación y
Defensa
• Plataforma de Acceso
Información Uniforme
• Optimización Data
Warehouse
• Plataforma de
Certificación Aerolínea
• Monitorización
avanzada de condición
Electrónica de
Consumo
• Analítica de clientes/
canal
• Monitorización
avanzada de condición
37. 37
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
38. 38
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
39. 39
Exploracion: Necesidades
Luchar para gestionar y
extraer valor de las 3 V’s en
la empresa; necesidad de
unificar la información en
fuentes federadas
Incapacidad de relacionar los datos
“brutos” recogidos de logs de
sistema, sensores, clickstreams,
etc., con datos de clientes y de
negocio
Riesgo de exponer información de
identificación personal y/o datos
privilegiados debido a carencias
de conciencia de la sensibilidad
de la información
Encontrar, visualizar, comprender todos los datos para
mejorar el proceso de toma de decisiones
40. 40
Call Center
Highly relevant, secure &
personalized results
Access all sources
or individual source
Refinements based
on metadata
Dynamic
categorization
Narrow down results set
Setup alert to
notify change
Identify topical experts
Tag results
Rate results
Comment results
Store &
share results
44. 44
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
45. 45
Necesidades
Necesita una mayor
comprensión del
sentimiento de la clientela
Extender las vistas actuales de clientes (MDM,
CRM, etc.) añadiendo fuentes de información
internas y externas
Deseo de mejorar la
fidelización (activa) del
cliente y la satisfacción
identificando acciones
significativas
necesarias
Desafío en facilitar la
información correcta a los
decisores para suministrar a los
clientes lo que realmente
necesitan (resolver problemas,
cross-sell, etc.)
47. 47
Pisadas
Sociodemográficos y Conducta
Tránsito
• Patrones de movimiento de personas y
patrones de estancia
• Análisis por hora y día
• Inferencia para métricas de estancias
dentro de edificios
• Perfil sociodemográfico combinado con
movimiento
• Edad, género, país, dirección vivienda,
dirección trabajo, tipo dispositivo (datos,
status), patrón de actividad
• Inferencia de rutas de transporte público
incluyendo carreteras, trenes, autobuses
GeoMarketing 2.0 / Geofencing
48. 48
Big Data DWBig Data DW
Datos linealesDatos lineales
Datos no
lineales
Datos no
lineales
Datos
suscripción
Datos
suscripción
Datos afinidad
y de gasto
Datos afinidad
y de gasto
Datos Redes
Sociales
Datos Redes
Sociales
Marketing/ ResearchMarketing/ Research
VisualizaciónVisualización
Motor de
Reglas
Análisis PredictivoAnálisis Predictivo
Datos
demográficos
Datos
demográficos
Gestión de Campañas
multicanal
Gestión de Campañas
multicanal
Procesado
Tiempo Real
Procesado
Tiempo Real Desarrolla modelos predictivosDesarrolla modelos predictivos
2
VinculaciónVinculación
Perfil 360ºPerfil 360º
Tipo FanTipo Fan
Crear lista de prospectos mediante
modelos predictivos y producir
campañas de marketing
Crear lista de prospectos mediante
modelos predictivos y producir
campañas de marketing
3
PropensiónPropensión
ChurnChurn
PortalPortal
Text
Mining
Lista de Prospectos
Fan
Lista de Prospectos
Fan
No
estructurado
EstructuradoEstructuradoExtraer datos y
ejecutar
integración de
entidades para
crear perfiles
individuales
Extraer datos y
ejecutar
integración de
entidades para
crear perfiles
individuales
1
InfluenciaInfluencia
Análisis de Público Objetivo basado en
Fans
49. 49
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
50. 50
Necesidades
Inteligencia
mejorada y
Vigilancia
Predicción y
mitigación de
ciberataques en
tiempo real
Analizar el tráfico de red para:
• Descubrir nuevas amenazas tempranamente
• Detectar amenazas complejas conocidas
• Actuar en tiempo real
Analizar datos sociales y de
telecomunicaciones para:
• Reunir evidencia criminal
• Prevenir las actividades criminales
• Prender criminales proactivamente
Predicción y
protección de
crímenes
La extensión de Seguridad/Inteligencia mejora las
soluciones de seguridad analizando todo tipo de
fuentes
Analizar datos en movimiento y
parados para:
• Encontrar asociaciones
• Descubrir patrones y hechos
• Mantener la actualidad de la información
51. 51
Información s de
Seguridad y
Gestión de
Eventos (SIEM)
Conectores
Data
Warehouse
Sistema de
Monitorización de
Vigilancia
Sistema de
Seguimiento de
Información
Criminal
Conectores
Datosnoestructurados/enstreaming
DatosEstructuradosTradicionales
• Análisis profundo
• Análisis
operacional
• Gestión de datos
estructurado de
alto volumen
Appliancedemonitorizacionde
telemetríadered(Opcional)
Ingesta y
procesamiento en
tiempo real
• Video/audio
• Red
• Geoespacial
• Predictivo
Almacenamiento y
Análisis
• Text mining
• Data mining
• Machine learning
Análisis de
Entidades/ Relaciones
Modelo Conceptual
52. 52
Adaptarse a
cambios en
negocios
clientes
productos
Evolución
Problemas
Integridad?
Consistencia
del proceso
de gestión de
riesgo de
crédito
Informar
involucrados
Reportar
Reporting
Limitado
Reporting
limitado de
exposiciones
y colaterales
Limitar el
daño usando
cobertura
Cobertura
Respuesta
a Tiempo
Falta de
herramientas
de
monitorización
de crédito
Reunir datos
de posiciones,
mercados,
oportunidades
, etc.
Preparar
Datos
Históricos
Muchos datos,
cambiando
muy rápido,
demasiada
variedad
Estimar
Ratings y
exposiciones
Exposición
Cálculos
Scoring
Complejos
Los cálculos
de scoring
necesitan
hacerse más
rápido
Comparar
exposición
agregada
contra límites
Límites
Demasiados
datos
No hay simple
vista del
riesgo de
crédito
(muchas
vistas)
Determinar
reqs. capital
Capital
Minimizar
Costes
Optimización
de las pérdi-
das de crédito,
capital,
colaterales
Stress testing
y Análisis de
Escenarios
Stress
Demasiados
What ifs?
Múltiples
escenarios de
stress ad hoc
Mitigación de
riesgos
legales
Documentos
Gestión
Información
Gestionar
datos no
estruc. de
oportunidades
y colaterales.
Reporting y
búsqueda
Datos no
estructurados:
Análisis de sentidos
como Análisis de
Entidades
Otras fuentes de
datos como
geoposicionamiento,
redes sociales
Análisis en
Tiempo Real:
Cálculos en casi
tiempo real
Appliance/función
calidad streams
Escalabilidad:
Capacidad a nivel
de petabytes para
grandes portfolios
de crédito
Gestión de Datos:
MDM para las
entidades de
contrapartida legal
App. Riesgo:
App de riesgo de
crédito y
colaterales
Análisis masivo:
10-100x más
rápido que
sistemas
tradicionales con
empleo de
Appliance
Gestión de Riesgos
53. 53
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
54. 54
Necesidades
• Ganar una visibilidad en tiempo real de las
operaciones, experiencia de cliente,
transacciones y conducta
• Planificar proactivamente para mejorar la
eficiencia operacional
Analizar una variedad de datos máquina para
mejorar los resultados de negocio
La capacidad de analizar datos máquina y
combinarlos con los datos corporativos
obteniendo una vista completa puede capacitar
a las organizaciones a:
• Identificar e investigar anomalías
• Monitorizar la infraestructura punto a punto
para evitar proactivamente la degradación del
servicio o las cortes
56. 56
Análisis de los Datos Máquina (M2M)
App. Server Logs
Web Access Logs
Web Proxy Logs
Clickstream Data
Message Queues
System Logs
Configuration Files
Database Audit
Logs and Tables
Facility Systems
Sensor Data
Smart Meters
HDFS Logs
Utility Systems
Datos en reposo
Ingestión Datos
Datos en movimiento
Extractores
Estructurado
Análisis texto
Procesamiento
Algoritmos adaptativos
Indexado
Búsqueda
Causa raíz
Análisis
Análisis Patrones
Detección de Anomalías
Análisis Predictivo
Queries Dinámicas
Tiempo real
Solución de Negocio
Visualización
No estructurado
Correlación
57. 57
Detección de Anomalías
Datos históricos Ultimos datos
1. Para cada punto de suministro se
identifican otros puntos que tengan
conducta de consumo similar
200D
5E
15C
10B
100A
LecturaContador
2. Se identifica cuánto se desvía
el último consumo del grupo
3. Se identifican los consumos más
anómalos para centrar la investigación
58. 58
Network Analytics
Análisis en tiempo real del uso de los clientes y de su experiencia de los
servicios de datos y aplicaciones, para mejorar la experiencia de cliente
Recogida y extracción
de datos
Mediación, Correlación y
Análisis
Aplicaciones
Soluciones
1. Servicio a Clientes: priorizar problemas de clientes
2. Operaciones de Red: impacto de los eventos de red (cuellos de botella,, llamadas caídas, cortes, etc.) en la
calidad de la experiencia de los abonados
3. Ventas & Marketing: aumentar la tasa de aceptación
59. 59
Exploración
Encontrar, visualizar, comprender
los Big Data para mejorar el proceso
de decisión
Vista 360º cliente mejorada
Extender las vistas de clientes (MDM,
CRM, etc) incorporando fuentes de
información internas y externas
Inteligencia Operacional
Analizar una variedad de datos máquina para
mejorar la eficiencia operacional
Aumento del Data Warehouse
Integrar las capacidades de big data y de data
warehousing para mejora de resultados de negocio
Seguridad/Inteligencia
Aumentada
Reducir riesgo, detectar fraude y
monitorizar seguridad en tiempo
real
Las 5 Categorías de Casos de Uso
60. 60
Necesidades
Necesidad de usar variedad de datos Extender la infraestructura
• Almacenamiento optimizado, mantenimiento y costes de
licenciamiento para migrar datos raramente usados (fríos)
a Hadoop
• Costes de almacenamiento reducidos por procesamiento
inteligente de datos en streaming
• Rendimiento del data warehouse mejorado determinando
Integrar las capacidades de big data y de data
warehouse par amejorar la eficiencia operacional
• Análisis profundo en streaming de datos
estructurados, no estructurados
• Requerimientos de latencia baja (horas – semanas)
• Se requiere acceso a los datos
61. 61
Valor y Modelo Conceptual
Pre-Processing Hub Query-able Archive Exploratory Analysis
Information
Integration
Data Warehouse
Streams
Real-time
processing
BigInsights
Landing zone for
all data
Data Warehouse
BigInsights
Can combine with
unstructured
information
Data Warehouse
1 2 3
Find and view the
data
Data Explorer
Data Explorer
BigInsights
Streams
Offload analytics for
microsecond
latency
62. 62
Aplicar políticas de retención de datos
Capturar objetos de negocio completos
Preservar integridad de datos
Preservar metatada
Cargar datos a Hadoop según sea necesario
Archivar “Datos Fríos”
Almacén interrogable
utilizando Hive en
Hadoop
Archivar y purgar datos
InfoSphere
Optim
Archivos comprimidos,
auditables, y restaurables
Base de Datos
Distribución
Hadoop
Ficheros
Archive
Offloading
64. 64
Resultados
Interacciones proactivas
Aceptación mejorada de ofertas
Satisfacción clientes mejorada
Datos Externos
Cliente
Credit bureaus,
demográficos
(datos comprados)
• Detección eventos tiempo real
• Microsegmentación
• Sentimiento y Satisfacción
• Optimizar ofertas y timing
• Modelos predictivos más rápidos
y precisos
Nuevas
Capacidades
Geoespacial
Latitud, longitud (X,Y)
Social
Actitudes,
preferencias
Datos Internos
Clientes
Estructurados & No
Estructurados
Contact Center
Notas y chats,
Interaccion con cliente
Transacciones
Multicanal
(Web, call-center,
oficinal)
Eventos
Triggers conducta
cliente
Correspondencia
Emails y chats
Optimización de ofertas y venta cruzada
65. 65
Resultados
Identificar oportunidades de trading rentables
Crear una adecuada estructura de pricing para
reducir los picos de demanda
Cumplir los objetivos de uso de nergía
renovables
Evitar sobrecargar la red de transmisión y
distribución
• Predicción de patrones de demanda
• Predicción de resultado de energía
renovable
• Predecir la necesidad de comprar o
la oportunidad de vender energía
en el mercado abierto
• Optimizar la planificación de
generación
Nueva
capacidad
Topografía de Distribución
de Energía
Planificación de
mantenimiento de
Equipamiento
Optciones de Generación de
Energía
•Patrones demanda históricos
•Límites de capacidad de activos
•Planes de producción industrial
Tiempo
•Predicciones
•Alertas
Geoespacial y Temporal
Datos GIS
Clientes
Sensibilidad al
precio por tiempo
de uso (TOU)
Trading
Datos de
mercado
actuales y
previstos de
precios de fuel
y energía
Predicción y planificación de carga en
Utilities
66. 66
Resultados
Reducir los costes de marketing
Reducir abandonos
Incrementar fidelización
Ejecutar tácticas efectivas de Marketing
• Microsegmentación de
clientes y vista 360º extendida
• Obtener más conocimiento
del análisis de sentimiento y
de satisfacción
• Entregar ofertas a clientes a
tiempo
Nueva
capacidad
Geoespacial
Latitud, longitud
(X,Y)
Social Media
Sentimiento, intención,
preferencias,…
Clickstream
Actividades Online
cliente
Socidemográficos,
transacciones y
patrones de compra
POS
Logs
Transaccional
Video
Vigilancia,
tráfico de pies en la
tienda
Eventos
Tiempo, eventos
locales
Call Center
Llamadas: texto y audio
Email
Analizar texto
para encontrar
patrones
Competidores
Producto, pricing, etc.
Optimización de carga en Retail
68. 68
Fabricante aeroespacial global
incrementa la eficiencia de la fuerza
laboral y ahorra 36M$ anualmente
• Necesidad
– Los retrasos en resolución de problemas
de mantenimiento son caros y
potencialmente incurren en penalizaciones
financieras por tener equipos fuera de
servicio
– Aumentar la eficiencia de su
mantenimiento y apoyar a los técnicos,
personal de apoyo e ingenieros
• Beneficios
– Dar apoyo a 5,000 agentes de servicio
– Uso de manuales de papel eliminado que
previamente se empleaban para
investigación
– Poner en servicio más de 40 aviones
adicionales sin más personal de apoyo
– Tiempo de llamadas de servicio reducido
en un 70% (de 50 a 15 min)
69. 6969
Compañía de Emailing Americana analiza
miles de millones de emails no
estructurados
Necesidad
Sus clientes envían 35 millardos de emails cada año (a
sus bases de clientes)
• Analizar la efectividad de emails es crítica
para el éxito del cliente
• Poder analizar las tendencias
• Reducir el tiempo de enviar emails
• Saber qué contenidos son más efectivos en
campaña
Beneficios
• 40X mejora de rendimiento
• Tiempo de análisis reducido de horas a
segundos
• Mejora directamente la experiencia de
clientes 15%-25% mejora de respuesta de las
campañas
• Fácil de usar por la organización
• Mejora los sistemas de análisis
70. 70
Fabricante de tecnología de datos en
streaming de sistemas de vigilancia
• Necesidad
– Desplegar un sistema de vigilancia para
detectar, clasificar, localizar, y rastrear
amenazas potenciales en un laboratoro
nacional altamente sensible
• Beneficios
– Tiempo de captura reducido para analizar
275MB de datos acústicos de horas a 1/14
de segundo
– Análisis de datos en tiempo real de
diferentes tipos de sensores y 1,024 canales
individuales para apoyar el perímetro de
seguridad
– Respuesta más rápida e inteligente a
cualquier amenaza
71. 71
Un mercado de Bolsa amerciano
mejora notablemente el rendimiento
de su gestión de información
Necesidad
• Mayor flexibilidad para cumplir las
demandas del mercado
• Reducir el tiempo necesario para
acceder a datos críticos de negocio
en su red, que solía ser 26 horas
• El anterior sistema era ineficiente
en las búsqueda rastreando
múltiple información irrelevante
Beneficios
• Capacidad de ejecutar rápidas
búsquedas de 650 Tb ;
almacenando alrededor de 1Pb
• El tiempo de acceso a datos
críticos de negocio se ha reducido
de 26 horas a 2 minutos
72. 72
Bureau Salud Asiático reduce
errores de diagnóstico
Necesidad
• El servicio telemédico de diagnóstico
por imágenes tiene como objetivo
aumentar la salud rural
• Automaticamente mueve y analiza
grandes collecciones de imágnes
buscando anomalías y enfermedades
• Hace posible que radiólogos y
patólogos analicen 1000s imágenes de
pacientes cada día
Mejoras esperadas:
• Reducción en errores de diagnóstico
• Resultados mejorados aprovechando el
tratamiento médico de casos similares
73. 73
El Instituto de la Universidad de
Ontario detecta los síntomas de
neonatos con anterioridad
• Ejecuta analítica en tiempo real utilizando
datos fisiológicos de los neonatos
• Correlaciona datos continuamente de
monitores médicos para detectar cambios
sútiles y alertar al personal médico antes
• El sistema avisa a los cuidadores de
posibles complicaciones
Beneficios:
• Ayuda a detectar condiciones de amenaza
hasta 24 horas antes
• Reducción de mortandad infantil y mejora
de los cuidados de los pacientes
74. 74
Una gran organización no lucrativa de
I+D conduce una proyecto de
demostración regional para validar las
tecnologías de smart grid
• Necesidad
– Reunir y analizar datos del rendimiento
de la smart grid de 15 sitios de prueba
que representan el terreno,
meteorología, y demografía de la
región para derivar conocimiento y
validar las tecnologías smart grid
• Beneficios
– 50% de caídas a corto plazo en horas
punta
– 15% de caidas en picos generales
– 10% reducción de las facturas de
electricidad (recomendaciones de
consumo)
– 70 mil M$ de ahorros proyectados en
20 años
– Poder analizar 10 Pb en minutos
75. 75
Ayudar a reducir los costes de
energía y la fiabilidad y rendimiento
de la red
Necesidad
• Validar la viabilidad de una técnica de la
smart grid llamada control transactivo
Beneficios
• Une a consumidores con activos mediante
un sistema de señal-respuesta optimiza el
sistema e integrar mejor los recursos
renovables
• Permite analizar y ganar conocimiento de
10Pb en minutos
• Aumenta la eficiencia y la fiabilidad de la
red mediante la auto-monitorización y
feedback
• Se capacita a la ciudad para evitar una
potencial caída de tensión
75
76. 76
Fabricante de aerogeneradores
optimiza inversiones de capital
Necesidad
• Definir modelos climáticos para
optimizar la localización de las turbinas,
maximizando la generación de energía y
la vida residual del equipamiento
Beneficios
• Reduce el tiempo requerido para
identificar la localización de la turbina
de semanas a horas
• Reduce los costes de IT y disminuye el
consumod e energía en un 40%
• Incorpora 2,5Pb de flujos de información
estructurada y no estructurada. Se
espera que el volumen de datos crezca
hasta 6Pb76
77. 77
Detección de cambios
medioambientales de recursos hídricos
en tiempo real
Necesidad
• Recoger y procesar múltiples flujos de datos físicos,
químicos, y biológicvos de sensores instalados en la
Bahía de Hudson
• Los datos de sensores se analizan junto con datos
meteorológicos y se agregan
• Los datos medioambientales en tiempo real se
entregan en formato estándar a los científicos,
ingenieros, políticos y educadores
Beneficios
• Estimula la colaboración publicando los datos del
mundo reales a sistemas externos, investigadores, y
políticos
• Ayuda a la gestión de recursos a responder más
efectivamente ante cambios en los recursos hídricos
locales
7777
78. 78
Centro de la Ciudad de Dublin:
sistema de control de tráfico robusto
y eficiente que
Necesidad
• Una solución eficiente en presupuesto para
mejorar el sistema de control de tráfico
• Su objetivo es incrementar la precisión en
detección de eventos, inferencia de las
condiciones de tráfico (velocidad) y predicción
de llegada de autobuses
• El resto es analizar adecuadamente los datos
GPS, que son normalmente masivos y difíciles de
capturar
Beneficios
• Monitorizar 600 autobuses de 150 líneas
diariamente
• Analizar 50 actualizaciones de localizaciones de
autobús por segundo
• Recoge, procesa y visualiza los datos de
localización de todos los vehículos de transporte
público
7878
80. 80
Seleccionamos
sectores
industriales de
interés
1
2
3
4
5 6
Definimos la
necesidad,
problema u
oportunidad de
negocio
Identificamos la
idea innovadora
que nos permite
implantar la
tecnología
Listamos los
datos estructu-rados y no
estructurados
Enumeramos losbeneficios o
nuevas
capacidades desu implantación
Dibujar la
arquitectura
conceptual de la
solución