AWS Big Data análisis opciones

© 2015, Amazon Web Services, Inc. o sus empresas afiliadas. Todos los derechos reservados.
Cindy Polin
Enterprise Solutions Architect
Abril, 2017
Introducción a Big Data
Opciones de análisis de AWS y casos
de uso comunes

Índice
• Introducción a Big Data para AWS
• Opciones de análisis de Big Data en AWS
• Prácticas de uso recomendadas y no recomendadas
• Desempeño y costo
• Durabilidad y escalabilidad
• Interfaces
• Creación de soluciones de análisis de Big Data: enfoque de AWS
• Ejemplos de escenarios

Big Data en AWS
Disponibilidad inmediata. Implementación instantánea. Sin tener
que adquirir hardware ni mantener o escalar la infraestructura.
Confiabilidad y seguridad. Diseñado para cumplir los requisitos
más estrictos. Auditorías constantes, incluidas las de certificaciones
como ISO 27001, FedRAMP, DoD CSM y PCI DSS.
Capacidades robustas y numerosas. Más de 50 servicios y
cientos de características para respaldar prácticamente cualquier
aplicación y carga de trabajo de Big Data.
Cientos de socios y soluciones. Obtenga ayuda de un socio de
consultoría o elija entre cientos de herramientas y aplicaciones
que abarcan todos los aspectos de la administración de datos.

En tiempo real
Amazon Kinesis Firehose
Almacenamiento
de objetos
Amazon S3
RDBMS
Amazon RDS
NoSQL
DynamoDB
Ecosistema de Hadoop
Amazon EMR
En tiempo real
AWS Lambda
Amazon Kinesis Analytics
Almacenamiento
de datos
Amazon Redshift
Aprendizaje automático
Amazon Machine Learning
Inteligencia de negocio
y visualización de datos
Amazon QuickSight
En tiempo real
Amazon Kinesis Streams
Análisis con
búsquedas elásticas
Amazon ElasticSearch
Recopilar Almacenar Procesar y analizar Visualizar
Importación de datos
Amazon Import/Export
Snowball
IoT
Amazon IoT
Capacidades numerosas y estrechamente integradas

Envergadura
de petabytes
Procesamiento
masivo en paralelo
Almacén de datos relacionales
Administración completa, sin
intervención del administrador
Tan solo 1 000 USD/TB/año
mucho más rápido
mucho más
económico
muchísimo más
simpleAmazon Redshift

Amazon Redshift
• Prácticas de uso idóneas: análisis
• Datos de ventas
• Datos históricos
• Datos de juegos de azar
• Tendencias sociales
• Datos publicitarios
• Desempeño
• Procesamiento masivo en paralelo
• Almacenamiento en columnas
• Compresión de datos
• Mapas de zonas
• Almacenamiento directamente integrado
• Modelo de costos
• Sin costos iniciales ni compromisos a largo plazo
• Almacenamiento gratuito de copias de seguridad
equivalente al 100% del almacenamiento aprovisionado
Con el almacenamiento en
columnas, solo se leen los
datos que se necesitan

Amazon Redshift
• Escalabilidad y elasticidad
• Redimensionamiento o escalado: el número o tipo
de nodos se puede cambiar con solo unos clics.
• Durabilidad y disponibilidad
• Replicación
• Copia de seguridad
• Recuperación automatizada en caso de
errores de unidades y nodos
• Interfaces
• Interfaz JDBC/ODBC con herramientas de BI/ETL
• Amazon S3 o DynamoDB
• Prácticas de uso no recomendadas
• Conjuntos de datos pequeños
• OLTP
• Datos no estructurados
• Datos BLOB
10 GigE
(HPC)
Adquisición
Copia de
seguridad
Restauración
JDBC/ODBC

Adquisición de datos en streaming
Procesamiento de datos en tiempo real
Almacenamiento de terabytes de datos
por hora
Amazon Kinesis

• Prácticas de uso idóneas: adquisición
y procesamiento de datos en streaming
• Análisis de datos en tiempo real
• Admisión y procesamiento de datos; por ejemplo,
registros
• Métricas e informes en tiempo real
• Desempeño
• Capacidad de rendimiento en términos de
fragmentos
• Sin costos iniciales ni compromisos a largo plazo
• Precio de pago por uso
• Cargo por horas por fragmento
• Cargo por 1 millón de transacciones PUT

• Escala: aumento del número
de fragmentos
• Replicación
• Conservación del cursor
• Interfaces
• Entrada: datos entrantes
• Salida: datos salientes
• Kinesis Firehose
• Prácticas de uso no
recomendadas
• Rendimiento uniforme a pequeña escala
• Almacenamiento y análisis de datos a largo plazo

Lanzamiento de un clúster en minutos
Pago por horas y ahorro con las
instancias de subasta
MapReduce, Apache Spark, Presto
Amazon EMR

Amazon EMR
• Prácticas de uso idóneas
• Procesamiento y análisis de registros
• Movimiento de datos y ETL de gran tamaño
• Modelos de riesgos y análisis de amenazas
• Segmentación de anuncios y análisis de
secuencias de clics
• Genómica
• Análisis predictivos
• Minería y análisis de datos ad hoc
• Desempeño basado en:
• Tipo de instancia
• Número de instancias
• Pago por horas solo si el clúster está activo
• Instancia de EC2 y precio de EMR

Amazon EMR
• Cambio del tamaño de un clúster en ejecución
• Adición de más nodos principales o de tarea
• Tolerancia a errores de nodos esclavos (HDFS)
• Copia de seguridad en S3 para aportar
resistencia en caso de errores de nodos
maestros
• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk, Presto
y otras herramientas populares
• Conjuntos de datos pequeños
• ACID (atomicidad, uniformidad, aislamiento
y durabilidad)
Clúster de Amazon EMR

Base de datos NoSQL totalmente
administrada.
Latencia de milisegundos de un solo dígito
Admite documentos y pares de clave-valor
Amazon
DynamoDB

Amazon DynamoDB
• Aplicaciones móviles, juegos de azar, servicio de
anuncios digitales, votaciones en directo, redes de
sensores, adquisición de registros
• Control de acceso a contenido basado en Web,
carros de la compra para comercio electrónico
• Administración de sesiones web
• Desempeño
• SSD
• Rendimiento de aprovisionamiento por tabla
• Sin límite de la cantidad de datos almacenada
• Regulación ascendente o descendente de la
capacidad de lectura y escritura de una tabla
• Pago por uso
• Capacidad de rendimiento aprovisionada (por hora)
• Almacenamiento de datos indexados (por GB y mes)
• Transferencia de datos entrante o saliente (por GB y mes)
 Rendimiento de lectura/escritura aprovisionado por tabla
 Alto desempeño previsible escalado mediante consola o API

Amazon DynamoDB
• Tres zonas de disponibilidad (AZ)
• Interfaces
• Consola de administración de AWS
• API
• SDK
• Aplicación asociada a base de datos
relacional tradicional
• Uniones y transacciones complejas
• Datos BLOB
• Datos voluminosos con velocidad de
E/S baja
AZ A
AZ B
AZ C

Servicio administrado diseñado para facilitar
el uso del aprendizaje automático a
desarrolladores de todos los niveles.
Se basa en la misma tecnología de aprendizaje
automático que utilizan los propios científicos
de datos de Amazon desde hace años.
Amazon Machine Learning (ML) usa
implementaciones escalables y robustas de los
algoritmos de aprendizaje automático estándar
del sector.
Amazon
Machine Learning

• Permitir aplicaciones que marcan
transacciones sospechosas
• Personalizar el contenido de aplicaciones
• Predecir la actividad de los usuarios
• Escuchar las redes sociales
• Pago por uso
• No hay que administrar instancias,
solamente pagar el servicio
• Desempeño
• Predicciones en tiempo real diseñadas para
su devolución en 100 ms
• Posibilidad de gestionar 200 transacciones
por segundo de forma predeterminada
(se puede aumentar)

• Sin tiempos de mantenimiento ni de
inactividad programada
• Diseñado para abarcar varias zonas de
disponibilidad
• Entrenamiento de modelos de hasta 100 GB
• Posibilidad de ejecutar varias tareas de
aprendizaje automático a la vez
• Interfaces
• Creación de orígenes de datos desde S3,
RDS y Redshift
• Interacción con ML desde la consola, los
SDK y la API de ML
• Conjuntos de datos masivos para modelado
> 100 GB
• Predicción de secuencias o tarea de
clustering sin supervisar

Informática basada en eventos
totalmente administrada
Sin infraestructura que
administrar
Escalado automático
AWS Lambda

AWS Lambda
• Procesamiento de archivos en tiempo real
• Extracción, transformación y carga (ETL)
• Desempeño
• Procesamiento de eventos en
milisegundos
• Pago por uso
• No hay que administrar instancias,
solamente pagar el servicio
• La capa gratuita de Lambda incluye
1 millón de solicitudes gratuitas
1 2 3
Sin servidor Escala basada
en eventos
Facturación de menos
de un segundo

AWS Lambda
• Sin tiempos de mantenimiento ni
inactividad programados
• Las funciones asíncronas se
reintentan 3 veces en caso de error
• Posibilidad de ejecutar cualquier
cantidad de funciones concurrentes
• AWS Lambda asigna dinámicamente la
capacidad de acuerdo con la velocidad
de entrada de eventos
• Interfaces
• Lambda admite Java, Node.js, Python,
C#
• Desencadenamiento mediante eventos
o programación
• Aplicaciones de ejecución prolongada
• Aplicaciones con estado en Lambda

Configuración de un clúster de
Elasticsearch en unos minutos
Integración con Logstash y Kibana
Escalado sin problemas de clústeres
de Elasticsearch
Amazon
Elasticsearch
Service

Amazon Elasticsearch
• Analizar registros
• Analizar actualizaciones de streaming de datos de
otros servicios de AWS
• Proporcionar a los clientes una completa
experiencia de búsqueda y navegación
• Monitorizar el uso de las aplicaciones móviles
• Desempeño
• Depende de diversos factores, tales como el tipo
de instancia, la carga de trabajo, el índice, el
número de fragmentos utilizados o las réplicas de
lectura
• Configuraciones de almacenamiento:
almacenamiento de instancias o EBS
• Pago por uso
• Pago por capacidad informática y almacenamiento

Amazon Elasticsearch
• Reconocimiento de zona
• Instantáneas automáticas y manuales
• Adición o eliminación de instancias
• Modificación de volúmenes de EBS para
crecimiento de datos
• Interfaces
• Consola de administración de AWS
• API
• SDK
• Kibana y Logstash (pila de ELK)
• OLTP
• Cargas de trabajo con requisitos de
almacenamiento superiores a 5 TB
Elasticsearch + Logstash + Kibana =
(ELK) análisis y visualización en tiempo real

Creación de visualizaciones
Realización de análisis ad-hoc
Intercambio y colaboración mediante guiones
Acceso nativo en las principales plataformas
de móviles
Amazon
QuickSight

Presentamos Amazon QuickSight
Servicio de inteligencia de negocio (BI) basado
en la nube con la décima parte del costo
del software de BI tradicional
 Sin esfuerzo de TI. Sin modelado dimensional
 Detección automática de todos los orígenes de
datos de AWS
 Motor de cálculo en memoria, en paralelo y
ultrarrápido (SPICE, por sus siglas en inglés)
 Totalmente administrado
aws.amazon.com/quicksight

Escalado ascendente o descendente
según las necesidades
Pago por uso
Varias opciones
Creación de aplicaciones propias de
Big Data
Amazon EC2

Enfoque de AWS
• Flexibilidad Uso de la mejor herramienta para cada tarea
• Estructura de datos, latencia, rendimiento, patrones de acceso
• Escalabilidad Inmutable (solo mediante anexos)
• Capa de servicio/lotes/velocidad
• Mínimos gastos generales administrativos Saca partido de los
servicios administrados de AWS
• Sin intervención del administrador o muy poca
• Bajo costo Big Data ≠ costo elevado

Escenario 1: Almacén de datos empresariales
Escenario 2: Captura y análisis de datos de sensores
Escenario 3: Análisis de opinión en las redes sociales
Escenarios
de Big Data

Escenario 1: Almacén de datos empresariales
Arquitectura de los almacenes de datos
Orígenes de
datos
Amazon
S3
Amazon
EMR
Amazon
S3
Amazon
Redshift
Amazon
QuickSight

Escenario 2: Captura y análisis de datos de sensores
Orígenes de
datos
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
Apl.
habilitada
para Amazon
Kinesis
Apl.
habilitada
para Amazon
Kinesis
Amazon
DynamoDB
Panel de
informes
Acceso de
clientes
Amazon
Kinesis
1
2 3 4 5
6 7 8 9

Escenario 3: Análisis de opinión en las redes sociales
Datos de redes
sociales
Amazon
EC2
Amazon
Lambda
Amazon
ML
Amazon
Kinesis
Amazon
S3
Amazon
SNS
1 2 4 5 6
3 7

Pasos siguientes
• Suscríbase a AWS Big Data Blog: blogs.aws.amazon.com/bigdata
• Busque más información y consulte los tutoriales, guías o
laboratorios autoguiados en: aws.amazon.com/big-data
• Consulte el seminario web sobre Big Data:
Building Smart Applications with Amazon Machine Learning
https://aws.amazon.com/es/about-
aws/events/monthlywebinarseries/archive/
smartapplicationsonamazonmachinelearningondemand/
(consultar próximas fechas)

AWS Big Data análisis opciones

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a AWS Big Data análisis opciones

Similar a AWS Big Data análisis opciones (20)

Más de Amazon Web Services LATAM

Más de Amazon Web Services LATAM (20)

Último

Último (20)

AWS Big Data análisis opciones

Notas del editor