Big Data: Arquitectura y mejores prácticas en AWS

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Américo de Paula – Solutions Architect Manager
@americop
Big Data: Arquitecturas y mejores
prácticas en AWS

La cantidad de datos no para de crecer
Volumen
Velocidad
Variedad

Multitud de herramientas
Amazon
Glacier
Amazon S3 Amazon DynamoDB
Amazon RDS
Amazon EMR
Amazon
Redshift
Amazon
Kinesis
Lambda Amazon ML
Amazon SQS
ElastiCache
Amazon DynamoDB
Streams
Amazon ES
Amazon Kinesis
Analytics
Amazon
QuickSight AWS Glue

Desafíos en Big Data
¿Por qué?
¿Cómo?
¿Cuáles herramientas usar?
¿Existe una arquitectura de referencia?

1. Desacoplamiento
• Datos → Almacenamiento → Procesamiento →
Almacenamiento → Análisis → Respuestas
2. Herramienta adecuada para cada fase
• Estructura de datos, desempeño, patrones de acceso
3. Enfoque su esfuerzo en lo que es diferencial
• Use serverless y servicios gerenciados
Principios básicos de arquitectura

4. Almacenamiento completo
• Mantenga la mayor cantidad de datos
5. Control de costos
• Big data ≠ big cost
6. Potencie sus aplicaciones con AI/ML
Principios básicos de arquitectura

Recolectar Almacenar
Procesar /
Analizar
Consumir
Tiempo para responder (Latencia)
Desempeño
Costo
Proceso de Big Data

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
EventosStream de datos
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Transportededatos
Import/expo
rt
Archivos
Archivos de Log
Archivos de media
Mobile apps
Web apps
Data centers AWS Direct
Connect
RECORDS
Aplicaciones
Transacciones
Datos estructurados
Registros de BD
Tipos de datos

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
EventosStream de datos
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Transportededatos
Import/expo
rt
Archivos
Archivos de Log
Archivos de media
Mobile apps
Web apps
Connect
RECORDS
Aplicaciones
Transacciones
Datos estructurados
Registros de BD
Tipos de datos ALMACENAMIENTO
Relational DB
In-memory
NoSQL
Archivos/
Objetos
Stream
storage

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
DataTransport&Logging
Import/expo
rt
Mobile apps
Web apps
Connect
RECORDS
Applications
ALMACENAMIENTO
Relational DB
In-memory
NoSQL
Archivos/
Objetos
Stream
storage

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Import/expo
rt
Mobile apps
Web apps
Connect
RECORDS
Applications
ALMACENAMIENTO
NoSQL
In-memory
SQL
Archivos/
Objetos
Apache Kafka
• Alto desempeño, distribuida
Amazon Kinesis Streams
• Gerenciado
Amazon Kinesis Firehose
• Adiciona entrega en un
almacenamiento
Stream Storage
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka

Desacoplar
Búfer persistente
Múltiples streams
Preserva el orden
Consumo en paralelo
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
shard 1 / partition 1
shard 2 / partition 2
Consumer 1
Cantidad
de rojo =4
Cant. de
violeta= 4
Consumer 2
Cantidad
de azul=4
Cantidad de
verde=4
DynamoDB stream Amazon Kinesis stream Kafka topic
¿Por qué usar Stream Storage?

¿ Cuál tipo de storage de filas utilizar?
Hot Warm
Amazon
Kinesis
Streams
Amazon
Kinesis
Firehose
Apache
Kafka (on Amazon
EC2)
Amazon
SQS
(Standard)
Amazon SQS
(FIFO)
AWS managed Yes Yes No Yes Yes
Guaranteed ordering Yes No Yes No Yes
Delivery (deduping) At least once At least once At least/At
most/exactly once
At least once Exactly once
Data retention period 7 days N/A Configurable 14 days 14 days
Availability 3 AZ 3 AZ Configurable 3 AZ 3 AZ
Scale /
throughput
No limit /
~ shards
No limit /
automatic
No limit /
~ nodes
No limits /
automatic
300 TPS /
queue
Parallel consumption Yes No Yes No No
Stream MapReduce Yes N/A Yes N/A N/A
Row/object size 1 MB Destination
row/object size
Configurable 256 KB 256 KB
Cost Low Low Low (+admin) Low-medium Low-medium

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Import/expo
rt
Mobile apps
Web apps
Connect
RECORDS
Applications
ALMACENAMIENTO
NoSQL
In-memory
SQL
Archivos/
Objetos
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Import/expo
rt
Mobile apps
Web apps
Connect
RECORDS
Applications
ALMACENAMIENTO
NoSQL
In-memory
SQL
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka
Amazon S3
Servicio gerenciado de
almacenamiento de objetos;
almacena y recupera cualquier
cantidad de datos
Amazon S3
Stream
Storage de Objetos

HDFS y capas de storage
• HDFS como capa de almacenamiento
“hot”
• Amazon S3 Standard para acceso
frecuente
• Amazon S3 Standard – IA acceso
infrecuente
• Amazon Glacier para archivamiento
S3 Analytics: Ayuda a optimizar la
estrategia
S3 Analytics

RECOLECCIÓN
Devices
Sensors
IoT platforms
AWS IoT STREAMS
IoT
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
FILES
Import/expo
rt
Mobile apps
Web apps
Connect
RECORDS
Applications
ALMACENAMIENTO
NoSQL
In-memory
SQL
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka
Amazon S3
Stream

Amazon
DynamoDB
Amazon RDS
Amazon Aurora
File
Mobile apps
Web apps
Devices
Sensors
IoT platforms
AWS IoT
Connect
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
FILES
STREAMS
LoggingIoTApplications
Amazon S3
Amazon DAX
Amazon ElastiCache
Import/expo
rt
SQLNoSQLCache
Amazon ElastiCache
• Memcached o Redis - Gerenciado
Amazon DynamoDB Accelerator
(DAX)
• Cache in-memory – Gerenciado, para
DynamoDB
Amazon DynamoDB
• NoSQL database - Gerenciado
Amazon RDS
• BD Relacional - Gerenciado
Cache & Database
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Hot
Stream
RECOLECCIÓN ALMACENAMIENTO

Lo que debemos evitar
Capa de Base de Datos

Lo que debemos hacer
SearchIn-memory SQLNoSQLGraphDB
Amazon RDS/AuroraAmazon DynamoDBAmazon ElastiCache Amazon
DynamoDB
Acclerator
SAP HANA
Amazon ES Amazon
CloudSearch
Capa de Base de Datos

¿ Cómo escoger el almacenamiento ?
1. Estructura de datos → Esquema fijo, JSON, Key/Value, Grafos
2. Patrón de acceso → Almacenar en el formato en que se accederá
3. Características de tiempo → Hot, warm, cold
4. Costo → Optimizar

Estructura de datos y Patrones de acceso
Patrones de acceso Piense en:
Put/Get (key, value) In-memory, NoSQL
Relaciones simples → 1:N, M:N NoSQL
Múltiples tablas, “join” complejos, transaccional, SQL SQL
Faceting, Search Search
Grafos GraphDB
Estructura Piense en:
Esquema fijo SQL, NoSQL
No esquema (JSON) NoSQL, Search
Key/Value In-memory, NoSQL
Grafos GraphDB

Amazon
ElastiCache
Amazon
DAX
Amazon
DynamoDB
Amazon
RDS (Aurora)
Amazon ES Amazon S3
Amazon
Glacier
Latencia µs-ms µs-ms ms ms, sec ms,sec ms,sec,min
(~ size)
hrs
Volumen de
datos
GB GB GB–TBs
(sin límite)
GB–TB
(64 TB max)
GB–TB MB–PB
(sin límite)
GB–PB
(sin límite)
Tamaño del
item
B-KB KB
(400 KB max)
KB
(400 KB max)
KB
(64 KB max)
B-KB
(2 GB max)
KB-TB
(5 TB max)
GB
(40 TB max)
Tasa de
acceso
Alto – Muy
Alto
Alto – Muy
Alto
Muy Alto
(sin límite)
Alto Alto Bajo – Alto
(sin límite)
Muy bajo
Costo
GB/mes
$$ $$ ¢¢ ¢¢ ¢¢ ¢ ¢4/10
Durabilidad Bajo -
moderado
NA Muy Alto Muy Alto Alto Muy Alto Muy Alto
Disponibilida
d
Alto
2 AZ
Alto
3 AZ
Muy Alto
3 AZ
Muy Alto
3 AZ
Alto
2 AZ
Muy Alto
3 AZ
Muy Alto
3 AZ
Hot data Warm data Cold data
¿ Cómo escoger el almacenamiento ?

Amazon Redshift
& Spectrum
Amazon Athena
BatchInteractive
Amazon ES
Analítica: Interactiva y Batch
• Amazon ES
• Elasticsearch - Gerenciado
• Amazon Redshift + Spectrum
• Data Warehouse - Gerenciado
• Spectrum: Queries hacia Amazon S3
• Amazon Athena
• Queries hacia Amazon S3 - Serverless
• Amazon EMR
• Hadoop Framework - Gerenciado
Presto
Amazon
EMR
Procesar / Analizar

Analítica: Tiempo Real
Spark Streaming - Amazon EMR
Amazon Kinesis Analytics
• SQL para Streaming data - Gerenciado
Amazon KCL
• Amazon Kinesis Client Library
AWS Lambda
• Ejecución de código - Serverless
• Diferentes triggers – p.ex: S3 , Kinesis
KCL
Apps
AWS Lambda
Amazon Kinesis
Analytics
Stream
Streaming
Amazon EMR
Procesar / Analizar

• Servicios de alto nivel
• Amazon Lex
• Amazon Polly
• Amazon Rekognition
• Transcribe, Translate, Comprehend
• Managed ML Platforms
• Amazon ML
• Amazon SageMaker
• AWS Deep Learning AMI
• Pre-Instalado con MXNet, TensorFlow,
Caffe2 (and Caffe), Theano, Torch,
Microsoft Cognitive Toolkit, Keras
Amazon AI
Procesar / Analizar
Predictive
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Desarrolladores
Científicos de
datos
Expertos en
Deep Learning
Analítica: Predictiva

¿Qué tipo de Analítica usar?
Batch
Minutos a horas
Ejemplo: Reportes periódicos
Amazon EMR
Interactiva
Segundos
Ejemplo : Dashboards autoservicio
Amazon Redshift, Amazon Athena, Amazon EMR (Presto, Spark)
Stream
Milisegundos a segundos
Ejemplo : Alertas de operación, métricas granulares
Amazon EMR (Spark Streaming), Amazon Kinesis Analytics, KCL,
AWS Lambda, etc.
Predictiva
Milisegundos (tiempo real) a minutos (batch)
Ejemplo : Detección de fraude, Predicción de demanda,
Reconocimiento
Amazon AI (Lex, Polly, ML, Amazon Rekognition), Amazon EMR
(Spark ML), Deep Learning AMI (MXNet, TensorFlow, Theano, Torch, CNTK,
and Caffe)
Streaming
Amazon Kinesis
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Fast
Amazon ES
Amazon Redshift
& Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchInteractive
FastSlow
Predictive
AmazonAI
AWS DL AMI
Procesar / Analizar

Amazon Redshift Amazon Redshift
Spectrum
Amazon Athena Amazon EMR
Presto Spark Hive
Use case Optimized for data
warehousing
Query S3 data from
Amazon Redshift
Interactive Queries
over S3 data
Interactive
Query
General
purpose
Batch
Scale/Throughput ~Nodes ~Nodes Automatic ~ Nodes
Managed Service Yes Yes Yes, Serverless Yes
Storage Local storage Amazon S3 Amazon S3 Amazon S3, HDFS
Optimization Columnar storage,
data compression,
and zone maps
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
Framework dependent
Metadata Amazon Redshift
Catalog
Glue Catalog Glue Catalog Glue Catalog or
Hive Meta-store
Auth/Access controls IAM, Users, groups,
and access controls
IAM, Users, groups,
and access controls
IAM IAM, LDAP & Kerberos
UDF support Yes (Scalar) Yes (Scalar) No Yes
Slow
¿ Qué herramientas analíticas usar?

¿ Y acerca de ETLs?
ETL
Partners de Integración
AWS Glue
ETL – Gerenciado – Serverless
Data Catalog Job Authoring Job Execution
AWS Glue
Procesar / AnalizarALMACENAMIENTO

Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon
DynamoDB
Amazon ElastiCache
Amazon RDS
Amazon Aurora
HotHotWarm
SQLNoSQLCacheFileStream
Mobile apps
Web apps
Devices
Sensors
IoT platforms
AWS IoT
Connect
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
FILES
STREAMS
DataTransport&LoggingIoTApplications
Slow
Amazon S3
Amazon ES
Amazon Redshift
& Spectrum
Presto
Amazon
EMR
Fast
Amazon Athena
BatchInteractive
Amazon DAX
Import/expo
rt
Predictive
AmazonAI
AWS DL AMI
ETL
Streaming
Amazon Kinesis
Analytics
KCL
Apps
Fast
Stream
Amazon EMR
AWS Lambda
Fast
CONSUMOProcesar / AnalizarALMACENAMIENTORECOLECCIÓN

• Aplicaciones BI/AI
• Amazon EC2 o Containers
• AWS Greengrass
• Ciencia de datos
• Notebooks
• DS Platforms
• IDEs
• Análisis y Visualización
• Amazon QuickSight
• Tableau
• ….
ETL
Amazon QuickSight
Analysis&visualization
Model
Train/
Eval
Models
Deploy
DataSceince
AI Apps
Amazon ECS
Apps
AWS Greengrass
Predictive
AmazonAI
AWS DL AMI
Business
users
DevOps
Data Scientists

Streaming
Amazon Kinesis
Analytics
KCL
Apps
AWS Lambda
Amazon ES
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon
DynamoDB
Amazon ElastiCache
Amazon RDS
Amazon Aurora
HotHotWarm
Fast
Stream
SQLNoSQLCacheFileStream
Mobile apps
Web apps
Devices
Sensors
IoT platforms
AWS IoT
Connect
Migration
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
FILES
STREAMS
Amazon QuickSight
Analysis&visualizationDataSceince
DataTransport&LoggingIoTApplications
Amazon EMR
Amazon Redshift
& Spectrum
Presto
Amazon
EMR
FastSlow
Amazon Athena
BatchInteractivePredictive
AmazonAI
Amazon S3
Amazon DAX
Import/expo
rt
AWS DL AMI
AI Apps
Amazon ECS
Apps
Model
Train/
Eval
Models
Deploy
ETL
AWS Greengrass

Analítica en
tiempo real
Amazon EMR
KCL app
AWS Lambda
Spark
Streaming
Amazon
AI
Predicción (tiempo real)
Amazon
ElastiCache
(Redis)
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
Materialización
KPI
Procesamiento
Almacenamiento
Amazon
Kinesis
Amazon Kinesis
Analytics
Amazon
SNS NotificacionesAlertas
Amazon
S3
Log
Amazon
KinesisFan out Downstream

Analítica
interactiva
y batch
procesamiento
almacenamiento Batch
Interactiva
Amazon EMR
Hive
Pig
Spark
Amazon
AI
Predicción Batch
Predicción tiempo real
Amazon S3
Files
Amazon
Kinesis
Firehose
Amazon Kinesis
Analytics
Amazon Redshift
Amazon ES
Consumo
Amazon EMR
Presto
Spark
Amazon Athena

Tiempo real
Materialización
Interactivo
y
Batch
Data Lake
Amazon S3
Amazon Redshift
Amazon EMR
Presto
Hive
Pig
Spark
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
AWS Lambda
Spark Streaming
on Amazon EMR
Aplicaciones
Amazon
Kinesis
KCL
Amazon
AI
Amazon
DynamoDB
Amazon
RDS
CDC o Export
Transacciones
Stream
Archivos
Amazon Kinesis
Analytics
Amazon Athena
Amazon Kinesis
Firehose
Amazon ES

Arquitectura
de
Referencia
-
Data lake

1. Desacople
2. Use la herramienta adecuada
3. Use servicios gerenciados
4. Almacene todos los datos relevantes
5. Controle los costos
6. Potencie sus aplicaciones con AI/ML
Resumen

Gracias!
Américo de Paula – Solutions Architect Manager
@americop
Big Data: Arquitecturas y mejores
prácticas en AWS

Big Data: Arquitectura y mejores prácticas en AWS

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Big Data: Arquitectura y mejores prácticas en AWS

Similar a Big Data: Arquitectura y mejores prácticas en AWS (20)

Más de Amazon Web Services LATAM

Más de Amazon Web Services LATAM (20)

Último

Último (16)

Big Data: Arquitectura y mejores prácticas en AWS