Construir una aplicación de Big Data frecuentemente requiere integrar un conjunto de tecnologías para almacenar, procesar y analizar la creciente variedad, velocidad y volumen de datos dentro de las organizaciones. En esta sesión, se mostrará cómo se puede construir una aplicación de Big Data a lo largo de todo el pipeline utilizando los servicios que Amazon Web Services ofrece como parte de su portafolio.
Daremos un viaje paso a paso, a través de la construcción y seguridad de una aplicación de Big Data y compartiremos mejores prácticas y casos de uso muy comunes que sirvan como guía para elegir la mejor solución que se adapte a las necesidades específicas de cada ambiente.
Por Alejandro Flores de Amazon web Services
3. AWS Data PipelineAWS Database Migration Service
EMR
Análisis
Amazon
Glacier
S3
AlmacenamientoRecolección
Amazon Kinesis
Direct Connect
Amazon
Machine
Learning
Amazon
Redshift
DynamoDBAWS IoT
AWS Snowball
QuickSight
Amazon Athena
EC2
Amazon
Elasticsearch
Service
Lambda
4. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
AWS
centro de datos
corporativo
Cree un Datawarehouse con Amazon Redshift
5. Procesamiento estructurado de datos
• Almacenamiento de datos administrado, basado
en SQL
• Seguridad de extremo a extremo
• Procesamiento masivo en paralelo a escala de
Petabytes
• En línea y funcional en cuestión de minutos
• Compatible con ODBC y JDBC
• Respaldos contínuos
• Tan sólo $1,000 por terabyte por año
Amazon Redshift
7. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
AWS
centro de datos
corporativo
Migre datos a AWS
AWS Database
Migration Service
AWS Direct Connect
AWS Import/Export
& Snowball
8. • Comience su primer migración en 10 min. o menos
• Mantenga su aplicación corriendo durante la
migración
• Migre hacia bases de datos corriendo en Amazon
EC2, Amazon RDS o Amazon Redshift
AWS
Database
Migration Service
9. AWS Snowball: Transporte de Datos a gran escala
Etiqueta
electrónica de
envío
Protección de
alto impacto
Datos encriptados
de extremo a
extremo
Capacidad
50TB & 80TB
Red 10G
Resistente a
lluvia y polvo
Resistente ante
intento de apertura
manual de fuerza
bruta (tampering)
11. Business Intelligence
• Inteligencia empresarial rápida y fácil de usar
• Admite Datawarehouses, archivos sin formato y
fuentes externas
• Escala a cientos de miles de usuarios
• Análisis ultrarápidos con cálculos en memoria a
través de SPICE
Amazon
QuickSight
12. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
centro de datos
corporativo
Visualice los datos con Amazon QuickSight
AWS Database
Migration Service
AWS Direct Connect
AWS Import/Export
& Snowball
13. Qué pasa si los datos no son estructurados?
Qué pasa si no se requieren todos los datos?
Qué pasa si se requiere combinar múltiples
fuentes de datos?
14. Ejecute código en respuesta a eventos
• No hay ninguna infraestructura que administrar
• Escalamiento automático
• Programación en lenguajes Node.js, Python, Java y C#
• Pago por peticiones servidas y por el cómputo requerido
para ejecutar el código
AWS Lambda
15. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Transforme datos en respuesta a eventos con AWS Lambda
centro de datos
corporativo
AWS Lambda
Structured Data
In Amazon S3
Raw data
In Amazon S3
16. Cómo funcionaría a gran escala?
Qué pasa si el procesamiento de datos excede el
tiempo límite de ejecución?
17. Procesamiento de datos Semi-estructurados/No
estructurados
• Hadoop, Hive, Presto, Spark, Tez, Impala etc.
• Versión 5.2: Hadoop 2.7.3, Hive 2.1, Spark 2.02, Zeppelin, Presto, HBase 1.2.3
and HBase on S3, Phoenix, Tez, Flink.
• Nuevas aplicaciones agregadas durante los primeros 30 días a partir de la
liberación
• Plataforma Hadoop administrada. Cambio de tamaño flexible del clúster
en función de las demandas de flujo de trabajo
• Admite instancias de subasta para la optimización de costos
• Procesamiento por lotes y/o en tiempo real
Amazon EMR
18. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Transforme y explore sus datos en gran escala con Amazon EMR
centro de datos
corporativo
Amazon EMR Structured Data
In Amazon S3
Raw data
In Amazon S3
19. Qué se puede hacer para explorar
nuevos datos con consultas ad-hoc?
20. Ejecute consultas interactivas y facilite el análisis de
datos
• Ejecuta consultas SQL directamente en S3 sin tener una infraestructura
que administrar
• Usa consultas estándar ANSI SQL con soporte a Joins, JSON y funciones
de Windows
• Soporta múltiples formatos incluyendo Texto, CSV, TSV, JSON, Avro,
ORC, Parquet
• Pago con base en los datos escaneados derivados de la ejecución de la
consulta
Amazon
Athena
21. Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Amazon Athena
clientes web
clientes móviles
DBMS
Raw data
In Amazon S3
Amazon Redshift
Staging Data
in Amazon S3
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Amazon
Athena
22. clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Orc/Parquet in Amazon S3
(Columnar Data Format)
Amazon
EMR
Raw data
In Amazon S3
Staging Data
in Amazon S3
Amazon
Athena
Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Amazon Athena
23. Qué pasa si se quiere ejecutar
código personalizado o usar
múltiples frameworks?
24. Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Presto, Spark SQL, etc. en Amazon EMR
clientes web
clientes móviles
DBMS
Amazon Redshift
Orc/Parquet in Amazon S3
(Columnar Data Format)
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Amazon
EMR
Amazon
EMR
Raw data
In Amazon S3
Staging Data
in Amazon S3
25. Qué pasa si se requiere procesar
datos en tiempo real?
26. Procesamiento de Streams
• Procesamiento de streams en tiempo real
• Elástico; ancho de banda robusto
• Altamente disponible; datos replicados entre múltiples
Zonas de Disponibilidad con retención configurable
• Integración con S3, Amazon Redshift y DynamoDB
• Bajo costo
Amazon
Kinesis
27. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Orc/Parquet
(Columnar Data Format)
Amazon
QuickSight
Amazon Kinesis
Streams
AWS
Agregue una capa de procesamiento en tiempo real con Amazon
Kinesis + Spark en Amazon EMR
centro de datos
corporativo
Amazon
EMR
Amazon
EMR
Amazon
EMR
Raw data
In Amazon S3
Staging Data
In Amazon S3
Amazon
Athena
28. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Reaccione inteligentemente en tiempo real con Amazon Machine Learning
centro de datos
corporativo
Amazon Kinesis
Firehose
Amazon Kinesis
Analytics
AWS Lambda
Amazon
Kinesis
Streams
Reference data
in Amazon S3
Amazon
Machine
Learning
Amazon SNS
Amazon
Athena
29. Qué pasa si se requiere encripción y
aislamiento de redes para cumplir con
regulaciones de industria?
30. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
Amazon Kinesis
Streams
AWS
Agregue encripción en reposo con AWS KMS
centro de datos
corporativo
AWSKMS
Amazon
EMR
Amazon
EMR
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3
(Columnar data)
31. Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
Amazon Kinesis
Streams
AWS Cloud
AWSKMS
VPC subnet
SSL/TLS
SSL/TLS
Proteja sus datos en tránsito y segmente sus redes
centro de datos
corporativo
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3
(Columnar data)
33. ingesta/
recolección
consumo /
visualización
almacenamiento
procesamiento /
análisis
Datos
1 4
0 9
5
Amazon S3
Data Lake
Amazon EMR
Amazon
Kinesis
Amazon Redshift
Respuestas
& Ideas
Hot HomesUsuarios
Propiedades
Agentes
Recomendaciones
basadas en perfiles
de usuario
Casas Similares
Casas Demandadas
Seguimiento de Agentes
Scorecard de Agentes
Marketing
A/B Pruebas
Datos en Tiempo Real
…
Amazon
DynamoDB
BI / Reporting
Redfin
35. Data Marts
(Amazon
Redshift)
Query Cluster
(EMR)
Query Cluster
(EMR)
Auto Scaling
EC2
Analytics
App
Normalization
ETL Clusters
(EMR)
Batch Analytic
Clusters
Ad Hoc Query
Cluster (EMR)
Auto Scaling
EC2
Analytics
App
Users Data
Providers
Auto Scaling
EC2
Data
Ingestion
Services
Optimization
ETL Clusters
(EMR)
Shared Metastore
(RDS)
Query Optimized
(S3)
Auto Scaling EC2
Data
Catalog
& Lineage
Services
Reference Data
(RDS)
Servicios compartidos
Auto Scaling
EC2
Cluster Mgt
& Workflow
Services
Source of
Truth (S3)
>5 PB, hasta 75 billion de eventos por día