© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Alejandro Flores
Arquitecto de Soluciones, AWS
Abril, 2017
AnalyticZ … de la A a la Z
con Amazon Web Services
ingesta/
recolección
consumo/
visualización
almacenamiento procesamiento/
análisis
Datos
1 4
0 9
5
Respuestas
& ideas
AQUI COMIENZA
CON UN CASO DE NEGOCIO
AWS Data PipelineAWS Database Migration Service
EMR
Análisis
Amazon
Glacier
S3
AlmacenamientoRecolección
Amazon Kinesis
Direct Connect
Amazon
Machine
Learning
Amazon
Redshift
DynamoDBAWS IoT
AWS Snowball
QuickSight
Amazon Athena
EC2
Amazon
Elasticsearch
Service
Lambda
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
AWS
centro de datos
corporativo
Cree un Datawarehouse con Amazon Redshift
Procesamiento estructurado de datos
• Almacenamiento de datos administrado, basado
en SQL
• Seguridad de extremo a extremo
• Procesamiento masivo en paralelo a escala de
Petabytes
• En línea y funcional en cuestión de minutos
• Compatible con ODBC y JDBC
• Respaldos contínuos
• Tan sólo $1,000 por terabyte por año
Amazon Redshift
Cómo migrar grandes cantidades de
datos a AWS?
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
AWS
centro de datos
corporativo
Migre datos a AWS
AWS Database
Migration Service
AWS Direct Connect
AWS Import/Export
& Snowball
• Comience su primer migración en 10 min. o menos
• Mantenga su aplicación corriendo durante la
migración
• Migre hacia bases de datos corriendo en Amazon
EC2, Amazon RDS o Amazon Redshift
AWS
Database
Migration Service
AWS Snowball: Transporte de Datos a gran escala
Etiqueta
electrónica de
envío
Protección de
alto impacto
Datos encriptados
de extremo a
extremo
Capacidad
50TB & 80TB
Red 10G
Resistente a
lluvia y polvo
Resistente ante
intento de apertura
manual de fuerza
bruta (tampering)
CEO’s no quieren analizar
información usando consultas
SQL
Business Intelligence
• Inteligencia empresarial rápida y fácil de usar
• Admite Datawarehouses, archivos sin formato y
fuentes externas
• Escala a cientos de miles de usuarios
• Análisis ultrarápidos con cálculos en memoria a
través de SPICE
Amazon
QuickSight
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
centro de datos
corporativo
Visualice los datos con Amazon QuickSight
AWS Database
Migration Service
AWS Direct Connect
AWS Import/Export
& Snowball
Qué pasa si los datos no son estructurados?
Qué pasa si no se requieren todos los datos?
Qué pasa si se requiere combinar múltiples
fuentes de datos?
Ejecute código en respuesta a eventos
• No hay ninguna infraestructura que administrar
• Escalamiento automático
• Programación en lenguajes Node.js, Python, Java y C#
• Pago por peticiones servidas y por el cómputo requerido
para ejecutar el código
AWS Lambda
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Transforme datos en respuesta a eventos con AWS Lambda
centro de datos
corporativo
AWS Lambda
Structured Data
In Amazon S3
Raw data
In Amazon S3
Cómo funcionaría a gran escala?
Qué pasa si el procesamiento de datos excede el
tiempo límite de ejecución?
Procesamiento de datos Semi-estructurados/No
estructurados
• Hadoop, Hive, Presto, Spark, Tez, Impala etc.
• Versión 5.2: Hadoop 2.7.3, Hive 2.1, Spark 2.02, Zeppelin, Presto, HBase 1.2.3
and HBase on S3, Phoenix, Tez, Flink.
• Nuevas aplicaciones agregadas durante los primeros 30 días a partir de la
liberación
• Plataforma Hadoop administrada. Cambio de tamaño flexible del clúster
en función de las demandas de flujo de trabajo
• Admite instancias de subasta para la optimización de costos
• Procesamiento por lotes y/o en tiempo real
Amazon EMR
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Transforme y explore sus datos en gran escala con Amazon EMR
centro de datos
corporativo
Amazon EMR Structured Data
In Amazon S3
Raw data
In Amazon S3
Qué se puede hacer para explorar
nuevos datos con consultas ad-hoc?
Ejecute consultas interactivas y facilite el análisis de
datos
• Ejecuta consultas SQL directamente en S3 sin tener una infraestructura
que administrar
• Usa consultas estándar ANSI SQL con soporte a Joins, JSON y funciones
de Windows
• Soporta múltiples formatos incluyendo Texto, CSV, TSV, JSON, Avro,
ORC, Parquet
• Pago con base en los datos escaneados derivados de la ejecución de la
consulta
Amazon
Athena
Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Amazon Athena
clientes web
clientes móviles
DBMS
Raw data
In Amazon S3
Amazon Redshift
Staging Data
in Amazon S3
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Amazon
Athena
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Orc/Parquet in Amazon S3
(Columnar Data Format)
Amazon
EMR
Raw data
In Amazon S3
Staging Data
in Amazon S3
Amazon
Athena
Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Amazon Athena
Qué pasa si se quiere ejecutar
código personalizado o usar
múltiples frameworks?
Construyendo una aplicación de Big Data en AWS
Expanda su datawarehouse hacia S3 con Presto, Spark SQL, etc. en Amazon EMR
clientes web
clientes móviles
DBMS
Amazon Redshift
Orc/Parquet in Amazon S3
(Columnar Data Format)
Amazon
QuickSight
AWS
centro de datos
corporativo
Amazon
EMR
Amazon
EMR
Amazon
EMR
Raw data
In Amazon S3
Staging Data
in Amazon S3
Qué pasa si se requiere procesar
datos en tiempo real?
Procesamiento de Streams
• Procesamiento de streams en tiempo real
• Elástico; ancho de banda robusto
• Altamente disponible; datos replicados entre múltiples
Zonas de Disponibilidad con retención configurable
• Integración con S3, Amazon Redshift y DynamoDB
• Bajo costo
Amazon
Kinesis
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Orc/Parquet
(Columnar Data Format)
Amazon
QuickSight
Amazon Kinesis
Streams
AWS
Agregue una capa de procesamiento en tiempo real con Amazon
Kinesis + Spark en Amazon EMR
centro de datos
corporativo
Amazon
EMR
Amazon
EMR
Amazon
EMR
Raw data
In Amazon S3
Staging Data
In Amazon S3
Amazon
Athena
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
AWS
Reaccione inteligentemente en tiempo real con Amazon Machine Learning
centro de datos
corporativo
Amazon Kinesis
Firehose
Amazon Kinesis
Analytics
AWS Lambda
Amazon
Kinesis
Streams
Reference data
in Amazon S3
Amazon
Machine
Learning
Amazon SNS
Amazon
Athena
Qué pasa si se requiere encripción y
aislamiento de redes para cumplir con
regulaciones de industria?
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
Amazon Kinesis
Streams
AWS
Agregue encripción en reposo con AWS KMS
centro de datos
corporativo
AWSKMS
Amazon
EMR
Amazon
EMR
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3
(Columnar data)
Construyendo una aplicación de Big Data en AWS
clientes web
clientes móviles
DBMS
Amazon Redshift
Amazon
QuickSight
Amazon Kinesis
Streams
AWS Cloud
AWSKMS
VPC subnet
SSL/TLS
SSL/TLS
Proteja sus datos en tránsito y segmente sus redes
centro de datos
corporativo
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3
(Columnar data)
Qué clientes están usando AWS?
ingesta/
recolección
consumo /
visualización
almacenamiento
procesamiento /
análisis
Datos
1 4
0 9
5
Amazon S3
Data Lake
Amazon EMR
Amazon
Kinesis
Amazon Redshift
Respuestas
& Ideas
Hot HomesUsuarios
Propiedades
Agentes
Recomendaciones
basadas en perfiles
de usuario
Casas Similares
Casas Demandadas
Seguimiento de Agentes
Scorecard de Agentes
Marketing
A/B Pruebas
Datos en Tiempo Real
…
Amazon
DynamoDB
BI / Reporting
Redfin
ingesta/
recolección
cpnsumo/
visualización
almacenamiento
procesamiento/
análisis
Datos
1 4
0 9
5
Recomendaciones
personalizadas en
segundos
Escalar el expertise de
estilo de los compradores
Reducir costos en 2x
…
Usuarios Móviles
Escritorios
Analytics
Tools
Online Stylist
Amazon
Redshift
Amazon
Kinesis
AWS
Lambda
Amazon
DynamoDB
AWS
Lambda
Amazon S3
Data Storage
NORDSTROM
Respuestas
& Ideas
Gracias

AnalyticZ - De la A a la Z con Amazon Web Services

  • 1.
    © 2016, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Alejandro Flores Arquitecto de Soluciones, AWS Abril, 2017 AnalyticZ … de la A a la Z con Amazon Web Services
  • 2.
  • 3.
    AWS Data PipelineAWSDatabase Migration Service EMR Análisis Amazon Glacier S3 AlmacenamientoRecolección Amazon Kinesis Direct Connect Amazon Machine Learning Amazon Redshift DynamoDBAWS IoT AWS Snowball QuickSight Amazon Athena EC2 Amazon Elasticsearch Service Lambda
  • 4.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift AWS centro de datos corporativo Cree un Datawarehouse con Amazon Redshift
  • 5.
    Procesamiento estructurado dedatos • Almacenamiento de datos administrado, basado en SQL • Seguridad de extremo a extremo • Procesamiento masivo en paralelo a escala de Petabytes • En línea y funcional en cuestión de minutos • Compatible con ODBC y JDBC • Respaldos contínuos • Tan sólo $1,000 por terabyte por año Amazon Redshift
  • 6.
    Cómo migrar grandescantidades de datos a AWS?
  • 7.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift AWS centro de datos corporativo Migre datos a AWS AWS Database Migration Service AWS Direct Connect AWS Import/Export & Snowball
  • 8.
    • Comience suprimer migración en 10 min. o menos • Mantenga su aplicación corriendo durante la migración • Migre hacia bases de datos corriendo en Amazon EC2, Amazon RDS o Amazon Redshift AWS Database Migration Service
  • 9.
    AWS Snowball: Transportede Datos a gran escala Etiqueta electrónica de envío Protección de alto impacto Datos encriptados de extremo a extremo Capacidad 50TB & 80TB Red 10G Resistente a lluvia y polvo Resistente ante intento de apertura manual de fuerza bruta (tampering)
  • 10.
    CEO’s no quierenanalizar información usando consultas SQL
  • 11.
    Business Intelligence • Inteligenciaempresarial rápida y fácil de usar • Admite Datawarehouses, archivos sin formato y fuentes externas • Escala a cientos de miles de usuarios • Análisis ultrarápidos con cálculos en memoria a través de SPICE Amazon QuickSight
  • 12.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight AWS centro de datos corporativo Visualice los datos con Amazon QuickSight AWS Database Migration Service AWS Direct Connect AWS Import/Export & Snowball
  • 13.
    Qué pasa silos datos no son estructurados? Qué pasa si no se requieren todos los datos? Qué pasa si se requiere combinar múltiples fuentes de datos?
  • 14.
    Ejecute código enrespuesta a eventos • No hay ninguna infraestructura que administrar • Escalamiento automático • Programación en lenguajes Node.js, Python, Java y C# • Pago por peticiones servidas y por el cómputo requerido para ejecutar el código AWS Lambda
  • 15.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight AWS Transforme datos en respuesta a eventos con AWS Lambda centro de datos corporativo AWS Lambda Structured Data In Amazon S3 Raw data In Amazon S3
  • 16.
    Cómo funcionaría agran escala? Qué pasa si el procesamiento de datos excede el tiempo límite de ejecución?
  • 17.
    Procesamiento de datosSemi-estructurados/No estructurados • Hadoop, Hive, Presto, Spark, Tez, Impala etc. • Versión 5.2: Hadoop 2.7.3, Hive 2.1, Spark 2.02, Zeppelin, Presto, HBase 1.2.3 and HBase on S3, Phoenix, Tez, Flink. • Nuevas aplicaciones agregadas durante los primeros 30 días a partir de la liberación • Plataforma Hadoop administrada. Cambio de tamaño flexible del clúster en función de las demandas de flujo de trabajo • Admite instancias de subasta para la optimización de costos • Procesamiento por lotes y/o en tiempo real Amazon EMR
  • 18.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight AWS Transforme y explore sus datos en gran escala con Amazon EMR centro de datos corporativo Amazon EMR Structured Data In Amazon S3 Raw data In Amazon S3
  • 19.
    Qué se puedehacer para explorar nuevos datos con consultas ad-hoc?
  • 20.
    Ejecute consultas interactivasy facilite el análisis de datos • Ejecuta consultas SQL directamente en S3 sin tener una infraestructura que administrar • Usa consultas estándar ANSI SQL con soporte a Joins, JSON y funciones de Windows • Soporta múltiples formatos incluyendo Texto, CSV, TSV, JSON, Avro, ORC, Parquet • Pago con base en los datos escaneados derivados de la ejecución de la consulta Amazon Athena
  • 21.
    Construyendo una aplicaciónde Big Data en AWS Expanda su datawarehouse hacia S3 con Amazon Athena clientes web clientes móviles DBMS Raw data In Amazon S3 Amazon Redshift Staging Data in Amazon S3 Amazon QuickSight AWS centro de datos corporativo Amazon EMR Amazon Athena
  • 22.
    clientes web clientes móviles DBMS AmazonRedshift Amazon QuickSight AWS centro de datos corporativo Amazon EMR Orc/Parquet in Amazon S3 (Columnar Data Format) Amazon EMR Raw data In Amazon S3 Staging Data in Amazon S3 Amazon Athena Construyendo una aplicación de Big Data en AWS Expanda su datawarehouse hacia S3 con Amazon Athena
  • 23.
    Qué pasa sise quiere ejecutar código personalizado o usar múltiples frameworks?
  • 24.
    Construyendo una aplicaciónde Big Data en AWS Expanda su datawarehouse hacia S3 con Presto, Spark SQL, etc. en Amazon EMR clientes web clientes móviles DBMS Amazon Redshift Orc/Parquet in Amazon S3 (Columnar Data Format) Amazon QuickSight AWS centro de datos corporativo Amazon EMR Amazon EMR Amazon EMR Raw data In Amazon S3 Staging Data in Amazon S3
  • 25.
    Qué pasa sise requiere procesar datos en tiempo real?
  • 26.
    Procesamiento de Streams •Procesamiento de streams en tiempo real • Elástico; ancho de banda robusto • Altamente disponible; datos replicados entre múltiples Zonas de Disponibilidad con retención configurable • Integración con S3, Amazon Redshift y DynamoDB • Bajo costo Amazon Kinesis
  • 27.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Orc/Parquet (Columnar Data Format) Amazon QuickSight Amazon Kinesis Streams AWS Agregue una capa de procesamiento en tiempo real con Amazon Kinesis + Spark en Amazon EMR centro de datos corporativo Amazon EMR Amazon EMR Amazon EMR Raw data In Amazon S3 Staging Data In Amazon S3 Amazon Athena
  • 28.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight AWS Reaccione inteligentemente en tiempo real con Amazon Machine Learning centro de datos corporativo Amazon Kinesis Firehose Amazon Kinesis Analytics AWS Lambda Amazon Kinesis Streams Reference data in Amazon S3 Amazon Machine Learning Amazon SNS Amazon Athena
  • 29.
    Qué pasa sise requiere encripción y aislamiento de redes para cumplir con regulaciones de industria?
  • 30.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight Amazon Kinesis Streams AWS Agregue encripción en reposo con AWS KMS centro de datos corporativo AWSKMS Amazon EMR Amazon EMR Raw data in S3 Staging Data in S3 Orc/Parquet in Amazon S3 (Columnar data)
  • 31.
    Construyendo una aplicaciónde Big Data en AWS clientes web clientes móviles DBMS Amazon Redshift Amazon QuickSight Amazon Kinesis Streams AWS Cloud AWSKMS VPC subnet SSL/TLS SSL/TLS Proteja sus datos en tránsito y segmente sus redes centro de datos corporativo Raw data in S3 Staging Data in S3 Orc/Parquet in Amazon S3 (Columnar data)
  • 32.
  • 33.
    ingesta/ recolección consumo / visualización almacenamiento procesamiento / análisis Datos 14 0 9 5 Amazon S3 Data Lake Amazon EMR Amazon Kinesis Amazon Redshift Respuestas & Ideas Hot HomesUsuarios Propiedades Agentes Recomendaciones basadas en perfiles de usuario Casas Similares Casas Demandadas Seguimiento de Agentes Scorecard de Agentes Marketing A/B Pruebas Datos en Tiempo Real … Amazon DynamoDB BI / Reporting Redfin
  • 34.
    ingesta/ recolección cpnsumo/ visualización almacenamiento procesamiento/ análisis Datos 1 4 0 9 5 Recomendaciones personalizadasen segundos Escalar el expertise de estilo de los compradores Reducir costos en 2x … Usuarios Móviles Escritorios Analytics Tools Online Stylist Amazon Redshift Amazon Kinesis AWS Lambda Amazon DynamoDB AWS Lambda Amazon S3 Data Storage NORDSTROM Respuestas & Ideas
  • 35.