AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS

Creación de Data lakes y análisis de datos en AWS:
prácticas recomendadas para patrones
Eduardo Patiño Balaguera
Arquitecto de soluciones para Sector Público
Email: balague@amazon.com

© 2019, Amazon Web Services, Inc. o sus empresas afiliadas. Reservados todos los derechos.
Big Data: diversos tipos de retos
VisualizaciónVariabilidad
Volumen Velocidad Variedad Veracidad Valor

A menudo, los retos se plantean porque:
https://www.promptcloud.com
https://john-popelaars.blogspot.com
https://www.signiant.com
https://www.linkedin.com/pulse/world-today-data-rich-information-poor-
guru-p-mohapatra-pmp/
Los datos aumentan
más deprisa que nunca
Aumenta la variedad
de los datos

Data lakes en AWS ayudan a abordar estos retos
Integran y almacenan
rápidamente cualquier tipo de
datos
Aportan al mismo tiempo
información detallada
y seguridad...
Ejecutan la herramienta adecuada
para el trabajo adecuado sin tener
que copiar manualmente los datos

Data lakes en AWS
Análisis
Aprendizajeautomático
Movimiento de datos
en tiempo real
Movimiento
de datos
Data lakes en
AWS
tradicional
Adquisición
Inteligencia
Catálogo
de almacenamiento
Variedad de
herramientas
de procesamiento
El análisis se
desacopla del
almacenamiento/
catálogo

¿Qué datos tengo?

¿Qué datos tengo?
Gartner:
"Durante el año 2018, el 80 % de los Data lakes no incluirán capacidades de
administración de metadatos, lo que hará que sean poco eficientes"
"Los metadatos nos ayudan a encontrar los datos en el lago de datos"
Data lakes en AWS
Almacenamiento | Almacenamiento para archivado | Catálogo de datos

Componentes de AWS Glue
Creación de trabajosCatálogo de datos Ejecución de trabajos
Compatible con el metastore de Apache Hive
Integrado con servicios de AWS Rastreo y
detección automáticos de datos
Detección
Genera automáticamente
código ETL Python
y Apache Spark Edición,
depuración y uso compartido
Desarrollo
Ejecución sin servidor
Programación flexible
Monitorización y alertas
Implementación

¿Qué pueden detectar los
crawlers?
Rol de IAM
Crawler de AWS Glue
Bases de datos
Amazon
Redshift
Amazon S3
Conexión de JDBC
Conexión de objetos
Clasificadores integrados
MySQL
MariaDB
PostreSQL
Aurora
Oracle
Amazon Redshift
Avro
Parquet
ORC
XML
JSON y JSONPaths
AWS CloudTrail
BSON
Registros
(Apache (Grok), Linux (Grok), MS (Grok), Ruby, Redis
y muchos más)
Delimitados
(coma, barra vertical, tabulador, punto y coma)
< SIEMPRE CRECIENDO…>
Creación de clasificadores
personalizados adicionales
Amazon
DynamoDB
Conexión de NoSQL

¿Pero tengo mis propios formatos de datos...?
− Hay un clasificador personalizado para ello...
Basado en filas
Clasificador GROK
Un patrón de grok es un
conjunto designado de
expresiones regulares
(regex) que se usan para
que los datos coincidan
con una línea cada vez
XML
Clasificador XML
La etiqueta XML que
define una fila de tabla
en el documento XML
JSON
Clasificador JSON
Ruta de JSON al objeto, la
matriz o el valor que define
una fila de la tabla que se
está creando. Escriba el
nombre con sintaxis JSON
de punto o corchete y
utilizando los operadores
compatibles de AWS Glue

Otras maneras de llenar el catálogo
Llamar a la API CreateTable de
AWS Glue
Crear una tabla manualmente Instrucción DDL (en Amazon Athena o Amazon EMR)
Metaalmacén
de Apache Hive
AWS GLUE ETL CATÁLOGO DE DATOS DE
AWS GLUE
Importar desde el metaalmacén de
Apache Hive

¿Cómo agrego datos en mi Data lake?

¿Cómo obtengo valor?
Amazon SageMaker
AMI de aprendizaje profundo de AWS
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
Conexión directa AWS
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data lakes en AWS
AnálisisAprendizaje automático
Movimiento de datos
en tiempo real
Movimiento de datos tradicional

Incorpore datos según el tipo de datos
Abierto y completo
• Movimiento de datos desde centros de datos
locales
• Conexión de red dedicada
• Dispositivos seguros
• Contenedor de envío reforzado
• Migración de bases de datos
• Gateway que permite a las aplicaciones escribir en la
la nube
• Movimiento de datos desde orígenes en tiempo
real
• Conectar dispositivos aAWS
• Streaming de datos en tiempo real
• Streaming de vídeo en tiempo real
AWS Snowball
AWS Snowmobile
AWS Storage Gateway
AWS IoT Core
Movimiento de datos
desde orígenes en
tiempo real
Movimiento de datos
desde sus centros de datos
Amazon S3
Amazon Glacie r
AWS Glue

Data lakes y movimiento de datos en tiempo real en AWS
Amazon
Kinesis Data
Firehose
Catálogo de
datos de
AWS Glue
Datos de
Amazon S3
Datalakes
en AWS
Amazon
Kinesis Data
Streams
Definición de
datos
Agente de Kinesis
Apache Kafka
AWS SDK
LOG4J
Flume
Fluentd
AWS Mobile SDK
Kinesis Producer Library

IMPORTANTE: incorpore los datos sin formato...
Abierto y completo
Amazon S3
Amazon Glacie r
AWS Glue
• Almacene los datos sin formato:
• ANTES DE
• Transformarlos
• Analizarlos
• Manipularlos
• Hacerles... cualquier... cosa
CSV
ORC
Grok
Avro
Parquet
JSON
• Esto se convierte en su fuente de registro
a la que siempre puede volver...
• Las políticas de ciclo de vida le permiten pasar a
un almacenamiento en caliente o
en frío.

Almacenamiento por capas para optimizar el precio o el rendimiento
• Almacenamiento por capas para optimizar el
precio o el rendimiento
• Amazon S3 Estándar
• Amazon S3 Estándar - Acceso poco frecuente
• Amazon S3 Única zona - Acceso poco frecuente
• Amazon Glacier
• Migración entre capas en función de políticas
basadas en el ciclo de vida
• Almacenamiento de datos a 0,023 USD*/GB/mes
con Amazon S3
• Almacenamiento de datos a 0,004 USD*/GB/mes
con Amazon Glacier
Amazon
S3Estándar
Amazon S3 Estándar
Acceso poco
frecuente
Amazon
Glacier
Activo Poco
frecuente
Archivo
Costo más bajo

¿Conjuntos de datos en el data lake?
Conjuntos de datos sin formato: conjuntos de datos inmutables a los
que siempre puede volver.
• Sin prestar atención a las complejidades de cómo se almacenan los
datos a través del catálogo y SerDes
Optimización del análisis y el aprendizaje automático:
Conjuntos de datos seleccionados, optimizados para consultas, para su
consumo en un amplio abanico de herramientas

Preparación de datos sin formato para su consumo
Datos sin formato almacenados en lagos de datos
Preparación:
Normalizados
Con particiones
Comprimidos
Optimizados para
almacenamiento
Extracción - Carga - Transformación
Incorporación
sin formato
Conjuntos
de datos
seleccionados
Catálogo de datos
ETL

¿Qué herramienta tengo que utilizar para
analizar mis datos?

¿Cómo obtengo valor?
Amazon SageMaker
AMI de aprendizaje profundo de AWS
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon QuickSight
AWS Snowball
AWS Snowmobile
AWS IoT Core
Data lake
en AWS
AnálisisAprendizaje automático
Movimiento de datos
en tiempo real
Movimiento de datos tradicional

Herramientas diferentes para usuarios diferentes...
Informes de
negocios
Catálogo
de datos
Almacenamiento
central
SagemakerAprendizaje automático/Aprendizaje profundo
Científicos
de datos
Ingeniero
de datos

Amazon Athena: análisis interactivo
Servicio de consultas interactivo que analiza datos en Amazon S3 mediante SQL estándar
No es necesario configurar o administrar una infraestructura ni cargar datos
Capacidad para ejecutar consultas SQL en datos archivados en Amazon Glacier (disponible
próximamente)
$ SQL
Consulta al instante
Sin gastos de
configuración: solo
tiene que señalar a
Amazon S3
y comenzar
a consultar.
Pago por consulta
Pague solo por las
consultas realizadas.
Ahórrese entre un 30 %
y un 90 % en costos por
consulta gracias a la
compresión.
Abierto
Interfaz de ANSI SQL,
controladores JDBC/ODBC,
varios formatos, tipos de
compresión y combinación
y tipos de datos complejos.
Fácil
Sin servidor: sin
infraestructura, ni
administración.
Integrado con Amazon
QuickSight.

Amazon EMR: procesamiento de big data
Análisis y ML a escala
Diecinueve proyectos de código abierto: Apache Hadoop, Spark, HBase y Presto, entre otros
Seguridad de nivel empresarial
$
Últimas versiones
Actualizado con los
marcos de código abierto
más recientes en un plazo
máximo de 30 días tras el
lanzamiento.
Bajo costo
Facturación flexible con
facturación por segundo,
spot de Amazon EC2,
instancias reservadas
y Auto Scaling para
reducir los costos entre
50 % y un 80 %.
Uso de almacenamiento
de Amazon S3
Procese directamente los
datos con seguridad en el
lago de datos de Amazon
S3 con un alto
rendimiento mediante el
conector EMRFS.
Fácil
Lance Hadoop o Spark
completamente
administrados en cuestión
de minutos; no tendrá que
configurar nodos ni
aprovisionarlos ni ajustar
clústeres.
Lago de datos
100110000100101011100
1010101110010101000
00111100101100101
010001100001

Análisis de Hadoop/Spark en AWS
YARN (administrador de recursos de Hadoop)
NoSQLAprendizaje
automático
Tiempo realInteractivoScriptLote
Lago de datos
en AWS
Amazon S3
Amazon EMR
Hadoop/Spark administrado
Almacenamiento de objetos

Inclusión en el catálogo de datos común
Amazon S3
Clúster de Spark interactivo
Amazon EMR
Amazon EMR
EMRFS
HDFS
Trabajo de ETL transitorio
Origen de confianza
EMRFS
HDFS
Describe los datos
Instancia de
base de datos
MySQL
Vistadedatosunificados
Catálogo de
datos de
AWS Glue
Almacena los datos
…

Amazon Redshift: almacenamiento de datos
Almacén de datos rápido, sencillo y completamente administrado por una décima parte de
su costo
Procesamiento masivo en paralelo a escala de gigabytes a petabytes
De escalado rápido
Tecnología de
almacenamiento en
columnas para mejorar la
eficiencia de E/S y escalar
el rendimiento de las
consultas.
$
Económico
Pague solo 1000 USD por
terabyte al año, una
décima parte de lo que
cuestan las soluciones de
almacén de datos
tradicionales; comience
con 0,25 USD la hora.
Formatos de archivo
abiertos
Seguro
Audítelo todo; cifre datos
de un extremo a otro,
certificación y
conformidad extensos.
Analice formatos de datos
optimizados en el último
SSD y todos los formatos
de datos abiertos en
Amazon S3.

Data warehouse...
Almacén de datos de Amazon Redshift Datos relacionales
Escala de gigabytes a petabytes
Informes y análisis
Definición del esquema antes de cargarse los
datos
AWS ETL
de Glue
Local
Amazon
QuickSight
Herramienta de BI
existente o nueva
COPY
de Redshift

Un Data lake no es un Enterprise Data Warehouse
Complementa el EDW (no lo sustituye). El EDW puede proceder del lago de datos.
Esquema al leer (sin esquemas predefinidos). Esquema al escribir (esquemas predefinidos).
Datos estructurados/semiestructurados/sin estructura. Solo datos estructurados.
Rápida incorporación de datos o contenido nuevo. Introducir nuevo contenido es laborioso.
Ciencia de datos + Predicción/Análisis avanzado
+ Casos de uso de BI.
Casos de uso de BI.
Datos en el nivel de detalle/precisión de bajo nivel. Datos en el nivel de detalle de resumen/agregado.
SLA con definición flexible. SLA estrictos (programas de producción).
Herramientas flexibles
(código abierto/herramientas para análisis avanzados).
Flexibilidad limitada de las herramientas (solo SQL).
Almacenamiento elástico y capacidad de cómputo:
desacoplados.
Entornos con tamaño explícito; la computación y el
almacenamiento se escalan linealmente.
Data Lake
EDW
(Data Warehouse)

Amazon Redshift Spectrum
Amplíe el almacenamiento de datos hasta el nivel de exabytes en lagos de datos de Amazon S3
Data lake en
Amazon S3
Datos de Amazon
Redshift
Amazon Redshift Spectrum
Consultas de exabytes de Redshift SQL en Amazon S3
Una datos entre Redshift y Amazon S3
Escalado independiente de los recursos de informática y
almacenamiento
Rendimiento estable de las consultas y simultaneidad ilimitada
Formatos de datos CSV, ORC, Grok, Avro y Parquet
Pague solo por la cantidad de datos analizados

A m a z o n R e d s h i f S p e c t r u m
R e a l i c e c o n s u l t a s
e n s u D a t a l a k e
Amazon
Redshift
JDBC/ODBC
...
1 2 3 4 N
Amazon Redshift
Spectrum
Reduzca la informática sin
servidores
Catálogo de datos
de AWS Glue
Comandos
COPY
Datos
calientes
Realice
consultas
directamente en
el Data lake

Los data lakes amplían el almacén de datos tradicional
Almacén de datos
Inteligencia empresarial
OLTP ERP CRM LOB
• Datos relacionales y no relacionales
• Escala deTB-EB
• Diferentes motores de análisis
• Análisis y almacenamiento de bajo costo
Dispositivos
inteligentes
Web Sensores Redes
sociales
Data lake
Procesamiento de big data,
aprendizaje automático en tiempo real

Aprendizaje automático
y big data

Impulso del aprendizaje automático con big data
Mejores
decisiones
Almacenamiento de
objetos
Bases de datos
Almacén de datos
Análisis de streaming
BI
Hadoop
Spark/Presto
Elasticsearch
Mejores
productos
Aprendizaje automático
Aprendizaje profundo/
inteligencia artificial
Más
usuarios
Más
datos
Secuencia de clics
Actividad de usuario
Contenido generado
Compras
Clics
Número de Me gusta
Datos de sensor

Agilidad en el aprendizaje automático
Amazon SageMaker
AMIdeaprendizajeprofundodeAWS
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon QuickSight
AWS Snowball
AWS Snowmobile
AWS IoT Core
Data lake
en AWSAlmacenamiento | Almacenamiento para archivado | Catálogo de datos
AnálisisAprendizajeautomático
Movimiento de datosMovimiento de datos
en tiempo realen las instalaciones

En resumen...

Ideas Clave
• Los Data lakes y los Data Warehouse se complementan entre sí.
• Bajo acoplamiento, pero de alto rendimiento.
• Almacenamiento, análisis, administración de metadatos, etc.
• Proteja sus análisis de cara al futuro.
• Elección de la herramienta más adecuada para el trabajo.
• Elasticidad y numerosos clústeres para objetivos exclusivos.
• Sustitución de la planificación de capacidad por el modelo de consumo.
• No se olvide de administrar los metadatos.

Uso de la capa de almacenamiento y el formato de datos
adecuado
Estructura de datos → Esquema fijo, JSON, clave-valor.
Patrones de acceso → Almacene los datos en el formato en
que vaya a obtener acceso a ellos.
Características de los datos → Calientes, templados, fríos.
Costo → Costo adecuado.

AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS

Similar a AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS (20)

Más de Amazon Web Services LATAM

Más de Amazon Web Services LATAM (20)

Último

Último (19)

AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS

Notas del editor