AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
1. Creación de Data lakes y análisis de datos en AWS:
prácticas recomendadas para patrones
Eduardo Patiño Balaguera
Arquitecto de soluciones para Sector Público
Email: balague@amazon.com
Volumen - IoT, Sensores , Reporte de ciudadanos
Velocidad - Miles de dispositivos mandando informacion
Variedad en diferentes formatos o de diferentes fuentes
Veracidad
Valor de la informacion - No solo enviar data por enviar (dark Data)
Cada Organizacion genera datos cierto , el reto es sacar valor a los datos para tomar decisions inteligentes
Encontrar las herramientas adecuadas para las personas adecuadas
No lo digo yo , veamos que dicen los analistas
88% Data no estructurada - Mucha info s9n explotar
50% de crecimiento de datos año contra año entre 2010 y 2020
Tenemos ya PT porday de clientes que suben informacion , esperamos ahora exabytes
Sensores y Social media estan aportando mucho del crecimiento de la data
Ahora bien , los Datalakes extiendes esa funcionalidad,
Los datalekes no reemplazan , pero si extienden la funcionalidad en los motores de analisis
ya no procesamos solo datos historicos , y datos relacionales
Escalamos a TB o EX
Tenemos nuevos retos , mas datos, mas escala , nueva tecnologia, no queremos tener un solo motor, ya que uno solo no puede proveer todas las funcionalidades
Queremos tener multiple motores de analisis
Incluso Podemos aplicar machine learning sobre el Datalake
Pero como se ve esto del lado de AWS
Amazon S3 99.99999999%
Capacidades de Seguridad , cumplimiento y auditoria
Datos estructurados y no estructurados
Imagenes , Audio
2 veces mas integraciones con socio
Demo Copy de Data a s3 Ingesta ( si funciona internet )
Datos descubribles
AWS Glue es un Servicio de ETL ( Extraccion carg ay transformacion )
Tiene diferentes capacidades,
1. Catalogo central ( temenos un storage central que soporta multiples formatos de datos , es importante tener un catalogo central , por que si queremos pasar d eun solo motro de analiticos a multiple motores de analiticos, esta es la manera de siemplificar el proceso , teniendo un unico catalogo de datos )
Usar Glue para hacer la vida mas facil
Diferentes origenes de datos para enviar datos a Amazon S3 , y usar Glue para verificar los datos para extrar los metadatos y cataloger los datos para que sean consumidos
Para popular el catalogo se pued ehacer de diferentes maneras .. Crear tablas manualmente , usar hive DDL , API , Si tiene Hive metasotre actualmente, este se puede importer sobre el servicio de glue
Amazon S3 holds trillions of objects and regularly peaks at millions of requests per second.
More than 130,000 databases have been migrated using AWS Database Migration Service
Temperatura de los datos
More than 10,000 customers use Amazon Redshift.
Siguiente paso .. La evolucion …
Llevar imagenes al datalake y procesar esas imagenes que los estudiantes dejan , meme, que data puedo sacar de eso , como puedo detector los snetimientos en una palabra etc
Esto podran verlo en Nuestra sesion de Machine Learning que tendremos posterior mente a las 12:45