Este documento presenta una sesión sobre los servicios de bases de datos de AWS. Explica que ofrece una variedad de servicios de bases de datos relacionales, NoSQL y de Big Data, cada uno optimizado para diferentes casos de uso. También describe los servicios principales como Amazon RDS, DynamoDB y Redshift, y cómo clientes importantes los usan para solucionar sus desafíos de datos y análisis.
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
AWS Database Services Overview
1. Servicios de Bases de Datos de AWS
Damián Traverso
AWS Solutions Architect
traverso@amazon.com
13 de Julio, 2017
2. ¿Qué esperar de esta sesión?
• Aprender la estrategia y visión general de nuestros
servicios de datos
• Conocer nuestra arquitectura y los clientes clave por
servicio
• Entender cuándo utilizar qué servicios para sus
aplicaciones
3. Estrategia
• Comenzar desde el cliente y retroceder.
• Ofrecer servicios administrados.
• Aprovechar la arquitectura de la nube.
• Soportar la migración de aplicaciones y datos de/hacia sus centros
de datos locales
• Múltiples servicios, cada uno optimizado para diferentes casos de
uso.
4. Portafolio de Productos
Traditional Apps
Relational Databases
NoSQL & In-MemoryBig
Data
RDS
Aurora
Database
Migration
Service
Bases de Datos Relacionales
DynamoDB
ElastiCache
NoSQL y En Memoria
Amazon
Redshift
EMR
Data Pipeline
Athena
Big Data
QuickSight
Elasticsearch
Amazon ML
Analítica
5. Uso de servicios de Base de Datos
• Amazon Aurora es el servicio de más rápido crecimiento en la
historia de AWS
• Se han migrado más de 20,000 bases de datos utilizando AWS
Database Migration Service
• En el “Prime Day” DynamoDB sirvió a más de 56,000 millones de
solicitudes adicionales en todo el mundo en comparación con el
mismo día de la semana anterior.
8. • Soporte de varios motores: Aurora, MySQL, MariaDB,
PostgreSQL, Oracle, SQL Server
• Aprovisionamiento automatizado, corrección, escalabilidad,
respaldo/restauración, recuperación en caso de fallo
• Uso con almacenamiento GP2 o con IOPS aprovisionados
• Alta disponibilidad con RDS Multi-AZ
– SLA de 99,95% para implementaciones de Multi-AZ
Amazon RDS
Amazon Aurora
9. Punto clave: las bases de datos relacionales
son complejas
• Nuestra experiencia con Amazon.com nos enseñó que
las bases de datos relacionales pueden ser complicadas
de gestionar y operar con alta disponibilidad
• ¡Las bases de datos relacionales mal administradas son
una de las causas principal de caídas en sistemas y por
tanto de pérdida de sueño en el mundo de la tecnología!
10. • Menor TCO porque tenemos mejor control
• Obtenga más apalancamiento de sus equipos de trabajo
• Concéntrese en las cosas que lo diferencian
• Alta disponibilidad y replicación en múltiples centros de datos
incorporada.
• Disponible en todos los motores, incluidas las ediciones
básicas/estándar, no sólo para las ediciones empresariales
• Cualquiera puede aprovechar múltiples centros de datos para
diseñar aplicaciones con alta disponibilidad
Hemos hecho las cosas más baratas, más
fáciles y mejores
11. Solución de tolerancia a fallos de nivel
empresarial para Bases de Datos
en producción
Recuperación de fallo automático
Replicación síncrona
Económico y habilitado con un solo clic
Multi-AZ: Alta Disponibilidad
13. • Airbnb migró su base de datos principal de MySQL a
Amazon RDS con sólo 15 minutos de tiempo de ventana
de cambio
• RDS simplifica la mayor parte de las tareas
administrativas relacionadas con las bases de datos para
que los ingenieros puedan dedicar más tiempo a otras
funciones
• Utiliza la replicación maestro-esclavo asíncrona para
mejorar el rendimiento del sitio web lanzado a través de la
consola RDS o una llamada de API
• Aprovecha la Multi-AZ para la alta disponibilidad
Airbnb – Amazon RDS para MySQL
15. Preguntas claves
• ¿Qué pasaría si partiéramos de cero con la única limitación de que
la base de datos fuera una base de datos relacional?
• ¿Un rendimiento mucho mejor aprovechando la escala masiva de
nuestra nube?
• ¿Durabilidad diseñada indistinguible del 100% y disponibilidad del
99.99%?
• ... ¿Mejores y más baratos que las bases de datos comerciales de
30 años de antigüedad en uso hoy en día?
16. Sí podemos. Respuesta: Amazon Aurora
• Un nuevo motor de base de datos relacional,
construido desde cero para aprovechar AWS
• Para todas las nuevas aplicaciones que requieren
lenguaje SQL, recomendamos Amazon Aurora
• Rendimiento de calidad comercial y
disponibilidad a precios de código abierto
• Conserva la compatibilidad con MySQL 5.6
17. Amazon RDS para Aurora
• Compatible con MySQL con hasta 5 veces mejor
rendimiento en el mismo hardware: 100,000
escrituras/seg. y 500,000 lecturas/seg.
• Escalable hasta 64 TB en una sola base de datos, hasta
15 réplicas de lectura
• Capa de almacenamiento SSD de alta disponibilidad,
duradera y tolerante a fallos: replicada 6 veces en 3
zonas de disponibilidad
• Cifrado transparente para datos en reposo utilizando
AWS KMS
• Procedimientos almacenados en Amazon Aurora pueden
invocar funciones AWS Lambda
18. Servicio con el crecimiento
más rápido en la historia
de AWS
Clientes de Amazon Aurora
19. Amazon Aurora ahora compatible con
PostgreSQL
• Compatibilidad con PostgreSQL 9.6 con soporte para PostGIS
• Todas las características que espera de Amazon Aurora incluyendo
15 réplicas de lectura con <10ms de retraso, almacenamiento
compartido, recuperación en caso de errores sin pérdida de datos,
6 veces replicada en 3 Zonas de disponibilidad, encriptación con
AWS KMS
• Disponible ahora en ”Preview”
20. Simplifique el monitoreo desde la
consola de administración de AWS
Carga de la base de datos:
identifica los cuellos de
botella de la base de datos
Fácil
Poderoso
Identifica la fuente del cuello de
botella
“Top SQL”
Periodo de tiempo ajustable
Hora, día, semana y más
Max CPU
Información de rendimiento para Amazon RDS
22. Afluenta – ¿Quienes somos?
• Fundada en 2012
• Prestamos de persona a persona (P2P Lending)
• Primera fintech P2P con presencia regional en LATAM
(Argentina, México y Perú)
• Conectamos miles de inversores con miles de solicitantes
• Mas de $300M en créditos originados
23. Desafíos
• 2012-Q1: 20 Inversores – 1 Préstamo
• 2017-Q1: 2500 Inversores – 1 Préstamo
• Crecimiento exponencial
• Almacenamiento masivo de datos
• Procesamiento paralelo
• Operación 24x7 (Los clientes utilizan la plataforma a toda
hora)
• Atomización
24. Arquitectura
• RDS Aurora – Backups automáticos, snapshots, replicas
con menor latencia
• EC2 – Hardware a la carta
• S3 – Temperatura de la información
• SQS – Queue as a service
• ECS Docker – Imágenes inmutables, compatibilidad (dev)
25. Beneficios
• Acompañar el crecimiento a medida del negocio
• Escalamiento horizontal
• Latencia < 50msec
• Tamaño hasta 64Tb (autoescalable)
•Alta disponibilidad
• Eficiencia en costos
27. AWS Database Migration Service
• Servicio totalmente administrado para la migración
desde el centro de datos local hasta la nube de AWS
con un tiempo de inactividad mínimo
• Migra datos desde y hacia todos los motores
comerciales y de código abierto más utilizados
• Herramienta de conversión de esquemas que convierte
esquemas de base de datos, procedimientos
almacenados y código de aplicación a un formato de
destino diferente.
• Soporta reproducción homogénea y heterogénea de
datos
• Una base de datos de terabytes puede ser migrada por
tan solo unos $3
28. Capacidades de conversión de bases de datos
en SCT
Base de Datos Origen Base de Datos Destino
Microsoft SQL Server Amazon Aurora, MySQL, PostgreSQL
MySQL PostgreSQL
Oracle Amazon Aurora, MySQL, PostgreSQL
Oracle Data Warehouse Amazon Redshift
PostgreSQL Amazon Aurora, MySQL
Teradata, Netezza, Greenplum Amazon Redshift
29. Migración Heterogénea
• Migró de Oracle a PostgreSQL RDS
• Utilizó la herramienta ”AWS Schema Conversion Tool”
para convertir su esquema de base de datos
• Utilizó la replicación en curso (CDC) para mantener las
bases de datos sincronizadas hasta que llegaron a la
ventana de corte
• Beneficios:
• Mayor fiabilidad del entorno de la nube
• Ahorros en los costos de licencias de Oracle
• Informe de evaluación les permiten entender el alcance de la
migración
33. Preguntas claves
• Aurora fue diseñada con una sola restricción
• Compatibilidad con SQL y semántica de la base de datos relacional
• ¿Y si dijéramos no a esta restricción?
• No a SQL = NoSQL
• ¿Podríamos eliminar las cosas que no nos gustan de las
bases de datos relacionales?
34. Sí podemos. Respuesta = Amazon DynamoDB
• Base de datos que puede escalamiento ilimitado
• Puede comenzar de forma pequeña. No hay límite para el éxito de la
aplicación.
• Su aplicación se ejecuta rápidamente 10, 100, 1M, 10M o 100M de usuarios
usando su aplicación.
• Ofrece disponibilidad y durabilidad indistinguibles del 100%.
• 99.99% y 60 segundos recuperación en caso de error no son lo
suficientemente buenos
• No tienes que administrar nada. Ni siquiera necesita saber qué es una
instancia de base de datos. Solo crea una tabla
• No hay esquema. Todo lo que necesitas para decirnos es el número de
lecturas/seg. y escrituras/seg. que quieres ejecutar.
• Nosotros hacemos el resto
36. Lyft escala fácilmente su sistema de localización utilizando DynamoDB
Era tan fácil escalar.
Teníamos dos controles. Uno
era de lectura y otro de
escritura.
Chris Lambert
CTO, Lyft
”
“ • Lyft maneja hasta 8 veces más viajes
durante las horas pico
• La localización del GPS para todos los
viajes fue registrada en el sistema de
localización.
• En junio de 2014, Lyft desplegó
DynamoDB en producción.
• Lyft ha movido desde entonces muchos
de sus otras bases de datos a
DynamoDB.
38. Amazon Redshift
• Almacenamiento de datos relacional, MPP, y que
soporta Petabytes de información
• Totalmente administrado con plataformas SSD y
HDD
• Seguridad integrada de extremo a extremo,
incluidas las claves gestionadas por el cliente
• $1,000/TB/año; inicia en $0.25USD/hora
39. ¿Por qué creamos Amazon Redshift?
• Los clientes estaban generando datos en la nube, pero
moviéndolos a su centro de datos local para analizarlos.
• Los clientes habían migrado todo a AWS, excepto sus
almacenes de datos locales.
• Querían cerrar estos centros de datos pero no podían hasta que
les ofreciéramos una solución en la nube
40. Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Disponibles para análisis
Datos generados
1990 2000 2010 2020
Puntos claves: La mayoría de los datos caen
al piso
90% de los datos en una
compañía nunca son
analizados
Los altos costos y la
complejidad de un almacén de
datos tradicional hace
complicado justificar el capital
necesario que se debe invertir.
41. Preguntas claves
• ¿Podríamos diseñar un sistema barato y
suficientemente escalable para permitirle analizar todos
sus datos?
• ¿Podríamos construir un servicio que fuera más rápido,
más barato y más fácil de usar que los sistemas de
almacenamiento de datos tradicionales?
42. Sí podemos. Respuesta = Amazon Redshift
• Un sistema de procesamiento masivamente paralelo (MPP) con hasta 128 nodos de poder
de cómputo para almacenar y procesar hasta 2PB de datos comprimidos
• A $1,000/TB/año, es tan barato que puedes analizar todos tus datos
• Puede aprovisionar un petabyte en menos de tres minutos y pagar por hora
• 10x de rendimiento y 1/10 del precio de otras soluciones
• Totalmente administrado con el aprovisionamiento automatizado, la aplicación de parches,
la seguridad, la copia de seguridad, la restauración y la tolerancia a errores integrada
44. NTT Docomo: el proveedor móvil más grande
de Japón
• 68 millones de clientes
• 10s de TBs de datos por día a través
de la red móvil
• 6PB de datos totales (sin comprimir)
• Ciencia de datos para operaciones
de marketing, logística, etc.
• Greenplum en su centro de datos
local
• 125 nodos DS2.8XL en el cluster
• 4,500 vCPUs, 30TB RAM
• 6PB de datos sin comprimir
• Consultas analíticas 10x más
rápidas
• Reducción del 50% de tiempo
para el despliegue de la nueva
aplicación de BI.
• Significativamente menos
operaciones.
45. Amazon EMR
• Hadoop, Hive, Presto, Spark, Tez, Impala etc.
• Versión 5.2: Hadoop 2.7.3, Hive 2.1, Spark 2.02, Zeppelin, Presto,
HBase 1.2.3 and HBase on S3, Phoenix, Tez, Flink
• Nuevas aplicaciones agregadas dentro de los 30 días de su versión
de código abierto
• Completamente administrado, escalando automáticamente los
clústeres con soporte para precios On-Demand y Spot
• Soporte para sistemas de archivos HDFS y S3 que permiten el
cálculo y almacenamiento de forma separada; Varios clústeres
pueden ejecutarse sobre los mismos datos en S3
• Soporte para encriptación de extremo a extremo, IAM / VPC,
encriptación de S3 con claves gestionadas por el cliente y AWS
KMS
46. ¿Por qué construimos Amazon EMR?
• Los clientes querían utilizar los últimos recursos analíticos de
código abierto para analizar y transformar sus datos
• Los clientes querían utilizar tecnologías como Spark y Presto
en conjunto con servicios de AWS como Amazon S3 y
funciones como EC2 Spot Instances
• Los clientes querían beneficiarse de la elasticidad que AWS
ofrece
48. Amazon Athena
• Servicio para consultar datos en S3 sin necesidad de
administrar infraestructura
• No se requiere carga de datos; consulta directamente
desde Amazon S3
• Utilice consultas SQL ANSI estándar con soporte para
joins, JSON y funciones de window.
• Soporte para múltiples formatos incluyendo texto, CSV,
TSV, JSON, Avro, ORC, Parquet
• Pague por consulta sólo cuando esté ejecutando
consultas; $5/TB escaneado; si comprime sus datos, sus
consultas cuestan menos.
49. ¿Por qué construimos Amazon Athena?
• Los clientes querían una forma fácil de ejecutar consultas
sobre datos en Amazon S3 sin infraestructura que administrar
• Los clientes querían un servicio que pudiera complementar el
uso de Amazon Redshift y Amazon EMR
• Los clientes querían dar esta capacidad a cualquier persona
en su empresa y sólo pagar por consulta
52. Como servicio nativo en la nube,
QuickSight combina la velocidad, la
escalabilidad y la facilidad de
implementación de la que nuestros
clientes han llegado a depender con el
valor y la rentabilidad que usted espera
de AWS.
Amazon QuickSight
Servicio de analítica de negocios rápido y fácil de usar a
1/10 del costo de las soluciones de BI tradicionales.
53. Amazon QuickSight
• Reconocimiento automático de fuentes de datos AWS como Redshift de
Amazon, RDS y S3
• Conectividad con recursos fuente de terceros como Excel, Salesforce, y
otras bases de datos (en nube o en los centros de datos locales)
• Rendimiento super rápido con SPICE
• Visualizaciones instantáneas con Autograph
• Comparte y colabora en análisis, paneles e historias de forma segura
• Experiencia iPhone nativa y basado en web desde todos los demás
dispositivos
• Conjuntos de datos gobernados
• Controles de acceso de usuario
• Integración de Directorio Activo
54. ¿Qué servicio debería usar?
Situación Solución
Aplicación existente
Use el motor actual en RDS
• MySQL Amazon Aurora, RDS para MySQL
• PostgreSQL RDS para PostgreSQL
• Oracle, SQL Server RDS para Oracle, RDS para SQL
Server
Aplicación nueva
• Si puede evitar características relacionales DynamoDB
• Si necesita características relacionales Amazon Aurora
Almacén de datos (DWH) y BI • Amazon Redshift y Amazon QuickSight
Análisis ad hoc de datos en S3 • Amazon Athena y Amazon QuickSight
Spark, Hadoop, Hive, HBase • Amazon EMR
Análisis de bitácoras, monitoreo
operacional y búsqueda
• Amazon Elasticsearch Service