Processamento em tempo real usando AWS - padrões e casos de uso

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Mv – Marcus Vinicius Ferreira, Solution Architect – AWS Public Sector
Bruno Gouveia, Lead Engineer – Luiza Labs | Magazine Luiza
Junho 2016
Processamento em tempo real usando
AWS: Padrões e casos de uso

O Valor dos Dados
Dados mais recentes são valiosos
Se você puder usá-lo em real time
Capture o valor dos seus dados

Origem dos Dados
Database
Client App
Web server
Transactional:
Database reads/writes
Cloud
Storage
File
Log Files
Servers
Access Log
System Log
Amazon S3
DynamoDB
Amazon
RDS

Origem dos Dados
Stream
Storage
Database
Client App
Web server
Transactional:
Database reads/writes
Cloud
Storage
File
Log Files
Servers
Access Log
System Log
Stream
Amazon S3
DynamoDB
Amazon
RDS
Amazon
Kinesis
IoT
Metrics
ClickStream

Mobile Apps Web Clickstream Application Logs
Metering Records IoT Sensors Smart Cities
Smart Buildings
[Wed Oct 11 14:32:52 2000] [error]
[client 127.0.0.1] client denied by
server configuration: /www/htdocs/test
Streaming Data: produzido continuamente

Batch Processing
Hourly server logs
Weekly or monthly bills
Daily web-site clickstream
Daily fraud reports
Tem a ver com a frequência...!
Stream Processing
Real-time metrics
Real-time spending alerts/limits
Real-time clickstream analysis
Real-time anomaly detection

Processando Streaming Data
Aplicação
Data Workers

Processando Streaming Data: Escala
Aplicação
Data Stream WorkersKinesis

Simple Pattern for Streaming Data
Continuously creates
data
Continuously writes
data to a stream
Can be almost
anything
Data Producer
Durably stores data
Provides temporary
buffer
Supports very high-
throughput
Streaming Storage
Continuously
processes data
Cleans, prepares, &
aggregates
Transforms data to
information
Data Consumer
Mobile Client Amazon Kinesis Amazon Kinesis app

Por que um storage de streaming?
• Decouple producers & consumers
• Persistent buffer
• Collect multiple streams
• Preserve ordering
• Parallel consumption *
• Streaming MapReduce
1 4 1 3 1 2 1 1
Producer A 1 1 1 1
4 4 3 3 2 2 1 1
shard 1
shard 2
Consumer App 1
Counts
Consumer App 2
Sums
Producer B 4 3 2 1
Producer C 4 3 2 1
Producer D 4 3 2 1
Key = orange
Key = blue
Key = green
Key = yellow
4 4 4 4
4 10 10 10
Amazon Kinesis stream

Consumindo em Paralelo
Log Archive
Amazon
Kinesis
Kinesis app 1
Amazon S3
Amazon Glacier
Amazon EC2
Amazon
Redshift
Kinesis Firehose
Kinesis app 2
BI user
Dashboard
tweets
likes
shares
retweets
mentions
User metadata
Stream
processing
Response
analysis
Trend
analysis
Clickstream logs

Amazon Kinesis: Streaming Data Made Easy
Fica mais fácil capturar, fazer delivery, processar streams em AWS
Amazon Kinesis
Streams
Amazon Kinesis
Analytics
Amazon Kinesis
Firehose

Amazon Kinesis Streams
Escalável
Fácil de administrar
Pay as you go
Real-time latencies

Amazon
DynamoDB
Amazon
RedShift
Amazon EMR
Amazon S3
Usando Kinesis

Amazon
DynamoDB
Amazon
RedShift
Amazon EMR
Amazon S3
Usando Kinesis: KCL

KCL: Amazon Kinesis Client Library
• Kinesis Client Library (KCL) para Java, Ruby, Python ou
Node.JS
• Deploy em EC2 instances
• Componentes principais:
1. Record Processor Factory – Creates the record processor
2. Record Processor – Processor unit that processes data from a
shard in Amazon Kinesis Streams
3. Worker – Processing unit that maps to each application instance

Consumers: Usando KCL
Consumer – SensorAlertApplication
KCL Worker
IRecordProcessor
SensorRecordProcessor
IRecordProcessor
SensorRecordProcessor IRecord
Processor
Factory
KCL
SensorRecord
ProcessorFactory
KinesisClientLibConfiguration
1 4 1 3 1 2 1 1
4 4 3 3 2 2 1 1
shard 1
shard 2
Amazon Kinesis stream

KCL: State Management
• One record processor maps to one shard for processing
• One worker maps to one or more record processors
• Balances shard-worker associations when worker / instance counts change
• Balances shard-worker associations when shards added / removed

Amazon Kinesis Firehose
Capture and submit
streaming data
Analyze streaming data using
your favorite BI tools
Firehose loads streaming data
continuously into Amazon S3, Redshift
and Elasticsearch
Escalável
Fácil de usar
Continuous transform
Store integration *

Amazon
DynamoDB
Amazon
RedShift
Amazon S3
Usando Kinesis e KCL
Amazon ES

Amazon
DynamoDB
Amazon
RedShift
Amazon S3
Simplificando: Kinesis Firehose
Data Kinesis Firehose
Amazon ES

Amazon Kinesis Streams vs. Amazon Kinesis Firehose
Amazon Kinesis Streams is for use cases that require custom
processing, per incoming record, with sub-1 second processing
latency, and a choice of stream processing frameworks.
Amazon Kinesis Firehose is for use cases that require zero
administration, ability to use existing analytics tools based on
Amazon S3, Amazon Redshift and Amazon Elasticsearch, and a
data latency of 60 seconds or higher.

Qual o seu tipo de latência?
vs
Amazon Kinesis Streams vs. Amazon Kinesis Firehose

Amazon Kinesis Analytics
• Apply SQL on streams
• Build real-time, stream processing applications
• Easy scalability
Connect to Kinesis streams,
Firehose delivery streams
Run standard SQL queries
against data streams
Kinesis Analytics can send processed data
to analytics tools so you can create alerts
and respond in real-time

Use SQL to build real-time applications
Easily write SQL code to process
streaming data
Connect to streaming source
Continuously deliver SQL results

AWS Lambda
• Function code a partir de novos eventos
• Processamento simples de novas entradas
• Serverless
Social media stream is loaded
into Kinesis in real-time
Lambda runs code that generates hashtag
trend data and stores it in DynamoDB
Social media trend data
immediately available
for business users to
query
LAMBDASTREAMS DYNAMODB

Amazon Elastic Map Reduce (EMR)
• Ingest streaming com baixa latência e alto throughput
• Clusters com versões de open source frameworks
• Processamento mais complexo e elaborado
Ingest streaming data
through Amazon Kinesis
Streams
Your choice of stream
data processing engine,
Spark Streaming or Apache Flink
EMRSTREAMS S3
Send processed
data to S3, HDFS,
or a custom
destination using
an open source
connector

Aplicações de Streaming:
Patterns e Casos de Uso

Streaming
Ingest-Transform-Load
• Ingest and store raw data at high volume
• Atomic transformations
• Simple data enrichment
Continuous Metric
Generation
• Windowed analytics (count X over 5 minutes)
• Event correlation like sessionization
• Visualization
Actionable Insights
• Act on the data by triggering events or alerts
• Real-time feedback loops
• Machine learning
Stream Processing: Casos de Uso
Use Case Characteristics

Cenário: Análise de VPC Flow Logs
• VPC Flow Logs contém informação sobre todo o tráfico IP inbound
e outbound da sua VPC
• A combinação de Kinesis Firehose e S3 permite um
armazenamento de baixo custo dos logs e uma análise em tempo
real do seu tráfego.
VPC subnet
Amazon
CloudWatch
Logs
AWS
Lambda
AmazonKinesis
Firehose
Amazon S3
bucket
Amazon
Athena
Amazon
QuickSight
Forward VPC flow logs with
subscription
Aggregation and
transformation
Near real-time queries and
visualization

Cenário: Time-Series Analytics
• IoT data via MQTT
• Consolidar metricas a cada 10 seconds
• Guardar dados de time series numa base RDS MySQL para
consultas via queries e BI
IoT sensors AWS IoT
RDS
MySQL DB
instance
Amazon
Kinesis
Streams
Amazon
Kinesis
Streams
Amazon
Kinesis
Analytics
AWS
Lambda
function
Compute average
temperature every 10secIngest sensor data
Persist time series
analytic to database

Cenário: Real-Time Anomaly Detection
• Website clickstream via API Gateway e Amazon Kinesis Streams
• Usar Amazon Kinesis Analytics para quantificar data points e definir
tendências de comportamento
• Enviar notificações via Amazon SNS
Amazon API
Gateway
Amazon
Kinesis
Streams
Amazon
Kinesis
Streams
Amazon
Kinesis
Analytics
Lambda
function
Amazon
SNS
topic
email
notification
users
SMS
notification
SMS
Ingest clickstream data Detect anomalies& take action Notify users

Caso de Cliente: Magazine Luiza

“Com os serviços da AWS pudemos criar um
sistema de processamento em tempo real
altamente escalável e de ótimo desempenho”
O Magazine Luiza é um dos líderes no
mercado de varejo do Brasil com quase 60
anos de vida, +800 lojas e milhões de
clientes.
Com times de desenvolvimento
espalhados por 5 cidades, nosso lema é
“experimentação e escala”.
“Poder lidar com
+300k rps com uma
latência estável e um
baixo custo, o
Kinesis se mostrou a
ferramenta ideal para
processar todo nosso
catálogo de produtos.”
- Bruno Gouveia
Dev Specialist

O Desafio
• Suportar grandes oscilações no volume de escrita,
sem efeitos colaterais na leitura.
• Facilidade de manutenção.
• Previsibilidade comportamental, monitoramento e
alertas em tempo real
• Menor custo possível

Quais são os próximos passos?

AWS Blog: Mão na Massa e Sample Code
https://aws.amazon.com/blogs/big-data/

AWS Blog: VPC Flow Logs + Firehose

AWS Blog: Real-time Clickstream Anomay Detection

AWS Blog: Writing SQL on Streaming Data

Ainda não tem o App oficial do
AWS Summit São Paulo?
http://amzn.to/2rOcsVy
Não deixe de avaliar as sessões no app!

Processamento em tempo real usando AWS - padrões e casos de uso

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Processamento em tempo real usando AWS - padrões e casos de uso

Similar a Processamento em tempo real usando AWS - padrões e casos de uso (20)

Más de Amazon Web Services LATAM

Más de Amazon Web Services LATAM (20)

Último

Último (20)

Processamento em tempo real usando AWS - padrões e casos de uso

Notas del editor