Creando su primera aplicación Big Data en AWS

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Henry Alvarado, Solutions Architect
26 de Mayo de 2016
Creando su primera aplicación big
data en AWS

Big Data
Tecnologías y técnicas para trabajar productivamente con
datos en cualquier escala
Generación
de datos
Captura
&
Almacenamiento
Computación
&
Análsis
Visualización

Amazon
S3
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Amazon
Elastic
MapReduce
Servicios de Big Data en AWS
Amazon
Elasticsearch
Amazon
Machine
Learning
Amazon
Quiksight

Almacenamiento de objetos
Cualquier tipo de archivo
Escalabilidad
99.999999999% de durabilidad
Amazon S3

Procesamiento real-time
Alta performance, elástico
Fácil de usar
Integrable con EMR, S3, Redshift, DynamoDB
Amazon
Kinesis
Streams

Base de datos NoSQL
Fácil de escalar
Cero administración
Latencia de un único dígito de milisegundo
Amazon
DynamoDB

Data Warehouse relacional
MPP – Procesamiento Paralelo Masivo
Escalabilidad en PBs
Completamente administrado
Costo de $1.000 / TB / año
Amazon
Redshift

Hadoop como servicio
Hive, Pig, Impala, Hbase, Spark
Fácil de usar, administrado
Uso de On-demand y Spot
Integrable con S3, DynamoDB y Kinesis
Amazon
Elastic
MapReduce

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
Amazon
Redshift
Caso de Uso – Análisis de logs de acceso
Log4J
Map Reduce
Parallel
Copy
EMR-Kinesis
Connector
SQL Query
Kinesis Log4j
Appender
Visualización
y análisis

Amazon
Kinesis

Creación de un stream en Amazon Kinesis
aws kinesis create-stream
--stream-name AccessLogStream
--shard-count 2

Amazon
Kinesis
Amazon
EMR

Creación de un cluster en Amazon EMR
aws emr create-cluster
--name ”CLUSTER-NAME"
--instance-type m3.xlarge
--instance-count 3
--region=AWS-REGION
--ami-version 3.7.0
--ec2-attributes KeyName=KEY-NAME
--no-auto-terminate
--applications Name=Hive

Amazon
Kinesis
Amazon
EMR
Amazon S3

Creación de un bucket en Amazon S3
aws s3 mb s3://BUCKET-NAME

Amazon
Kinesis
Amazon
EMR
Amazon S3
Amazon
Redshift

Creación de un cluster en Amazon Redshift
aws redshift create-cluster
--cluster-identifier CLUSTER-NAME
--db-name DB-NAME
--node-type dw2.large
--cluster-type single-node
--master-username MASTER-USER
--master-user-password PASSWORD
--publicly-accessible
--port PORT-NUMBER

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
Amazon
Redshift

Amazon
Kinesis
LogsdeServidores
Kinesis Log4j
Appender✔
Amazon
EMR
Amazon S3
Amazon
Redshift

Configurar Amazon Kinesis Log4J Appender
Descargar Amazon Kinesis Log4j Appender:
http://emr-kinesis.s3.amazonaws.com/publisher/kinesis-log4j-
appender-1.0.0.jar
Configurar el archivo AwsCredentials.properties:
accessKey=IAM-ACCESS-KEY
secretKey=IAM-SECRET-KEY

Capturar logs en un stream de Amazon Kinesis
Descargar un archivo de log de ejemplo de Apache httpd:
http://elasticmapreduce.s3.amazonaws.com/samples/pig-
apache/input/access_log_1
Ejecutar Amazon Kinesis Log4J Appender:

Amazon EMR’s Hive
• Software para ejecutar consultas SQL-like (HiveQL) en Hadoop
• Schema on read: mapea tablas para datos de entrada
• Accede dados en Amazon S3, DynamoDB y Kinesis
• Consultar formatos complejos usando SerDe
• Transformar datos con User Defined Functions (UDF)

Configurar Hive para acceder Amazon Kinesis
> hive
hive> SET kinesis.accessKey=IAM-ACCESS-KEY;
hive> SET kinesis.secretKey=IAM-SECRET-KEY;
hive> SET kinesis.nodata.timeout=1;
hive> SET kinesis.endpoint.region=REGION;
hive> SET kinesis.retry.interval=1000;
hive> SET kinesis.retry.maxattempts=3;

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
✔
Kinesis Log4j
Appender✔
EMR-Kinesis
Connector✔

Creación de una tabla Hive usando Amazon
Kinesis como origen
hive> CREATE TABLE apachelog_from_kinesis(
host STRING, identity STRING, user STRING,
request_time STRING, request STRING, status STRING,
size STRING, referrer STRING, agent STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|[[^]]*]) ([^
"]*|"[^"]*") (-|[0-9]*) (-|[0-9]*)(?: ([^ "]*|"[^"]*") ([^
"]*|"[^"]*"))?"
)
STORED BY 'com.amazon.emr.kinesis.hive.KinesisStorageHandler'
TBLPROPERTIES("kinesis.stream.name"="AccessLogStream");

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
✔
Kinesis Log4j
Appender✔
EMR-Kinesis
Connector✔
✔

Test de Amazon EMR leyendo de Amazon
Kinesis
-- return the first row in the stream
hive> SELECT * FROM apachelog_from_kinesis LIMIT 1;
-- return count all items in the Stream
hive> SELECT COUNT(1) FROM apachelog_from_kinesis;
-- return count of all rows with given host
hive> SELECT COUNT(1) FROM apachelog_from_kinesis
WHERE host="66.249.67.3”;

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
✔
Kinesis Log4j
Appender✔
Map Reduce
EMR-Kinesis
Connector✔ ✔
✔

Creación de una tabla externa en Amazon S3
hive> CREATE EXTERNAL TABLE apachelog_to_s3 (
request_time STRING, host STRING,
request STRING, status INT,
referrer STRING, agent STRING
)
PARTITIONED BY (hour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't'
STORED AS TEXTFILE
LOCATION 's3://BUCKET-NAME/emroutput';

Configurar Hive para particionar archivos
hive>
hive>

Configurar Hive para compactar archivos
hive>
hive>
hive>
hive>

Ejecutar una consulta Hive y guardar el
resultado en Amazon S3
hive> INSERT OVERWRITE TABLE apachelog_to_s3 PARTITION (hour)
SELECT
from_unixtime(unix_timestamp(request_time,
'[dd/MMM/yyyy:HH:mm:ss Z]')),
host,
request,
status,
referrer,
agent,
hour(from_unixtime(unix_timestamp(request_time,
'[dd/MMM/yyyy:HH:mm:ss Z]'))) as hour
FROM apachelog_from_kinesis;

Listar los archivos en Amazon S3
aws s3 ls s3://BUCKET-NAME/emroutput/

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
Amazon
Redshift
✔ ✔
✔
Kinesis Log4j
Appender✔
Map Reduce
EMR-Kinesis
Connector✔ ✔

Conectándose a Amazon Redshift

Crear una tabla en Amazon Redshift
CREATE TABLE apachelog (
request_time timestamp,
host varchar(50),
request varchar(1024),
status int,
referrer varchar(1024),
agent varchar(1024)
)
DISTKEY(host)
SORTKEY(request_time);

Cargar datos en Amazon Redshift
COPY apachelog
FROM 's3://BUCKET-NAME/emroutput'
CREDENTIALS
'aws_access_key_id=IAM-ACCESS_KEY;
aws_secret_access_key=IAM-SECRET-KEY'
DELIMITER 't' IGNOREHEADER 0
MAXERROR 0
GZIP;

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
Amazon
Redshift
✔ ✔
✔
Kinesis Log4j
Appender✔
Map Reduce
EMR-Kinesis
Connector✔ ✔
✔

Consultar datos en Amazon Redshift
-- mostrar los requests de una determinada dirección IP
SELECT host, request FROM apachelog
WHERE host = '66.249.67.3';
-- contar todos los requests de un determinado dia
SELECT COUNT(1) FROM apachelog
WHERE request_time LIKE '2009-07-21%';
-- mostrar los requests referenciados desde otros sites
SELECT * FROM apachelog
WHERE referrer NOT LIKE '"-"';

Amazon
Kinesis
LogsdeServidores
Amazon
EMR
Amazon S3
Amazon
Redshift
Visualización
y análisis
✔ ✔ ✔
✔
Kinesis Log4j
Appender✔
Map Reduce
EMR-Kinesis
Connector✔ ✔
SQL Query✔
✔

Visualizar los datos en Amazon Redshift

BI Partners
https://aws.amazon.com/redshift/partners/

Creando su primera aplicación Big Data en AWS

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Creando su primera aplicación Big Data en AWS

Similar a Creando su primera aplicación Big Data en AWS (20)

Más de Amazon Web Services LATAM

Más de Amazon Web Services LATAM (20)

Último

Último (11)

Creando su primera aplicación Big Data en AWS