SlideShare uma empresa Scribd logo
1 de 56
©2015, Amazon Web Services, Inc. or its affiliates. All rights reserved
Aplicações com
Amazon Machine Learning
Alex Coqueiro
Arquiteto de Soluções para o Setor Público
Dados como parte essencial das aplicações
Front-end e UX Mobile Back-end
e operações
Dados
transacionais e
análiticos
Três abordagens para o desenvolvimento orientado
a dados (data-driven development)
Retrospectiva
Análise e
Relatório
Três abordagens para o desenvolvimento orientado
a dados (data-driven development)
Retrospectiva
Análise e
Relatório
Tempo Real
Processamento em
tempo real e
dashboards
Três abordagens para o desenvolvimento orientado
a dados (data-driven development)
Retrospectiva
Análise e
Relatório
Tempo Real
Processamento em
tempo real e
dashboards
Preditivo
Habilitar
aplicações
inteligentes
Machine Learning
Machine Learning é um método de
análise de dados que ajuda na busca
de modelos de descoberta de padrões
existentes de dados
Ok… entendi ... e na prática?
Identificação de Padrões: Exemplo 1
Nome Transação Fraude
Joao R$ 2.342,50 Não
Maria R$ 2.113,00 Sim
Mario R$ 2.222,22 Sim
Cristina R$ 3.423,20 Não
Marcelo R$ 940,34 Sim
Identificação de Padrões: Exemplo 1
Nome Transação Fraude
Joao R$ 2.342,50 Não
Maria R$ 2.113,00 Sim
Mario R$ 2.222,22 Sim
Cristina R$ 3.423,20 Não
Marcelo R$ 940,34 Sim
Identificação de Padrões: Exemplo 2
Nome Transação Nascimento Local Trans Idade Fraude
Joao R$ 2.342,50 SP SP 21 Não
Maria R$ 5.113,00 SP RJ 22 Sim
Mario R$ 4.222,22 SP RJ 25 Sim
Cristina R$ 5.423,20 AM SC 40 Não
Marcelo R$ 4.940,34 SP RJ 18 Sim
Ronaldo R$ 3.423,20 SP PR 18 Não
Pedro R$ 423,20 PR SP 18 Não
Simone R$ 1.001,20 DF SP 35 Não
Eduardo R$ 1.012,20 SP RJ 40 Não
Sergio R$ 3.300,10 SP BA 43 Não
Alex R$ 4.004,20 SP RJ 22 Sim
Fabio R$ 4.001,99 RJ SP 37 Não
Identificação de Padrões: Exemplo 2
Nome Transação Nascimento Local Trans Idade Fraude
Joao R$ 2.342,50 SP SP 21 Não
Maria R$ 5.113,00 SP RJ 22 Sim
Mario R$ 4.222,22 SP RJ 25 Sim
Cristina R$ 5.423,20 AM SC 40 Não
Marcelo R$ 4.940,34 SP RJ 18 Sim
Ronaldo R$ 3.423,20 SP PR 18 Não
Pedro R$ 423,20 PR SP 18 Não
Simone R$ 1.001,20 DF SP 35 Não
Eduardo R$ 1.012,20 SP RJ 40 Não
Sergio R$ 3.300,10 SP BA 43 Não
Alex R$ 4.004,20 SP RJ 22 Sim
Fabio R$ 4.001,99 RJ SP 37 Não
Exemplos de Aplicações Práticas
Baseado no que você
sabe do seu cliente:
Ele irá adquirir seu
novo produto?
Exemplos de Aplicações Práticas
Baseado no que você
sabe a respeito do
pedido:
Seria uma transação
fraudulenta?
Baseado no que você
sabe do seu cliente:
Ele irá adquirir seu
novo produto?
Exemplos de Aplicações Práticas
Baseado no que você
sabe a respeito do
pedido:
Seria uma transação
fraudulenta?
Baseado no que você sabe
a respeito da manutenção
da sua fábrica:
Quais os robôs que irão
precisar de manutenção?
Baseado no que você
sabe do seu cliente:
Ele irá adquirir seu
novo produto?
Humm…mas isso pode ficar
complexo …
Tipos de Machine Learning
Machine
Learning
Supervisionado
Não
Supervisionado
Modelos preditivos
Classificação/Regressão
Modelos descritivos
Cluster
Amazon Machine Learning (AML)
Facilidade de uso, serviço gerenciado de
machine learning construído para
desenvolvedores
Robustes em tecnologia de machine learning
Criação de modelos usando dados
armazenados na cloud da AWS
Deploy de modelos em produção em
segundos
Amazon Machine Learning
Algoritmos de Aprendizado Supervisionados
1. Classificação Binaria - usado para respostas 0/1
- O cliente irá comprar o produto?
- O cliente irá migrar para um plano mais sofisticado?
2. Classificação Multiclass
- Classificação de documentação baseado em contexto
- Organização produtos em categorias
3. Regressão
- Remarcação de preço de produtos
- Previsão de demanda futura de Produtos
Amazon Elastic MapReduce (EMR)
Algoritmos de Aprendizado Não Supervisionados
Quero ver funcionando ?
Construção do
modelo
Avaliação e
Otimização
Recuperar
Previsões
1 2 3
Treinar
Modelo
Avaliação e
Otimização
Recuperar
Previsões
1 2 3
Criar o Datasource
>>> import boto
>>> ml = boto.connect_machinelearning()
>>> ds = ml.create_data_source_from_s3(
data_source_id = ’my_datasource',
data_spec= {
'DataLocationS3':'s3://bucket/input/',
'DataSchemaLocationS3':'s3://bucket/input/.schema'},
compute_statistics = True)
Explorar e entender os dados
Treinar seu modelo
>>> import boto
>>> ml = boto.connect_machinelearning()
>>> model = ml.create_ml_model(
ml_model_id=’my_model',
ml_model_type='REGRESSION',
training_data_source_id='my_datasource')
Treinar
Modelo
Avaliação e
Otimização
Recuperar
Previsões
1 2 3
Construir aplicações com Amazon ML
- Entender a qualidade do modelo
- Ajustes na interpretação
Explorar qualidade do modelo
Refinamento na interpretação do modelo
Refinamento na interpretação do modelo
Treinar
Modelo
Avaliação e
Otimização
Recuperar
Previsões
1 2 3
Construir aplicações com Amazon ML
- Previsões em batch
- Previsões em tempo real
Batch Predictions
Assincrono, geração de dados a partir de grande
volume de dados
Requisição por meio de console ou API
>>> import boto
>>> ml = boto.connect_machinelearning()
>>> model = ml.create_batch_prediction(
batch_prediction_id = 'my_batch_prediction’
batch_prediction_data_source_id = ’my_datasource’
ml_model_id = ’my_model',
output_uri = 's3://examplebucket/output/’)
Real-time predictions
Sincrono, baixa latência, alto throughput na geração de previsões
Requesição por API ou server ou SDK mobile
Lida com aplicações que necessitam avaliar registros individualmente
>>> import boto
>>> ml = boto.connect_machinelearning()
>>> ml.predict(
ml_model_id=’my_model',
predict_endpoint=’example_endpoint’,
record={’key1':’value1’, ’key2':’value2’})
{
'Prediction': {
'predictedValue': 13.284348,
'details': {
'Algorithm': 'SGD',
'PredictiveModelType': 'REGRESSION’
}
}
}
Considerações Finais
Explore arquiteturas a partir da
combinação de serviços
existentes
Cenário Integrado com BI
Structured Data/Predictions
Amazon Redshift
Generate/Query
Predictions
Amazon QuickSight
Application
Amazon Machine
Learning
Visualize
Query for predictions with
Amazon ML batch API
Process data
with EMR
Raw data in S3
Aggregated data
in S3
Predictions
in S3 Your application
Cenário Integrado com Bigdata
… e o preço …
Pague somente pelo que usa
Análise de dados, treinamento do
modelo, e avaliação: $0.42/instance
hour
Batch predictions: $0.10/1000
Real-time predictions: $0.10/1000
Muito Obrigado
Por favor, complete a seção de feedbacks
Alex Coqueiro
Arquiteto de Soluções para o Setor Público
Você esta fazendo a pergunta
certa ?
Você tem o dado correto?
Você sabe mensurar o sucesso da
análise ?
Agenda
• Machine learning and the data ecosystem
• Smart applications by example (and counter-
example)
• Amazon Machine Learning features and benefits
• Developing with Amazon ML
• Q&A
Batch predictions with Amazon Redshift
Structured data
In Amazon Redshift
Load predictions into
Amazon Redshift
-or-
Read prediction results
directly from S3
Predictions
in S3
Query for predictions with
Amazon ML batch API
Your application
Adding predictions to an existing data flow
Your application
Amazon
DynamoDB
+
Trigger event with Lambda
+
Query for predictions with
Amazon ML real-time API
Data Engineer familiar with Hadoop and Spark
Data Engineer
Existing Structured Data
Amazon Redshift
New Structured Data
Amazon Redshift
Amazon EMR
spark-redshift
Enrichment /
Transformation
ETL
Data Source
Amazon Redshift
Integration
Construindo uma aplicação
Caro Alex,
Compre este quadcoptero R$49.99!
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
GROUP BY c.ID
HAVING o.date > GETDATE() – 30
Vamos iniciar
vendendo para
quem fez alguma
compra nos últimos
30 dias
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
GROUP BY c.ID
HAVING
AND o.date > GETDATE() – 30
… Vamos ser mais
específicos. Vamos
oferecer para quem
comprou
brinquedos
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
GROUP BY c.ID
HAVING o.category = ‘toys’
AND
(COUNT(*) > 2
AND SUM(o.price) > 200
AND o.date > GETDATE() – 30)
)
… vamos expandir e
colocar quem
comprou helicoptero
de brinquedo
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘% %’
AND o.date > GETDATE() - 60)
OR (COUNT(*) > 2
AND SUM(o.price) > 200
AND o.date > GETDATE() – 30)
)
… mas e os
quadcopteros?
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘%copter%’
AND o.date > GETDATE() - )
OR (COUNT(*) > 2
AND SUM(o.price) > 200
AND o.date > GETDATE() – 30)
)
… talvez eu precise
pegar um universo
temporal maior
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘%copter%’
AND o.date > GETDATE() - 120)
OR (COUNT(*) > 2
AND SUM(o.price) > 200
AND o.date > GETDATE() – )
)
… vamos ajustar os
tempos
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘%copter%’
AND o.date > GETDATE() - 120)
OR (COUNT(*) > 2
AND SUM(o.price) >
AND o.date > GETDATE() – 40)
)
… novamente
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘%copter%’
AND o.date > GETDATE() - )
OR (COUNT(*) > 2
AND SUM(o.price) > 150
AND o.date > GETDATE() – 40)
)
… não está
fucionando
Construindo uma aplicação
SELECT c.ID
FROM customers c
LEFT JOIN orders o
ON c.ID = o.customer
LEFT JOIN products p
ON p.ID = o.product
GROUP BY c.ID
HAVING o.category = ‘toys’
AND ((p.description LIKE ‘%copter%’
AND o.date > GETDATE() - )
OR (COUNT(*) > 2
AND SUM(o.price) > 150
AND o.date > GETDATE() – 40)
)
E se nos
delegassemos isso
ao machine learning
para aprender com as
minhas experiências!

Mais conteúdo relacionado

Destaque

Business Intelligence Open Source - Portuguese -
Business Intelligence Open Source  - Portuguese -Business Intelligence Open Source  - Portuguese -
Business Intelligence Open Source - Portuguese -Stratebi
 
Mitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingMitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingThiago Viola
 
Apresentação comercial
Apresentação comercialApresentação comercial
Apresentação comercialArinsBruno
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem awsAmazon Web Services LATAM
 
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Jose Papo, MSc
 
Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Thiago Viola
 
Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Thiago Viola
 
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSPalestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSThiago Viola
 
O futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudO futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudThiago Viola
 
O que é Cloud Computing
O que é Cloud ComputingO que é Cloud Computing
O que é Cloud ComputingThiago Viola
 
Infográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilInfográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilThiago Viola
 
Webinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesWebinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesAmazon Web Services LATAM
 
Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Thiago Viola
 
Cloud30 E-Commerce
Cloud30 E-CommerceCloud30 E-Commerce
Cloud30 E-CommerceThiago Viola
 
Cloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesCloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesRafael Biriba
 
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesDetonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesJose Papo, MSc
 
EL MODELO DE NEGOCIO DE YOUTUBE
EL MODELO DE NEGOCIO DE YOUTUBEEL MODELO DE NEGOCIO DE YOUTUBE
EL MODELO DE NEGOCIO DE YOUTUBEbutest
 

Destaque (20)

Business Intelligence Open Source - Portuguese -
Business Intelligence Open Source  - Portuguese -Business Intelligence Open Source  - Portuguese -
Business Intelligence Open Source - Portuguese -
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Mitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingMitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud Computing
 
Apresentação comercial
Apresentação comercialApresentação comercial
Apresentação comercial
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem aws
 
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
 
Introducao à Nuvem da Amazon Web Services
Introducao à Nuvem da Amazon Web ServicesIntroducao à Nuvem da Amazon Web Services
Introducao à Nuvem da Amazon Web Services
 
Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud
 
Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.
 
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSPalestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
 
O futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudO futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na Cloud
 
O que é Cloud Computing
O que é Cloud ComputingO que é Cloud Computing
O que é Cloud Computing
 
Infográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilInfográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no Brasil
 
Webinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesWebinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web Services
 
Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)
 
Cloud30 E-Commerce
Cloud30 E-CommerceCloud30 E-Commerce
Cloud30 E-Commerce
 
Cloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesCloud computing e Amazon Web Services
Cloud computing e Amazon Web Services
 
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesDetonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
EL MODELO DE NEGOCIO DE YOUTUBE
EL MODELO DE NEGOCIO DE YOUTUBEEL MODELO DE NEGOCIO DE YOUTUBE
EL MODELO DE NEGOCIO DE YOUTUBE
 

Semelhante a Desenvolvimento orientado a dados com Amazon Machine Learning

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012Carlos Casalicchio
 
Profissional de sistemas de informação
Profissional de sistemas de informaçãoProfissional de sistemas de informação
Profissional de sistemas de informaçãoIFBA
 
Application insights + ASP.NET Core
Application insights + ASP.NET CoreApplication insights + ASP.NET Core
Application insights + ASP.NET CoreLetticia Nicoli
 
CURSOS_LISTA2022-v2.pdf
CURSOS_LISTA2022-v2.pdfCURSOS_LISTA2022-v2.pdf
CURSOS_LISTA2022-v2.pdflarcioFelix
 
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine Learning
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine LearningAWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine Learning
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine LearningRayssa Küllian
 
Desvendando seus dados com Amazon Machine Learning
Desvendando seus dados com Amazon Machine LearningDesvendando seus dados com Amazon Machine Learning
Desvendando seus dados com Amazon Machine LearningAmazon Web Services LATAM
 
Explorando a API do Google Analytics
Explorando a API do Google AnalyticsExplorando a API do Google Analytics
Explorando a API do Google AnalyticsJohann Vivot
 
Workshop SEO com resultados de verdade Meet Magento
Workshop SEO com resultados de verdade Meet MagentoWorkshop SEO com resultados de verdade Meet Magento
Workshop SEO com resultados de verdade Meet MagentoDiego Ivo
 
Forca de Digital & RPA
Forca de Digital & RPAForca de Digital & RPA
Forca de Digital & RPAEduardo Britto
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...E-Commerce Brasil
 
Do 502 BadGateway ao record de 200
Do 502 BadGateway ao record de 200Do 502 BadGateway ao record de 200
Do 502 BadGateway ao record de 200Bruno Paiuca
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data CollectionBRAVA Tecnologia
 

Semelhante a Desenvolvimento orientado a dados com Amazon Machine Learning (20)

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
AIML Reforçando a segurança virtual
AIML Reforçando a segurança virtualAIML Reforçando a segurança virtual
AIML Reforçando a segurança virtual
 
105714 moises
105714 moises105714 moises
105714 moises
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
IA/ML melhorando a saúde pública
IA/ML melhorando a saúde públicaIA/ML melhorando a saúde pública
IA/ML melhorando a saúde pública
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012
 
Profissional de sistemas de informação
Profissional de sistemas de informaçãoProfissional de sistemas de informação
Profissional de sistemas de informação
 
Application insights + ASP.NET Core
Application insights + ASP.NET CoreApplication insights + ASP.NET Core
Application insights + ASP.NET Core
 
CURSOS_LISTA2022-v2.pdf
CURSOS_LISTA2022-v2.pdfCURSOS_LISTA2022-v2.pdf
CURSOS_LISTA2022-v2.pdf
 
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine Learning
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine LearningAWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine Learning
AWS Summit SP 2016: Desvendando Seu Dataset Com Amazon Machine Learning
 
Desvendando seus dados com Amazon Machine Learning
Desvendando seus dados com Amazon Machine LearningDesvendando seus dados com Amazon Machine Learning
Desvendando seus dados com Amazon Machine Learning
 
Meetup MUG-RS KingHost
Meetup MUG-RS KingHostMeetup MUG-RS KingHost
Meetup MUG-RS KingHost
 
Explorando a API do Google Analytics
Explorando a API do Google AnalyticsExplorando a API do Google Analytics
Explorando a API do Google Analytics
 
Workshop SEO com resultados de verdade Meet Magento
Workshop SEO com resultados de verdade Meet MagentoWorkshop SEO com resultados de verdade Meet Magento
Workshop SEO com resultados de verdade Meet Magento
 
Forca de Digital & RPA
Forca de Digital & RPAForca de Digital & RPA
Forca de Digital & RPA
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...
Big Solutions - Black Friday | Tecnologia e CRO - Como preparar a sua black f...
 
TDC 2015 Florianopolis
TDC 2015 FlorianopolisTDC 2015 Florianopolis
TDC 2015 Florianopolis
 
Do 502 BadGateway ao record de 200
Do 502 BadGateway ao record de 200Do 502 BadGateway ao record de 200
Do 502 BadGateway ao record de 200
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data Collection
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Desenvolvimento orientado a dados com Amazon Machine Learning

  • 1. ©2015, Amazon Web Services, Inc. or its affiliates. All rights reserved Aplicações com Amazon Machine Learning Alex Coqueiro Arquiteto de Soluções para o Setor Público
  • 2. Dados como parte essencial das aplicações Front-end e UX Mobile Back-end e operações Dados transacionais e análiticos
  • 3. Três abordagens para o desenvolvimento orientado a dados (data-driven development) Retrospectiva Análise e Relatório
  • 4. Três abordagens para o desenvolvimento orientado a dados (data-driven development) Retrospectiva Análise e Relatório Tempo Real Processamento em tempo real e dashboards
  • 5. Três abordagens para o desenvolvimento orientado a dados (data-driven development) Retrospectiva Análise e Relatório Tempo Real Processamento em tempo real e dashboards Preditivo Habilitar aplicações inteligentes
  • 6. Machine Learning Machine Learning é um método de análise de dados que ajuda na busca de modelos de descoberta de padrões existentes de dados
  • 7. Ok… entendi ... e na prática?
  • 8. Identificação de Padrões: Exemplo 1 Nome Transação Fraude Joao R$ 2.342,50 Não Maria R$ 2.113,00 Sim Mario R$ 2.222,22 Sim Cristina R$ 3.423,20 Não Marcelo R$ 940,34 Sim
  • 9. Identificação de Padrões: Exemplo 1 Nome Transação Fraude Joao R$ 2.342,50 Não Maria R$ 2.113,00 Sim Mario R$ 2.222,22 Sim Cristina R$ 3.423,20 Não Marcelo R$ 940,34 Sim
  • 10. Identificação de Padrões: Exemplo 2 Nome Transação Nascimento Local Trans Idade Fraude Joao R$ 2.342,50 SP SP 21 Não Maria R$ 5.113,00 SP RJ 22 Sim Mario R$ 4.222,22 SP RJ 25 Sim Cristina R$ 5.423,20 AM SC 40 Não Marcelo R$ 4.940,34 SP RJ 18 Sim Ronaldo R$ 3.423,20 SP PR 18 Não Pedro R$ 423,20 PR SP 18 Não Simone R$ 1.001,20 DF SP 35 Não Eduardo R$ 1.012,20 SP RJ 40 Não Sergio R$ 3.300,10 SP BA 43 Não Alex R$ 4.004,20 SP RJ 22 Sim Fabio R$ 4.001,99 RJ SP 37 Não
  • 11. Identificação de Padrões: Exemplo 2 Nome Transação Nascimento Local Trans Idade Fraude Joao R$ 2.342,50 SP SP 21 Não Maria R$ 5.113,00 SP RJ 22 Sim Mario R$ 4.222,22 SP RJ 25 Sim Cristina R$ 5.423,20 AM SC 40 Não Marcelo R$ 4.940,34 SP RJ 18 Sim Ronaldo R$ 3.423,20 SP PR 18 Não Pedro R$ 423,20 PR SP 18 Não Simone R$ 1.001,20 DF SP 35 Não Eduardo R$ 1.012,20 SP RJ 40 Não Sergio R$ 3.300,10 SP BA 43 Não Alex R$ 4.004,20 SP RJ 22 Sim Fabio R$ 4.001,99 RJ SP 37 Não
  • 12. Exemplos de Aplicações Práticas Baseado no que você sabe do seu cliente: Ele irá adquirir seu novo produto?
  • 13. Exemplos de Aplicações Práticas Baseado no que você sabe a respeito do pedido: Seria uma transação fraudulenta? Baseado no que você sabe do seu cliente: Ele irá adquirir seu novo produto?
  • 14. Exemplos de Aplicações Práticas Baseado no que você sabe a respeito do pedido: Seria uma transação fraudulenta? Baseado no que você sabe a respeito da manutenção da sua fábrica: Quais os robôs que irão precisar de manutenção? Baseado no que você sabe do seu cliente: Ele irá adquirir seu novo produto?
  • 15. Humm…mas isso pode ficar complexo …
  • 16. Tipos de Machine Learning Machine Learning Supervisionado Não Supervisionado Modelos preditivos Classificação/Regressão Modelos descritivos Cluster
  • 17. Amazon Machine Learning (AML) Facilidade de uso, serviço gerenciado de machine learning construído para desenvolvedores Robustes em tecnologia de machine learning Criação de modelos usando dados armazenados na cloud da AWS Deploy de modelos em produção em segundos
  • 18. Amazon Machine Learning Algoritmos de Aprendizado Supervisionados 1. Classificação Binaria - usado para respostas 0/1 - O cliente irá comprar o produto? - O cliente irá migrar para um plano mais sofisticado? 2. Classificação Multiclass - Classificação de documentação baseado em contexto - Organização produtos em categorias 3. Regressão - Remarcação de preço de produtos - Previsão de demanda futura de Produtos
  • 19. Amazon Elastic MapReduce (EMR) Algoritmos de Aprendizado Não Supervisionados
  • 23. Criar o Datasource >>> import boto >>> ml = boto.connect_machinelearning() >>> ds = ml.create_data_source_from_s3( data_source_id = ’my_datasource', data_spec= { 'DataLocationS3':'s3://bucket/input/', 'DataSchemaLocationS3':'s3://bucket/input/.schema'}, compute_statistics = True)
  • 25. Treinar seu modelo >>> import boto >>> ml = boto.connect_machinelearning() >>> model = ml.create_ml_model( ml_model_id=’my_model', ml_model_type='REGRESSION', training_data_source_id='my_datasource')
  • 26. Treinar Modelo Avaliação e Otimização Recuperar Previsões 1 2 3 Construir aplicações com Amazon ML - Entender a qualidade do modelo - Ajustes na interpretação
  • 30. Treinar Modelo Avaliação e Otimização Recuperar Previsões 1 2 3 Construir aplicações com Amazon ML - Previsões em batch - Previsões em tempo real
  • 31. Batch Predictions Assincrono, geração de dados a partir de grande volume de dados Requisição por meio de console ou API >>> import boto >>> ml = boto.connect_machinelearning() >>> model = ml.create_batch_prediction( batch_prediction_id = 'my_batch_prediction’ batch_prediction_data_source_id = ’my_datasource’ ml_model_id = ’my_model', output_uri = 's3://examplebucket/output/’)
  • 32. Real-time predictions Sincrono, baixa latência, alto throughput na geração de previsões Requesição por API ou server ou SDK mobile Lida com aplicações que necessitam avaliar registros individualmente >>> import boto >>> ml = boto.connect_machinelearning() >>> ml.predict( ml_model_id=’my_model', predict_endpoint=’example_endpoint’, record={’key1':’value1’, ’key2':’value2’}) { 'Prediction': { 'predictedValue': 13.284348, 'details': { 'Algorithm': 'SGD', 'PredictiveModelType': 'REGRESSION’ } } }
  • 34. Explore arquiteturas a partir da combinação de serviços existentes
  • 35. Cenário Integrado com BI Structured Data/Predictions Amazon Redshift Generate/Query Predictions Amazon QuickSight Application Amazon Machine Learning Visualize
  • 36. Query for predictions with Amazon ML batch API Process data with EMR Raw data in S3 Aggregated data in S3 Predictions in S3 Your application Cenário Integrado com Bigdata
  • 37. … e o preço …
  • 38. Pague somente pelo que usa Análise de dados, treinamento do modelo, e avaliação: $0.42/instance hour Batch predictions: $0.10/1000 Real-time predictions: $0.10/1000
  • 39. Muito Obrigado Por favor, complete a seção de feedbacks Alex Coqueiro Arquiteto de Soluções para o Setor Público
  • 40. Você esta fazendo a pergunta certa ?
  • 41. Você tem o dado correto?
  • 42. Você sabe mensurar o sucesso da análise ?
  • 43. Agenda • Machine learning and the data ecosystem • Smart applications by example (and counter- example) • Amazon Machine Learning features and benefits • Developing with Amazon ML • Q&A
  • 44. Batch predictions with Amazon Redshift Structured data In Amazon Redshift Load predictions into Amazon Redshift -or- Read prediction results directly from S3 Predictions in S3 Query for predictions with Amazon ML batch API Your application
  • 45. Adding predictions to an existing data flow Your application Amazon DynamoDB + Trigger event with Lambda + Query for predictions with Amazon ML real-time API
  • 46. Data Engineer familiar with Hadoop and Spark Data Engineer Existing Structured Data Amazon Redshift New Structured Data Amazon Redshift Amazon EMR spark-redshift Enrichment / Transformation ETL Data Source Amazon Redshift Integration
  • 47. Construindo uma aplicação Caro Alex, Compre este quadcoptero R$49.99!
  • 48. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer GROUP BY c.ID HAVING o.date > GETDATE() – 30 Vamos iniciar vendendo para quem fez alguma compra nos últimos 30 dias
  • 49. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer GROUP BY c.ID HAVING AND o.date > GETDATE() – 30 … Vamos ser mais específicos. Vamos oferecer para quem comprou brinquedos
  • 50. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer GROUP BY c.ID HAVING o.category = ‘toys’ AND (COUNT(*) > 2 AND SUM(o.price) > 200 AND o.date > GETDATE() – 30) ) … vamos expandir e colocar quem comprou helicoptero de brinquedo
  • 51. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘% %’ AND o.date > GETDATE() - 60) OR (COUNT(*) > 2 AND SUM(o.price) > 200 AND o.date > GETDATE() – 30) ) … mas e os quadcopteros?
  • 52. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘%copter%’ AND o.date > GETDATE() - ) OR (COUNT(*) > 2 AND SUM(o.price) > 200 AND o.date > GETDATE() – 30) ) … talvez eu precise pegar um universo temporal maior
  • 53. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘%copter%’ AND o.date > GETDATE() - 120) OR (COUNT(*) > 2 AND SUM(o.price) > 200 AND o.date > GETDATE() – ) ) … vamos ajustar os tempos
  • 54. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘%copter%’ AND o.date > GETDATE() - 120) OR (COUNT(*) > 2 AND SUM(o.price) > AND o.date > GETDATE() – 40) ) … novamente
  • 55. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘%copter%’ AND o.date > GETDATE() - ) OR (COUNT(*) > 2 AND SUM(o.price) > 150 AND o.date > GETDATE() – 40) ) … não está fucionando
  • 56. Construindo uma aplicação SELECT c.ID FROM customers c LEFT JOIN orders o ON c.ID = o.customer LEFT JOIN products p ON p.ID = o.product GROUP BY c.ID HAVING o.category = ‘toys’ AND ((p.description LIKE ‘%copter%’ AND o.date > GETDATE() - ) OR (COUNT(*) > 2 AND SUM(o.price) > 150 AND o.date > GETDATE() – 40) ) E se nos delegassemos isso ao machine learning para aprender com as minhas experiências!

Notas do Editor

  1. Thank you for being here. I think most of you had a chance to hear about Amazon Machine Learning in Andy’s keynote earlier today. I am glad to see that so many of you are interested in our service!
  2. One of the most interesting trends in computing over the past several years is the way working with data and analytics has become a part of a developer’s skill set, alongside front-end development, mobile application building, and back-end work. And in turn, the value of data that applications collecting is turning the development of these applications on its head. Web, mobile and desktop application developers now treat instrumenting and collecting events as one of the most important parts of the development process. And data analytics skills are becoming a must-have for developers of back-end systems.
  3. There is one more step beyond knowing what is happening here and now. We can use the data we already have to make accurate, actionable predictions about what will happen in the future. We can build a new breed of smart applications using these predictions. It’s really exciting.
  4. There is one more step beyond knowing what is happening here and now. We can use the data we already have to make accurate, actionable predictions about what will happen in the future. We can build a new breed of smart applications using these predictions. It’s really exciting.
  5. There is one more step beyond knowing what is happening here and now. We can use the data we already have to make accurate, actionable predictions about what will happen in the future. We can build a new breed of smart applications using these predictions. It’s really exciting.
  6. This brings us to machine learning, which is a broad umbrella term for the technology that finds patterns in your existing data, and using them to make predictions on new data points.
  7. Condense these slides into 3-box
  8. Condense these slides into 3-box
  9. Condense these slides into 3-box
  10. Predictive modelling or analytics - this is used to predict the future outcome based on the historical data. Can I use the customer data from last year to predict which current customers in our sales pipeline are likely to convert? Churn Prediction What is the likelihood that a customer visiting my e-commerce site will buy my product? Some examples of algorithms used are: Nearest neighbour, Naïve Bayes, Decision Trees, Regression etc. It is used to train descriptive models where no target is set and no single feature is important than the other. The case of unsupervised learning can be: When a retailer wishes to find out what are the combination of products, customers tends to buy more frequently. Furthermore, in pharmaceutical industry, unsupervised learning may be used to predict which diseases are likely to occur along with diabetes. Example of algorithm used here is: K- means Clustering Algorithm
  11. In April, we have announced Amazon ML, the newest addition to the Amazon Web Services family. Amazon ML is easy to use, and intended for developers – people who are already most connected and familiar with data instrumentation, pipelines and storage/ Amazon ML is based on the same robust ML technology that is already used within Amazon’s internal systems, generating billions of predictions weekly Amazon ML is built to make it simple and reliable to use the data that you are already storing in the AWS cloud, in products like Amazon S3, Amazon Redshift and Amazon RD And lastly, Amazon ML is built to eliminate the gap between having models and using these models to build smart applications. Production deployment is only a click away – and sometimes you won’t even need that one click.
  12. Binary classification - used for 0 or 1 answers E.g., Will the customer buy my product? Multiclass classification – E.g., document classification based on context, groupings of blogs, articles, emails etc Regression - predictions based on past and present data E.g., weather patterns and storm tracking based on weather data These examples are just the tip of the iceberg. Machine learning has extensive applications practically in every domain.
  13. Spark provides in-memory processing capabilities and natively supports a number of programming languages. It includes libraries for popular machine learning algorithms, graph processing, stream processing and for SQL. Data frames are a fundamental data structure used for structured data processing.
  14. Yesterday, there was an article on The Wall Street Journal, and Hilary Mason, CEO and founder of Fast Forward Labs, which advises companies on data science and machine learning, observed that many many companies are now built on data and cannot exist without it. “Companies doing well … are building products using unique, proprietary data. Data and analytics has become a new competency for developers. All developers are doing something with data in addition to their web, mobile or backend development efforts. Developers now treat instrumenting and collecting events as one of the most important parts of the development process. And because of this, applications are logging tremendous amounts of data and so developers are picking up the skills to analyze this data to derive some value from it and to build useful applications on top of the data the application generates. Beyond historical analysis and knowing what is happening here, organizations are using the data they already have to make accurate, actionable predictions about what will happen in the future. They are building a new breed of smart applications using these predictions. As you can see, Machine learning is becoming an increasingly important tool to build advanced data-driven applications. The primary emphasis is that these application developers are not experts in machine learning but want to extend their application with ML constructs through an API.
  15. Example: my application periodically receives new product descriptions, and needs to classify them into categories. For example, assign genre to movies based on the movie metadata. Example: my application aggregates user activity over time period, and then we call the prediction API to decide which of them will need follow-up. E.g. bizdev followup with customers in free tier.
  16. In this session, I’d like to tell you about our service, our motivation for building the service, and the types of smart applications it enables our customers to build.
  17. Example: my application periodically receives new product descriptions, and needs to classify them into categories. For example, assign genre to movies based on the movie metadata. Example: my application aggregates user activity over time period, and then we call the prediction API to decide which of them will need follow-up. E.g. bizdev followup with customers in free tier.
  18. This is example of consuming real-time predictions Can also add example of consuming batch prediction with EMR
  19. The difference between a Data Scientist and Data Engineer can vary depending on the organization. In some oraginzations, Data engineers enable data scientists to do their jobs more effectively! The data engineer gathers and collects the data, stores it, does batch processing or real-time processing on it, and serves it via an API to a data scientist who can easily query it. But there can be overlap. For instance, a data scientist might use the Hadoop ecosystem to serve up answers to their data questions, and a data engineer might be programming an iterative machine learning algorithm to run over a Spark cluster. In a more general sense, a Data Engineer working on an analytics platform, implements and supports the analytic technologies that give end-users timely, flexible and structured access to data. In this presentation, we will focus on a Data Engineer that using Hadoop and Spark for distributed computing and is connecting to Redshift using DataBricks spark-redshift package. In this diagram, a data engineris accessing Redshift using the spark-redshift package installed on an EMR spark cluster in three use cases. In the first use case, the data data engineer is using a spark cluster for ETL and loading structured data in Redshift In the second use case, the data engineer is loading data directly from Redshift, enriching it and transforming it and saving it back to Redshift In the third use case, the data engineer is integrating Redshift as a datasource and allowing Redshift to interoperate seamlessly with other data sources accessible to your Spark Cluster. Let’s dive deeper into Spark.
  20. Let’s get all customers who placed an order in the last 30 days
  21. Narrow this list down to only the customers who bought toys in the last 30 days
  22. Toys are a very broad term. I am going to make my query more complex: I will merge order table with the product table, and look for customers who either (a) purchased a toy whose description had the word “helicopter” in the last 60 days, or had an expensive order in the last 30 days.
  23. “Helicopter” doesn’t cover everyone I want to reach. Luckily, I can do a fuzzy match on just “copter”. That’s better, right?
  24. Maybe I should look further back in time – it’s not every day that one buys an expensive flying toy.
  25. 30 days, 40 days, I don’t really know what the right number is.
  26. 200 dollars is a lot to spend in a single purchase, let me try to lower that
  27. Too many results, let me bring the results in again.
  28. Stop. Just stop. We won’t find the right business rule by tweaking SQL queries. And even if we do find a good rule by sheer luck, it will get out of date immediately. Machine learning lets us build smart applications by finding patterns in existing data, and making them actionable as predictions.