O documento apresenta como governos e empresas podem usar dados abertos e a nuvem da AWS para promover a inovação. A AWS oferece recursos como S3, EMR e Redshift para armazenar e analisar grandes conjuntos de dados abertos como imagens de satélite Landsat. Isso permite o desenvolvimento de aplicativos que fornecem informações úteis ao público em geral.
2. Agenda
• Uso de Dados Abertos pelo mundo
• Implementação de plataforma
• Banco de Dados Públicos
• Portais de Dados Abertos
• Recomendações
3. Definição de Dados Abertos ‘Open Data’?
“Dados abertos são dados que podem ser
usados por qualquer pessoa para qualquer
finalidade sem custo.”
See more at: http://opendefinition.org
4. Localização digital em iRideNYC.info
O Departamento de Transporte de
Nova York usa uma estratégia de
desenvolvimento ”mobile first" e
"codifique uma vez, execute em
qualquer lugar" que permite
desenvolver aplicativos móveis de
baixo custo voltados para dados.
Sem a instalação do aplicativo em
nenhum dispositivo, você pode
encontrar metrôs e pontos de
ônibus MTA, estações do CitiBike e
locais de interesse em
http://iRideNYC.info
5. Localização digital em iRideNYC.info
O iRideNYC.info aproveita a
linguagem de design
direcionada a dados da
WalkNYC, que cria mapas
baseados em camadas de
dados.
6. Localização digital em iRideNYC.info
A MTA fornece APIs de dados
abertos que permitem ao
iRideNYC.info exibir em tempo
real o horário de chegada de
metrôs e ônibus. A API do CitiBike
também é usada para obter o
status da estação e a
disponibilidade de bicicletas.
7. Salvando vidas com dados do censo
"Só em 2013, os EUA passaram por
1,24 milhão de incêndios,
resultando em quase 20 mil mortos
ou feridos e gerando mais de US$
11 bilhões em danos materiais.
Tragicamente, muitas dessas
mortes são evitáveis: três em cada
cinco mortes em casa devido a
incêndio ocorreram em edifícios
sem alarmes de fumaça em
funcionamento."
http://blog.enigma.io/open-data-and-public-safety/
8. Salvando vidas com dados do censo
Como determinar se é necessário um novo
alarme de incêndio?
"...um analista no Escritório de Desempenho e
Responsabilidade (OPA) de Nova Orleans
construiu um modelo de regressão logística
utilizando o American Housing Survey (AHS) de
2011...
Com essa iniciativa, o Corpo de Bombeiros de
Nova Orleans e o OPA mudaram: em vez de
entregar passivamente alarmes de fumaça para
salvar vidas, passaram a alcançar ativamente
os moradores mais vulneráveis de Nova
Orleans, tudo graças a uma união da
experiência dos bombeiros com insights
extraídos de dados abertos."
http://blog.enigma.io/open-data-and-public-safety/
9. Salvando vidas com dados do censo
A Enigma utilizou os resultados de Nova
Orleans e criou um produto de análise para
prever deficiências de alarme de incêndio em
várias cidades dos Estados Unidos.
Eles usam a AWS para compartilhar a
infraestrutura e os dados subjacentes usados
para criar a ferramenta.
https://github.com/enigma-io
10. BuildSmartDC
Eficiência, custo e rastreamento de emissões
em 400 edifícios, totalizando 30MM pés2.
Produz mais de 50.000 pontos de dados por
dia.
O Amazon EC2 é usado para:
• Acessar APIs externas
• Servir às APIs internas que alimentam o
BSDC
O S3 hospeda:
• Ativos da web estáticos
• Mais de 1600 arquivos CSV atualizados
diariamente e publicamente acessíveis
com informações de uso dos edifícios
14. Dados abertos como uma plataforma
Enriquecimento de dados
Fazsentido
Dados em repouso
(armazenamento de objetos)
APIs básicas
APIs complexas
Aplicativos para
consumidores
Política
algoritmica
Jornalismo
baseado em dados
Catálogos de dados
Painéis voltados
para datos
Modelos
preditivos
Visualizações
Custo de conhecimento menor
(eficiência)
Criação de
dados
15. Dados abertos como uma plataforma
Enriquecimento de dados
Fazsentido
Amazon
Kinesis
Amazon
EC2
Amazon
EC2
AWS Data
Pipeline
Amazon
S3
Amazon
RDS
Amazon
EMR
Amazon
Redshift
Amazon
DynamoDB
AWS
Lambda
16. Dados na AWS
A Amazon Web Services fornece um toolkit abrangente para reunir,
armazenar, analisar e trabalhar com dados em qualquer escala.
Amazon Elastic MapReduce
(Amazon EMR) fornece a
estrutura de análises Apache
Hadoop como um serviço
gerenciado fácil de usar.
Amazon S3 permite que você
armazene e recupere qualquer
quantidade de dados, a
qualquer momento, de
qualquer local da Web.
Amazon DynamoDB é um
serviço de banco de dados
NoSQL totalmente gerenciado
que torna econômico o
armazenamento e a
recuperação de qualquer
quantidade de dados.
18. Bancos de dados públicos na AWS
Para promover mais inovação, a AWS hospeda alguns bancos de dados
que qualquer pessoa pode acessar gratuitamente. Os dados em nossos
bancos de dados públicos estão disponíveis para acesso rápido por
nossos recursos de computação flexíveis e de baixo custo.
Ciência da Terra
Landsat na AWS
Ciências biológicas
Projeto 1000 Genomes
Ciência da Internet
Corpus para rastreamento comum
19. O que é o Landsat?
O programa Landsat é um esforço
conjunto do Serviço Geológico dos
EUA e da NASA. É o programa mais
antigo para coletar imagens da Terra
do espaço e é considerado o padrão
ouro para imagens de satélite de
recursos naturais.
20. Landsat na AWS
Temos o compromisso de tornar até
1 petabyte de imagens do Landsat
prontamente disponíveis como
objetos no Amazon S3.
Todos as cenas do Landsat 8 desde
2015 estão disponíveis, juntamente
com uma seleção de cenas sem
nuvens desde 2013 e 2014. Todas
as novas cenas do Landsat 8 são
disponibilizadas diariamente, muitas
vezes algumas horas depois da
produção.
21. Landsat na AWS
Nos primeiros 150 dias:
• 3,8 PB de dados acessados
• 560 milhões de visitas de 167 países
• 3,7 milhões de acessos diários em média
• 25 TB de dados transferidos diariamente
em média
• 2 novos aplicativos: Snapsat e navegador
Astro Digital
• Alimentando o desenvolvimento de novos
produtos de Mapbox, Trimble, Esri,
CartoDB, MathWorks e Development Seed
22. O Landsat é um grande dado aberto
O programa Landsat é um esforço
conjunto do Serviço Geológico dos
EUA e da NASA. É o programa mais
antigo para coletar imagens da Terra
do espaço e é considerado o padrão
ouro para imagens de satélite de
recursos naturais.
Tem sido tradicionalmente demorado
e caro para adquirir, armazenar e
analisar os dados do Landsat.
23. O que é o Landsat?
As cenas do Landsat são
compostas de vários arquivos, cada
um dos quais inclui dados sobre os
diferentes tipos de luz refletida da
Terra.
O programa Landsat está em
operação desde 1972.
24. Wellington, Nova Zelândia – 29 de junho de 2015
RGB
Luz visível
Infravermelho
Vegetação
Infravermelho de ondas curtas
Áreas urbanas
25. Snapsat
Uma equipe de cinco programadores
iniciantes usou o Landsat na AWS
para desenvolver um aplicativo web
chamado Snapsat que cria
visualizações de dados do Landsat em
segundos.
O Snapsat foi desenvolvido durante o
programa de treinamento de 8
semanas da equipe no Code Fellows.
Eles lançaram apenas alguns meses
depois de aprender a escrever código.
http://snapsat.org
26. Esri – Unlock Earth’s Secrets
A Esri criou uma ferramenta para mostrar
como o ArcGIS Online pode visualizar
rapidamente dados do Landsat para
visualização e análise em tempo real dentro
do navegador.
"Não são serviços de cache gerados
previamente limitados apenas à
visualização, eles são serviços de imagem
dinâmicos e de alto desempenho que
executam processamento imediato e
mosaicos dinâmicos de imagens
multiespectrais e multitemporais do
Landsat."
http://www.esri.com/landsatonaws
27. MATLAB – Landsat8 Data Explorer
A MathWorks criou uma ferramenta
com base no MATLAB com download
gratuito para acesso, processamento e
visualização de dados do Landsat 8.
A ferramenta permite que os usuários
do MATLAB encontrem, analisem e
combinem cenas do Landsat 8 com
outras fontes de dados do GIS para
novas visualizações.
http://blogs.mathworks.com/steve/2015/03/19/matlab-landsat-8-aws/
28. Astro Digital Browser
O Astro Digital usa o Landsat na AWS
para criar um navegador e API que
permitem aos desenvolvedores procurar
o catálogo de imagens do Landsat 8,
filtrar por data e cobertura de nuvem e,
em seguida, selecionar qualquer
imagem.
A imagem é processada imediatamente,
reunindo bandas e corrigindo cores, e
carregada na nossa API. Em poucos
minutos, você terá um e-mail com um
link para o ponto de acesso da API que
pode ser carregado em qualquer
aplicativo web ou móvel.
http://fetch.astrodigital.com
31. Portais de dados abertos
Muitos parceiros da AWS
oferecem serviços que
facilitam a publicação e o uso
de dados abertos, incluindo
plataformas de catálogos
como CKAN, DKAN, Junar,
OpenDataSoft e Socrata.
33. Uma abordagem da Amazon para dados abertos
• Trabalhar de forma a identificar o que faz sentido
compartilhar com relação ao cliente
• Eliminar o trabalho que não agrega valor
34. Trabalhar no que faz sentido
• Procurar dados valiosos, ouvindo as necessidades dos
clientes
• Considerar os casos de uso do mundo real para os
dados
• Considerar o tamanho da comunidade de usuários ou
oportunidade de mercado
35. Eliminar o que não agrega valor
“…os dados devem ser organizados, bem documentados,
formatados de forma consistente e livres de erros. Limpar
os dados é muitas vezes a parte mais desgastante da
ciência de dados, e representa frequentemente 80% do
trabalho.”
— Data Driven por DJ Patil e Hilary Mason
36. Trazendo inovações com dados abertos
Para trazer a inovação com seus dados, você precisa
garantir três coisas fundamentais ao compartilhá-los:
1. Os dados são precisos
2. Eles são fornecidos com documentação
3. Eles permanecerão disponíveis aos desenvolvedores
amanhã
Nota: esses não são necessariamente problemas técnicos.