Webinar gestão de mudanças organizacionais - o fator humano na liderança de ...
Web aula 46 - Conhecendo o ecossistema BIG DATA
1. Web aula 46: Conhecendo o
ecossistema BIG DATA
Fábio Jardim
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
2. www.projetoseti.com.br
Fábio Jardim
Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data
Mais de 10 anos em plataforma de dados
Vivência em grandes e-commerces, varejo e banco
Arquiteto Big Data em projetos para grandes clientes
Atualmente em projetos no setor varejista e startups
Owner da High Consultoria e Treinamento
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
3. www.projetoseti.com.br
A evolução dos dados no nosso ambiente
Milhões de
transações
IOT
Bilhões de usuários em
rede sociais gerando
conteúdo a cada
segundo
Câmeras/Wifi
espalhadas pelas
lojas
Cada vez mais
pessoas usando
smartphones/intern
et
...
4. www.projetoseti.com.br
Onde armazenar
esses dados?
Como extrair
informações
valiosas desses
dados?
Como realizar
cruzamentos desses
dados com outras
fontes?
Os dados que eu uso
são os mesmos que
você usa?
Como processar
tantos dados?
Consigo prever o
futuro?
5. www.projetoseti.com.br
O Big Data
Grande conjunto de dados que excedem a capacidade de
armazenamento e processamento de dados convencional.
Principais características:
• Dados Estruturados, semi-estruturados e não estruturados
• Volume muito grande de dados
• Movem-se muito rápido
• Análise complexas de dados
7. www.projetoseti.com.br
Onde armazenar tudo isso?
• Nasce o conceito de Data Lake.
• Vasto repositório com uma variedade de informações
brutas que podem ser adquiridas, processadas, analisadas
e entregues.
• Derivar insights relevantes para a empresa a partir
desta informação usando vários algoritmos de
análise e aprendizagem de máquinas.
8. www.projetoseti.com.br
DW x Datalake
Data Warehouse x DataLake
Estruturado e Processado Dados
Estruturado, semi-estruturado e não
estruturado
Dependente de esquema Processamento Livre de esquema
Alto custo para grandes volumes Armazenamento Desenvolvido para baixo custo
Configuração fixa, pouca agilidade Agilidade Configuração flexivel, alta agilidade
Consolidada Segurança Evoluindo
Área de negócios Usuários Data Scientists
9. www.projetoseti.com.br
Big Data e Analytics
Analytics
Métodos e
Algoritmos
Big Data
Data
Mining
Machine
Learning
Big
Data
Analytics
Software
10. www.projetoseti.com.br
O que é Hadoop
• Plataforma que fornece infraestrutura resiliente, econômica e
escalável
• Armazenamento e processamento distribuído para grandes
quantidades de dados
• Precursor do ecossistema Big Data
• 4 módulos na versão 2
HDFS, MapReduce, Hadoop Common e Yarn
Mike Cafarella Doug Cutting
11. www.projetoseti.com.br
O que é Hadoop
2002
2002
2004
2005
2006
2008
2003
2004
2006
2008
2010
Criação
do
Projeto
Nutch
Implentação
OpenSource
do GFS
chamada
NDFS (Nutch
Distributed
File System)
Equipe do
Nutch
implement
a versão
OpenSourc
e do
MapReduce
Doug
Cutting
entrou
para o
Yahoo!
Hadoop se
tornou um
projeto
independente
dentro da
Apache
Google
publica
paper
GFS
(Google
File
System)
Google
publica
paper
MapReduce
Criação do
Projeto
Hadoop
(NDFS+
MapReduce)
Yahoo! anunciou
seu index de
páginas web com
cluster de 10.000
máquinas
rodando Hadoop
Facebook
processa
40
petabyte
s
2012
Apache
Hadoop
1.0
disponíve
l
2013
Apache
Hadoop
2.2
disponíve
l
2017
Apache
Hadoop
2.8
disponíve
l
2017
20. www.projetoseti.com.br
Os novos papéis
Data Engineer
• Processamento Batch e Real Time
• Consolidação de dados
• Preparação dos dados para o Data
Scientist
• Estrutura de dados
• Banco de dados relacional e NoSql
• Conhecimentos: Hive, Python, Scala,
HDFS, Spark, Hbase, Sqoop, Linux, Storm,
shell, etc…
Big Data Architect
• Definição de tecnologia
• Conhecimento abrangente entre as áreas
• Conhecimento nos diversos frameworks,
linguagens de programação e banco de dados
• Conhecimentos : Hadoop, Spark, Storm, Kafka,
Flume, Solr, Hbase, Pig, Hive, Zookeeper,
Python, Java, Scala, Cassandra, Sqoop, Linux,
Shell, cloud, network, etc…
21. www.projetoseti.com.br
O Data Scientist
• Ajudar na resolução de problemas
relacionados a negócios usando técnicas
orientadas as dados
• Aplicar técnicas de avançadas de analise
de dados como Machine Learning, Deep
Learning, Text analytics, etc...
• Trabalhar com uma variedade de
linguagens de programação assim como
Python, R, SAS, Scala, etc...
• Comunicar os resultados alcançados
22. www.projetoseti.com.br
Quem usa Big Data no Brasil
• Varejo
• Industria
• Governo
• Marketing
• Esporte
• Medicina
• Seguro
• Agricultura
• Finanças