SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Web aula 46: Conhecendo o
ecossistema BIG DATA
Fábio Jardim
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
www.projetoseti.com.br
Fábio Jardim
Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data
Mais de 10 anos em plataforma de dados
Vivência em grandes e-commerces, varejo e banco
Arquiteto Big Data em projetos para grandes clientes
Atualmente em projetos no setor varejista e startups
Owner da High Consultoria e Treinamento
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
www.projetoseti.com.br
A evolução dos dados no nosso ambiente
Milhões de
transações
IOT
Bilhões de usuários em
rede sociais gerando
conteúdo a cada
segundo
Câmeras/Wifi
espalhadas pelas
lojas
Cada vez mais
pessoas usando
smartphones/intern
et
...
www.projetoseti.com.br
Onde armazenar
esses dados?
Como extrair
informações
valiosas desses
dados?
Como realizar
cruzamentos desses
dados com outras
fontes?
Os dados que eu uso
são os mesmos que
você usa?
Como processar
tantos dados?
Consigo prever o
futuro?
www.projetoseti.com.br
O Big Data
Grande conjunto de dados que excedem a capacidade de
armazenamento e processamento de dados convencional.
Principais características:
• Dados Estruturados, semi-estruturados e não estruturados
• Volume muito grande de dados
• Movem-se muito rápido
• Análise complexas de dados
www.projetoseti.com.br
Velocidade
VariedadeVolume
OS Vs
www.projetoseti.com.br
Onde armazenar tudo isso?
• Nasce o conceito de Data Lake.
• Vasto repositório com uma variedade de informações
brutas que podem ser adquiridas, processadas, analisadas
e entregues.
• Derivar insights relevantes para a empresa a partir
desta informação usando vários algoritmos de
análise e aprendizagem de máquinas.
www.projetoseti.com.br
DW x Datalake
Data Warehouse x DataLake
Estruturado e Processado Dados
Estruturado, semi-estruturado e não
estruturado
Dependente de esquema Processamento Livre de esquema
Alto custo para grandes volumes Armazenamento Desenvolvido para baixo custo
Configuração fixa, pouca agilidade Agilidade Configuração flexivel, alta agilidade
Consolidada Segurança Evoluindo
Área de negócios Usuários Data Scientists
www.projetoseti.com.br
Big Data e Analytics
Analytics
Métodos e
Algoritmos
Big Data
Data
Mining
Machine
Learning
Big
Data
Analytics
Software
www.projetoseti.com.br
O que é Hadoop
• Plataforma que fornece infraestrutura resiliente, econômica e
escalável
• Armazenamento e processamento distribuído para grandes
quantidades de dados
• Precursor do ecossistema Big Data
• 4 módulos na versão 2
HDFS, MapReduce, Hadoop Common e Yarn
Mike Cafarella Doug Cutting
www.projetoseti.com.br
O que é Hadoop
2002
2002
2004
2005
2006
2008
2003
2004
2006
2008
2010
Criação
do
Projeto
Nutch
Implentação
OpenSource
do GFS
chamada
NDFS (Nutch
Distributed
File System)
Equipe do
Nutch
implement
a versão
OpenSourc
e do
MapReduce
Doug
Cutting
entrou
para o
Yahoo!
Hadoop se
tornou um
projeto
independente
dentro da
Apache
Google
publica
paper
GFS
(Google
File
System)
Google
publica
paper
MapReduce
Criação do
Projeto
Hadoop
(NDFS+
MapReduce)
Yahoo! anunciou
seu index de
páginas web com
cluster de 10.000
máquinas
rodando Hadoop
Facebook
processa
40
petabyte
s
2012
Apache
Hadoop
1.0
disponíve
l
2013
Apache
Hadoop
2.2
disponíve
l
2017
Apache
Hadoop
2.8
disponíve
l
2017
www.projetoseti.com.br
Evolução do Ecossistema
HDFS
MapReduce
2006
Solr
Pig
HDFS
MapReduce
2007
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2008
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2009
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2010
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2011
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2012
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2013
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2014
Kudu
RecordService
Falcon
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2015
www.projetoseti.com.br
www.projetoseti.com.br
Principais distribuições
www.projetoseti.com.br
Eu preciso de um ambiente Big Data?
https://medium.com/via-varejo-arquitetura/voce-precisa-de-big-data-a373c59f3082
www.projetoseti.com.br
Onde usar Big Data?
Big
Data
Real Time
BI
Analytics
DW
Logs
Batch
Mensageria
Distribuição
de dados
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
O que preciso saber?
www.projetoseti.com.br
Os novos papéis
Data Engineer
• Processamento Batch e Real Time
• Consolidação de dados
• Preparação dos dados para o Data
Scientist
• Estrutura de dados
• Banco de dados relacional e NoSql
• Conhecimentos: Hive, Python, Scala,
HDFS, Spark, Hbase, Sqoop, Linux, Storm,
shell, etc…
Big Data Architect
• Definição de tecnologia
• Conhecimento abrangente entre as áreas
• Conhecimento nos diversos frameworks,
linguagens de programação e banco de dados
• Conhecimentos : Hadoop, Spark, Storm, Kafka,
Flume, Solr, Hbase, Pig, Hive, Zookeeper,
Python, Java, Scala, Cassandra, Sqoop, Linux,
Shell, cloud, network, etc…
www.projetoseti.com.br
O Data Scientist
• Ajudar na resolução de problemas
relacionados a negócios usando técnicas
orientadas as dados
• Aplicar técnicas de avançadas de analise
de dados como Machine Learning, Deep
Learning, Text analytics, etc...
• Trabalhar com uma variedade de
linguagens de programação assim como
Python, R, SAS, Scala, etc...
• Comunicar os resultados alcançados
www.projetoseti.com.br
Quem usa Big Data no Brasil
• Varejo
• Industria
• Governo
• Marketing
• Esporte
• Medicina
• Seguro
• Agricultura
• Finanças
www.projetoseti.com.br
Nossos patrocinadores
www.projetoseti.com.br
Nossas redes / Dúvidas e sugestões
 Pesquisa de satisfação: https://goo.gl/forms/9hGCntzMMOh6MyAp1
 Nosso site: http://www.projetoseti.com.br
 Linkedin: https://lnkd.in/eFSjBgi
 Facebook: https://fb.com/projetoseti.br
 Youtube: https://youtube.com/user/CanalProjetoseTI
 Twitter: @projetoseti
 Críticas e sugestões: contato@projetoseti.com.br

Más contenido relacionado

Similar a Web aula 46 - Conhecendo o ecossistema BIG DATA

BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
Alessandro Binhara
 

Similar a Web aula 46 - Conhecendo o ecossistema BIG DATA (20)

BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Workshop Reinventando a TI
Workshop Reinventando a TIWorkshop Reinventando a TI
Workshop Reinventando a TI
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big Data
Big DataBig Data
Big Data
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Arteccom Workshop Magento
Arteccom Workshop MagentoArteccom Workshop Magento
Arteccom Workshop Magento
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 

Más de Projetos e TI

Más de Projetos e TI (20)

Web aula 53 agile pmo uma nova abordagem para pm os via agile management office
Web aula 53 agile pmo uma nova abordagem para pm os via agile management officeWeb aula 53 agile pmo uma nova abordagem para pm os via agile management office
Web aula 53 agile pmo uma nova abordagem para pm os via agile management office
 
Webaula 52 - Agile PMO e a transformação organizacional pela agilidade
Webaula 52 - Agile PMO e a transformação organizacional pela agilidadeWebaula 52 - Agile PMO e a transformação organizacional pela agilidade
Webaula 52 - Agile PMO e a transformação organizacional pela agilidade
 
Webaula 51 Entendendo o Lean IT
Webaula 51   Entendendo o Lean ITWebaula 51   Entendendo o Lean IT
Webaula 51 Entendendo o Lean IT
 
Webaula 50 - Como Definir e Controlar o Escopo de um Projeto – O Papel Fundam...
Webaula 50 - Como Definir e Controlar o Escopo de um Projeto – O Papel Fundam...Webaula 50 - Como Definir e Controlar o Escopo de um Projeto – O Papel Fundam...
Webaula 50 - Como Definir e Controlar o Escopo de um Projeto – O Papel Fundam...
 
Web aula 49 - Utilizando Análise de Pontos de Função em Projetos Ágeis
Web aula 49 - Utilizando Análise de Pontos de Função em Projetos ÁgeisWeb aula 49 - Utilizando Análise de Pontos de Função em Projetos Ágeis
Web aula 49 - Utilizando Análise de Pontos de Função em Projetos Ágeis
 
Webaula 48 como evoluir sua equipe usando kanban
Webaula 48   como evoluir sua equipe usando kanbanWebaula 48   como evoluir sua equipe usando kanban
Webaula 48 como evoluir sua equipe usando kanban
 
Webaula 47 - Apresentações de alto impacto para multiplicadores
Webaula 47 - Apresentações de alto impacto para multiplicadoresWebaula 47 - Apresentações de alto impacto para multiplicadores
Webaula 47 - Apresentações de alto impacto para multiplicadores
 
Webaula 45: Quality Thinking - Qualidade estratégica e design thinking
Webaula 45: Quality Thinking - Qualidade estratégica e design thinkingWebaula 45: Quality Thinking - Qualidade estratégica e design thinking
Webaula 45: Quality Thinking - Qualidade estratégica e design thinking
 
Webinar projetos e ti - business intelligence - como fazer
Webinar   projetos e ti - business intelligence - como fazerWebinar   projetos e ti - business intelligence - como fazer
Webinar projetos e ti - business intelligence - como fazer
 
Web aula: ágil x tradicional - projetos híbridos
Web aula: ágil x tradicional - projetos híbridosWeb aula: ágil x tradicional - projetos híbridos
Web aula: ágil x tradicional - projetos híbridos
 
Web aula ia (inteligência artificial) já é presente. preparado para os impac...
Web aula  ia (inteligência artificial) já é presente. preparado para os impac...Web aula  ia (inteligência artificial) já é presente. preparado para os impac...
Web aula ia (inteligência artificial) já é presente. preparado para os impac...
 
Web Aula: Orçamento de obras civis e montagem eletromecânica
Web Aula: Orçamento de obras civis e montagem eletromecânicaWeb Aula: Orçamento de obras civis e montagem eletromecânica
Web Aula: Orçamento de obras civis e montagem eletromecânica
 
Web aula: Guia PMBOK® 6ª edição e o Conhecimento no projeto
Web aula: Guia PMBOK® 6ª edição e o Conhecimento no projetoWeb aula: Guia PMBOK® 6ª edição e o Conhecimento no projeto
Web aula: Guia PMBOK® 6ª edição e o Conhecimento no projeto
 
Web aula a lei do bem e os projetos de inovação tecnológica
Web aula   a lei do bem e os projetos de inovação tecnológicaWeb aula   a lei do bem e os projetos de inovação tecnológica
Web aula a lei do bem e os projetos de inovação tecnológica
 
Web Aula: Negociação em Projetos - Como conseguir melhores acordos no Gerenci...
Web Aula: Negociação em Projetos - Como conseguir melhores acordos no Gerenci...Web Aula: Negociação em Projetos - Como conseguir melhores acordos no Gerenci...
Web Aula: Negociação em Projetos - Como conseguir melhores acordos no Gerenci...
 
Web Aula: Implementando um programa eficiente de Lições Aprendidas
Web Aula: Implementando um programa eficiente de Lições AprendidasWeb Aula: Implementando um programa eficiente de Lições Aprendidas
Web Aula: Implementando um programa eficiente de Lições Aprendidas
 
Gestão ágil do portfólio
Gestão ágil do portfólioGestão ágil do portfólio
Gestão ágil do portfólio
 
PMO Ágil
PMO ÁgilPMO Ágil
PMO Ágil
 
Web aula: Visão IPMA no Gerenciamento de Projetos Programas e Portfólio
Web aula: Visão IPMA no Gerenciamento de Projetos Programas e Portfólio Web aula: Visão IPMA no Gerenciamento de Projetos Programas e Portfólio
Web aula: Visão IPMA no Gerenciamento de Projetos Programas e Portfólio
 
Webinar gestão de mudanças organizacionais - o fator humano na liderança de ...
Webinar  gestão de mudanças organizacionais - o fator humano na liderança de ...Webinar  gestão de mudanças organizacionais - o fator humano na liderança de ...
Webinar gestão de mudanças organizacionais - o fator humano na liderança de ...
 

Web aula 46 - Conhecendo o ecossistema BIG DATA