SlideShare una empresa de Scribd logo
1 de 36
Big Data na prática
Resolvendo problemas de performance com Hadoop
Marco Reis
http://marcoreis.net
@masreis
Agenda
● Modelo tradicional de desenvolvimento
● Desafios e oportunidades do big data
● Hadoop
– HDFS
– MapReduce
– Ecossistema
● Arquitetura de soluç ões com Hadoop
Quem
● Marco Reis
– Arquitetura de software
– Java EE
– Sistemas de busca
– Big data
A histó ria
● Estamos sempre envolvidos em projetos de
sistemas
– Abordagem tradicional de desenvolvimento
● “Big data é para grandes projetos”
● “Big data é para inteligência artificial”
● “Não é para mim”
O modelo tradicional
● Linguagem de alto nível (Java/.NET/Ruby)
● Banco de dados relacionais
● Padronização
– Padrões de projeto de software
– SQL ANSI
– Servidor de aplicação
– Maturidade (décadas de evolução)
Um dia...
● O sistema escala
– Versão web
– Versão mobile
E descobrimos as limitaç ões
● Processamento
– Mais processamento = mais hardware
● Input/Output
– IO de alta performance é caro
● Tempo de resposta inaceitável
– Relató rios semanais
● Custo (Hardware e software)
– Adquirir mais máquinas?
Chega o big data
● Implementaç ão mais conhecida: Hadoop
● Complementaç ão do modelo tradicional
– Não substituiç ão
● Pode ser integrado com outras ferramentas
– Driver para banco de dados relacional
– API Java
– RESTful web services
Big data
● Um termo novo para um problema antigo
● Processamento de grande volume de dados
● Alternativa ao modelo tradicional
– Escala (terabytes / petabytes / exabytes)
– Velocidade (rede social, logs, integraç ão)
– Complexidade (dados estruturados, semi-
estruturados e não estruturados)
● Não existe uma definiç ão formal para Big Data
Quem precisa de Big Data?
● A demanda jáexiste e talvez vocênão tenha
percebido
– Processamento em lote
– Relató rios
– ETL
– Melhoria de performance
● Podemos oferecer novas funcionalidades para o
cliente
● Ou simplesmente por curiosidade!
Usos avanç ados
● NLP (Natural Language Processing)
● Mobilidade urbana
● IoT (Internet of Things)
– 50 bilhões de dispositivos (sensores) conectados
em 2025
● Data as a Service e Big Data as a Service
Fonte: Smart Steps (Telefonica)
Eliminaç ão dos limites
● Facilidade para criar contextos
– Os modelos não precisam estar definidos a priori
– Criaç ão de modelos por demanda
– Armazene tudo
– Depois descubra como extrair valor
Questões éticas e legais
● Big data não é sobre números.
● Big data é sobre pessoas!!!
– Privacidade
– Críticas
– Comparaç ões
Hadoop
● Software para computaç ão distribuída de alta
performance
– Tolerância a falhas / Redundância
– Cluster / processamento paralelo
● Hardware de baixo custo (processador e disco)
– Diferente de hardware de baixa qualidade
● Implementaç ão mais popular para big data
● Linearmente escalável
Hadoop = HDFS + MapReduce
● HDFS: Sistema de arquivos distribuído de alta
performance
● MapReduce: modelo de programaç ão
distribuída
● Moving Computation is Cheaper than Moving
Data
Hadoop é bom para...
● Processamento em lote
– Só isso járesolve muitos problemas
● Armazenamento
● Data warehouse (queries e reports)
● Reduç ão de custos
Usos imediatos do Hadoop
● Consolidaç ão / agregaç ão de dados
● Armazenamento
● Análise: log / estatística
● ETL
● Georreferenciamento
O Hadoop resolve tudo?
Alguns desafios do Hadoop
● Processamento de baixa latência ou busca de
registros individuais
– Use um banco NoSQL (HBase)
● Data warehouse
– Use o Hive
● Processamento com datasets pequenos
– O custo de implementaç ão é alto
● Sua aplicaç ão precisa mesmo ser
completamente transacional e em tempo real?
Tecnicamente falando
● Especializar os serviç os de dados
– SGBDR - serviç os em tempo real (transacionais)
– Hadoop - serviç os assíncronos
● Evitar concorrência entre os serviç os
– Alguns sistemas acessam o SGBDR
– Outros acessam o Hadoop
Ecossistema Hadoop
● Projetos paralelos e complementares
● Para cada problema, uma soluç ão
– Problemas específicos demandam ferramentas
específicas
Ferramentas
● Juntar todas essas peças é um exercício de
criatividade
Sqoop
● Importaç ão e exportaç ão de dados entre
Hadoop e bancos relacionais
● Exemplo: scripts rodando com frequência
determinada
– 10 minutos
– 1 hora
– 12 horas
HBase
● Banco de dados NoSQL
– Baixa latência
● Orientado a coluna
– Suporta bilhões de colunas
● A modelagem não é trivial (multidimensional)
– Chave, família da coluna, qualificador e valor
● Não é substituto do banco relacional
Hive
● Data warehouse
● Consultas usando padrão SQL (HiveQL)
● Sumarizaç ão simplificada
Pig
● Plataforma para análise de dados com
linguagem de alto nível
● Produz uma sequência de programas
MapReduce
Oozie
● Workflow para processamento Hadoop
● Indica a ordem em que os jobs devem rodar
● Suporta diversas aç ões:
– Copiar arquivos para o HDFS
– Iniciar os jobs MapReduce
– Importar/exportar dados com o Sqoop
Cenário 1: processamento em lote
● Importar os dados (Sqoop/HDFS)
● Processar os dados com MapReduce
● Exportar o resultado processado (reduzido)
para o banco relacional
● Consequência: alívio do servidor de aplicaç ão e
banco de dados, sem mudar o có digo da
aplicaç ão
Cenário 2: alternar fontes de dados
● Problema: lentidão em um mó dulo do sistema
● Exportar dados do relacional
● Alterar uma parte não transacional da aplicaç ão
para acessar os dados do HBase
● Vantagem: baixa latência, a aplicaç ão fica mais
rápida
● Desvantagem: aumenta complexidade
Cenário 3: ETL
● Importaç ão de dados de várias fontes
(relacional/HDFS/HBase/Hive)
● Transformaç ão (enriquecimento) dos dados
– MapReduce ou Pig
● Carregar os dados no destino
Cenário 4: data warehouse
● Útil quando consideramos grandes data sets
● A latência é aceitável
● Disponível para usuários especializados
Concluindo
● Outras ferramentas fazem a mesma coisa
● Não existe uma solução perfeita para os
problemas
– Muitas combinações diferentes
● Podemos integrar o Hadoop com uma
aplicação já existente
Marco Reis
http://marcoreis.net
@masreis

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Hadoop - Primeiros passos
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passos
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Hadoop
HadoopHadoop
Hadoop
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 

Similar a Bigdata na pratica: Resolvendo problemas de performance com hadoop

Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
sparsi
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
jcaroso
 

Similar a Bigdata na pratica: Resolvendo problemas de performance com hadoop (20)

Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 
Hadoop
HadoopHadoop
Hadoop
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Hadoop
HadoopHadoop
Hadoop
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Escalabilidade, as modas, (No)SQL
Escalabilidade, as modas, (No)SQLEscalabilidade, as modas, (No)SQL
Escalabilidade, as modas, (No)SQL
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
MapReduce
MapReduceMapReduce
MapReduce
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 

Más de tdc-globalcode

Más de tdc-globalcode (20)

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadeTDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
 
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
 
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de SucessoTDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
 
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPATDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
 
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinoTDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
 
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
 
TDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devicesTDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devices
 
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca PublicaTrilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
 
Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#
 
TDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case EasylocusTDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case Easylocus
 
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
 
TDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em GolangTDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em Golang
 
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QATDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
 
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciaTDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
 
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR ServiceTDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
 
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETTDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
 
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
 
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
 
TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#
 
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net CoreTDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
 

Último

Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
FabianeMartins35
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
TailsonSantos1
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
LeloIurk1
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
LeloIurk1
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
edelon1
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
WagnerCamposCEA
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
RavenaSales1
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
AntonioVieira539017
 

Último (20)

Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
Aula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIXAula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIX
 
praticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médiopraticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médio
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
Jogo de Rimas - Para impressão em pdf a ser usado para crianças
Jogo de Rimas - Para impressão em pdf a ser usado para criançasJogo de Rimas - Para impressão em pdf a ser usado para crianças
Jogo de Rimas - Para impressão em pdf a ser usado para crianças
 
Nós Propomos! Autocarros Elétricos - Trabalho desenvolvido no âmbito de Cidad...
Nós Propomos! Autocarros Elétricos - Trabalho desenvolvido no âmbito de Cidad...Nós Propomos! Autocarros Elétricos - Trabalho desenvolvido no âmbito de Cidad...
Nós Propomos! Autocarros Elétricos - Trabalho desenvolvido no âmbito de Cidad...
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
 
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 

Bigdata na pratica: Resolvendo problemas de performance com hadoop

  • 1. Big Data na prática Resolvendo problemas de performance com Hadoop Marco Reis http://marcoreis.net @masreis
  • 2. Agenda ● Modelo tradicional de desenvolvimento ● Desafios e oportunidades do big data ● Hadoop – HDFS – MapReduce – Ecossistema ● Arquitetura de soluç ões com Hadoop
  • 3. Quem ● Marco Reis – Arquitetura de software – Java EE – Sistemas de busca – Big data
  • 4. A histó ria ● Estamos sempre envolvidos em projetos de sistemas – Abordagem tradicional de desenvolvimento ● “Big data é para grandes projetos” ● “Big data é para inteligência artificial” ● “Não é para mim”
  • 5. O modelo tradicional ● Linguagem de alto nível (Java/.NET/Ruby) ● Banco de dados relacionais ● Padronização – Padrões de projeto de software – SQL ANSI – Servidor de aplicação – Maturidade (décadas de evolução)
  • 6. Um dia... ● O sistema escala – Versão web – Versão mobile
  • 7.
  • 8. E descobrimos as limitaç ões ● Processamento – Mais processamento = mais hardware ● Input/Output – IO de alta performance é caro ● Tempo de resposta inaceitável – Relató rios semanais ● Custo (Hardware e software) – Adquirir mais máquinas?
  • 9. Chega o big data ● Implementaç ão mais conhecida: Hadoop ● Complementaç ão do modelo tradicional – Não substituiç ão ● Pode ser integrado com outras ferramentas – Driver para banco de dados relacional – API Java – RESTful web services
  • 10. Big data ● Um termo novo para um problema antigo ● Processamento de grande volume de dados ● Alternativa ao modelo tradicional – Escala (terabytes / petabytes / exabytes) – Velocidade (rede social, logs, integraç ão) – Complexidade (dados estruturados, semi- estruturados e não estruturados) ● Não existe uma definiç ão formal para Big Data
  • 11.
  • 12. Quem precisa de Big Data? ● A demanda jáexiste e talvez vocênão tenha percebido – Processamento em lote – Relató rios – ETL – Melhoria de performance ● Podemos oferecer novas funcionalidades para o cliente ● Ou simplesmente por curiosidade!
  • 13. Usos avanç ados ● NLP (Natural Language Processing) ● Mobilidade urbana ● IoT (Internet of Things) – 50 bilhões de dispositivos (sensores) conectados em 2025 ● Data as a Service e Big Data as a Service
  • 14. Fonte: Smart Steps (Telefonica)
  • 15. Eliminaç ão dos limites ● Facilidade para criar contextos – Os modelos não precisam estar definidos a priori – Criaç ão de modelos por demanda – Armazene tudo – Depois descubra como extrair valor
  • 16. Questões éticas e legais ● Big data não é sobre números. ● Big data é sobre pessoas!!! – Privacidade – Críticas – Comparaç ões
  • 17. Hadoop ● Software para computaç ão distribuída de alta performance – Tolerância a falhas / Redundância – Cluster / processamento paralelo ● Hardware de baixo custo (processador e disco) – Diferente de hardware de baixa qualidade ● Implementaç ão mais popular para big data ● Linearmente escalável
  • 18. Hadoop = HDFS + MapReduce ● HDFS: Sistema de arquivos distribuído de alta performance ● MapReduce: modelo de programaç ão distribuída ● Moving Computation is Cheaper than Moving Data
  • 19. Hadoop é bom para... ● Processamento em lote – Só isso járesolve muitos problemas ● Armazenamento ● Data warehouse (queries e reports) ● Reduç ão de custos
  • 20. Usos imediatos do Hadoop ● Consolidaç ão / agregaç ão de dados ● Armazenamento ● Análise: log / estatística ● ETL ● Georreferenciamento
  • 22. Alguns desafios do Hadoop ● Processamento de baixa latência ou busca de registros individuais – Use um banco NoSQL (HBase) ● Data warehouse – Use o Hive ● Processamento com datasets pequenos – O custo de implementaç ão é alto ● Sua aplicaç ão precisa mesmo ser completamente transacional e em tempo real?
  • 23. Tecnicamente falando ● Especializar os serviç os de dados – SGBDR - serviç os em tempo real (transacionais) – Hadoop - serviç os assíncronos ● Evitar concorrência entre os serviç os – Alguns sistemas acessam o SGBDR – Outros acessam o Hadoop
  • 24. Ecossistema Hadoop ● Projetos paralelos e complementares ● Para cada problema, uma soluç ão – Problemas específicos demandam ferramentas específicas
  • 25. Ferramentas ● Juntar todas essas peças é um exercício de criatividade
  • 26. Sqoop ● Importaç ão e exportaç ão de dados entre Hadoop e bancos relacionais ● Exemplo: scripts rodando com frequência determinada – 10 minutos – 1 hora – 12 horas
  • 27. HBase ● Banco de dados NoSQL – Baixa latência ● Orientado a coluna – Suporta bilhões de colunas ● A modelagem não é trivial (multidimensional) – Chave, família da coluna, qualificador e valor ● Não é substituto do banco relacional
  • 28. Hive ● Data warehouse ● Consultas usando padrão SQL (HiveQL) ● Sumarizaç ão simplificada
  • 29. Pig ● Plataforma para análise de dados com linguagem de alto nível ● Produz uma sequência de programas MapReduce
  • 30. Oozie ● Workflow para processamento Hadoop ● Indica a ordem em que os jobs devem rodar ● Suporta diversas aç ões: – Copiar arquivos para o HDFS – Iniciar os jobs MapReduce – Importar/exportar dados com o Sqoop
  • 31. Cenário 1: processamento em lote ● Importar os dados (Sqoop/HDFS) ● Processar os dados com MapReduce ● Exportar o resultado processado (reduzido) para o banco relacional ● Consequência: alívio do servidor de aplicaç ão e banco de dados, sem mudar o có digo da aplicaç ão
  • 32. Cenário 2: alternar fontes de dados ● Problema: lentidão em um mó dulo do sistema ● Exportar dados do relacional ● Alterar uma parte não transacional da aplicaç ão para acessar os dados do HBase ● Vantagem: baixa latência, a aplicaç ão fica mais rápida ● Desvantagem: aumenta complexidade
  • 33. Cenário 3: ETL ● Importaç ão de dados de várias fontes (relacional/HDFS/HBase/Hive) ● Transformaç ão (enriquecimento) dos dados – MapReduce ou Pig ● Carregar os dados no destino
  • 34. Cenário 4: data warehouse ● Útil quando consideramos grandes data sets ● A latência é aceitável ● Disponível para usuários especializados
  • 35. Concluindo ● Outras ferramentas fazem a mesma coisa ● Não existe uma solução perfeita para os problemas – Muitas combinações diferentes ● Podemos integrar o Hadoop com uma aplicação já existente