Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Pentaho com Hadoop – O Canivete Suíço do
Cientistas de Dados para Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br

Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em
desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de
consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado
em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software
Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Hadoop e Pentaho

Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade

Os 4 V's
● Velocidade , Volume , Variedade e Valor

Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.

Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados

Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos

Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.

Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais

Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )

Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral

Profissional
Novo profissional: Cientista de Dados

Competências do Cientista de
dados
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuido.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum ( Commodity cluster
computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )

● Solução de BI Open Source.
● Tem versões Community Edition e Enterprise
Edition.
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)

Pentaho e Hadoop
● O uso de Pentaho em projetos com Hadoop
pode diminuir em 15 vezes o tempo do
Projeto.
Codificação Java Versus ETL Kettle

Pentaho e Hadoop
● O Pentaho tem suporte aos principais
distribuições Hadoop.
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce

Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda

O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.

Características do HDFS
● Inspirado em GFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade

HDFS
● Projetado para escalar a petabytes de
armazenamento, e correr em cima dos
sistemas de arquivos do sistema
operacional subjacente.

Arquitetura
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas

MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes

MapReduce
Você especifica o map (...) e reduce (...)
funções
●
map = (lista (k, v) -> lista (k, v))
● reduce = (k, lista (v) -> k, v)
O Framework faz o resto
● Dividir os dados
●
Execute vários mappers sobre as divisões
● Embaralhar os dados para os redutores
●
Execute vários redutores
● Guarde os resultados finais

Pentaho e Pig
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.

Modos de Operação
● Standalone ( Local )
● Pseudo-distributed
● Fully-distributed

Outros componentes
● Hive - Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.

Hbase
● Banco de dados orientada
por colunas distribuída.
HBase usa o HDFS
por sua subjacente de
armazenamento e suporta
os cálculos de estilo lote
usando MapReduce e ponto
consultas (leituras aleatórias)
● Pentaho: Componente
de Input e Output no
Kettle

+Hbase e Pentaho
● Componente para decodificar
a chave e os dados valor
que é emitido pelo
TableInputFormat

Outros componentes
●
ZooKeeper – Serviço de coordenação altamente
disponível e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a construção
de aplicações distribuídas.
● Sqoop – Ferramenta para a movimentação eficiente
de dados entre bancos de dados relacionais e HDFS.
● Mahout - Aprendizagem de máquina
escalável, de fácil uso comercial para
a construção de aplicativos inteligentes

Amazon
● MapReduce sob Demanda

Possibilidades de Uso
● DataWareHouse
● Business Intelligence
● Aplicações analíticas
● Mídias Sociais
● Sugestão de Compras
● Analise preditiva
● Compras Coletivas
● Recomendações

Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay

Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Convite – Próximos
Eventos
● FTSL - 18 e 19 de Setembro - Curitiba
● Software Freedom Day
20 de Setembro - Curitiba

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Similar a Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics (20)

Más de Ambiente Livre

Más de Ambiente Livre (20)

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics