SlideShare una empresa de Scribd logo
1 de 52
Descargar para leer sin conexión
Pentaho com Hadoop – O Canivete Suíço do
Cientistas de Dados para Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em
desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de
consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado
em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software
Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Hadoop e Pentaho
   
Ecosistema Ambiente
Livre
   
Colaborações com Eventos
   
Big Data - Muito se fala...
   
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Os 4 V's
● Velocidade , Volume , Variedade e Valor
   
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
   
Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados
   
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
   
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
   
O momento é agora
   
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
   
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
   
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
   
Profissional
Novo profissional: Cientista de Dados
   
Competências do Cientista de
dados
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
De onde ?
   
Ferramentas de Big Data
   
Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuido.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum ( Commodity cluster
computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
● Solução de BI Open Source.
● Tem versões Community Edition e Enterprise
Edition.
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho e Hadoop
● O uso de Pentaho em projetos com Hadoop
pode diminuir em 15 vezes o tempo do
Projeto.
Codificação Java Versus ETL Kettle
   
Pentaho e Hadoop
● O Pentaho tem suporte aos principais
distribuições Hadoop.
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
   
Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
   
Ecosistema - Hadoop
   
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
   
Características do HDFS
● Inspirado em GFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
   
HDFS
● Projetado para escalar a petabytes de
armazenamento, e correr em cima dos
sistemas de arquivos do sistema
operacional subjacente.
   
Arquitetura
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
   
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
   
HDFS e Pentaho
   
HDFS e Pentaho
   
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
   
Programação Distribuída
   
MapReduce
Você especifica o map (...) e reduce (...)
funções
●
map = (lista (k, v) -> lista (k, v))
● reduce = (k, lista (v) -> k, v)
O Framework faz o resto
● Dividir os dados
●
Execute vários mappers sobre as divisões
● Embaralhar os dados para os redutores
●
Execute vários redutores
● Guarde os resultados finais
   
MapReduce
Map Reduce
   
Pentaho MapReduce
   
Pentaho e Pig
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
   
Modos de Operação
● Standalone ( Local )
● Pseudo-distributed
● Fully-distributed
   
Outros componentes
● Hive - Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
   
Hbase
● Banco de dados orientada
por colunas distribuída.
HBase usa o HDFS
por sua subjacente de
armazenamento e suporta
os cálculos de estilo lote
usando MapReduce e ponto
consultas (leituras aleatórias)
● Pentaho: Componente
de Input e Output no
Kettle
   
+Hbase e Pentaho
● Componente para decodificar
a chave e os dados valor
que é emitido pelo
TableInputFormat
   
Outros componentes
●
ZooKeeper – Serviço de coordenação altamente
disponível e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a construção
de aplicações distribuídas.
● Sqoop – Ferramenta para a movimentação eficiente
de dados entre bancos de dados relacionais e HDFS.
● Mahout - Aprendizagem de máquina
escalável, de fácil uso comercial para
a construção de aplicativos inteligentes
   
Amazon
● MapReduce sob Demanda
   
Possibilidades de Uso
● DataWareHouse
● Business Intelligence
● Aplicações analíticas
● Mídias Sociais
● Sugestão de Compras
● Analise preditiva
● Compras Coletivas
● Recomendações
   
Modelo tradicional de Uso
   
Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay
   
Hadoop no Brasil
   
Pentaho Orquestrando
Hadoop
   
Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre
   
Convite – Próximos
Eventos
● FTSL - 18 e 19 de Setembro - Curitiba
● Software Freedom Day
20 de Setembro - Curitiba

Más contenido relacionado

La actualidad más candente

The Hidden Value of Hadoop Migration
The Hidden Value of Hadoop MigrationThe Hidden Value of Hadoop Migration
The Hidden Value of Hadoop MigrationDatabricks
 
The path to success with graph database and graph data science_ Neo4j GraphSu...
The path to success with graph database and graph data science_ Neo4j GraphSu...The path to success with graph database and graph data science_ Neo4j GraphSu...
The path to success with graph database and graph data science_ Neo4j GraphSu...Neo4j
 
Google BigQuery Best Practices
Google BigQuery Best PracticesGoogle BigQuery Best Practices
Google BigQuery Best PracticesMatillion
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j
 
Top 10 Cypher Tuning Tips & Tricks
Top 10 Cypher Tuning Tips & TricksTop 10 Cypher Tuning Tips & Tricks
Top 10 Cypher Tuning Tips & TricksNeo4j
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스NAVER D2
 
An overview of BigQuery
An overview of BigQuery An overview of BigQuery
An overview of BigQuery GirdhareeSaran
 
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Simplilearn
 
Apache Hadoop Security - Ranger
Apache Hadoop Security - RangerApache Hadoop Security - Ranger
Apache Hadoop Security - RangerIsheeta Sanghi
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력Youngjae Kim
 
Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j
 
RDBMS to Graph
RDBMS to GraphRDBMS to Graph
RDBMS to GraphNeo4j
 
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판BJ Jang
 
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...HostedbyConfluent
 

La actualidad más candente (20)

The Hidden Value of Hadoop Migration
The Hidden Value of Hadoop MigrationThe Hidden Value of Hadoop Migration
The Hidden Value of Hadoop Migration
 
The path to success with graph database and graph data science_ Neo4j GraphSu...
The path to success with graph database and graph data science_ Neo4j GraphSu...The path to success with graph database and graph data science_ Neo4j GraphSu...
The path to success with graph database and graph data science_ Neo4j GraphSu...
 
Google BigQuery Best Practices
Google BigQuery Best PracticesGoogle BigQuery Best Practices
Google BigQuery Best Practices
 
BigQuery for Beginners
BigQuery for BeginnersBigQuery for Beginners
BigQuery for Beginners
 
Hadoop Tutorial For Beginners
Hadoop Tutorial For BeginnersHadoop Tutorial For Beginners
Hadoop Tutorial For Beginners
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métier
 
Top 10 Cypher Tuning Tips & Tricks
Top 10 Cypher Tuning Tips & TricksTop 10 Cypher Tuning Tips & Tricks
Top 10 Cypher Tuning Tips & Tricks
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
 
An overview of BigQuery
An overview of BigQuery An overview of BigQuery
An overview of BigQuery
 
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
 
Apache Hadoop Security - Ranger
Apache Hadoop Security - RangerApache Hadoop Security - Ranger
Apache Hadoop Security - Ranger
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력
 
Apache Hive
Apache HiveApache Hive
Apache Hive
 
Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)
 
RDBMS to Graph
RDBMS to GraphRDBMS to Graph
RDBMS to Graph
 
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
 
Big Data
Big DataBig Data
Big Data
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...
Don’t Forget About Your Past—Optimizing Apache Druid Performance With Neil Bu...
 

Destacado

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Railsrinaldifonsecanascimento
 
Programacao Funcional Em Ruby
Programacao Funcional Em RubyProgramacao Funcional Em Ruby
Programacao Funcional Em RubyElomar Souza
 
Orientação a objetos na prática
Orientação a objetos na práticaOrientação a objetos na prática
Orientação a objetos na práticaTI Infnet
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
IoT Studio #1: Protocols introduction and connected jukebox
IoT Studio #1: Protocols introduction and connected jukeboxIoT Studio #1: Protocols introduction and connected jukebox
IoT Studio #1: Protocols introduction and connected jukeboxMickaël Rémond
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBRodrigo Hjort
 
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8 Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8 Mickaël Rémond
 
Top 6 IoT Use Cases in Manufacturing
Top 6 IoT Use Cases in ManufacturingTop 6 IoT Use Cases in Manufacturing
Top 6 IoT Use Cases in ManufacturingALTEN Calsoft Labs
 
Key Data Management Requirements for the IoT
Key Data Management Requirements for the IoTKey Data Management Requirements for the IoT
Key Data Management Requirements for the IoTMongoDB
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 

Destacado (20)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Rails
 
Pentaho
PentahoPentaho
Pentaho
 
Programacao Funcional Em Ruby
Programacao Funcional Em RubyProgramacao Funcional Em Ruby
Programacao Funcional Em Ruby
 
Orientação a objetos na prática
Orientação a objetos na práticaOrientação a objetos na prática
Orientação a objetos na prática
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
MongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a DocumentosMongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a Documentos
 
IoT Studio #1: Protocols introduction and connected jukebox
IoT Studio #1: Protocols introduction and connected jukeboxIoT Studio #1: Protocols introduction and connected jukebox
IoT Studio #1: Protocols introduction and connected jukebox
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDB
 
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8 Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8
Phoenix Presence: Le service temps réel de Phoenix - Paris.ex #8
 
Top 6 IoT Use Cases in Manufacturing
Top 6 IoT Use Cases in ManufacturingTop 6 IoT Use Cases in Manufacturing
Top 6 IoT Use Cases in Manufacturing
 
Key Data Management Requirements for the IoT
Key Data Management Requirements for the IoTKey Data Management Requirements for the IoT
Key Data Management Requirements for the IoT
 
Top 10 IoT Blogs
Top 10 IoT BlogsTop 10 IoT Blogs
Top 10 IoT Blogs
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Top 5 IoT Use Cases
Top 5 IoT Use CasesTop 5 IoT Use Cases
Top 5 IoT Use Cases
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 

Similar a Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache HadoopVinícius Barros
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 

Similar a Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics (20)

Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache Hadoop
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 

Más de Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 

Más de Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

  • 1. Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Hadoop e Pentaho
  • 5.     Big Data - Muito se fala...
  • 7.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 8.     Os 4 V's ● Velocidade , Volume , Variedade e Valor
  • 9.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 10.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 11.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 12.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 13.     O momento é agora
  • 14.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  • 15.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 16.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 18.     Competências do Cientista de dados ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 21.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuido. ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 22.     ● Solução de BI Open Source. ● Tem versões Community Edition e Enterprise Edition. ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 23.     Pentaho e Hadoop ● O uso de Pentaho em projetos com Hadoop pode diminuir em 15 vezes o tempo do Projeto. Codificação Java Versus ETL Kettle
  • 24.     Pentaho e Hadoop ● O Pentaho tem suporte aos principais distribuições Hadoop. ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  • 25.     Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  • 27.     O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  • 28.     Características do HDFS ● Inspirado em GFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade
  • 29.     HDFS ● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
  • 31.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 32.     HDFS e Pentaho
  • 33.     HDFS e Pentaho
  • 34.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  • 36.     MapReduce Você especifica o map (...) e reduce (...) funções ● map = (lista (k, v) -> lista (k, v)) ● reduce = (k, lista (v) -> k, v) O Framework faz o resto ● Dividir os dados ● Execute vários mappers sobre as divisões ● Embaralhar os dados para os redutores ● Execute vários redutores ● Guarde os resultados finais
  • 39.     Pentaho e Pig ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
  • 40.     Modos de Operação ● Standalone ( Local ) ● Pseudo-distributed ● Fully-distributed
  • 41.     Outros componentes ● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  • 42.     Hbase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias) ● Pentaho: Componente de Input e Output no Kettle
  • 43.     +Hbase e Pentaho ● Componente para decodificar a chave e os dados valor que é emitido pelo TableInputFormat
  • 44.     Outros componentes ● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. ● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. ● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
  • 46.     Possibilidades de Uso ● DataWareHouse ● Business Intelligence ● Aplicações analíticas ● Mídias Sociais ● Sugestão de Compras ● Analise preditiva ● Compras Coletivas ● Recomendações
  • 48.     Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  • 49.     Hadoop no Brasil
  • 51.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre
  • 52.     Convite – Próximos Eventos ● FTSL - 18 e 19 de Setembro - Curitiba ● Software Freedom Day 20 de Setembro - Curitiba