SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Jornada do Engenheiro
de Dados
Trilha do conhecimento, potencial e
possibilidades do segmento
Patrocínio:
Graduado Engenheiro de computação
MBA Business Intelligence
Experiências :
Certificações :
André Marques
Engenheiro de dados na Zurich Santander
Atribuições do
Engenheiro de
Dados 01
Atribuições do Engenheiro de
Dados
● Banco de dados
SQL - MySQL, PostgreSQL, SQL Server
NOSQL - Hive/Impala, MongoDB, RedShift, BigQuery
● Linguagem de Programação
Python , Scala, Java
● Ecossistema BigData
● Integração de dados
ETL ( Talend , Pentaho , PowerCenter )
Pipelines ( Batch / Streaming ) - StreamSets, Sqoop, Apache Beam
Orquestradores - Airflow, Control-M
● Mensageria - Kafka, Pub/Sub, RabbitMQ
● Cloud - AWS, Google Cloud, Azure, IBM Cloud
...
● Microserviços / Infra As Code (Ex : Terraform )
Ferramentas / Linguagens
Carreiras de
Origem 02
● Analista de dados
● Analista de Business Intelligence
Possuem conceitos de modelagem e análise de dados
Conhecimentos de ETL / Coleta e transformação de dados
Conhecimento em banco de dados relationais
Conhecimento de DataWare Housing
● Desenvolvedores
Conhecimento em desenvolvimento de software e linguagens de programação
Conhecimento em banco de dados relacionais / NOSQL
Ambos possuem fortes vantagens e lacunas a serem preenchidas na carreira de DataEng.
Carreiras de origem
Banco de dados 04
●
SQL & NOSQL
●
Tipos de bancos NOSQL
DocumentDB
ElasticSearch
RedShift
BigQuery - OLAP
BigTable - OLTP
● Otimizado para recuperação rápida de colunas de dados, normalmente em aplicativos
analíticos
● O armazenamento orientado a colunas para tabelas do banco de dados é um fator importante
para a performance de consulta analítica
● reduz expressivamente os requisitos gerais de E/S de disco e diminui a quantidade de dados
que você precisa carregar do disco
● criados para aumentar a escala horizontal usando clusters distribuídos de hardware de baixo
custo para aumentar o throughput
● ideais para data warehousing e processamento de big data.
● Exemplo Redshift / BigQuery
NOSQL - Colunar
● Desacoplamento armazenamento e processamento
● Flexibilidade e crescimento conforme demanda
● Não existe tamanho de servidores atrelados ao serviço
● Cobrança realizada por 3 operações : Inserção streaming/ lote , armazenamento de dados,
processamento , extração de dados
NOSQL - BigQuery
●
NOSQL - BigQuery
https://cloud.google.com/blog/prod
ucts/bigquery/bigquery-under-the-
hood
Armazenamento
de dados 05
DataWareHouse / DataLake /
Lakehouse
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
Modelagem de
dados 06
● Normalizado
Star Schema
SnowFlake
Usado em DatawareHouses
Forte relacionamento entre as entidades
● Denormalizado
Evita consulta em diversas tabelas para formar os dados em uma tabela fato
Redundância de dados em prol da otimização do processamento e baixo custa de
armazenamento
“O método convencional de desnormalizar dados envolve gravar um fato, com todas as suas dimensões,
em uma estrutura de tabela simples. Por exemplo, para transações de vendas, grave cada fato em um
registro junto com as respectivas dimensões, como informações do pedido e do cliente.”
Normalizado & Desnormalizado
●
Normalizado & Denormalizado
https://cloud.google.com/solutions/bigquery-data-warehouse
Fato & dim
Formato de dados
07
● Os diferentes formatos de dados possuem características que devem ser levadas em
consideração na escolha de um formato dentro de uma ambiente de Big data.
● A maior vantagem dos formatos específicos é a capacidade de paralelismo de processamento
no cluster e menor tempo de I/O devido compactação.
Formato de dados
https://www.nexla.com/resource/introduction-big-data-formats-understanding-avro-pa
rquet-orc/
Integração de
dados 08
Evolução da integração
de dados - Etapas e
desafios
https://www.infoq.com/articles/future-data-engineering-riccomini/
● Nenhuma integração
● Integração em lotes - Batch
● Em tempo real - Realtime
● Integração
Serviços que realizam a integração de dados, como Kafka. Desta
forma, time de SRE podem gerenciar múltiplas fontes com a
mesma arquitetura
● Automação
Gerenciamento de dados e operações automatizada
● Descentralização
Interfaces que possibilitem diferentes times criar integrações de
dados automatizadas
6 Etapas de maturidade de integração
de dados
●
Apache Beam
●
AWS Glue
●
StreamSets
Perspectivas 09
● Alta demanda de mercado
● Constante mudança e incorporação de novas competências, como por exemplo
conhecimento de Infra as Code
● Crescimento exponencial de volume de dados criam constantes desafios ao
profissional
Perspectivas de Mercado
Data engineering
interviews increased by
40% in 2020 while Data
science interviews
dropped by 15%
https://finance.yahoo.com/news/data-science-job-market-shrinking-122300456.html
Today, there are 6,500 people on
LinkedIn who call themselves data
engineers. In San Francisco alone,
there are 6,600 job listings for this
same title
https://www.stitchdata.com/resources/the-state-of-data-engineering/
●
Dados mudam o mundo !
OBRIGADO!
Tem alguma dúvida?
marquesleite113@gmail.com
www.linkedin.com/in/andremarquesleite

Más contenido relacionado

La actualidad más candente

Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comPentahoBrasil
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewRoberto Oliveira
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Christiano Anderson
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMarco Garcia
 
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Caio Moreno
 
Sistemas NoSQL, surgimento, características e exemplos
Sistemas NoSQL, surgimento, características e exemplosSistemas NoSQL, surgimento, características e exemplos
Sistemas NoSQL, surgimento, características e exemplosAricelio Souza
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosJoão Helis Bernardo
 
NoSQL, Base VS ACID e Teorema CAP
NoSQL, Base VS ACID e Teorema CAPNoSQL, Base VS ACID e Teorema CAP
NoSQL, Base VS ACID e Teorema CAPAricelio Souza
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Algumas das principais características do NoSQL
Algumas das principais características do NoSQLAlgumas das principais características do NoSQL
Algumas das principais características do NoSQLEric Silva
 
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Caio Moreno
 

La actualidad más candente (20)

Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.com
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - Qlikview
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho Day
 
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 
Sistemas NoSQL, surgimento, características e exemplos
Sistemas NoSQL, surgimento, características e exemplosSistemas NoSQL, surgimento, características e exemplos
Sistemas NoSQL, surgimento, características e exemplos
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
 
NoSQL, Base VS ACID e Teorema CAP
NoSQL, Base VS ACID e Teorema CAPNoSQL, Base VS ACID e Teorema CAP
NoSQL, Base VS ACID e Teorema CAP
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Algumas das principais características do NoSQL
Algumas das principais características do NoSQLAlgumas das principais características do NoSQL
Algumas das principais características do NoSQL
 
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
 

Similar a [DTC21] André Marques - Jornada do Engenheiro de Dados

Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MERRodrigo Kiyoshi Saito
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Denodo
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Raul Oliveira
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escalarkwseijuurou
 
L'esprit de l'escalier
L'esprit de l'escalierL'esprit de l'escalier
L'esprit de l'escalierGleicon Moraes
 
Apresentação - MongoDB
Apresentação - MongoDBApresentação - MongoDB
Apresentação - MongoDBJDSBD
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Apostila NoSql.pdf
Apostila NoSql.pdfApostila NoSql.pdf
Apostila NoSql.pdfEizo Edson
 
Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”elliando dias
 
Data center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfData center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfssuser1198af
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídosluanrjesus
 

Similar a [DTC21] André Marques - Jornada do Engenheiro de Dados (20)

Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Streaming architecture with big data clusters
Streaming architecture with big data clustersStreaming architecture with big data clusters
Streaming architecture with big data clusters
 
Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escala
 
L'esprit de l'escalier
L'esprit de l'escalierL'esprit de l'escalier
L'esprit de l'escalier
 
Apresentação - MongoDB
Apresentação - MongoDBApresentação - MongoDB
Apresentação - MongoDB
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Apostila NoSql.pdf
Apostila NoSql.pdfApostila NoSql.pdf
Apostila NoSql.pdf
 
Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”
 
B Ds Clouds
B Ds CloudsB Ds Clouds
B Ds Clouds
 
Apostila oracle
Apostila oracleApostila oracle
Apostila oracle
 
Data center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfData center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdf
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
 

Último

ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 

Último (9)

ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 

[DTC21] André Marques - Jornada do Engenheiro de Dados

  • 1. Jornada do Engenheiro de Dados Trilha do conhecimento, potencial e possibilidades do segmento
  • 3. Graduado Engenheiro de computação MBA Business Intelligence Experiências : Certificações : André Marques Engenheiro de dados na Zurich Santander
  • 6. ● Banco de dados SQL - MySQL, PostgreSQL, SQL Server NOSQL - Hive/Impala, MongoDB, RedShift, BigQuery ● Linguagem de Programação Python , Scala, Java ● Ecossistema BigData ● Integração de dados ETL ( Talend , Pentaho , PowerCenter ) Pipelines ( Batch / Streaming ) - StreamSets, Sqoop, Apache Beam Orquestradores - Airflow, Control-M ● Mensageria - Kafka, Pub/Sub, RabbitMQ ● Cloud - AWS, Google Cloud, Azure, IBM Cloud ... ● Microserviços / Infra As Code (Ex : Terraform ) Ferramentas / Linguagens
  • 8. ● Analista de dados ● Analista de Business Intelligence Possuem conceitos de modelagem e análise de dados Conhecimentos de ETL / Coleta e transformação de dados Conhecimento em banco de dados relationais Conhecimento de DataWare Housing ● Desenvolvedores Conhecimento em desenvolvimento de software e linguagens de programação Conhecimento em banco de dados relacionais / NOSQL Ambos possuem fortes vantagens e lacunas a serem preenchidas na carreira de DataEng. Carreiras de origem
  • 11. ● Tipos de bancos NOSQL DocumentDB ElasticSearch RedShift BigQuery - OLAP BigTable - OLTP
  • 12. ● Otimizado para recuperação rápida de colunas de dados, normalmente em aplicativos analíticos ● O armazenamento orientado a colunas para tabelas do banco de dados é um fator importante para a performance de consulta analítica ● reduz expressivamente os requisitos gerais de E/S de disco e diminui a quantidade de dados que você precisa carregar do disco ● criados para aumentar a escala horizontal usando clusters distribuídos de hardware de baixo custo para aumentar o throughput ● ideais para data warehousing e processamento de big data. ● Exemplo Redshift / BigQuery NOSQL - Colunar
  • 13. ● Desacoplamento armazenamento e processamento ● Flexibilidade e crescimento conforme demanda ● Não existe tamanho de servidores atrelados ao serviço ● Cobrança realizada por 3 operações : Inserção streaming/ lote , armazenamento de dados, processamento , extração de dados NOSQL - BigQuery
  • 16. DataWareHouse / DataLake / Lakehouse https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
  • 18. ● Normalizado Star Schema SnowFlake Usado em DatawareHouses Forte relacionamento entre as entidades ● Denormalizado Evita consulta em diversas tabelas para formar os dados em uma tabela fato Redundância de dados em prol da otimização do processamento e baixo custa de armazenamento “O método convencional de desnormalizar dados envolve gravar um fato, com todas as suas dimensões, em uma estrutura de tabela simples. Por exemplo, para transações de vendas, grave cada fato em um registro junto com as respectivas dimensões, como informações do pedido e do cliente.” Normalizado & Desnormalizado
  • 22. ● Os diferentes formatos de dados possuem características que devem ser levadas em consideração na escolha de um formato dentro de uma ambiente de Big data. ● A maior vantagem dos formatos específicos é a capacidade de paralelismo de processamento no cluster e menor tempo de I/O devido compactação. Formato de dados
  • 25. Evolução da integração de dados - Etapas e desafios https://www.infoq.com/articles/future-data-engineering-riccomini/
  • 26. ● Nenhuma integração ● Integração em lotes - Batch ● Em tempo real - Realtime ● Integração Serviços que realizam a integração de dados, como Kafka. Desta forma, time de SRE podem gerenciar múltiplas fontes com a mesma arquitetura ● Automação Gerenciamento de dados e operações automatizada ● Descentralização Interfaces que possibilitem diferentes times criar integrações de dados automatizadas 6 Etapas de maturidade de integração de dados
  • 31. ● Alta demanda de mercado ● Constante mudança e incorporação de novas competências, como por exemplo conhecimento de Infra as Code ● Crescimento exponencial de volume de dados criam constantes desafios ao profissional Perspectivas de Mercado
  • 32. Data engineering interviews increased by 40% in 2020 while Data science interviews dropped by 15% https://finance.yahoo.com/news/data-science-job-market-shrinking-122300456.html
  • 33. Today, there are 6,500 people on LinkedIn who call themselves data engineers. In San Francisco alone, there are 6,600 job listings for this same title https://www.stitchdata.com/resources/the-state-of-data-engineering/
  • 34. ● Dados mudam o mundo !