8. ● Analista de dados
● Analista de Business Intelligence
Possuem conceitos de modelagem e análise de dados
Conhecimentos de ETL / Coleta e transformação de dados
Conhecimento em banco de dados relationais
Conhecimento de DataWare Housing
● Desenvolvedores
Conhecimento em desenvolvimento de software e linguagens de programação
Conhecimento em banco de dados relacionais / NOSQL
Ambos possuem fortes vantagens e lacunas a serem preenchidas na carreira de DataEng.
Carreiras de origem
12. ● Otimizado para recuperação rápida de colunas de dados, normalmente em aplicativos
analíticos
● O armazenamento orientado a colunas para tabelas do banco de dados é um fator importante
para a performance de consulta analítica
● reduz expressivamente os requisitos gerais de E/S de disco e diminui a quantidade de dados
que você precisa carregar do disco
● criados para aumentar a escala horizontal usando clusters distribuídos de hardware de baixo
custo para aumentar o throughput
● ideais para data warehousing e processamento de big data.
● Exemplo Redshift / BigQuery
NOSQL - Colunar
13. ● Desacoplamento armazenamento e processamento
● Flexibilidade e crescimento conforme demanda
● Não existe tamanho de servidores atrelados ao serviço
● Cobrança realizada por 3 operações : Inserção streaming/ lote , armazenamento de dados,
processamento , extração de dados
NOSQL - BigQuery
18. ● Normalizado
Star Schema
SnowFlake
Usado em DatawareHouses
Forte relacionamento entre as entidades
● Denormalizado
Evita consulta em diversas tabelas para formar os dados em uma tabela fato
Redundância de dados em prol da otimização do processamento e baixo custa de
armazenamento
“O método convencional de desnormalizar dados envolve gravar um fato, com todas as suas dimensões,
em uma estrutura de tabela simples. Por exemplo, para transações de vendas, grave cada fato em um
registro junto com as respectivas dimensões, como informações do pedido e do cliente.”
Normalizado & Desnormalizado
22. ● Os diferentes formatos de dados possuem características que devem ser levadas em
consideração na escolha de um formato dentro de uma ambiente de Big data.
● A maior vantagem dos formatos específicos é a capacidade de paralelismo de processamento
no cluster e menor tempo de I/O devido compactação.
Formato de dados
25. Evolução da integração
de dados - Etapas e
desafios
https://www.infoq.com/articles/future-data-engineering-riccomini/
26. ● Nenhuma integração
● Integração em lotes - Batch
● Em tempo real - Realtime
● Integração
Serviços que realizam a integração de dados, como Kafka. Desta
forma, time de SRE podem gerenciar múltiplas fontes com a
mesma arquitetura
● Automação
Gerenciamento de dados e operações automatizada
● Descentralização
Interfaces que possibilitem diferentes times criar integrações de
dados automatizadas
6 Etapas de maturidade de integração
de dados
31. ● Alta demanda de mercado
● Constante mudança e incorporação de novas competências, como por exemplo
conhecimento de Infra as Code
● Crescimento exponencial de volume de dados criam constantes desafios ao
profissional
Perspectivas de Mercado
32. Data engineering
interviews increased by
40% in 2020 while Data
science interviews
dropped by 15%
https://finance.yahoo.com/news/data-science-job-market-shrinking-122300456.html
33. Today, there are 6,500 people on
LinkedIn who call themselves data
engineers. In San Francisco alone,
there are 6,600 job listings for this
same title
https://www.stitchdata.com/resources/the-state-of-data-engineering/