Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 152 Anuncio

Más Contenido Relacionado

Más reciente (20)

Anuncio

REVISAO-DP-900-V2

  1. 1. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI DP-900 PREPARATÓRIO PARA CERTIFICAÇÃO
  2. 2. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Instrutor https://www.linkedin.com/in/edupopovhtbraz/ https://www.eduardopopovici.com/ https://linktr.ee/edupopov
  3. 3. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Complementar • Curso Especialização em Active Directory: • https://www.udemy.com/course/especializacao-em-active-directory-windows- server-2019/?referralCode=4AA9C8FA8186BA7BD45B • Curso Manual de Sobrevivência do Analista de Suporte: • https://www.udemy.com/course/manual-de-sobrevivencia-do-analista-de- suporte/?referralCode=A39DC5388C7F29F0EC2C • Curso Especialista em Virtualização e servidores de arquivo Microsoft: • https://www.udemy.com/course/especialista-em-virtualizacao-e-servidores-de- arquivos/?referralCode=717695CBF779FD8936B0
  4. 4. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI CERTIFICAÇÃO Caminhando para a prova
  5. 5. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Agendamento de prova https://docs.microsoft.com/pt- br/learn/certifications/exams/dp-900
  6. 6. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Agende sua prova • Criar cadastro no https://mcp.microsoft.com/ • Você pode utilizar o seguinte caminho para validar os dados da prova https://docs.microsoft.com/pt-br/learn/paths/azure-data- fundamentals-explore-core-data-concepts/ EDUARDO POPOVICI
  7. 7. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Road Map
  8. 8. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI MÓDULOS DE ESTUDO Validação de conteúdo
  9. 9. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Registre o material Microsoft DOCs • https://docs.microsoft.com/pt- br/learn/modules/explore-core-data- concepts/1-introduction Skillpipe • https://www.skillpipe.com/#/bookshelf/ books Microsoft Docs • https://docs.microsoft.com/pt- br/azure/architecture/guide/technology -choices/data-store-overview
  10. 10. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Módulos • Módulo 1: Explore core data concepts • Módulo 2: Explore relational data in Azure • Módulo 3: Explore non-relational data offerings on Azure • Módulo 4: Explore modern data warehouse analytics
  11. 11. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI AULÃO Prepare-se para a prova DP-900
  12. 12. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Serviços de dados no Azure https://docs.microsoft.com/pt-br/learn/modules/explore-relational-data-offerings/2-azure-data-services
  13. 13. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI
  14. 14. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Serviços de dados no Azure https://docs.microsoft.com/pt-br/learn/modules/explore-relational-data-offerings/2-azure-data-services
  15. 15. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI SQL Server em VMs no Azure [IaaS] https://docs.microsoft.com/pt-br/learn/modules/explore-relational-data-offerings/2-azure-data-services
  16. 16. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI SQL Server em VMs no Azure [IaaS] https://docs.microsoft.com/pt-br/learn/modules/explore-relational-data-offerings/2-azure-data-services
  17. 17. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Reforço de estudos • Introdução ao Banco de Dados SQL do Azure • Introdução ao Armazenamento de Blobs do Azure • Introdução ao Azure Cosmos DB • Descrição dos conceitos básicos de normalização de banco de dados
  18. 18. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Foco • Identificar como os dados são definidos e armazenados • Identificar características de dados relacionais e não relacionais • Descrever e diferenciar cargas de trabalho de dados • Descrever e diferenciar dados de lote e de streaming
  19. 19. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI O que são dados • Coleção de fatos, como números, descrições e observações usadas na tomada de decisão. • Podem ser classificados como estruturados, semiestruturados ou não estruturados.
  20. 20. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados estruturados • São dados armazenados em tabela, representados por linhas e colunas em um banco de dados. • Os bancos de dados que armazenam tabelas desta forma são chamados de bancos de dados relacionais. • O termo matemático relação refere-se a um conjunto organizado de dados mantidos em formato de tabela. • Cada linha de uma tabela tem o mesmo conjunto de colunas.
  21. 21. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados estruturados
  22. 22. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados semiestruturados • São informações que não residem em um banco de dados relacional, mas ainda se baseiam em alguma estrutura (scripts, por exemplo – JSON, JavaScript, etc).
  23. 23. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados semiestruturados • Também há outros tipos de dados semiestruturados. • Os exemplos incluem repositório de chave-valor e bancos de dados de grafo. • Um banco de dados de valor-chave armazena matrizes associativas. • Nessas matrizes, uma chave serve como um identificador exclusivo para recuperar um valor específico. • Esses valores podem ser qualquer coisa, desde um número ou cadeia de caracteres até um objeto complexo, como um arquivo JSON.
  24. 24. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados semiestruturados • Um banco de dados de chave-valor armazena dados como uma coleção única, sem estrutura ou relação. • Isso o torna diferente de um banco de dados relacional, em que as tabelas são compostas por linhas e colunas com tipos de dados predefinidos. • Se quiser armazenar dados semiestruturados, como documentos, poderá usar um serviço como o Azure Cosmos DB.
  25. 25. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados semiestruturados • Você pode usar um banco de dados de grafo para armazenar e consultar informações sobre relações complexas. • Um grafo contém nós (informações sobre objetos) e bordas (informações sobre as relações entre os objetos).
  26. 26. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados não estruturados • Nem todos os dados são estruturados ou até mesmo semiestruturados. • Por exemplo, arquivos de áudio e vídeo e arquivos de dados binários podem não ter uma estrutura específica. • Se você quiser armazenar dados não estruturados, como arquivos de vídeo ou áudio, poderá usar o Armazenamento de Blobs do Azure (Blob é o acrônimo em inglês de objeto binário grande). • Dependendo do tipo – estruturado, semiestruturado ou não estruturado – os dados serão armazenados de maneira diferente.
  27. 27. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Detalhamento • Dados estruturados são armazenados em um banco de dados relacional, como o SQL Server ou o Banco de Dados SQL do Azure. • O serviço é gerenciado e executado pelo Azure, basta especificar que você deseja que um servidor de banco de dados seja criado. • O ato de configurar o servidor de banco de dados é chamado de provisionamento.
  28. 28. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Tipos de acesso Depois que o serviço é provisionado, é preciso configurá-lo para que os usuários possam receber acesso aos dados. Normalmente, você pode definir vários níveis de acesso. • O acesso somente leitura significa que os usuários podem ler, mas não podem modificar os dados existentes e nem criar dados. • O acesso de leitura/gravação fornece aos usuários a capacidade de ver e modificar os dados existentes. • O privilégio de proprietário fornece acesso completo aos dados, incluindo o gerenciamento da segurança, como adicionar novos usuários e remover o acesso de usuários existentes.
  29. 29. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Soluções de processamento Soluções de processamento de dados se enquadram em uma das duas categorias: • Sistema transacional • Sistema analítico
  30. 30. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Sistema transacional Um sistema transacional registra transações. Uma transação pode ser financeira, como a movimentação de dinheiro entre contas em um sistema bancário, ou pode fazer parte de um sistema de varejo, como acompanhar pagamentos de bens e serviços efetuados pelos clientes. Pense na transação como uma unidade de trabalho pequena e discreta. Os sistemas transacionais são de alto volume, às vezes manipulando muitos milhões de transações em um dia. Os dados que estão sendo processados têm que estar acessíveis com rapidez.
  31. 31. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Sistema analítico Os sistemas analíticos se preocupam com a captura de dados brutos e o seu uso para gerar insights. Uma organização pode usar esses insights para tomar decisões empresariais. Por exemplo, os insights detalhados de uma empresa de manufatura podem indicar tendências, permitindo que elas determinem em quais linhas de produto se concentrar para aumentar a rentabilidade.
  32. 32. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Sistema analítico A maioria dos sistemas de processamento de dados analíticos precisa executar tarefas semelhantes: ingestão de dados, transformação de dados, consulta de dados e visualização de dados.
  33. 33. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Sistema analítico • Ingestão de dados • Transformação/Processamento de dados • Realização de consultas de dados • Visualização de dados
  34. 34. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Processo de normalização • O processo de normalização divide seus dados em um grande número de tabelas estreitas e bem definidas (uma tabela estreita é uma tabela com poucas colunas), com referências de uma tabela para outra. • No entanto, a realização de consultas sobre os dados geralmente requer a remontagem de informações de várias tabelas unindo novamente os dados em tempo de execução.
  35. 35. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Processo de normalização
  36. 36. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Cargas de trabalho transacionais • Os bancos de dados relacionais e não relacionais são adequados para diferentes cargas de trabalho. • Uma transação é uma sequência de operações atômicas. • Significa que todas as operações da sequência devem ser concluídas com sucesso ou, se algo der errado, todas as operações executadas até o momento na sequência devem ser desfeitas.
  37. 37. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Cargas de trabalho transacionais • As transferências bancárias são um bom exemplo: você deduz fundos de uma conta e credita o montante em outra conta. • Se o sistema falhar depois da dedução dos fundos, eles deverão ser restabelecidos na conta original (eles não deve ser perdidos). • Em seguida, você pode tentar executar a transferência novamente. Da mesma forma, você não deve ser capaz de creditar os mesmos fundos duas vezes em uma conta.
  38. 38. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Propriedades ACID • atomicidade, • consistência, • isolamento, • durabilidade
  39. 39. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Propriedades ACID A atomicidade • Verifica se cada transação é tratada como uma unidade independente que resulta em sucesso completo ou falha completa. • Se qualquer uma das instruções que constituem uma transação não for concluída, a transação inteira falhará e o banco de dados permanecerá inalterado. • Um sistema atômico deve garantir atomicidade em toda e qualquer situação, inclusive quedas de energia, erros gerais e falhas de qualquer natureza.
  40. 40. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Propriedades ACID A consistência • Verifica se uma transação conduz os dados do banco de dados de um estado válido para outro estado válido. Um banco de dados consistente jamais deve perder ou criar dados de maneira que não possa ser contabilizada. • No exemplo da transferência bancária descrito anteriormente, se você adicionar fundos a uma conta, deverá haver uma dedução correspondente de fundos em algum lugar ou um registro que descreva a origem dos fundos se eles tiverem sido recebidos externamente. • Não é possível, de repente, criar ou perder dinheiro.
  41. 41. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Propriedades ACID O isolamento • Verifica se a execução simultânea de transações deixa o banco de dados no mesmo estado em que ele ficaria se as transações fossem executadas de maneira sequencial. • Um processo simultâneo não pode ver os dados em um estado inconsistente (por exemplo, os fundos foram deduzidos de uma conta, mas ainda não foram creditados em outra).
  42. 42. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Propriedades ACID A durabilidade • Verifica se, após ter sido confirmada, uma transação permanece confirmada mesmo que haja falha no sistema (como uma queda de energia ou falha).
  43. 43. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Cargas de trabalho analíticas • As cargas de trabalho analíticas normalmente são sistemas somente leitura que armazenam grandes volumes de dados históricos ou métricas empresariais, como o desempenho de vendas e os níveis de estoque. • As cargas de trabalho analíticas são usadas para análise de dados e tomada de decisões. • As análises são geradas tomando os fatos apresentados pelos dados brutos e agregando em resumos, tendências e outros tipos de "informações de negócios".
  44. 44. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Cargas de trabalho analíticas • Um exemplo de informações analíticas é um relatório das vendas mensais. • Como chefe do departamento de vendas, talvez você não precisasse ver todas as transações diárias que ocorreram (informações transacionais), mas certamente seria importante poder contar com um relatório das vendas mensais para identificar tendências e tomar decisões (informações analíticas).
  45. 45. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Dados de lote e dados de streaming • O processamento de dados é simplesmente a conversão de dados brutos em informações relevantes por meio de um processo. • Dependendo de como os dados são ingeridos no seu sistema, você pode processar cada item de dados conforme ele chega ou armazenar os dados brutos em buffer e processá-los em grupos. • O processamento de dados conforme eles chegam (em tempo real) é chamado de streaming. • O armazenamento dos dados em buffer e processamento em grupos é chamado de processamento em lotes.
  46. 46. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Processamento em lotes • No processamento em lotes, os elementos de dados recém-chegados são reunidos em um grupo. • Então, o grupo inteiro é processado em um momento futuro como um lote. Há várias maneiras de determinar o momento exato em que cada grupo é processado. • Por exemplo, você pode processar dados com base em um intervalo de tempo agendado (por exemplo, a cada hora), ou o processamento pode ser disparado quando determinada quantidade de dados tiver chegado ou ainda como resultado de algum outro evento. • Um exemplo de processamento em lotes é a maneira como os votos normalmente são contados nas eleições. Os votos não são inseridos quando são depositados, mas todos são inseridos juntos simultaneamente em um lote.
  47. 47. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Streaming e dados em tempo real • No processamento de streaming, cada parte dos dados é processada ao chegar. Por exemplo, a ingestão de dados é inerentemente a um processo de streaming. • O streaming lida com os dados em tempo real. Ao contrário do processamento em lotes, não há espera até o próximo intervalo de processamento de lotes e os dados são processados como partes individuais, em vez de serem processados um lote por vez. • O processamento de dados de streaming é benéfico na maioria dos cenários em que dados dinâmicos são gerados de maneira contínua.
  48. 48. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Entender as diferenças entre dados de lote e dados de streaming • Escopo de dados • Tamanho dos dados • Desempenho • Análise
  49. 49. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Entender as diferenças entre dados de lote e dados de streaming Escopo de dados: • O processamento em lotes pode executar todos os dados de um conjunto. • O processamento de streaming normalmente só tem acesso aos dados mais recentes recebidos ou aos dados que estão dentro de uma janela de tempo contínua (os últimos 30 segundos, por exemplo).
  50. 50. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Entender as diferenças entre dados de lote e dados de streaming Tamanho dos dados: • O processamento em lotes é adequado para lidar de maneira eficiente com grandes conjunto de dados. • O processamento de streaming destina-se a registros individuais ou micro lotes, formados por poucos registros.
  51. 51. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Entender as diferenças entre dados de lote e dados de streaming Desempenho: • A latência do processamento em lotes normalmente é de algumas horas. • O processamento de streaming normalmente ocorre imediatamente, com latência na ordem de segundos ou milissegundos. • Latência é o tempo necessário para que os dados sejam recebidos e processados.
  52. 52. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Entender as diferenças entre dados de lote e dados de streaming Análise: • Normalmente, você usa o processamento em lotes para executar análises complexas. • O processamento de streaming é usado para funções de resposta simples, agregações ou cálculos como médias móveis.
  53. 53. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Lotes
  54. 54. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Streaming
  55. 55. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Validação de conhecimento
  56. 56. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Validação de conhecimento
  57. 57. Corporativo | Interno EDUARDO POPOVICI Importante Aqui você encontra resenhas rápidas para fixar o conhecimento adquirido e revisitar pontos importantes.
  58. 58. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Data Warehouse Data Warehouse – Coleta dados de muitas fontes diferentes dentro de uma organização. Estes dados são usados como fonte para análise , emissão de relatórios e processamento analítico on-line (OLAP). Um Data Warehouse também armazena grandes quantidades de dados, mas os dados em um armazém foram processados para converte-los em um formato para análise eficiente. Um Data Lake contém dados brutos enquanto o Data Warehouse contêm informações estruturadas.
  59. 59. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure Data Lake Storage Azure Data Lake Storage – É um repositório para grandes quantidades de dados brutos. Como os dados são cruz e não processados, é muito rápido carregar e atualizar. Porém os dados não foram colocados em uma estrutura adequada para análise eficiente.
  60. 60. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure Data Factory Azure Data Factory – Serviço de integração de dados - Seu objetivo é recuperar dados de uma ou mais fontes de dados e converte-los em um formato que você processa.
  61. 61. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure Analysis Service Azure Analysis Service – Permite que você construa modelos tabulares para suportar consultas de processamento analítico on-line (OLAP). Você pode combinar dados de várias fontes, incluindo bancos de dados Azure SQL, Azure Synapse Analytics, Azure Data Lake, Azure Cosmos DB, etc.
  62. 62. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure Synapse Analytics Azure Synapse Analytics – É um mecanismo de análise que foi projetado para processar grandes quantidades de dados rapidamente. Você pode ingerir dados de fontes externas, como arquivos planos, Azure Data Lake ou outros sistemas de gerenciamento de banco de dados . O Azure Synapse Analytics suporta dois modelos computacionais: Pools SQL e Pools Spark.
  63. 63. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure Databricks Azure Databricks – É um ambiente Apache Spark utilizado para fornecer processamento de big data, streaming e aprendizado de máquina. É um mecanismo de processamento de dados altamente eficiente que pode consumir e processar grandes quantidades de dados muito rapidamente.
  64. 64. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Azure HDInsight Azure HDInsight – É um serviço de processamento de big data , que fornece a plataforma pra tecnologias como o Spark em um ambiente Azure. Implementa um modelo em cluster que distribui processamento em conjunto de computadores.
  65. 65. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Hadoop O Hadoop é uma estrutura de cód aberto que quebra grandes problemas de processamento de dados em pedaços menores e distribui em um cluster de servidores, semelhante à maneira como o Syapse Analytics opera.
  66. 66. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI PolyBase PolyBase – Permite que sua instância SQL Server consulte dados com T-SQL diretamente do SQL Server, Oracle, Teradata, Mongo DB, Cluster Hadoop, Cosmos DB, etc, sem instalar separadamente softwares de conexão cliente.
  67. 67. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • ELT e ETL - O mecanismo de processamento de dados pode ter duas abordagens para recuperar os dados ingeridos, processar esses dados para transformá-los e gerar modelos e salvar os dados e modelos transformados. Essas abordagens são conhecidas como ETL e ELT.
  68. 68. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • O tratamento é o processo pelo qual você transforma e mapeia dados brutos, colocando-os em um formato mais útil para a análise. • Ele pode envolver a escrita de código para capturar, filtrar, limpar, combinar e agregar dados de várias fontes.
  69. 69. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • ETL significa extração, transformação e carregamento. Os dados brutos são recuperados e transformados antes de serem salvos. As etapas de extração, transformação e carregamento podem ser executadas como um pipeline contínuo de operações. • Essa abordagem é adequada para sistemas que exigem apenas modelos simples, com pouca dependência entre os itens. • Por exemplo, esse tipo de processo é geralmente usado para tarefas básicas de limpeza de dados, eliminação de duplicação de dados e reformatação do conteúdo de campos individuais.
  70. 70. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI ETL
  71. 71. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • ELT é uma abreviação de extrair, carregar e transformar. O processo difere do ETL, pois os dados são armazenados antes de serem transformados. • O mecanismo de processamento de dados pode usar uma abordagem iterativa, recuperar e processar os dados do armazenamento, antes de gravar os dados e os modelos transformados de volta no armazenamento. • O ELT é mais adequado para construir modelos complexos que dependem de vários itens do banco de dados, geralmente usando processamento em lotes periódicos.
  72. 72. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI ELT
  73. 73. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • A análise de dados se preocupa com a análise, a transformação e a organização de dados para que você possa estudar e extrair informações úteis. • A análise de dados é uma disciplina que cobre todo o intervalo de tarefas de gerenciamento de dados. Essas tarefas não apenas incluem análise, mas também coleta de dados, organização, armazenamento e todas as ferramentas e técnicas usadas. • O termo análise de dados é genérico e abrange uma variedade de atividades, cada uma com o próprio foco e as próprias metas. Você pode categorizar essas atividades como análise descritiva, diagnóstica, preditiva, prescritiva e cognitiva.
  74. 74. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Análise descritiva • A análise descritiva ajuda a responder perguntas sobre o que aconteceu, com base em dados históricos. As técnicas de análise descritivas resumem grandes conjuntos de dados para descrever os resultados para os stakeholders. • Ao desenvolver KPIs (indicadores chave de desempenho), essas estratégias podem ajudar a acompanhar o sucesso ou a falha dos objetivos principais. Métricas como ROI (retorno sobre o investimento) são usadas em muitos setores. Métricas especializadas são desenvolvidas para acompanhar o desempenho em setores específicos. • Exemplos de análise descritiva incluem a geração de relatórios para fornecer uma exibição dos dados financeiros e de vendas de uma organização.
  75. 75. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Análise de diagnóstico • A análise de diagnóstico ajuda a responder perguntas sobre por que as coisas aconteceram. As técnicas de análise de diagnóstico complementam a análise descritiva mais básica. Elas consideram as conclusões da análises descritiva e se aprofundam para encontrar a causa. Os indicadores de desempenho são investigados mais detalhadamente para descobrir por que eles ficaram melhores ou piores. Isso geralmente ocorre em três etapas: • Identificar anomalias nos dados. Elas podem ser alterações inesperadas em uma métrica ou em um mercado específico. • Coletar dados relacionados a essas anomalias. • Usar técnicas estatísticas para descobrir relações e tendências que explicam essas anomalias.
  76. 76. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Análise preditiva • A análise preditiva ajuda a responder perguntas sobre o que acontecerá no futuro. As técnicas de análise preditiva usam dados históricos para identificar tendências e determinar se é provável que elas se repitam. • As ferramentas analíticas preditivas fornecem insights valiosos sobre o que pode acontecer no futuro. As técnicas incluem uma variedade de técnicas de machine learning e estatísticas, como redes neurais, árvores de decisão e regressão.
  77. 77. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Análise prescritiva • A análise prescritiva ajuda a responder perguntas sobre quais ações devem ser tomadas para atingir uma meta ou um objetivo. Ao usar insights da análise preditiva, é possível tomar decisões orientadas por dados. Essa técnica permite que as empresas tomem decisões informadas em meio às incertezas. • As técnicas de análise prescritiva contam com as estratégias de machine learning para encontrar padrões em grandes conjuntos de dados. Analisando as decisões e os eventos anteriores, a probabilidade de desfechos diferentes pode ser estimada.
  78. 78. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Análise cognitiva • A análise cognitiva tenta extrair inferências de padrões e dados existentes, derivar conclusões de bases de conhecimento existentes e adicionar essas descobertas de volta à base de conhecimento para futuras inferências – um loop de comentários de autoaprendizado. A análise cognitiva ajuda a aprender o que poderá acontecer se as circunstâncias forem alteradas e como você poderá lidar com essas situações. • As inferências não são consultas estruturadas com base em um banco de dados de regras. Em vez disso, elas são hipóteses não estruturadas obtidas de diversas fontes e expressas com diferentes graus de confiança. A análise cognitiva eficaz depende de algoritmos de machine learning. Ele usa vários conceitos de NLP (processamento de linguagem natural) para compreender fontes de dados não utilizadas anteriormente, como logs de conversa de call center e análises de produtos. • Teoricamente, ao explorar os benefícios da computação paralela/distribuída massiva e dos custos de armazenamento de dados e de computação, não há limite para o desenvolvimento cognitivo que esses sistemas podem alcançar.
  79. 79. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Análises
  80. 80. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Criptografia transparente de dados – Usada para criptografar dados em repouso, incluindo banco de dados, logs e backups, sem exigir alterações no aplicativo. • Sempre criptografado – Usado para proteger dados confidenciais, limitando o acesso aos dados em repouso, em movimento e em uso para aplicativos clientes que tenham acesso apropriado às chaves.
  81. 81. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Segurança da camada de transporte [TLS] – Usada para criptografia de dados em movimento entre o servidor de banco de dados e clientes usando criptografia baseada em certificado. • Mascaramento dinâmico de dados – Usada para limitar o expositor de dados confidenciais para usuários não privilegiados, designando quanto dos dados confidenciais podem ser revelados.
  82. 82. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • O Transparent Data Encryption (TDE) criptografa arquivos de dados do SQL Server, do Banco de Dados SQL do Azure e do Azure Synapse Analytics. Essa criptografia é conhecida como criptografar dados em repouso. • A TDE também faz criptografia de E/S em tempo real e descriptografia de dados e arquivos de log. Ele permite que você siga muitas leis, regulamentos e diretrizes estabelecidas em vários setores.
  83. 83. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • O sempre criptografado trabalha com dados em repouso e inclui informações que residem em armazenamento persistente em mídia física, em qualquer formato digital. A mídia pode incluir arquivos em mídia magnética ou ótica, dados arquivados e backups de dados. • O Azure oferece suporte a vários modelos de criptografia, incluindo criptografia do lado do servidor que usa chaves gerenciadas por serviço, chaves gerenciadas pelo cliente no Key Vault ou chaves gerenciadas pelo cliente em hardware controlado pelo cliente.
  84. 84. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • A segurança da camada de transporte (TLS) é um protocolo de criptografia que mantém os dados seguros quando são transferidos por uma rede. • TLS é um protocolo padrão da indústria que garante conexões de rede criptografadas entre o servidor de banco de dados e os aplicativos cliente, permitindo que você cumpra os requisitos de conformidade.
  85. 85. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • O mascaramento de dados dinâmico limita a exposição de dados confidenciais, mascarando-os para usuários sem privilégios. • Ele ajuda a evitar o acesso não autorizado a dados confidenciais, permitindo que os clientes designem a quantidade de dados confidenciais a serem revelados com impacto mínimo na camada do aplicativo. • É um recurso de segurança baseado em política que oculta os dados confidenciais no conjunto de resultados de uma consulta sobre campos de banco de dados designados, enquanto os dados no banco de dados não são alterados.
  86. 86. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Quando os dados estão "em repouso" , são considerados dados em lote. Isso inclui dados em um arquivo ou banco de dados. Os contêineres de armazenamento de blob seriam dados em lote. No processamento em lote, os elementos de dados recém-chegados são coletados em um grupo. Todo o grupo é então processado em um momento futuro como um lote. • No processamento de stream , cada nova parte dos dados é processada quando chega. Por exemplo, a ingestão de dados é inerentemente a um processo de streaming. Neste caso, os dados já foram coletados e salvos na conta de armazenamento, portanto, não são dados em tempo real.
  87. 87. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Os Arquivos do Azure permitem que você configure compartilhamentos de arquivos de rede altamente disponíveis que podem ser acessados usando o protocolo SMB (Server Message Block) padrão. Isso significa que várias VMs podem compartilhar os mesmos arquivos com acesso de leitura e gravação. • Use esta opção se você precisar mover pastas e arquivos para armazenamento do Azure sem perder as características SMB já configuradas. • Referência: https://azure.microsoft.com/en-in/services/storage/files/
  88. 88. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • O banco de dados SQL cria um firewall no nível do servidor para bancos de dados únicos e em pool. • Este firewall impede que aplicativos cliente se conectem ao servidor ou a qualquer um de seus bancos de dados, a menos que você crie uma regra de firewall de IP para abrir o firewall.
  89. 89. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • A normalização de um banco de dados reduz a redundância de dados. • A normalização é o processo de reorganizar os dados em um banco de dados para que atendam a dois requisitos básicos: • Não há redundância de dados, todos os dados são armazenados em um único lugar. • As dependências de dados são lógicas, todos os itens de dados relacionados são armazenados juntos.
  90. 90. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • A normalização melhora a integridade dos dados. • A normalização é o processo de organizar um banco de dados para reduzir a redundância e melhorar a integridade dos dados. O termo integridade de dados refere-se à precisão e consistência dos dados. • A normalização garante que os dados permaneçam iguais nos registros. Por exemplo, você salva o país em uma tabela, mas os usuários entram no país de maneiras diferentes, por exemplo. Austrália, Au, Aus, etc. • Para melhorar a integridade dos dados entre os registros, você pode ter uma tabela separada para País e vinculá-la à sua tabela principal, obrigando-o a selecionar um nome de país correto.
  91. 91. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Banco de Dados SQL no Azure Se sua empresa precisar implementar um banco de dados relacional no Azure minimizando a manutenção contínua, utilize o modelo PaaS com o Banco de Dados SQL no Azure. O Banco de Dados SQL do Azure é uma oferta de PaaS da Microsoft, com os seguintes recursos: • O Banco de Dados SQL do Azure atualiza e corrige automaticamente o software SQL Server para garantir que você esteja sempre executando a versão mais recente e segura do serviço. • Os recursos de escalabilidade do Banco de Dados SQL do Azure garantem que você possa aumentar os recursos disponíveis para armazenar e processar dados sem ter que realizar uma atualização manual cara. • O serviço oferece garantias de alta disponibilidade, para assegurar que seus bancos de dados estejam disponíveis pelo menos 99,99% do tempo. • O Banco de Dados SQL do Azure oferece suporte à restauração pontual, permitindo que você recupere um banco de dados para o estado em que estava em qualquer ponto no passado.
  92. 92. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Banco de Dados SQL no Azure • Os bancos de dados podem ser replicados para diferentes regiões para fornecer garantia adicional e recuperação de desastres • A proteção avançada contra ameaças oferece recursos avançados de segurança, como avaliações de vulnerabilidade, para ajudar a detectar e corrigir problemas de segurança em potencial com seus bancos de dados. • Ele monitora continuamente seu banco de dados em busca de atividades suspeitas e fornece alertas de segurança imediatos sobre vulnerabilidades em potencial, ataques de injeção de SQL e padrões anômalos de acesso ao banco de dados. • Banco de dados SQL ajuda a proteger seus dados fornecendo criptografia. Para dados em movimento, ele usa a segurança da camada de transporte. Para dados em repouso, ele usa criptografia de dados transparente.
  93. 93. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • OLTP é o processamento de transações online, que consiste nas leituras e gravações normais de seu aplicativo de negócios. • A criptografia transparente de dados (TDE) ajuda a proteger o Banco de Dados SQL do Azure, a Instância Gerenciada do Azure SQL e o Azure Synapse Analytics contra a ameaça de atividade offline mal-intencionada criptografando os dados em repouso.
  94. 94. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Provisionar é o ato de executar uma série de tarefas que um provedor de serviços executa para criar e configurar um serviço. • Processamento de Batch pode gerar latência. O processamento em lote pode operar em conjuntos de dados muito grandes, onde o cálculo leva um tempo significativo, o que adicionará latência no processamento de resultados.
  95. 95. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante • Uma instância gerenciada vem com o benefício de backups automáticos e a capacidade de restaurar em um determinado momento. No Banco de Dados SQL do Azure, a Microsoft gerencia o banco de dados em seu nome e cuida dos backups. P: Qual é a característica fundamental de um data warehouse? R: Trata-se de um banco de dados otimizado para a leitura por ser desnormalizado, além de suportar grande quantidade de dados.
  96. 96. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante
  97. 97. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O PolyBase permite que você recupere dados de fontes relacionais e não relacionais, como arquivos de texto delimitados, Azure Blob Storage e Azure Data Lake Storage. Você pode salvar os dados lidos como tabelas SQL no serviço Synapse Analytics. Ou seja, o PolyBase é utilizado para consultar fontes de dados externas ao Azure Synapse Analytics.
  98. 98. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O namespace hierárquico permite que a coleção de objetos/arquivos dentro de uma conta seja organizada em uma hierarquia de diretórios e subdiretórios aninhados da mesma maneira que o sistema de arquivos em seu computador é organizado. Com um namespace hierárquico habilitado, uma conta de armazenamento torna-se capaz de fornecer a escalabilidade e o custo benefício do armazenamento de objetos, com semântica do sistema de arquivos familiar aos mecanismos analíticos e estruturas. Para configurar uma conta de armazenamento do Azure para oferecer suporte à segurança do nível da pasta e à manipulação de diretório atômico você precisa habilitar o namespace hierárquico. Referência: https://docs.microsoft.com/en-us/azure/storage/blobs/data-lakestorage- namespace
  99. 99. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Com o suporte para replicação de várias regiões no Azure Cosmos DB, você pode desenvolver aplicativos que exigem acesso global aos dados e pode configurar o failover perfeito para regiões no caso de falhas reais ou simuladas, o que aumenta a disponibilidade do sistema. Ou seja, utilizar a replicação multirregional com o Cosmos DB aumenta a disponibilidade. Referência: https://azure.microsoft.com/en-us/updates/scale-data- across-theglobe-with-azure-documentdb-multi-region-replication/
  100. 100. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Índice de cluster é um tipo de índice que classifica as linhas de dados na tabela de acordo com seus valores-chave. No Banco de Dados, há apenas um índice clusterizado por tabela. Chaves estrangeiras são uma referência ou um link para a chave primária de outra tabela e são usadas para manter os relacionamentos entre as tabelas. Uma chave estrangeira também ajuda a identificar e prevenir anomalias, como pedidos de clientes que não existem na tabela Clientes.
  101. 101. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Imagine que solicitamos a alteração do campo data de um pedido de “31 de Dezembro de 2022” para “31/12/2022”. No processo ETL, os dados são modificados durante a etapa de transformação. A transformação de dados que ocorre geralmente envolve várias operações, como filtragem, classificação, agregação, junção de dados, limpeza de dados, desduplicação e validação de dados.
  102. 102. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O esquema Star é uma abordagem de modelagem madura amplamente adotada por data warehouses relacionais. Exige que os modeladores classifiquem suas tabelas de modelo como dimensão ou fato . As tabelas de dimensão descrevem entidades de negócios - as coisas que você modela. As entidades podem incluir produtos, pessoas, lugares e conceitos, incluindo o próprio tempo. As tabelas de fatos armazenam observações ou eventos e podem ser pedidos de vendas, saldos de estoque, taxas de câmbio, temperaturas, etc. Uma tabela de fatos contém colunas-chave de dimensão que se relacionam a tabelas de dimensão e colunas de medidas numéricas.
  103. 103. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Esquema STAR
  104. 104. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante A API Gremlin implementa uma interface de banco de dados gráfico para Cosmos DB. Um gráfico é uma coleção de objetos de dados e relacionamentos direcionados. Os dados ainda são mantidos como um conjunto de documentos no Cosmos DB, mas a API do Gremlin permite que você execute consultas de gráfico sobre os dados. Usando a API do Gremlin, você pode percorrer os objetos e relacionamentos no gráfico para descobrir todos os tipos de relacionamentos complexos. Referência: https://docs.microsoft.com/en-us/azure/cosmos-db/graphintroduction
  105. 105. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Azure Analysis Services é uma plataforma totalmente gerenciada como serviço (PaaS) que fornece modelos de dados de nível empresarial na nuvem. Não é uma boa opção para cargas de trabalho transacionais, em vez disso, RDBMS como o Azure SQL DB deve ser usado para cargas de trabalho transacionais. Azure Databricks fornece uma plataforma de análise baseada em Apache Spark rápida, fácil e colaborativa para acelerar e simplificar o processo de construção de soluções de Big Data e AI. Azure Data Factory é muito útil na Plataforma Azure se você estiver planejando ingerir seus dados.
  106. 106. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Os Arquivos do Azure permitem que você configure compartilhamentos de arquivos de rede altamente disponíveis que podem ser acessados usando o protocolo SMB (Server Message Block) padrão. Isso significa que várias VMs podem compartilhar os mesmos arquivos com acesso de leitura e gravação. Você também pode ler os arquivos usando a interface REST ou as bibliotecas de cliente de armazenamento.
  107. 107. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Você pode definir a taxa de transferência para uma conta do Azure Cosmos DB em “Base de Dados” e “Recipiente”. É importante lembrar que com o Azure Cosmos DB, você pode provisionar a taxa de transferência em duas granularidades. O banco de dados SQL no Azure sem servidor oferece suporte ao dimensionamento automático do banco de dados e à pausa automática durante períodos inativos.
  108. 108. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O banco de dados SQL sem servidor é uma nova camada de computação que otimiza o desempenho de preço e simplifica o gerenciamento de desempenho para bancos de dados com uso intermitente e imprevisível. A camada de computação sem servidor desfruta de todos os benefícios de inteligência integrados e totalmente gerenciados do banco de dados SQL e ajuda a acelerar o desenvolvimento de aplicativos, minimizar a complexidade operacional e reduzir os custos totais.
  109. 109. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O SQL Server Data Tools (SSDT) é uma ferramenta de desenvolvimento moderna para construir bancos de dados relacionais do SQL Server, bancos de dados no Azure SQL, modelos de dados do Analysis Services (AS), pacotes do Integration Services (IS) e relatórios do Reporting Services (RS). Usando SSDT, você pode criar um projeto de banco de dados offline e implementar mudanças de esquema adicionando, modificando ou excluindo as definições de objetos (representados por scripts) no projeto, sem uma conexão com uma instância do servidor.
  110. 110. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Um banco de dados de família de colunas organiza os dados em linhas e colunas. Em sua forma mais simples, um banco de dados de família de colunas pode parecer muito semelhante a um banco de dados relacional, pelo menos conceitualmente. O verdadeiro poder de um banco de dados de família de colunas está em sua abordagem desnormalizada para estruturar dados esparsos. ID do cliente Informações de Contato 01 Nome: Eduardo Popovici E-mail: edupopov@xpto.algo Celular: (11) 9-9999-9999 02 Nome: Francisco Estado: SP 03 Nome: Eliandro Estado: SP Bairro: Mooca 04 Nome: Pafuncio 05 Nome: Joanésio Idade: 44
  111. 111. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante A chave de partição identifica a partição na qual uma linha está localizada e as linhas em cada partição são armazenadas na ordem da chave de linha. Se você for cobrado em uma questão de prova sobre quais são os elementos de uma chave de armazenamento Azure Table, responda: • Chave de linha • Chave de partição
  112. 112. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O Armazenamento do Azure Data Lake implementa um modelo de controle de acesso que dá suporte ao controle de acesso baseado em função do Azure (RBAC do Azure) e listas de controle de acesso do tipo POSIX (ACLs). Em um cenário de prova você pode ser questionado sobre qual produto suporta controle de acesso baseado em função (RBAC) no nível de arquivo e pasta. Nesse caso é o Azure Data Lake.
  113. 113. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Os dados de série temporal são um conjunto de valores organizados por tempo. Os bancos de dados de séries temporais geralmente coletam grandes quantidades de dados em tempo real de um grande número de fontes. As atualizações são raras e as exclusões geralmente são feitas como operações em massa. Embora os registros gravados em um banco de dados de série temporal sejam geralmente pequenos, há um grande número de registros e o tamanho total dos dados pode crescer rapidamente. Um bom exemplo de uso de série temporal seria o armazenamento de dados de sensores de temperatura conectados à internet. Imagine neste cenário que os dados seriam utilizados para analisar tendências de temperatura.
  114. 114. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Quando você precisa criar uma zona de armazenamento do Azure com replicação automática entre zonas, utilize as seguintes opções: • Armazenamento com redundância geográfica (GRS) • Armazenamento com redundância geográfica com acesso a leitura (RA-GRS)
  115. 115. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante O Armazenamento do Azure oferece duas opções para copiar seus dados para uma região secundária: O armazenamento com redundância geográfica (GRS) copia seus dados de forma síncrona três vezes em um único local físico na região primária usando o LRS. Em seguida, ele copia seus dados de forma assíncrona para um único local físico na região secundária. Na região secundária, seus dados são copiados de forma síncrona três vezes usando o LRS. O armazenamento com redundância de zona geográfica (GZRS) copia seus dados de forma síncrona em três zonas de disponibilidade do Azure na região primária usando ZRS. Em seguida, copia seus dados de forma assíncrona para um único local físico na região secundária. Na região secundária, seus dados são copiados de forma síncrona três vezes usando o LRS.
  116. 116. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Com GRS ou GZRS, os dados na região secundária não estão disponíveis para acesso de leitura ou gravação, a menos que haja um failover para a região secundária. Para acesso de leitura à região secundária, configure sua conta de armazenamento para usar armazenamento com redundância geográfica com acesso de leitura (RA- GRS) ou armazenamento com redundância geográfica com acesso de leitura (RA-GZRS).
  117. 117. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Imagine que você trabalha como arquiteto de soluções Cloud e precisa recomendar um armazenamento de dados não relacional otimizado para armazenar e recuperar arquivos de texto, vídeos, fluxo de áudio e imagens de disco virtual. Neste cenário o armazenamento de dados deve também guardar alguns metadados e um ID exclusivo para cada arquivo. Vamos para este cenário utilizar o armazenamento de objetos. O armazenamento de objetos é otimizado para armazenar e recuperar grandes objetos binários (imagens, arquivos, fluxos de vídeo e áudio, grandes objetos de dados de aplicativos e documentos, imagens de disco de máquina virtual). Arquivos de dados grandes também são usados popularmente neste modelo, por exemplo, arquivo delimitado (CSV), parquet e ORC. Os armazenamentos de objetos podem gerenciar quantidades extremamente grandes de dados não estruturados. https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  118. 118. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Gráfico de mapa de árvore: • Os mapas de árvore são gráficos de retângulos coloridos, com tamanho representando valor. • Eles podem ser hierárquicos, com retângulos aninhados dentro dos retângulos principais. • O espaço dentro de cada retângulo é alocado com base no valor que está sendo medido.
  119. 119. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Gráfico de dispersão : • Um gráfico de dispersão sempre tem dois eixos de valor para mostrar um conjunto de dados numéricos ao longo de um eixo horizontal e outro conjunto de valores numéricos ao longo de um eixo vertical. • O gráfico exibe pontos na interseção de um valor numérico x e y, combinando esses valores em pontos de dados únicos.
  120. 120. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante Gráfico de influenciador-chave : • Um gráfico de influenciador-chave exibe os principais contribuintes para um resultado ou valor selecionado. • Por exemplo, o que influencia os clientes a fazer um segundo pedido ou por que as vendas foram tão altas em junho passado.
  121. 121. Corporativo | Interno EDUARDO POPOVICI Mapas mentais Desenhos objetivos para rápido entendimento
  122. 122. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  123. 123. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  124. 124. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  125. 125. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  126. 126. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  127. 127. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  128. 128. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  129. 129. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  130. 130. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  131. 131. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI Importante https://docs.microsoft.com/pt-br/azure/architecture/guide/technology-choices/data-store-overview
  132. 132. Corporativo | Interno EDUARDO POPOVICI Direto ao ponto Aqui você encontra diversas perguntas e respostas objetivas. É demonstrado como você será cobrado no momento da prova.
  133. 133. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 01 P: Quais serviços do Azure podem ser usados para provisionar clusters do Apache Spark? R: Azure HDInsight e Azure Databricks Referência: https://www.sqlshack.com/a-beginners-guide-to-azure- databricks/ P: Qual dos bancos de dados do Azure Seria considerado como infraestrutura como serviço? R: SQL Server em uma VM
  134. 134. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 02 P: Quais sistemas operacionais suportam o Azure Data Studio? R: Windows, MAC OS e Linux [Não é suportado por Android]. Referência: https://docs.microsoft.com/en-us/sql/azure-data-studio/what-is- azuredata-studio P: Qual ferramenta pode ser utilizada no MAC OS para acessar dados armazenados no Banco de Dados SQL do Azure? R: Azure Data Studio Referência: https://docs.microsoft.com/en-us/sql/azure-data-studio/what-is- azuredata-studio
  135. 135. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 03 P: O banco de dados SQL do Azure inclui um serviço de backup totalmente gerenciado? R: SIM. o Banco de Dados SQL do Azure é um serviço de banco de dados totalmente gerenciado, o que significa que a Microsoft opera o SQL Server para você e garante sua disponibilidade e Desempenho. Referência: https://docs.microsoft.com/en-us/sql/relationaldatabases/backup-restore/sql-server- managed-backup-to-microsoft-azure P: O banco de dados SQL do Azure tem alta disponibilidade Embutida? R: SIM. Referência: https://docs.microsoft.com/en-us/azure/azure-sql/database/highavailability-sla
  136. 136. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 04 P: O banco de dados SQL do Azure usa a Proteção Avançada contra Ameaças do Azure? R: SIM. A Proteção Avançada contra Ameaças (ATP) do SQL fornece um único local para descobrir, classificar e proteger dados confidenciais, gerenciar vulnerabilidades de banco de dados e detectar atividades anômalas que podem indicar uma ameaça para o banco de dados. Referência: https://azure.microsoft.com/en-us/blog/announcing-sql-atp-andsql-vulnerability-assessment- general-availability/ P: Em um banco de dados relacional é possível encontrar chaves extrangeiras? R: SIM P: O banco de dados relacional impede nativamente a exclusão de um registro pai se existir um registro filho? R: SIM.
  137. 137. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 05 P: Em um banco de dados relacional os dados são armazenados em um formato de linhas e colunas? R: SIM. Os bancos de dados relacionais têm recursos que normalmente incluem tabelas, visualizações, uma chave primária, chaves estrangeiras, índices, relacionamentos entre as tabelas e integridade imposta pelo banco de dados. Referência: https://docs.microsoft.com/enus/azure/architecture/guide/technology- choices/data-store-overview
  138. 138. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 06 P: Você precisa armazenar dados de uma empresa por cerca de 7 anos em um Blob. Esse formato de armazenamento pertence a uma lista de conformidades da empresa onde o tempo de recuperação dos dados não é importante. A solução deve minimizar os custos de armazenamento. Qual camada de armazenamento você deve utilizar? R: Utilize Arquivo (Archive-Arquivamento). A camada de arquivamento é otimizada para armazenar dados que raramente são acessados e armazenados por pelo menos 180 dias com requisitos de latência flexíveis (na ordem de horas). A camada de acesso ao Archive tem o menor custo de armazenamento. Mas tem custos de recuperação de dados mais altos em comparação com as camadas quente e fria. Como o tempo de recuperação não é importante, a camada Archive é a opção mais barata neste cenário. Referência: https://docs.microsoft.com/en-us/azure/storage/blobs/storageblob-storage- tiers
  139. 139. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 07 Tabela Visualização Índice Normalização um objeto de banco de dados que contém dados um objeto de banco de dados cujo conteúdo é definido por uma consulta um objeto de banco de dados que ajuda a melhorar o tempo de recuperação de dados
  140. 140. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 07 um objeto de banco de dados que contém dados um objeto de banco de dados cujo conteúdo é definido por uma consulta um objeto de banco de dados que ajuda a melhorar o tempo de recuperação de dados Tabela Visualização Índice Normalização
  141. 141. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 08 P: A API de tabela do Azure Cosmo DB oferece suporte a várias réplicas de leitura? R: SIM. P: A API de tabela do Azure Cosmo DB oferece suporte a várias regiões de gravação? R: SIM.
  142. 142. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 09 Cliente é Endereço é Social media é Objeto Raiz Objeto Aninhado Matriz Aninhada
  143. 143. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 09 Cliente é Endereço é Social media é Objeto Raiz Objeto Aninhado Matriz Aninhada
  144. 144. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 10 P: Quais são os serviços do Azure que podem ser usados para ingerir dados? R: Centro de eventos e HUB IoT. Lembre-se que um trabalho do Stream Analytics do Azure consiste em uma entrada, consulta e uma saída. O Stream Analytics ingere dados de Hubs de Eventos do Azure (incluindo Hubs de Eventos do Azure de Apache Kafka), Hub IoT do Azure ou Armazenamento de Blob do Azure. Referência: https://docs.microsoft.com/en-us/azure/stream- analytics/streamanalytics-introduction
  145. 145. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 11 P: Como funciona uma rotina Batch? R: Coleta dados e processa quando uma condição for atendida. Referência: https://docs.microsoft.com/en-us/learn/modules/explore-coredata-concepts/4-describe-difference P: Que tipo de análise responde à pergunta “por que isso aconteceu”, como comparar as vendas de clientes novos com as vendas de clientes antigos? R: Diagnóstico. A análise de diagnóstico ajuda a responder a perguntas sobre por que as coisas aconteceram . Você deve saber que as vendas aumentaram 20% no mês passado, mas POR QUE elas aumentaram 20%? Quando você começa a perguntar quais produtos estão disponíveis, quais locais estão ativos, quais cores são as mais populares, você começa a diagnosticar o problema. Referências: https://docs.microsoft.com/en-us/learn/modules/explore-concepts-of-dataanalytics/4-explore https://azure.microsoft.com/en-us/blog/answering -quais-acontecer-por-queacontecer-e-o-que-acontecer-com-iot- analytics /
  146. 146. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 12 P: Você tem um aplicativo de garantia de qualidade que lê dados de um Data Warehouse. Que tipo de processamento esse aplicativo utiliza? R: Processamento Analitico On-line (OLAP). É uma tecnologia que organiza grandes bancos de dados de negócios e oferece suporte a análises complexas. Pode ser usado para realizar consultas analíticas complexas sem afetar negativamente os sistemas transacionais. Referência: https://docs.microsoft.com/en- us/azure/architecture/dataguide/relational-data/online-analytical-processing
  147. 147. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 14 Storage Account Resource Groups Queue Storage File Storage Table Storage Subscription Pastas e arquivos
  148. 148. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 14 Queue Storage Table Storage Storage Account Resource Groups File Storage Subscription Pastas e arquivos
  149. 149. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 15 P: Os modelos do Azure Resource Manager (ARM) usam formato XML ? R: Não. Utilizam o formato JSON. P: Que tipo de análise pode ser feita para extrair nomes de funcionários de milhares de arquivos PDF? R: Análise cognitiva. A análise cognitiva ajuda a tirar inferências de dados e padrões existentes , derivar conclusões com base em bases de conhecimento existentes e, em seguida, adicionar essas descobertas de volta à base de conhecimento para futuras inferências - um ciclo de feedback de autoaprendizagem. Nesse cenário, você pode usar análises cognitivas para descobrir os nomes dos funcionários em PDFs. Você pode aprender mais sobre o assunto estudando o material da AI-900 (Artificial Inteligence).
  150. 150. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 16 Firewall Encriptação Autenticação certifique-se de que dados confidenciais nunca apareçam como texto sem formatação em um banco de dados SQL do Azure Impedir o acesso a um banco de dados SQL do Azure de outra rede oferece suporte a logins do Azure Active Directory (Azure AD) em um banco de dados SQL do Azure.
  151. 151. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 16 certifique-se de que dados confidenciais nunca apareçam como texto sem formatação em um banco de dados SQL do Azure Impedir o acesso a um banco de dados SQL do Azure de outra rede oferece suporte a logins do Azure Active Directory (Azure AD) em um banco de dados SQL do Azure. Firewall Encriptação Autenticação
  152. 152. Corporativo | Interno EDUARDO POPOVICI EDUARDO POPOVICI 17 P: Em um cenário onde você possui uma conta do Azure Cosmo DB que usa API Core (SQL), informe quais configurações podem ser definidas em nível de contêiner. R: A chave de partição e o rendimento.

×