Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Web aula 46 - Conhecendo o ecossistema BIG DATA

139 visualizaciones

Publicado el

Web aula 46 -Conhecendo o ecossistema BIG DATA
Link para aula: http://bit.ly/wa46-bigdata

Publicado en: Datos y análisis
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Web aula 46 - Conhecendo o ecossistema BIG DATA

  1. 1. Web aula 46: Conhecendo o ecossistema BIG DATA Fábio Jardim https://www.linkedin.com/in/fjardim/ fabiogjardim@hotmail.com http://highct.com.br https://medium.com/@fbiojardim
  2. 2. www.projetoseti.com.br Fábio Jardim Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data Mais de 10 anos em plataforma de dados Vivência em grandes e-commerces, varejo e banco Arquiteto Big Data em projetos para grandes clientes Atualmente em projetos no setor varejista e startups Owner da High Consultoria e Treinamento https://www.linkedin.com/in/fjardim/ fabiogjardim@hotmail.com http://highct.com.br https://medium.com/@fbiojardim
  3. 3. www.projetoseti.com.br A evolução dos dados no nosso ambiente Milhões de transações IOT Bilhões de usuários em rede sociais gerando conteúdo a cada segundo Câmeras/Wifi espalhadas pelas lojas Cada vez mais pessoas usando smartphones/intern et ...
  4. 4. www.projetoseti.com.br Onde armazenar esses dados? Como extrair informações valiosas desses dados? Como realizar cruzamentos desses dados com outras fontes? Os dados que eu uso são os mesmos que você usa? Como processar tantos dados? Consigo prever o futuro?
  5. 5. www.projetoseti.com.br O Big Data Grande conjunto de dados que excedem a capacidade de armazenamento e processamento de dados convencional. Principais características: • Dados Estruturados, semi-estruturados e não estruturados • Volume muito grande de dados • Movem-se muito rápido • Análise complexas de dados
  6. 6. www.projetoseti.com.br Velocidade VariedadeVolume OS Vs
  7. 7. www.projetoseti.com.br Onde armazenar tudo isso? • Nasce o conceito de Data Lake. • Vasto repositório com uma variedade de informações brutas que podem ser adquiridas, processadas, analisadas e entregues. • Derivar insights relevantes para a empresa a partir desta informação usando vários algoritmos de análise e aprendizagem de máquinas.
  8. 8. www.projetoseti.com.br DW x Datalake Data Warehouse x DataLake Estruturado e Processado Dados Estruturado, semi-estruturado e não estruturado Dependente de esquema Processamento Livre de esquema Alto custo para grandes volumes Armazenamento Desenvolvido para baixo custo Configuração fixa, pouca agilidade Agilidade Configuração flexivel, alta agilidade Consolidada Segurança Evoluindo Área de negócios Usuários Data Scientists
  9. 9. www.projetoseti.com.br Big Data e Analytics Analytics Métodos e Algoritmos Big Data Data Mining Machine Learning Big Data Analytics Software
  10. 10. www.projetoseti.com.br O que é Hadoop • Plataforma que fornece infraestrutura resiliente, econômica e escalável • Armazenamento e processamento distribuído para grandes quantidades de dados • Precursor do ecossistema Big Data • 4 módulos na versão 2 HDFS, MapReduce, Hadoop Common e Yarn Mike Cafarella Doug Cutting
  11. 11. www.projetoseti.com.br O que é Hadoop 2002 2002 2004 2005 2006 2008 2003 2004 2006 2008 2010 Criação do Projeto Nutch Implentação OpenSource do GFS chamada NDFS (Nutch Distributed File System) Equipe do Nutch implement a versão OpenSourc e do MapReduce Doug Cutting entrou para o Yahoo! Hadoop se tornou um projeto independente dentro da Apache Google publica paper GFS (Google File System) Google publica paper MapReduce Criação do Projeto Hadoop (NDFS+ MapReduce) Yahoo! anunciou seu index de páginas web com cluster de 10.000 máquinas rodando Hadoop Facebook processa 40 petabyte s 2012 Apache Hadoop 1.0 disponíve l 2013 Apache Hadoop 2.2 disponíve l 2017 Apache Hadoop 2.8 disponíve l 2017
  12. 12. www.projetoseti.com.br Evolução do Ecossistema HDFS MapReduce 2006 Solr Pig HDFS MapReduce 2007 Hbase Zookeeper Solr Pig HDFS MapReduce 2008 Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2009 Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2010 Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2011 Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2012 Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2013 Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2014 Kudu RecordService Falcon Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2015
  13. 13. www.projetoseti.com.br
  14. 14. www.projetoseti.com.br Principais distribuições
  15. 15. www.projetoseti.com.br Eu preciso de um ambiente Big Data? https://medium.com/via-varejo-arquitetura/voce-precisa-de-big-data-a373c59f3082
  16. 16. www.projetoseti.com.br Onde usar Big Data? Big Data Real Time BI Analytics DW Logs Batch Mensageria Distribuição de dados
  17. 17. www.projetoseti.com.br Ecossistema Open Source
  18. 18. www.projetoseti.com.br Ecossistema Open Source
  19. 19. www.projetoseti.com.br O que preciso saber?
  20. 20. www.projetoseti.com.br Os novos papéis Data Engineer • Processamento Batch e Real Time • Consolidação de dados • Preparação dos dados para o Data Scientist • Estrutura de dados • Banco de dados relacional e NoSql • Conhecimentos: Hive, Python, Scala, HDFS, Spark, Hbase, Sqoop, Linux, Storm, shell, etc… Big Data Architect • Definição de tecnologia • Conhecimento abrangente entre as áreas • Conhecimento nos diversos frameworks, linguagens de programação e banco de dados • Conhecimentos : Hadoop, Spark, Storm, Kafka, Flume, Solr, Hbase, Pig, Hive, Zookeeper, Python, Java, Scala, Cassandra, Sqoop, Linux, Shell, cloud, network, etc…
  21. 21. www.projetoseti.com.br O Data Scientist • Ajudar na resolução de problemas relacionados a negócios usando técnicas orientadas as dados • Aplicar técnicas de avançadas de analise de dados como Machine Learning, Deep Learning, Text analytics, etc... • Trabalhar com uma variedade de linguagens de programação assim como Python, R, SAS, Scala, etc... • Comunicar os resultados alcançados
  22. 22. www.projetoseti.com.br Quem usa Big Data no Brasil • Varejo • Industria • Governo • Marketing • Esporte • Medicina • Seguro • Agricultura • Finanças
  23. 23. www.projetoseti.com.br Nossos patrocinadores
  24. 24. www.projetoseti.com.br Nossas redes / Dúvidas e sugestões  Pesquisa de satisfação: https://goo.gl/forms/9hGCntzMMOh6MyAp1  Nosso site: http://www.projetoseti.com.br  Linkedin: https://lnkd.in/eFSjBgi  Facebook: https://fb.com/projetoseti.br  Youtube: https://youtube.com/user/CanalProjetoseTI  Twitter: @projetoseti  Críticas e sugestões: contato@projetoseti.com.br

×