2. OLÁ!
João Marcos Araújo do Valle
Bacharel em Ciências e Tecnologias pela UFRN
Graduando em Engenharia da Computação pela
UFRN, com ênfase em Engenharia de Dados e
Sistemas Distribuídos
2
8. 193 Projetos
A Apache Foundation
apresenta mais de 190
projetos de alto nível
Apache Foundation
Mais de 300...
Apresenta mais de 300
projetos e subprojetos de
alto e baixo nível, e é uma
das maiores fundações de
Open Source do mundo
8
10. Mais é melhor
Um sistema distribuído junta
a capacidade computacional
de vários computadores em
um só
Sistema Distribuído
10
11. Mas eu não tenho mais de um
computador :(
Hadoop MapReduce
Técnica de Paralelização de
Processamento, executada
localmente em apenas um
computador
11
Eu também não!
“Eu sou mais do que uma
ferramenta de criação de
sistemas distribuídos!” Hadoop,
2005.
16. Até 100x mais rápido!!
Apache Spark é até 100x
mais que o MapReduce
Muito mais rápido
16
17. E porque é mais rápido?
17
Direto na RAM
O Apache Spark utiliza a
memória RAM para o
processamento
Feito sobre medida
Feito especialmente para o
processamento de Big Data
21. Ferramenta de Scripting
21
Muito rápido
Apresenta um conjunto limitado
de funções altamente
paralelizadas.
Possui linguagem própria
A linguagem chamada Pig Latin,
feita especialmente para
processamento paralelo e alto
desempenho
24. NoSQL + Sistemas Distribuídos
Buscas Rápidas
O MongoDB consegue fazer
buscas altamente otimizadas, e
em um ótimo tempo hábil.
24
Replicação automática
O MongoDB apresenta módulos
de replicação automática de
dados, que garantem
permanência dos dados
25. Nosso processo de Big Data
Sistema
Distribuído
MapReduce
Spark
Pig
MongoDB
25
26. Links úteis:
Hadoop Cloudera:
https://www.cloudera.com/downloads/quickstart_vms/5-13.html
Introdução ao Apache Spark - DevMedia:
https://www.devmedia.com.br/introducao-ao-apache-spark/34178
Introdução ao Apache Hadoop - DevMedia:
https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034
DataScienceAcademy - Fundamentos de Big Data (Curso GRATUITO):
https://www.datascienceacademy.com.br/course?courseid=big-data-fundamentos
26
27. MongoUniversity - Cursos de MongoDB (GRATUITOS):
https://university.mongodb.com/
Curso de Apache Pig (GRATUITO):
https://cognitiveclass.ai/courses/introduction-to-pig/
Links úteis:
27