O documento descreve o modelo Pregel para processamento de grandes grafos distribuídos. Pregel permite que os programas sejam expressos como uma sequência de iterações nas quais os vértices processam e trocam mensagens. Isso fornece uma abordagem escalável para extrair informações de grandes grafos armazenados distribuídamente.
1. e ig data
nc o b
ie term
s c
ta a d o s
o
e
da de d
e
ca cien
t a
is
ti o
t
a d
emrdagem
at abo
M ma
U
Gabriel Murillo Lanzi
2. O Que é um cientista
de dados?
Um cientista de dados
representa uma evolução
da função de analista de
negócios ou de dados.
O treinamento formal é
similar a uma base sólida
normalmente em ciências
da computação,
aplicações, modelagem,
estátistica, análise e
matemática.
http://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png
3. A profissão do futuro
“Uma das profissões do futuro é a de cientista
de dados, profissional que atua com Big Data
e atua na análise preditiva de grandes
volumes de dados. Estima-se que até 2020, o
número de informações que circulará no
mundo aumentará cerca de 50 vezes quando
comparado ao volume de dados atual. A
predição baseada nesse conjunto enorme de
dados será de valor inestimável para as
pessoas, a sociedade em geral e as
empresas, que poderão identificar o melhor
caminho na condução de seus negócios. O
cientista de dados é o responsável por
identificar padrões de análise que permitem
extrair informações relevantes e fazer
predições com base na tecnologia de Big
Data”, completa a executiva da EMC.
Fonte http://convergenciadigital.uol.com.br/
Big data: EMC abre escola gratuita para 'garimpar' cientistas de dados
Convergência Digital - Hotsite Cloud Computing
:: Da redação :: 25/10/2012
4. Diagrama big data
Fonte : http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png
O Que é BIG DATA?
Todos os dias, nós criamos 2,5 quintilhões de bytes de dados - tanto que 90% dos dados do
mundo hoje foi criado nos últimos dois anos. Estes dados vêm de todas partes: sensores
usados para coletar informações sobre o clima, mensagens para sites de mídia social, fotos e
vídeos digitais, registros de transações de compra, e os sinais de telefone celular GPS para
citar alguns. Estes dados são BIG DATA.
http://www-01.ibm.com/software/data/bigdata/
5. “'Big Data’ Empresa necessita de recursos matematicos” -
MIT technology review
A era em que todos os dados de uma empresa acumulava por si e poderia
ser acomodado por uma única planilha está chegando ao fim
Fonte: http://www.technologyreview.com/view/425561/big-data-means-business-needs-mathematicians/
Médicos usam Big Data para curar o câncer
Um grupo norte-americano de oncologia lançou um projeto ambicioso para coletar dados de
centenas de pacientes de câncer. Segundo o Wall Street Journal, a ideia é usar Big Data para
arrecadar informações que ajudarão em tratamentos futuros de pacientes em todo sistema de
saúde.
http://olhardigital.uol.com.br/produtos/digital_news/noticias/medicos-usam-big-data-para-curar-o-cancer
6. OMO A MATEMATICA É USADA PELO CIENTISTA DE DADO
Quantidade
O Estudo começa com a quantidade de números , primeiro os
números inteiros e naturais conhecidos como (“numeros inteiros”) e as
operações básicas aritméticas sobre eles, que são caracterizados na
aritmética. A medida que o sistema de numeração é desenvolvido, os
inteiros são conhecidos como subconjuntos dos números racionais,
(frações). Estes, por sua vez, está contido dentro dos números reais,
que são usados para representar quantidades continuas. Os números
reais são generalizados para os números complexos.
Ao pensar como um matemático, um cientista de dados precisa fazer perguntas:
Como será o objeto que eu estou interessado e como serão representado por
números? Qual tipo de números que melhor representa o objeto que eu estou
interessado?
7. estrutura
Muitos conjuntos de objetos matemáticos exibem estrutura interna. A
Matemática expõe essas estruturas aplicando regras (axiomas e
operações) para os objetos. Álgebra é uma ferramenta poderosa
para entender as estruturas matemáticas. Ele combina o conceito de
variáveis com aritmética para resolver equações. Álgebra é aplicada
a muitos e diferentes problemas alheios. Alguns desses problemas
incluem conjuntos, anéis, grupos, grafos e campos.
Ao pensar como um matemático, um cientista de dados precisa fazer perguntas como:
Qual tipo de estrutura interna faz o objeto que eu estou interessado em ter?
Qual conjunto de equações irá expor nesta estrutura?
8. Espaço
O estudo do espaço origina com a geometria, na geometria em
particular euclidiana. Trigonometria é o ramo da matemática que lida
com as relações entre os lados e os ângulos dos triângulos, que
combina espaço e números englobando o famoso teorema de
Pitágoras. O estudo avançado de espaço incluí maior dimensão
geométrica, geometrias não-euclidianas, Geometria Diferencial,
Topologia, Geometria Fractal.
Ao pensar como um matemático, um cientista de dados precisa fazer as seguintes
perguntas: Aquilo o que eu estou interessado tem um componente espacial, seja
real ou teórica? Posso capturar e representar esse componente espacial?
9. mudança
Compreender e descrever a mudança é um tema comum na ciência e o cálculo foi
desenvolvido como uma ferramenta poderosa para investigá-lo. As funções são um
conceito central de descrever uma quantidade de mudança. Muitos problemas
conduzem naturalmente a relações entre a quantidade e sua taxa de variação. Isto é,
para uma linha não-linear a inclinação é diferente em cada ponto sobre a linha.
Compreender estas mudanças declives são utilizados e estudados em cálculo
diferencial. Encontrar as áreas sob uma curva é chamado de cálculo integral.
Pensando como um matemático, o cientista de dados deve perguntar: Será que
existe a relação entre as coisas que eu estou interessado e a mudança (ao longo
do tempo ou em distância)? Como vou descrever a relação desta mudança?
10. Matematica aplicada
Matemática aplicada se preocupa com métodos matemáticos que são tipicamente
usados em ciência, engenharia, negócios e indústria. Assim, "a matemática aplicada" é a
matemática com conhecimento especializado. De um modo geral, este é o tipo de
matemática que os cientistas de dados praticam.
Serviços Analtícos:
11. Pregel: A System for Large-Scale
Graph Processing
Ao olhar furtivamente de maneira certa você ira notar que os grafos estão
por toda parte. Por exemplo, as redes sociais, popularizado pela Web 2.0,
são grafos que descrevem as relações entre as pessoas. Rotas de
transporte criam grafos de conexões físicas entre localizações geográficas.
Caminhos de surtos de doenças formam um grafo, como fazer jogos entre
times de futebol, rede de computadores topologias e citações entre os
trabalhos científicos. Talvez o grafo mais difundido é a própria web, onde
os documentos são vértices e as ligações são bordas. Minando a web
tornou-se um importante ramo da tecnologia da informação, e pelo menos
uma grande empresa de Internet foi fundada sobre estes grafos.
Pregel é uma infra-estrutura escalável afim de extrair uma grande quantidade de
grafos. Em Pregel, os programas são expressos como uma sequência de iterações. Em
cada iteração, um vértice pode ser independentemente de outros vértices, receber
mensagens enviadas a ele na iteração anterior, enviar mensagens para outros
vértices, alterar o seu próprio e os seus cantos de saída e transformar a topologia do
grafo .
12. Então o que é pregel ? Por que usar?
Pregel é um modelo tolerante a falhas para processamento de grafos. Problemas que
podem ser resolvidos com algoritmos de grafos sao comuns.
As alternativas já existentes não sao muito boas. Mapa de Königsberg no tempo de
Euler mostrando a disposição real das
sete pontes,
Modelo Pregel Grafos. destacando a rio Pregel e a ponte.
Modelo Master / Worker
Cada Worker recebe um subconjunto de vértices de um grafo direcionado
Modelo Vertex-centric. Cada vértice tem:
Um "valor" arbitrário que pode ser get / set.
Lista de mensagens enviadas a ele
Lista dos gastos de saída (arestas têm também um valor)
Um estado binário (ativo / inativo)
Modelo Synchronous Parallel model (Leslie Valiant G., 2010 Turing vencedor do prêmio)
Iterações sincronicas de computação assíncrona
Mestre inicia cada iteração (chamado de "superstep")
Em cada superstep
Workers de forma assíncrona executa uma função de usuário em todos os seus vértices
Vértices pode receber mensagens enviadas a ele na última superstep
Vértices pode modificar o seu valor, modificar valores de bordas, alterar a topologia do
gráfico (adicionar / remover vértices ou arestas)
Os vértices pode enviar mensagens para outros vértices para ser recebido no próximo
13. ILUSTRAÇAO DAS PARTIÇÕES DO vertice
Carregamento de entrada no grafo
•Master atribui seção de entrada para cada
Worker
”ownership" Vértice determinado pelo
hash (v) mod N
•N- número de partições
•Lembre-se que cada Worker é atribuído um
ou mais partições
•Usuário pode modificar isso para explorar
dados de localidade
•Worker lê sua secção de entrada:
•Armazena vértices pertencentes a ele
•Envia outros vértices ao Worker apropriado.
•Entrada armazenados em algo como GFS
•Atribuições secção determinada pela Google File System
localidade de dados
14. Exemplo simples – find max
Pregel: A System for Large-Scale Graph Processing
Paper : http://kowshik.github.io/JPregel/pregel_paper.pdf
Grzegorz Malewicz, Matthew H. Austern, Aart J. C. Bik, James C. Dehnert, Ilan Horn,
Naty Leiser, and Grzegorz Czajkowski
Google, Inc.
{malewicz,austern,ajcbik,dehnert,ilan,naty,gczaj}@google.com