SlideShare una empresa de Scribd logo
1 de 15
e ig data
                                          nc o b
                                        ie term
                                  s   c
                     ta a d o s
                                            o
                                        e

                   da de d
               e
           ca cien
                          t   a
                       is
         ti o
                     t

        a d
   emrdagem
 at abo
M ma
  U




                                                          Gabriel Murillo Lanzi
O Que é um cientista
de dados?
Um cientista de dados
representa uma evolução
da função de analista de
negócios ou de dados.
O treinamento formal é
similar a uma base sólida
normalmente em ciências
da computação,
aplicações, modelagem,
estátistica, análise e
matemática.

                            http://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png
A profissão do futuro
“Uma das profissões do futuro é a de cientista
 de dados, profissional que atua com Big Data
 e atua na análise preditiva de grandes
 volumes de dados. Estima-se que até 2020, o
 número de informações que circulará no
 mundo aumentará cerca de 50 vezes quando
 comparado ao volume de dados atual. A
 predição baseada nesse conjunto enorme de
 dados será de valor inestimável para as
 pessoas, a sociedade em geral e as
 empresas, que poderão identificar o melhor
 caminho na condução de seus negócios. O
 cientista de dados é o responsável por
 identificar padrões de análise que permitem
 extrair informações relevantes e fazer
 predições com base na tecnologia de Big
 Data”, completa a executiva da EMC.


Fonte http://convergenciadigital.uol.com.br/
Big data: EMC abre escola gratuita para 'garimpar' cientistas de dados
Convergência Digital - Hotsite Cloud Computing
:: Da redação :: 25/10/2012
Diagrama big data




                  Fonte : http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png


O Que é BIG DATA?
Todos os dias, nós criamos 2,5 quintilhões de bytes de dados - tanto que 90% dos dados do
mundo hoje foi criado nos últimos dois anos. Estes dados vêm de todas partes: sensores
usados ​para coletar informações sobre o clima, mensagens para sites de mídia social, fotos e
vídeos digitais, registros de transações de compra, e os sinais de telefone celular GPS para
citar alguns. Estes dados são BIG DATA.
                                                                               http://www-01.ibm.com/software/data/bigdata/
“'Big Data’ Empresa necessita de recursos matematicos” -
 MIT technology review
 A era em que todos os dados de uma empresa acumulava por si e poderia
 ser acomodado por uma única planilha está chegando ao fim
 Fonte: http://www.technologyreview.com/view/425561/big-data-means-business-needs-mathematicians/




Médicos usam Big Data para curar o câncer
Um grupo norte-americano de oncologia lançou um projeto ambicioso para coletar dados de
centenas de pacientes de câncer. Segundo o Wall Street Journal, a ideia é usar Big Data para
arrecadar informações que ajudarão em tratamentos futuros de pacientes em todo sistema de
saúde.
                                   http://olhardigital.uol.com.br/produtos/digital_news/noticias/medicos-usam-big-data-para-curar-o-cancer
OMO A MATEMATICA É USADA PELO CIENTISTA DE DADO
   Quantidade
     O Estudo começa com a quantidade de números , primeiro os
     números inteiros e naturais conhecidos como (“numeros inteiros”) e as
     operações básicas aritméticas sobre eles, que são caracterizados na
     aritmética. A medida que o sistema de numeração é desenvolvido, os
     inteiros são conhecidos como subconjuntos dos números racionais,
     (frações). Estes, por sua vez, está contido dentro dos números reais,
     que são usados para representar quantidades continuas. Os números
     reais são generalizados para os números complexos.




Ao pensar como um matemático, um cientista de dados precisa fazer perguntas:
Como será o objeto que eu estou interessado e como serão representado por
números? Qual tipo de números que melhor representa o objeto que eu estou
interessado?
estrutura
    Muitos conjuntos de objetos matemáticos exibem estrutura interna. A
    Matemática expõe essas estruturas aplicando regras (axiomas e
    operações) para os objetos. Álgebra é uma ferramenta poderosa
    para entender as estruturas matemáticas. Ele combina o conceito de
    variáveis com aritmética para resolver equações. Álgebra é aplicada
    a muitos e diferentes problemas alheios. Alguns desses problemas
    incluem conjuntos, anéis, grupos, grafos e campos.




Ao pensar como um matemático, um cientista de dados precisa fazer perguntas como:
Qual tipo de estrutura interna faz o objeto que eu estou interessado em ter?
Qual conjunto de equações irá expor nesta estrutura?
Espaço
    O estudo do espaço origina com a geometria, na geometria em
    particular euclidiana. Trigonometria é o ramo da matemática que lida
    com as relações entre os lados e os ângulos dos triângulos, que
    combina espaço e números englobando o famoso teorema de
    Pitágoras. O estudo avançado de espaço incluí maior dimensão
    geométrica, geometrias não-euclidianas, Geometria Diferencial,
    Topologia, Geometria Fractal.




Ao pensar como um matemático, um cientista de dados precisa fazer as seguintes
perguntas: Aquilo o que eu estou interessado tem um componente espacial, seja
real ou teórica? Posso capturar e representar esse componente espacial?
mudança
Compreender e descrever a mudança é um tema comum na ciência e o cálculo foi
desenvolvido como uma ferramenta poderosa para investigá-lo. As funções são um
conceito central de descrever uma quantidade de mudança. Muitos problemas
conduzem naturalmente a relações entre a quantidade e sua taxa de variação. Isto é,
para uma linha não-linear a inclinação é diferente em cada ponto sobre a linha.
Compreender estas mudanças declives são utilizados e estudados em cálculo
diferencial. Encontrar as áreas sob uma curva é chamado de cálculo integral.




Pensando como um matemático, o cientista de dados deve perguntar: Será que
existe a relação entre as coisas que eu estou interessado e a mudança (ao longo
do tempo ou em distância)? Como vou descrever a relação desta mudança?
Matematica aplicada
   Matemática aplicada se preocupa com métodos matemáticos que são tipicamente
   usados ​em ciência, engenharia, negócios e indústria. Assim, "a matemática aplicada" é a
   matemática com conhecimento especializado. De um modo geral, este é o tipo de
   matemática que os cientistas de dados praticam.




Serviços Analtícos:
Pregel: A System for Large-Scale
Graph Processing
Ao olhar furtivamente de maneira certa você ira notar que os grafos estão
por toda parte. Por exemplo, as redes sociais, popularizado pela Web 2.0,
são grafos que descrevem as relações entre as pessoas. Rotas de
transporte criam grafos de conexões físicas entre localizações geográficas.
Caminhos de surtos de doenças formam um grafo, como fazer jogos entre
times de futebol, rede de computadores topologias e citações entre os
trabalhos científicos. Talvez o grafo mais difundido é a própria web, onde
os documentos são vértices e as ligações são bordas. Minando a web
tornou-se um importante ramo da tecnologia da informação, e pelo menos
uma grande empresa de Internet foi fundada sobre estes grafos.



Pregel é uma infra-estrutura escalável afim de extrair uma grande quantidade de
grafos. Em Pregel, os programas são expressos como uma sequência de iterações. Em
cada iteração, um vértice pode ser independentemente de outros vértices, receber
mensagens enviadas a ele na iteração anterior, enviar mensagens para outros
vértices, alterar o seu próprio e os seus cantos de saída e transformar a topologia do
grafo .
Então o que é pregel ? Por que usar?
 Pregel é um modelo tolerante a falhas para processamento de grafos. Problemas que
 podem ser resolvidos com algoritmos de grafos sao comuns.
 As alternativas já existentes não sao muito boas.              Mapa de Königsberg no tempo de
                                                                Euler mostrando a disposição real das
                                                                sete pontes,
Modelo Pregel Grafos.                                           destacando a rio Pregel e a ponte.


Modelo Master / Worker
Cada Worker recebe um subconjunto de vértices de um grafo direcionado
Modelo Vertex-centric. Cada vértice tem:
Um "valor" arbitrário que pode ser get / set.
Lista de mensagens enviadas a ele
Lista dos gastos de saída (arestas têm também um valor)
Um estado binário (ativo / inativo)
Modelo Synchronous Parallel model (Leslie Valiant G., 2010 Turing vencedor do prêmio)
Iterações sincronicas de computação assíncrona
Mestre inicia cada iteração (chamado de "superstep")
Em cada superstep
Workers de forma assíncrona executa uma função de usuário em todos os seus vértices
Vértices pode receber mensagens enviadas a ele na última superstep
Vértices pode modificar o seu valor, modificar valores de bordas, alterar a topologia do
gráfico (adicionar / remover vértices ou arestas)
Os vértices pode enviar mensagens para outros vértices para ser recebido no próximo
ILUSTRAÇAO DAS PARTIÇÕES DO vertice
Carregamento de entrada no grafo

•Master atribui seção de entrada para cada
Worker
   ”ownership" Vértice determinado pelo
 hash (v) mod N
•N- número de partições
•Lembre-se que cada Worker é atribuído um
ou mais partições
•Usuário pode modificar isso para explorar
dados de localidade
•Worker lê sua secção de entrada:
•Armazena vértices pertencentes a ele
•Envia outros vértices ao Worker apropriado.
•Entrada armazenados em algo como GFS
•Atribuições secção determinada pela         Google File System
localidade de dados
Exemplo simples – find max




Pregel: A System for Large-Scale Graph Processing
Paper : http://kowshik.github.io/JPregel/pregel_paper.pdf
Grzegorz Malewicz, Matthew H. Austern, Aart J. C. Bik, James C. Dehnert, Ilan Horn,
Naty Leiser, and Grzegorz Czajkowski
Google, Inc.
{malewicz,austern,ajcbik,dehnert,ilan,naty,gczaj}@google.com
Matemática e Data Science

Más contenido relacionado

Destacado

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Destacado (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

Matemática e Data Science

  • 1. e ig data nc o b ie term s c ta a d o s o e da de d e ca cien t a is ti o t a d emrdagem at abo M ma U Gabriel Murillo Lanzi
  • 2. O Que é um cientista de dados? Um cientista de dados representa uma evolução da função de analista de negócios ou de dados. O treinamento formal é similar a uma base sólida normalmente em ciências da computação, aplicações, modelagem, estátistica, análise e matemática. http://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png
  • 3. A profissão do futuro “Uma das profissões do futuro é a de cientista de dados, profissional que atua com Big Data e atua na análise preditiva de grandes volumes de dados. Estima-se que até 2020, o número de informações que circulará no mundo aumentará cerca de 50 vezes quando comparado ao volume de dados atual. A predição baseada nesse conjunto enorme de dados será de valor inestimável para as pessoas, a sociedade em geral e as empresas, que poderão identificar o melhor caminho na condução de seus negócios. O cientista de dados é o responsável por identificar padrões de análise que permitem extrair informações relevantes e fazer predições com base na tecnologia de Big Data”, completa a executiva da EMC. Fonte http://convergenciadigital.uol.com.br/ Big data: EMC abre escola gratuita para 'garimpar' cientistas de dados Convergência Digital - Hotsite Cloud Computing :: Da redação :: 25/10/2012
  • 4. Diagrama big data Fonte : http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png O Que é BIG DATA? Todos os dias, nós criamos 2,5 quintilhões de bytes de dados - tanto que 90% dos dados do mundo hoje foi criado nos últimos dois anos. Estes dados vêm de todas partes: sensores usados ​para coletar informações sobre o clima, mensagens para sites de mídia social, fotos e vídeos digitais, registros de transações de compra, e os sinais de telefone celular GPS para citar alguns. Estes dados são BIG DATA. http://www-01.ibm.com/software/data/bigdata/
  • 5. “'Big Data’ Empresa necessita de recursos matematicos” - MIT technology review A era em que todos os dados de uma empresa acumulava por si e poderia ser acomodado por uma única planilha está chegando ao fim Fonte: http://www.technologyreview.com/view/425561/big-data-means-business-needs-mathematicians/ Médicos usam Big Data para curar o câncer Um grupo norte-americano de oncologia lançou um projeto ambicioso para coletar dados de centenas de pacientes de câncer. Segundo o Wall Street Journal, a ideia é usar Big Data para arrecadar informações que ajudarão em tratamentos futuros de pacientes em todo sistema de saúde. http://olhardigital.uol.com.br/produtos/digital_news/noticias/medicos-usam-big-data-para-curar-o-cancer
  • 6. OMO A MATEMATICA É USADA PELO CIENTISTA DE DADO Quantidade O Estudo começa com a quantidade de números , primeiro os números inteiros e naturais conhecidos como (“numeros inteiros”) e as operações básicas aritméticas sobre eles, que são caracterizados na aritmética. A medida que o sistema de numeração é desenvolvido, os inteiros são conhecidos como subconjuntos dos números racionais, (frações). Estes, por sua vez, está contido dentro dos números reais, que são usados para representar quantidades continuas. Os números reais são generalizados para os números complexos. Ao pensar como um matemático, um cientista de dados precisa fazer perguntas: Como será o objeto que eu estou interessado e como serão representado por números? Qual tipo de números que melhor representa o objeto que eu estou interessado?
  • 7. estrutura Muitos conjuntos de objetos matemáticos exibem estrutura interna. A Matemática expõe essas estruturas aplicando regras (axiomas e operações) para os objetos. Álgebra é uma ferramenta poderosa para entender as estruturas matemáticas. Ele combina o conceito de variáveis com aritmética para resolver equações. Álgebra é aplicada a muitos e diferentes problemas alheios. Alguns desses problemas incluem conjuntos, anéis, grupos, grafos e campos. Ao pensar como um matemático, um cientista de dados precisa fazer perguntas como: Qual tipo de estrutura interna faz o objeto que eu estou interessado em ter? Qual conjunto de equações irá expor nesta estrutura?
  • 8. Espaço O estudo do espaço origina com a geometria, na geometria em particular euclidiana. Trigonometria é o ramo da matemática que lida com as relações entre os lados e os ângulos dos triângulos, que combina espaço e números englobando o famoso teorema de Pitágoras. O estudo avançado de espaço incluí maior dimensão geométrica, geometrias não-euclidianas, Geometria Diferencial, Topologia, Geometria Fractal. Ao pensar como um matemático, um cientista de dados precisa fazer as seguintes perguntas: Aquilo o que eu estou interessado tem um componente espacial, seja real ou teórica? Posso capturar e representar esse componente espacial?
  • 9. mudança Compreender e descrever a mudança é um tema comum na ciência e o cálculo foi desenvolvido como uma ferramenta poderosa para investigá-lo. As funções são um conceito central de descrever uma quantidade de mudança. Muitos problemas conduzem naturalmente a relações entre a quantidade e sua taxa de variação. Isto é, para uma linha não-linear a inclinação é diferente em cada ponto sobre a linha. Compreender estas mudanças declives são utilizados e estudados em cálculo diferencial. Encontrar as áreas sob uma curva é chamado de cálculo integral. Pensando como um matemático, o cientista de dados deve perguntar: Será que existe a relação entre as coisas que eu estou interessado e a mudança (ao longo do tempo ou em distância)? Como vou descrever a relação desta mudança?
  • 10. Matematica aplicada Matemática aplicada se preocupa com métodos matemáticos que são tipicamente usados ​em ciência, engenharia, negócios e indústria. Assim, "a matemática aplicada" é a matemática com conhecimento especializado. De um modo geral, este é o tipo de matemática que os cientistas de dados praticam. Serviços Analtícos:
  • 11. Pregel: A System for Large-Scale Graph Processing Ao olhar furtivamente de maneira certa você ira notar que os grafos estão por toda parte. Por exemplo, as redes sociais, popularizado pela Web 2.0, são grafos que descrevem as relações entre as pessoas. Rotas de transporte criam grafos de conexões físicas entre localizações geográficas. Caminhos de surtos de doenças formam um grafo, como fazer jogos entre times de futebol, rede de computadores topologias e citações entre os trabalhos científicos. Talvez o grafo mais difundido é a própria web, onde os documentos são vértices e as ligações são bordas. Minando a web tornou-se um importante ramo da tecnologia da informação, e pelo menos uma grande empresa de Internet foi fundada sobre estes grafos. Pregel é uma infra-estrutura escalável afim de extrair uma grande quantidade de grafos. Em Pregel, os programas são expressos como uma sequência de iterações. Em cada iteração, um vértice pode ser independentemente de outros vértices, receber mensagens enviadas a ele na iteração anterior, enviar mensagens para outros vértices, alterar o seu próprio e os seus cantos de saída e transformar a topologia do grafo .
  • 12. Então o que é pregel ? Por que usar? Pregel é um modelo tolerante a falhas para processamento de grafos. Problemas que podem ser resolvidos com algoritmos de grafos sao comuns. As alternativas já existentes não sao muito boas. Mapa de Königsberg no tempo de Euler mostrando a disposição real das sete pontes, Modelo Pregel Grafos. destacando a rio Pregel e a ponte. Modelo Master / Worker Cada Worker recebe um subconjunto de vértices de um grafo direcionado Modelo Vertex-centric. Cada vértice tem: Um "valor" arbitrário que pode ser get / set. Lista de mensagens enviadas a ele Lista dos gastos de saída (arestas têm também um valor) Um estado binário (ativo / inativo) Modelo Synchronous Parallel model (Leslie Valiant G., 2010 Turing vencedor do prêmio) Iterações sincronicas de computação assíncrona Mestre inicia cada iteração (chamado de "superstep") Em cada superstep Workers de forma assíncrona executa uma função de usuário em todos os seus vértices Vértices pode receber mensagens enviadas a ele na última superstep Vértices pode modificar o seu valor, modificar valores de bordas, alterar a topologia do gráfico (adicionar / remover vértices ou arestas) Os vértices pode enviar mensagens para outros vértices para ser recebido no próximo
  • 13. ILUSTRAÇAO DAS PARTIÇÕES DO vertice Carregamento de entrada no grafo •Master atribui seção de entrada para cada Worker ”ownership" Vértice determinado pelo hash (v) mod N •N- número de partições •Lembre-se que cada Worker é atribuído um ou mais partições •Usuário pode modificar isso para explorar dados de localidade •Worker lê sua secção de entrada: •Armazena vértices pertencentes a ele •Envia outros vértices ao Worker apropriado. •Entrada armazenados em algo como GFS •Atribuições secção determinada pela Google File System localidade de dados
  • 14. Exemplo simples – find max Pregel: A System for Large-Scale Graph Processing Paper : http://kowshik.github.io/JPregel/pregel_paper.pdf Grzegorz Malewicz, Matthew H. Austern, Aart J. C. Bik, James C. Dehnert, Ilan Horn, Naty Leiser, and Grzegorz Czajkowski Google, Inc. {malewicz,austern,ajcbik,dehnert,ilan,naty,gczaj}@google.com