SlideShare una empresa de Scribd logo
1 de 41
Descargar para leer sin conexión
Processamento Paralelo de Grandes
 Quantidades de Dados sobre um
 Sistema de Arquivos Distribuído
             POSIX
                Jonhnny Weslley
       Orientador: Francisco Brasileiro
          Laboratório de Sistemas Distribuídos
  Programa de Pós-Graduação em Ciência da Computação
        Universidade Federal de Campina Grande
                       Maio / 2010
Agenda
●   Introdução
●   Estado da Arte
●   Beehive File System
●   Heurísticas para alocação de arquivos
●   Avaliação
●   Conclusão
Dados
Processamento de dados
Por que?
Insights
Barateamento e o
aumento da capacidade de
 armazenamento dos discos
Processamento de grandes
  quantidades de dados
Processamento paralelo
de grandes quantidades de dados
Clusters




           Image by rogersmith on flickr.com
Clusters
●   Custos associados
    ●   aquisição
    ●   manutenção




                                   Image by rogersmith on flickr.com
Computação na nuvem




Image by jillclardy on Flickr.com
Computação na nuvem
          ●    Transferência dos dados
          ●    Confidencialidade e privacidade dos dados




Image by jillclardy on Flickr.com
Por que pagar por recursos externos, se
é possível realizar o processamento dos
 dados, ou pelo menos parte dele, nas
   estações de trabalho da rede local?
Beehive File System
●   Agrega espaço ocioso nas estações de trabalho de
    uma rede local
●   Sistema de arquivos distribuído de uso geral
●   POSIX compliant
Beehive File System
●   Agrega espaço ocioso nas estações de trabalho de
    uma rede local
●   Sistema de arquivos distribuído de uso geral
●   POSIX compliant
●   Distribuição dos dados
Problema


Recursos não dedicados
Objetivos
●   Aplicações de uso intensivo de dados usando
    sistema de arquivos distribuído POSIX
●   Sistema de arquivos POSIX multi-funcional
●   Controlar a intrusividade




                                          Image by denial_land on Flickr.com
Status quo
●   Sistemas de arquivos em clusters
    ●   Google File System
    ●   Lustre
    ●   Ceph
●   Sistemas de arquivos oportunistas
    ●   Freeloader
    ●   BitDew
Beehive File System
Arquitetura
Tolerância a falhas
●   Replicação de arquivos
●   Replicação de metadados
Replicação de arquivos
Replicação de metadados
●   Falhas no servidor de metadados
    ●   Transientes
    ●   Permanentes
●   Integridade do sistema
Metadados
●   Nós-i
●   Estruturas de dados do sistema
●   Atributos estendidos
Solução
Heurísticas para alocação de arquivos
Heurísticas para alocação de arquivos
baseadas em dados históricos sobre a
    disponibilidade da máquinas.
Heurísticas para alocação de arquivos
●   Replication All
●   Equalizer
●   MaxAvail
●   EqMaxAvail
●   MeanAvail
●   EqMeanAvail
Avaliação
Modelo do sistema
●   Sistema de arquivos
●   A aplicação e os dados de entrada
●   Disponibilidade
●   Alocação de arquivos
●   Métricas de desempenho
    ●   tempo de execução das aplicações
    ●   quantidade de armazenamento
Modelo simulado
           ●    Trace SDSC*
                  ●    Estações de trabalho conectadas por uma LAN
                  ●    244 máquinas
                  ●    Período de 14 dias
           ●    Imagem do sistema de arquivos
                  ●    1000 arquivos
                  ●    Distribuição uniforme entre 500MiB e 2GiB
                  ●    Fator de impacto de leituras remotas é 4.87.

*Characterizing and evaluating desktop grids: An empirical study.
Modelo simulado
●   Workload das aplicações
    ●   300 aplicações Bag-of-Tasks
    ●   Cada aplicação possui tarefas seguindo uma
        distribuição uniforme entre 3 e 10
Resultados




             Image by kevinzhengli on Flickr.com
Tempo de execução das aplicações
Resultados
●   Tempo de execução das aplicações
●   Quantidade de armazenamento
Conclusão
●   Aplicações de uso intensivo de dados usando
    sistema de arquivos distribuído POSIX
●   Sistema de arquivos POSIX multi-funcional
●   Controle da intrusividade
●   Heurísticas para alocação de arquivos
Trabalhos Futuros
●   Técnicas de virtualização
●   Explorar multi-core
Questões   ?
Jonhnny Weslley
jw@jonhnnyweslley.net
     @jweslley
EOF

Más contenido relacionado

Destacado (20)

Kabanalan
KabanalanKabanalan
Kabanalan
 
Tabla
TablaTabla
Tabla
 
вит
витвит
вит
 
Manajemen Keuangan Adverstation
Manajemen Keuangan AdverstationManajemen Keuangan Adverstation
Manajemen Keuangan Adverstation
 
2 hurto mtt
2 hurto mtt2 hurto mtt
2 hurto mtt
 
Leoye presentacion power point
Leoye presentacion power pointLeoye presentacion power point
Leoye presentacion power point
 
открытки.3pptx
открытки.3pptxоткрытки.3pptx
открытки.3pptx
 
Numeracion Japones- Español
Numeracion Japones- EspañolNumeracion Japones- Español
Numeracion Japones- Español
 
Reklama na google
Reklama na googleReklama na google
Reklama na google
 
X11
X11X11
X11
 
Police clearance
Police clearancePolice clearance
Police clearance
 
Propìedad intelectual y licencia de software
Propìedad intelectual y licencia de softwarePropìedad intelectual y licencia de software
Propìedad intelectual y licencia de software
 
E-commerce e Link Baiting - Claudio Fiorentino @ Convegno GT 2014
E-commerce e Link Baiting - Claudio Fiorentino @ Convegno GT 2014E-commerce e Link Baiting - Claudio Fiorentino @ Convegno GT 2014
E-commerce e Link Baiting - Claudio Fiorentino @ Convegno GT 2014
 
Editorial Clorofila
Editorial ClorofilaEditorial Clorofila
Editorial Clorofila
 
Doc
DocDoc
Doc
 
Pppppppp
PpppppppPppppppp
Pppppppp
 
Huéscar 1991 1992
Huéscar 1991 1992Huéscar 1991 1992
Huéscar 1991 1992
 
Mirage 06 www.mitsubishibekasi.com
Mirage 06 www.mitsubishibekasi.comMirage 06 www.mitsubishibekasi.com
Mirage 06 www.mitsubishibekasi.com
 
Juliana ardila ruedaa
Juliana ardila ruedaaJuliana ardila ruedaa
Juliana ardila ruedaa
 
Disk
DiskDisk
Disk
 

Similar a Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX

Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital PreservationRoberto Beraldo Chaiben
 
Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Marcelo Dieder
 
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...Miguel Xavier
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...CPqD
 
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...Lucas A. Romão
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupAndré Cruz
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensAlessandro Binhara
 
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTING
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTINGESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTING
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTINGLuiz Thiago
 
Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Flávio Lisboa
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHPFelipe Ribeiro
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017Ricardo Katz
 

Similar a Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX (20)

Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital Preservation
 
Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?
 
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...
Uma Arquitetura para Provisionamento de Ambientes de Alto Desempenho Customiz...
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
 
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon Meetup
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvens
 
slides
slidesslides
slides
 
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTING
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTINGESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTING
ESTUDO DE CASO PARA ALTA DISPONIBILIDADE EM AMBIENTES DE WEB HOSTING
 
Windows 2000
Windows 2000Windows 2000
Windows 2000
 
Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011
 
Arquiteturas escaláveis e tolerantes a falhas
Arquiteturas escaláveis e tolerantes a falhasArquiteturas escaláveis e tolerantes a falhas
Arquiteturas escaláveis e tolerantes a falhas
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHP
 
Introdução à sistemas distribuídos
Introdução à sistemas distribuídosIntrodução à sistemas distribuídos
Introdução à sistemas distribuídos
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017
Producao Segura de Containers com Kubernetes e CoreOS - QCONSP 2017
 
Gfs slides
Gfs slidesGfs slides
Gfs slides
 
Hadoop
HadoopHadoop
Hadoop
 

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX