Meetup Everis Cassandra

PoC Cassandra
Desenvolvimento de Sistemas Distribuídos sobre
NoSQL Apache Cassandra

AGENDA!
OBJETIVOS
PROJETO
RESULTADOS
LIÇÕES APRENDIDAS
PoC
Cassandra
PROBLEMAS
APRESENTAÇÃO

• A everis, uma empresa do grupo NTT DATA
• Atualmente tem 13.000 profissionais em 14 países
Linhas de Negócios:
• Consultoria de negócios
• Serviços de tecnologia da informação
• Outsourcing
• Business Process Outsourcing (BPO)
• Soluções SAP
• Iniciativas & Inovação
O que é a everis?

O que é o Laboratório de Inovação Digital?
• Laboratório de Transformação Digital
• Centro de Criação de Ativos em Tecnologia Digital
• Iniciativas:
• Big Data
• IoT
• Realidade Aumentada
• Realidade Virtual
• Text Mining
• Assistente Virtual

Quem sou eu?
• Formado em Processamento de Dados pela
FATEC Sorocaba
• MBA em BI pela FIAP
• Mestrando pela EACH - USP
• Trabalho com Big Data a mais de 2 anos
• Especialista em Sistemas – Big Data na everis
• Certificado Apache Cassandra Developer

OBJETIVO – Principal
A PoC Cassandra visava estressar de modo continuo o
banco de dados não relacional (NoSQL) Apache
Cassandra. Para este objetivo foi desenvolvido um caso
de uso baseado no mercado financeiro, simulando uma
casa de compra e venda de títulos disponíveis na bolsa
de valores eletrônica NASDAQ

OBJETIVOS - Secundários
• Teste de stress
• Conhecer o ciclo de vida de
desenvolvimento de projetos com
Cassandra
• Conhecer os problemas
• Conhecer as dificuldades no
desenvolvimento
• Construir ferramentas de controle
• Observação de desempenho

OBJETIVO - Real
Mainframe Killer

OBJETIVOS – Motivação
Implementou todo o sistema de risco, monitoramento de transações e
fornecimento de dados regulatórios sobre Cassandra, distribuído em dois data
centers
Utiliza 3 clusters de Cassandra espalhados em 3 cidades diferentes da Holanda
para substituir diversos serviços críticos que anteriormente eram processados
em dois mainframes do banco. Todos os serviços on-line e de processamento
em tempo real foram migrados dos mainframes para os clusters Cassandra
Criou o serviço UBSNeo, um broker para investimento e análise de séries
temporais de negócios sobre o Apache Cassandra, distribuído em diversos data
centers pelo mundo

EMPRESAS DO RAMO FINANCEIRO QUE UTILIZAM CASSANDRA
• Allied Payment – Provedora americana de serviços de pagamento
• ABC Arbitrage - Empresa financeira especializada no comércio automatizado
• Barracuda Networks – Empresa de serviços de segurança digital e detecção de fraude
• Clear Capital – Provedor de dados e de avaliação de ativos e riscos
• CardSpring - Provedora de APIs de serivços de pagamento de cartão de crédito
• First American Financial - Provedora de serviços financeiro diversos
• F-Secure – Empresa de serviços de segurança e detecção de fraudes
• iDeal – Empresa do grupo ING de provisão de serviços de pagamentos
• Macquarie - Banco de investimento australiano
• PayPal – Provedora de Serviços de Pagamento
• Simililty – Empresa de serviços de segurança e detecção de fraudes
• Venmo – Fincth provedora de serviços de pagamento e carteira digital
• XOOM – Empresa de serviços transferência de fundos financeiros
• Capital One Financial Corporation – Banco Americano

PROJETO – Modelo Lógico – Notação Chen

PROBLEMAS – Desenvolvimento do Projeto
• Instalação do Cassandra Driver no Windows
• Apenas 50 Índices por requisição no Google Finance
• Listagem de Clientes muito maior que a capacidade das máquinas
• 1.3milhões de clientes
• Necessários pelo menos 200 agentes para processamento
(Problema performance no Python)
• Servidor da Digital Ocean inferia que os testes eram ataques
massivos e desligava os servidores

PROBLEMAS – Utilização do Cassandra
• Desenhos das tabelas não atendia todas as querys
• Uso de trace nas consultas deixou o sistema extremamente lento
• Necessidade de join do lado do cliente gerava muitas consultas
• Uso de tabelas como fila (anti-pattern)
• Driver Casssandra só retorna um result da operação se usado Lightweight
Transactions (if exists) e para usar LT necessário deletar registro pela Partition Key
• Se usado trace, necessário remodelar a tabela para excluir com dados da chave.
• Python para processar quantidade de transações e sobrecarregar o Cassandra não foi
suficiente. Foi necessário criar um host a mais de agentes para sobrecarregar de
transações o cluster Cassandra.
• Ao adicionar um novo nó do Cassandra, foi necessário alterar o objeto de conexão
adicionando o IP
• (procurar uma forma melhor para fazer isso)
• Tratamento de exceções de erro
• Tratamento das exceções tem de ser específicos
• Métricas do Cassandra precisam ser muito bem estudadas, pois são muitas e um pouco
confusas

RESULTADO – Modelo Físico Realizado

RESULTADO – ARQUITETURA TECNICA REALIZADA

LIÇÕES APRENDIDAS
• Não usar Cassandra como fila
• Usar aplicações apropriadas para este fim (KAFKA, MQs, Filas, etc)
• Desenvolver as tabelas de acordo com as consultas
• Para projetos de grande performance usar linguagens com tipo de dados leves e
que trabalham naturalmente com threads e assíncronos (GO, Java, Scala)
• Uso de Lightweight Transactions apenas com as chaves primarias completas
• Ordenação da Cluster Key é importante para consultas
• Usar Cassandra-Metrics para monitorar o cluster (Necessário de instalação de
JAR do Grafite) ou configuração do JMS

LIÇÕES APRENDIDAS
• Pensar bem no Consistence Level da aplicação :
• Nível alto de consistência apenas para transações
que necessariamente de alto grau de integridade
• Não usar execute_assync com consistência alta
• Se a execução não alcançar o Consistente Level,
retorna uma exceção
• O tratamento da exceção tem de ser específico, para
gerenciar outros erros como de conexão, queda de
clusters, timeout, etc.
• Uso de execute_assync na aplicação pode trazer
velocidade na aplicação, mas não trás certeza de
conclusão da operação
• Usar notação Chebotko ao pé da letra a definir a
modelagem de dados do Cassandra
• KDM – Serviço Online Gratuito para modelar Chebotko

LIÇÕES APRENDIDAS
• Aplicação do Repair constante (1 vez por semana pelo menos)
• Diminui a quantidade de disco utilizada pela SSTables
• Pode aumentar a latência de algumas transações durante a
aplicação
• Adicionar nós um de cada vez, esperando alguns minutos para adicionar o
próximo nó
• Usar collections com moderação (List, Set, Maps)
• Quase tudo que é possível fazer com Collections, você consegue
fazer com colunas
• Usar tuplas com moderação
• Nunca usar collections em registros que fazem muitos updates
• Problemas registrados de tombstones nesse caso

LIÇÕES APRENDIDAS
• Aninhar os dados sempre que possível
• Timeuuid necessitam diversas funções auxiliares para geração (Python)
• Timestamps são interessantes para pesquisa de dados – mas é preciso
ordenar de forma correta
• Verificar o custo (trade-off) entre duplicação de dados e joins dentro de
clientes (Volume x Latência). Para sistemas de baixa latência melhor duplicar
os dados nas tabelas
• Projetos precisam de muitos testes para o desenvolvimento

Thanks, we are
delighted to have the
opportunity to
transform with you

Meetup Everis Cassandra

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (15)

Similar a Meetup Everis Cassandra

Similar a Meetup Everis Cassandra (20)

Último

Último (8)

Meetup Everis Cassandra