Gerenciamento de potência e gestão de energia no data center podem promover economia significativa de energia através de estratégias como monitoramento de consumo, limites de potência dinâmicos e estacionamento de servidores ociosos. Evoluir nos modelos de maturidade requer experiência, mas traz retornos crescentes sem impactar o negócio. Melhor gerenciamento é essencial para incorporar custos de energia e viabilizar pagamento proporcional ao uso.
Racionalização e Otimização de Energia em Computação na Nuvem
1. Racionalização e Otimização de
Energia em Computação na Nuvem
Bruno Domingues
bruno.domingues@intel.com
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
2. Virtualização e Gerenciamento de Potência
• A virtualização abstrai completamente o hardware físico para o SO
guest (exceto no caso de Paravirtualização)
• Ex. Se o SO transaciona para o nível S3 do ACPI (i.e. sleep to
memory) isso acontecerá com o vCPU e não terá nenhum efeito no
servidor físico;
• Grande desafio de mapear a potência entre o servidor físico e a
máquina virtual e desta para o físico:
– Dificuldade de definir o rateio de consumo do servidor físico com as máquinas
virtuais;
– Dificuldade de estabelecer um quota de consume de potência nas máquinas virtuais
de forma a viabilizar o balanço entre desempenho vs. consumo.
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
3. Gerenciamento de Potência vs. Gerenciamento de Energia
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
4. Níveis de Maturidade – Gerenciamento de Potência
Nível Modelo de Uso Benefícios Caso de Uso
Monitoração do consumo de potência
Evita “colapso” do DC com em tempo real;
Monitoramento do consumo de informações atualizadas e em Gerencia os hot spots do DC;
1
energia em tempo real tempo real do consumo de Agendamento de potência e
potência temperatura;
Tendências e previsões de consumo.
Guard rail de Potência: aumenta a Maximiza a população de servidores
Limite de potência
segurança criando um limite superior por rack e otimiza o CapEx por rack
determinístico e garantida de
2 de forma a evitar que o consumo de disponível quando o rack está sob limite
consumo máximo de potência
potência exceda um determinado orçamentário com negligenciável
em um conjunto de máquinas
limite impacto de desempenho por servidor.
Maximiza o aproveitamento do rack em
termos de desempenho quando há
limitante de potência;
Limite de Potência Estático: opera Operação sob condições Otimização da aplicação de potência;
3 os servidores sob um permanente adversas de disponibilidade de Compensação do desempenho da
limite superior potência aplicação;
Continuidade de Negócio: continuidade
da operação em caso de racionamento
de energia.
Limite de Potência Dinâmico: Otimiza a infraestrutura para
Define o ponto de limite de potência de
ajusta o consumo do servidor de permitir entregar exatamente o
4 acordo com a demanda da aplicação;
acordo com o perfil da demanda de SLA com a disponibilidade de
Suporte a múltiplas classes de serviços.
carga QoS
Reconfiguração dinâmica para melhor
5 Gerenciamento de Energia Corta custos de eletricidade aproveitamento de potência
proporcional a computação
Realiza a otimização de potência Uso dos dados coletados dos sensores
Gerenciamento de Potência do DC
6 nos servidores, elementos de para otimizar a refrigeração dentro de
integrado
rede e armazenamento certos valores
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
5. Evolução Tecnológica dos Servidores x86
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
6. Otimização do Rack
Provisionar um rack de servidores com limite de 4KW
– Objetivo: Instalar o máximo de servidores sem extrapolar o limite de 4KW
• Método Tradicional (heurístico):
– Com base na especificação da fonte de potência , 650W;
– Se usa 400W como estimação segura (muitas vezes aferido em laboratório);
– Permite instalar 10 servidores = 4.000W (400W/servidor).
• Com monitoramento de Potência: Antes Depois
− Avaliação histórica apresenta que raras vezes
excedem 250W/servidor;
− Define-se um limite agressivo de
250W/servidor com um limite global de
4KW para eliminar casos de boot storm, por
exemplo;
− Permite a instalação de 16 servidores,
aumentando a densidade em 60%
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
7. Racionamento de Energia
• Define guard rail de forma a evitar consumo de potência acima da
capacidade oferecida;
• Em casos de crises de fornecimento de energia, permite o DC operar
por períodos maiores sem negação de serviço mesmo com menor
desempenho.
Potência Emergencia
disponível Consumo não satisfeito
Potência
(watts) Consumo com base na demanda
Día 1 Día 2 Tempo
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
8. 52GW
Desastres Naturais
△21GW
31GW
• Data : 3/11/2011 14:46
• Escala: 9.0
– Evento mais severo da
história do Japão Antes de 3/11 Depois
– 4o mais severo desde 1900 Japan Meteorological Agency
Danos as plantas elétrias
• Mega tsunami impactou o
NE do Japão
– Invadiu 6km a partir da
paria
– Parede de 40,5m no distrito
de Iwate
• Imediatamente depois do
terremoto
– Perdia 21GW de geração de
energia elétrica (Tokyo
Electric Power Co.)
Créditos: Tokyo & Tohoku Electric Power; Tokyo Electric Power Co. Inc.
9. Mapa térmico - otimização
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
10. Medindo o Ganho Energético
Consumo de Potência
do Servidor
P não gerenciado
P atual
t1 t t2
Note que mecanismos que permitem economia significativa de potência
pode não promover ganhos de economia de energia
11. Computação Proporcional a Potência
Patual = Pbase + PspreadL
Potência Proporcional a Computação
500
450
400
350
Pspread
Consumo de Potência (W)
5300
300
5400
250
5500
200 5600
E5-2600
150
100
50
0
Pbase Pmax
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
12. Estratégia de Desligar Servidores
#Servidores
Total N = 7
6
5
Servidores
desligados 4
3
2
1
Servidores
ativos
4:00 AM Hora do dia 4:00 AM
CPU idle (W) Cluster (W) Pmin (W)
5300 405 2835 14%
5400 360 2520 14%
5500 225 1575 14%
5600 150 1050 14%
E5-2600 96 672 14%
13. Eficiência em função da demanda
Consumo de potência
1.0 normalizado
Eficiência Normalizada (MIPS/Watts)
Eficiência = 1 em 1.0 de utilização de CPU
0.5
Área típica de operação de
Data Centers Consumo de CPU
normalizado
0.5 1.0
14. Eficiência de um cluster de “n” servidores em função da
demanda
Consumo de potência
normalizado
1.0
Eficiência Normalizada (MIPS/Watts)
Eficiência = 1 em 1.0 de utilização de CPU
0.5
Área típica de operação de
Data Centers Consumo de CPU
normalizado
0.5 1.0
15. Estratégias de Economia de Energia
• O padrão ACPI define três níveis para realizar o parking dos
servidores não utilizados no cluster:
– S3: sleep to memory: normalmente consome ~10% do valor de pico e leva ~2min
para voltar ao estado S0;
– S4: hibernation: normalmente consome ~3% do valor de pico e o tempo para voltar
a S0 varia de acordo com a quantidade de memória e capacidade de I/O;
– S5: soft off: consome ~3% (o mesmo que em S4) e pode levar aproximadamente
15min para a maioria dos ambientes;
N1 N1
N2 N2
Nn Nn
Servidores ativos Servidores estacionados
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
16. Estratégia de Platôs
Consumo de potência como
uma % da carga máxima
10%
Standby (S3)
70%
Servidores com
power capping
50%
Idle
100%
Servidores sem
limitação
5%
Hibernado/desligado
Proibida cópia ou divulgação sem (S4/5)
permissão escrita do CMG Brasil.
17. Gestão Energética: Prova de Conceito na Telefónica I+D
Tamanho do Grupo
N=2
120
100
80
60
40 Load (Injector
threads)
20
0
0:00:00
0:30:00
1:00:00
1:30:00
2:00:00
2:30:00
3:00:02
3:30:00
4:00:00
4:30:01
5:00:00
5:30:01
6:00:00
6:30:01
7:00:00
7:30:00
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
18. Sumário
• Gerenciamento de Potência e Gestão de Energia no Data Center é uma
disciplina pouco explorada mas que paga os seus dividendos
• Evoluir nos modelos de maturidade, que trazem os maiores retornos
leva tempo: necessita vivencia no ambiente de como essas
características influenciam no consumo de potência e como criar
mecanismos que trazem retorno sem impactar o negócio;
• Melhor gerenciamento de potência/gestão de energia é o caminho para
incorporar a conta de energia ao custo de VMs – o real pay-as-you-go
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
19. Obrigado!
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.