Usando atop para analisar gargalos de performance no Sophos UTM

30 de dez. de 2014
2 min de leitura

Há ocasiões que o seu Sophos UTM está lento e você precisa descobrir o motivo. Será que gargalo de CPU? Será que é sobrecarga de rede? Ou talvez a quantidade de IO de disco?

A primeira ferramenta que o administrador adicional de sistemas baseados em Linux costuma lançar mão é o top. Ele dá um apanhado momentâneo do que está acontecendo no equipamento com relação ao consumo de recursos como CPU e memória, mas possui um conjunto limitado de dados.

O principal valor a se observar é o LOAD. Um load alto diz muito mais do que uma CPU bastante utilizada pois, a grosso modo, uma CPU com 100% de uso não é necessariamente ruim, desde que não haja muita demanda para além disso.

Já o LOAD é um valor que quantifica os processos que estão esperando para serem executados no equipamento, seja por conta da falta de CPU ou por qualquer outro motivo.

Quando o WA (wait) está alto, significa que há processos aguardando ciclos de CPU para serem executados, que é justamente o que provoca o aumento do LOAD. Se há CPU em uso e os valores de US e SY estão baixos, provavelmente não há um gargalo de CPU. Essa “espera” por ciclos tem outra origem.

O mais comum é que o sistema esteja aguardando IO de disco para dar prosseguimento a execução das tarefas. Menos comum é o sistema estar sendo sobrecarregado de interrupções, ou seja, eventos que fazem o foco da CPU mudar.

Em um firewall isso é comum de se observar durante eventos de rajadas de pacotes, em que as interrupções das placas de rede sobrecarregam o sistema. Mas isso precisa ser corroborado com um pico de consumo nos relatórios de uso das interfaces de rede (Reporting > Network Usage).

Em uma saída padrão do top não temos muitas informações para analisar. Melhor seria você executar o “atop”, que tem o mesmo objetivo, mas analisa outros aspectos do sistema e ordena os processos por consumo de recursos, sejam eles CPU, disco etc.

Basta executar o atop, usar o atalho “A” (ativa o auto-mode) e aguardar alguns segundos.

A linha que começa com DSK é a que diz quanto de IO de disco o sistema está consumindo. Valores acima de 80% denotam gargalo. Essa linha vai ficar vermelha e a coluna CMD vai te dizer qual é o processo responsável por esse consumo.

As linhas NET | eth* mostram se a sobrecarga vem no tráfego de rede.

Maximize a tela do seu terminal quando estiver fazendo esse acompanhamento, pois quanto mais espaço tiver, mais colunas o atop exibe e mais informações você consegue acompanhar.

Caso precise fazer esse acompanhamento em um histórico de uso (por exemplo, o problema ocorre de madrugada e não tem ninguém olhando o atop), é possível fazê-lo armazenar os dados para análise posterior.

Entre em contato conosco para mais informações.

Múltiplos fatores

BLOG

Usando atop para analisar gargalos de performance no Sophos UTM

Posts recentes

Comentários