Entendendo o Tempo Médio de Resolução (MTTR)
O tempo médio de resolução, conhecido pela sigla MTTR, se trata do tempo médio necessário para realizar o reparo de uma falha e devolver um equipamento ao seu estado normal de funcionamento.
Esse tempo é quantificado desde o início da identificação de um acidente ou interrupção de uma máquina até que o seu sistema volte a funcionar normalmente e em um estado íntegro.
Nesse cenário, um tempo médio de resolução alto pode indicar que trocar um ativo é uma opção mais barata ou preferível ao seu reparo.
Já um MTTR mais baixo pode ser um indicativo de que solucionar essa falha é a melhor opção para aquele ativo.
De qualquer maneira, quando falamos dessa métrica, o ideal é sempre reduzi-la para minimizar e evitar inatividade e prejuízos ao seu negócio.
MTTR e MTBF: diferenças entre os indicadores
Embora o MTTR e o MTBF possam ser usados juntos, eles são indicadores diferentes.
O MTTR, como explicamos acima, se trata do tempo que uma equipe leva para fazer um reparo de uma máquina ou equipamento, logo, quanto menor for esse tempo, melhor.
Enquanto isso, o MTBF se responsabiliza por indicar a disponibilidade de um certo ativo.
Deste modo, o MTTR deve ter como objetivo, reduzir o indicador ao máximo para que a produtividade dos colaboradores de um negócio não seja afetada pela pausa dos equipamentos, enquanto o MTBF funciona ao contrário, ou seja, o ideal é que ele esteja sempre aumentando.
A importância do MTTR em operações de manutenção
O MTTR é importante em operações de manutenção porque ele traz diversos benefícios a essa atividade, como:
- melhor direcionamento de recursos: mesmo que esse indicador não apresente resultados satisfatórios, você sabe exatamente o que precisa fazer para melhorar as operações, pois ele mostra exatamente quais setores da empresa requerem alterações.
- identificação de falhas mais precisas: os relatórios gerados por esse indicador abrem espaço para que você identifique qual a raiz da manutenção realizada, o tipo de falha, o tempo que foi gasto no reparo e o seu impacto no desempenho da máquina.
- possibilidade de elaborar soluções: quando você descobre qual a razão da interrupção de uma máquina ou equipamento por meio deste indicador, é possível saber quanto tempo levará o conserto e o que fazer deste momento em diante para ter soluções definitivas e não apenas corretivas.
- geração de um senso de urgência: como o MTTR é exato, ele cria um senso de urgência no time, algo que é essencial para que os reparos sejam realizados com eficiência e agilidade para que a empresa não precise enfrentar esses problemas futuramente.
- chance de usar novos indicadores: outros pontos podem ser mensurados com base nos resultados obtidos por esse indicador, como a mantenabilidade do equipamento, um indicador que mostra a probabilidade da mesma falha acontecer novamente.
Quando e como usar o indicador MTTR?
O indicador MTTR deve ser usado para ajudar em decisões que envolvem troca ou reparo de ativos, no aumento da efetividade das manutenções preventivas e para avaliar e melhorar processos e planejamento de compras.
Na sequência, entramos em mais detalhes sobre esses momentos e como usar o indicador.
Auxílio em decisões quanto troca ou reparo de ativos
Como falamos acima, o MTBF e o MTTR andam de mãos dadas, pois o MTBF é uma métrica para falhas em sistemas reparáveis e o MTTR é mais usado para falhas que solicitam uma troca do sistema.
Para esclarecer melhor, imagine o motor de um carro. Para fazer o cálculo do tempo entre as manutenções não programadas deste motor, você usa o MTBF, ou seja, o tempo médio entre falhas.
Já para calcular o tempo entre a substituição do motor completo, você usa a MTTR.
Aumento na efetividade das manutenções preventivas
O programa de manutenção preventiva da sua empresa e as atividades de manutenção produtiva passam a ser mais eficientes e eficazes quando você passa a rastrear o MTTR dos ativos.
Isso porque o tempo médio de resolução é visto como uma porta de entrada para identificar a causa raiz de um problema e é capaz de oferecer um caminho para a solução deste erro.
Permite avaliar e melhorar processos e o planejamento de compras
A tomada de decisões em relação a melhoria de processos e planejamento de compras também se beneficia deste indicador.
Neste cenário, se um ativo está demorando mais tempo para ser reparado à medida que ele envelhece, este indicador pode mostrar que a melhor opção seria substituí-lo, ajudando para que você planeje melhor essa compra.
Desta forma você consegue prever melhor os custos do ciclo de vida dos seus sistemas.
Limitações e considerações quanto o Tempo Médio de Resolução
Uma das primeiras limitações e considerações que fazemos sobre o tempo médio de resolução é que nem sempre ele é o mesmo da interrupção do sistema em si.
Em determinadas situações os reparos iniciam minutos depois da falha ou interrupção de um sistema do equipamento.
Em outras situações existe um tempo de atraso entre o problema, quando a falha é detectada e quando os reparos se iniciam.
Deste modo, este indicador é mais útil ao rastrear a rapidez com que o time de manutenção é capaz de fazer o reparo de um problema.
Ele não se destina a identificar problemas com os alertas do seu sistema ou atrasos que envolvem o pré-reparo.
E ambos os pontos são importantes para avaliar o sucesso e falha dos seus programas de gerenciamento de incidentes.
Cálculo do MTTR: entenda a fórmula e como utilizá-la
O cálculo do MTTR envolve dividir o tempo total de manutenção reativa durante um determinado período pelo número de ações de manutenção reativa que foram feitas, com um resultado que geralmente é apresentado em horas.
Ou seja, a fórmula do MTTR é a seguinte:
MTTR = tempo total de manutenção reativa / número de ações de manutenção reativa
Exemplo de cálculo MTTR
Vamos imaginar que a sua empresa tem uma máquina que funciona 24 horas por dia e 7 dias por semana.
O painel dessa máquina deixou de funcionar às 16h30 e foi reparado pelo time às 20h00.
Entretanto, naquela semana, a porta do equipamento estava emperrada e não funcionou o dia todo.
Neste caso, temos:
Tempo total de manutenção: 27,5 (3,5 na primeira falha; 24 horas na segunda)
Número de reparos: 2
Logo, o cálculo é:
MTTR = 27.5 / 2 = 13.75 horas
3 componentes do MTTR essenciais para reduzir
Os três componentes do MTTR que são essenciais para reduzi-lo são: o tempo de detecção, o tempo de correção e o tempo de recuperação.
Abaixo, entenda melhor sobre esses três componentes.
1. Tempo de detecção
Se outra pessoa informou ao time de TI uma falha em um equipamento ou máquina, você não terá uma boa métrica para o tempo de detecção, pois isso indica que vocês são os últimos a saberem que um sistema está falhando.
Uma forma eficaz de detectar incidentes é usar alertas automatizados que esclarecem toda vez que os indicadores de nível de serviço estão prestes a sofrer um incidente.
2. Tempo de correção
O tempo de correção é aquele que corre a partir do momento que você foi alertado e conseguiu diagnosticar o problema.
Existem diversas abordagens para corrigir uma falha e o ideal é que o time de reparo escolha a maneira mais rápida e eficaz para eliminar esse erro.
3. Tempo de recuperação
O tempo de recuperação envolve um registro completo das métricas para que caso algo dê errado de novo, o time de reparo não precise voltar à estaca zero.
Isso porque ao corrigir um problema, nem sempre ele realmente foi resolvido, ou seja, nem sempre a vitória pode ser cantada assim que o aparelho ou máquina volta ao seu funcionamento normal.
Dicas complementares para melhorar o MTTR
Algumas dicas extras que trazemos para você antes de nos despedirmos neste artigo envolvem a criação de um plano de resposta a incidentes e o ato de fazer análises retrospectivas dos incidentes.
Entenda melhor essas dicas abaixo!
Crie um plano de resposta a incidentes
O plano de resposta a incidentes é um documento que tem todo o planejamento para cada equipe que irá se responsabilizar pela resolução ou para cada tipo de incidente de TI.
Para elaborá-lo, considere:
- fazer um planejamento das as formas de monitoramento dos ativos;
- detectar quaisquer padrões de comportamento anormal de um endpoint;
- mitigar ataques para diminuir os danos dos incidentes;
- erradicar ameaças e vulnerabilidades;
- sanar brechas de segurança e vulnerabilidades das máquinas;
- fazer um mapeamento e documentação de todos os processos.
Faça análises retrospectivas dos incidentes
Ter um histórico de incidentes é um ótimo facilitador na hora de revolucionar os mesmos.
Isso porque os incidentes e falhas sempre vão acontecer onde existir o uso de tecnologias, mas quanto mais completo for um histórico de incidentes, melhores estratégias e ferramentas você terá para a resolução deles.
E isso ocorre porque na prática você conhece a fundo essas falhas que já ocorreram no passado e conseguem ter uma base para mitigar incidentes futuros.
Tecnologia por Assinatura que impulsionam negócios!