80396991 - Engenheiro de Confiabilidade de Operações TI
- Tempo inteiro
- Business Segment: Archived_01_Engineering
Descrição da empresa
Descrição do emprego
Objectivo da Função:
Criar uma ponte entre o desenvolvimento e a manutenção de aplicações com um mindset de engenharia de software à administração de sistemas. O foco da função é nas tarefas que melhoram os aspectos de manutenção/operações de sistemas, utilizando ferramentas e/ou melhorias em código com o objectivo de melhorar a performance e fiabilidade. Requer também a habilidade de construção de ferramentas self-service para os utilizadores nas funções de manutenção e administração de sistemas para automatizar tarefas. Adicionalmente, colaborar com o desenvolvimento para assegurar que as soluções desenvolvidas cumprem os requisitos não funcionais de disponibilidade, desempenho, segurança e manutenibilidade.
Outputs:
• Identificar e implementar mecanismos de redução de ruído (excesso de alertas) e maximização do sinal de notificações de modo a que sejam enviadas apenas para as notificações que requeiram intervenção humana e são directamente relacionadas a um SLO definido e acordado.
• Desenvolver software para automatizar processos manuais para agilizar a detecção e mitigação de problemas.
• Introduzir melhoria contínua no monitoramento, resposta a incidentes e otimização da disponibilidade e desempenho do serviço e sugerir abordagens metódicas para implementação. Comunicar as mudanças propostas em toda a organização para garantir suporte de produção eficiente e estruturado e resposta a emergências.
• Validar as estratégias de recuperação e failover realizando testes de falha do sistema.
• Garantir um sistema eficiente de resposta a incidentes, disponibilizando as informações apropriadas para identificar e corrigir problemas rapidamente.
• Dinamizar a colaboração entre pessoas, processos e tecnologia para colaborar na manutenção de um sistema proativo de resposta e remediação de incidentes.
• Fornecer insights sobre o design e implementação de serviços com foco na segurança, resiliência, escalabilidade e desempenho, tendo um amplo entendimento da configuração de ponta-a-ponta, dependências técnicas e características comportamentais gerais do(s) serviço(s) de produção.
• Identificar e implementar oportunidades de otimização do monitoramento, disponibilidade e desempenho de serviços.
• Definir e comunicar a escala, capacidade, segurança, atributos de desempenho e requisitos do stack tecnológico.
• Fornecer insights e orientações sobre o desempenho e operacionalidade de ponta-a-ponta de um serviço.
• Colaborar com as equipas de desenvolvimento para definir e implementar melhorias na arquitetura de serviços.
• Automatizar o pipeline de CI/CD para a arquitetura legacy e plataformas em containers usando infraestrutura como código e habilidades de desenvolvimento de software para aumentar a velocidade e a qualidade da entrega de software.
• Automatizar o fornecimento e modificações na infraestrutura de ambientes de produção e não-produção para minimizar o desvio de configuração e manter a consistência entre os ambientes.
• Identificar e automatizar o máximo de trabalho manual e repetitivo.
• Definir e implementar mecanismos para monitorar indicadores de nível de serviço para o serviço subjacente, definindo unidades de medida que definem o nível de serviço que os clientes podem esperar do sistema, definir os outputs desejados do sistema em termos de disponibilidade e comunicar a confiabilidade esperada do serviço aos clientes, a fim de facilitar a velocidade com que a organização pode lançar novos desenvolvimentos.
• Impulsionar a melhoria das métricas de desempenho do serviço, como latência, velocidade de carregamento da página e ETL, identificando proativamente problemas de desempenho em todo o sistema, para que os clientes possam utilizar os sistemas em pleno a todo momento.
• Desenhar e implementar soluções de monitoramento para identificar erros de desempenho e manter a disponibilidade do serviço.
• Construir dashboards para melhorar a visibilidade dos processos de compilação e lançamento, desempenho dos sistemas, disponibilidade, latência, taxa de transferência e taxa de erros.
• Conduzir e documentar análises post-mortem e de incidentes e tomar medidas sobre os resultados para maximizar os aprendizados, a fim de evitar incidentes repetidos e melhorar as futuras respostas.
Habilitações
Licenciatura em Tecnologias de Informação ou disciplina relacionada.
Outras qualificações ou certificações profissionais.
Engenharia (inclui Cloud e Resiliência)
5 a 7 anos
Experiência comprovada em desenvolvimento de software de TI e pelo menos uma linguagem de programação e experiência na construção de sistemas escaláveis com arquiteturas orientadas a serviços.
Informações adicionais
Competências Técnicas:
Conhecimento aplicacional para suporte
Gestão de continuidade do negócio
Informação da arquitectura tecnológica
Suporte para a infraestrutura e plataformas
Desenvolvimento TI
Gestão dos processos de service
Utilização de automação de Build
Utilização de versionamento