80396991 - Engenheiro de Confiabilidade de Operações TI

  • Tempo inteiro
  • Business Segment: Archived_01_Engineering

Descrição da empresa

Standard Bank Group is a leading Africa-focused financial services group, and an innovative player on the global stage, that offers a variety of career-enhancing opportunities – plus the chance to work alongside some of the sector’s most talented, motivated professionals. Our clients range from individuals, to businesses of all sizes, high net worth families and large multinational corporates and institutions. We’re passionate about creating growth in Africa. Bringing true, meaningful value to our clients and the communities we serve and creating a real sense of purpose for you.

Descrição do emprego

Objectivo da Função:

Criar uma ponte entre o desenvolvimento e a manutenção de aplicações com um mindset de engenharia de software à administração de sistemas. O foco da função é nas tarefas que melhoram os aspectos de manutenção/operações de sistemas, utilizando ferramentas e/ou melhorias em código com o objectivo de melhorar a performance e fiabilidade. Requer também a habilidade de construção de ferramentas self-service para os utilizadores nas funções de manutenção e administração de sistemas para automatizar tarefas. Adicionalmente, colaborar com o desenvolvimento para assegurar que as soluções desenvolvidas cumprem os requisitos não funcionais de disponibilidade, desempenho, segurança e manutenibilidade. 

Outputs:

•    Identificar e implementar mecanismos de redução de ruído (excesso de alertas) e maximização do sinal de notificações de modo a que sejam enviadas apenas para as notificações que requeiram intervenção humana e são directamente relacionadas a um SLO definido e acordado. 
•    Desenvolver software para automatizar processos manuais para agilizar a detecção e mitigação de problemas.
•    Introduzir melhoria contínua no monitoramento, resposta a incidentes e otimização da disponibilidade e desempenho do serviço e sugerir abordagens metódicas para implementação. Comunicar as mudanças propostas em toda a organização para garantir suporte de produção eficiente e estruturado e resposta a emergências.
•    Validar as estratégias de recuperação e failover realizando testes de falha do sistema.
•    Garantir um sistema eficiente de resposta a incidentes, disponibilizando as informações apropriadas para identificar e corrigir problemas rapidamente.
•    Dinamizar a colaboração entre pessoas, processos e tecnologia para colaborar na manutenção de um sistema proativo de resposta e remediação de incidentes.
•    Fornecer insights sobre o design e implementação de serviços com foco na segurança, resiliência, escalabilidade e desempenho, tendo um amplo entendimento da configuração de ponta-a-ponta, dependências técnicas e características comportamentais gerais do(s) serviço(s) de produção.
•    Identificar e implementar oportunidades de otimização do monitoramento, disponibilidade e desempenho de serviços.
•    Definir e comunicar a escala, capacidade, segurança, atributos de desempenho e requisitos do stack tecnológico.
•    Fornecer insights e orientações sobre o desempenho e operacionalidade de ponta-a-ponta de um serviço.
•    Colaborar com as equipas de desenvolvimento para definir e implementar melhorias na arquitetura de serviços.
•    Automatizar o pipeline de CI/CD para a arquitetura legacy e plataformas em containers usando infraestrutura como código e habilidades de desenvolvimento de software para aumentar a velocidade e a qualidade da entrega de software.
•    Automatizar o fornecimento e modificações na infraestrutura de ambientes de produção e não-produção para minimizar o desvio de configuração e manter a consistência entre os ambientes.
•    Identificar e automatizar o máximo de trabalho manual e repetitivo.
•    Definir e implementar mecanismos para monitorar indicadores de nível de serviço para o serviço subjacente, definindo unidades de medida que definem o nível de serviço que os clientes podem esperar do sistema, definir os outputs desejados do sistema em termos de disponibilidade e comunicar a confiabilidade esperada do serviço aos clientes, a fim de facilitar a velocidade com que a organização pode lançar novos desenvolvimentos. 
•    Impulsionar a melhoria das métricas de desempenho do serviço, como latência, velocidade de carregamento da página e ETL, identificando proativamente problemas de desempenho em todo o sistema, para que os clientes possam utilizar os sistemas em pleno a todo momento.
•    Desenhar e implementar soluções de monitoramento para identificar erros de desempenho e manter a disponibilidade do serviço.
•    Construir dashboards para melhorar a visibilidade dos processos de compilação e lançamento, desempenho dos sistemas, disponibilidade, latência, taxa de transferência e taxa de erros.
•    Conduzir e documentar análises post-mortem e de incidentes e tomar medidas sobre os resultados para maximizar os aprendizados, a fim de evitar incidentes repetidos e melhorar as futuras respostas.
 

Habilitações

Licenciatura em Tecnologias de Informação ou disciplina relacionada. 

Outras qualificações ou certificações profissionais.

Engenharia (inclui Cloud e Resiliência)    
5 a 7 anos    
Experiência comprovada em desenvolvimento de software de TI e pelo menos uma linguagem de programação e experiência na construção de sistemas escaláveis com arquiteturas orientadas a serviços.
 

Informações adicionais

Competências Técnicas:

Conhecimento aplicacional para suporte

Gestão de continuidade do negócio

Informação da arquitectura tecnológica

Suporte para a infraestrutura e plataformas

Desenvolvimento TI

Gestão dos processos de service

Utilização de automação de Build

Utilização de versionamento

Política de Privacidade