SRE Specialist

Tempo integral

Descrição da empresa

A tribo Plataforma tem como propósito principal fornecer as bases e serviços essenciais para o desenvolvimento e operação de sistemas de software como um conjunto de ferramentas e serviços padronizados para acelerar o desenvolvimento de novas funcionalidades, melhorar a eficiência e garantir a consistência em toda a organização. Somos um time diversificado e espalhado pelo mundo, adoramos desafios e lidamos muito bem com mudanças. Lidar com culturas diferentes faz parte do nosso dia a dia.

A missão da pessoa SRE por aqui é garantir a segurança, confiabilidade, disponibilidade e desempenho da plataforma, dos produtos e dos serviços essenciais, isso inclui a implementação de práticas de segurança, monitoramento de desempenho, solução de problemas e a adoção de boas práticas de engenharia, lidar com ecossistema diverso em tecnologia, se empolgar em aprender e testar tecnologias modernas, trabalhar e evoluir com pessoas do mundo inteiro. Impactar de forma global as soluções digitais do Agro e usar a tecnologia como ferramenta para solução de problemas reais de produtores ao redor do mundo.

Aceita o desafio?

Descrição do emprego

🌿🦾 Bora traduzir em atividades?

Certificar-se de que os sistemas e serviços em sua área local sejam confiáveis, disponíveis e escaláveis, e atendam ou excedam nossos SLOs e SLAs;
Trabalhar com a equipe global de SRE para projetar, implementar e operar software de forma confiável, escalável e econômica, além de contribuir para a padronização de práticas, ferramentas e soluções;
Participar de discussões globais sobre padronização de práticas, ferramentas e soluções e fornecer feedback sobre como melhorá-las;
Monitorar sistemas e serviços para identificar e resolver problemas antes que eles afetem os usuários;
Trabalhar na criação e manutenção de ferramentas e automações para facilitar as operações e melhorar a confiabilidade dos sistemas. Isso pode envolver a codificação de scripts, desenvolvimento de ferramentas internas e contribuições para projetos de código aberto;
Estabelecer e manter sistemas de monitoramento para coletar métricas, registros (logs) e rastreamentos (traces) dos sistemas em produção e utilizar ferramentas de monitoramento para identificar problemas de desempenho, anomalias e tendências que possam afetar a confiabilidade do serviço;
Desempenhar um papel crucial na gestão de incidentes com respostas rápidas a interrupções, problemas de desempenho ou outras falhas operacionais, investigar as causas raiz e implementar medidas corretivas para evitar recorrências. Trabalhar em planos de resposta a incidentes e na melhoria contínua dos processos de recuperação;
Analisar o desempenho dos sistemas e fazer previsões de capacidade para garantir que os recursos estejam disponíveis para suportar a demanda esperada. Colaborar com as equipes de desenvolvimento para projetar e implementar estratégias de escalabilidade, como ajuste automático de recursos e adoção de arquiteturas resilientes;
Definir e aplicar práticas de engenharia de confiabilidade de sistemas (SRE) para melhorar a confiabilidade e a disponibilidade dos sistemas. Isso pode incluir a implementação de testes de estresse, técnicas de redução de falhas, atualizações controladas, lançamentos canários (canary releases) e práticas de gestão de mudanças;
Atuar como uma ponte entre as equipes de desenvolvimento e operações. Colaborar com engenheiros de software para melhorar a confiabilidade dos sistemas desde a fase de design e também fornecer suporte técnico para resolver problemas operacionais;
Desenvolver e implementar planos de resposta a incidentes para minimizar o impacto de interrupções.

Qualificações

📎📢 E o que você precisa ter pra fazer isso bem?

Experiência com gerenciamento de incidentes, incluindo identificação, diagnóstico e resolução de incidentes.
Entendimento de acordos de nível de serviço (SLAs) e objetivos de nível de serviço (SLOs).
Familiaridade com ferramentas de monitoramento e alerta, como DataDog, Prometheus, Grafana, Nagios e Splunk;
Familiaridade com as melhores práticas e padrões globais para SRE;
Experiência com projeto e implementação de sistemas altamente disponíveis, escaláveis e tolerantes a falhas;
Experiência com ferramentas de automação como Ansible, Chef, Puppet, Terraform ou similares;
Experiência com plataformas de conteinerização e orquestração de contêineres, como Docker e Kubernetes;
Experiência em ferramentas de integração contínua e entrega contínua, como Jenkins, GitLab CI/CD, GitHub Actions ou CircleCI para automatizar o pipeline de desenvolvimento e implantação de software;
Conhecimentos em linguagens de programação populares como Python, Go, Java, Typescript para desenvolvimento de ferramentas, scripts e automações necessárias para a função de SRE;
Experiencia em ferramentas como Elasticsearch, Logstash, Kibana (ELK Stack) ou Jaeger para coletar, analisar e visualizar logs e rastreamentos para solução de problemas e análise de desempenho;
Será um diferencial possuir habilidades de liderança, com a capacidade de orientar e liderar uma equipe de engenheiros em sua área local;
Experiência em gerenciamento de projetos, com a capacidade de gerenciar vários projetos e prioridades simultaneamente;
Inglês Avançado;
Fortes habilidades de resolução de problemas, com a capacidade de pensar criativa e estrategicamente para resolver problemas técnicos complexos.

Informações Adicionais

🍀👀 Além do ecossistema f#d@, o que você ganha com isso?

Muita atenção à sua saúde física e mental, com plano de saúde, odontológico, acompanhamento psicológico, nutricional e Gympass para você e seus dependentes;
Cuidado para que você também tenha projetos incríveis fora do trabalho, com desconto corporativo para viagens pessoais, apoio para questões jurídicas e financeiras (EAP), auxílio creche e licença maternidade/paternidade estendida;
Boost no seu desenvolvimento, via plataformas para desenvolvimento pessoal e técnico, como Alura, Cambly, O'Reilly e Degreed;
Benefícios de mercado, mas que a gente adora, tipo seguro de vida, vale Alimentação/Refeição e vale transporte;
Ah, e claro, seu horário é flexível independente da modalidade de trabalho, e se você optar por trabalhar remotamente, temos auxílio home office ($$).

#ColherUmFuturoMelhor.

Política de privacidade