SRE Specialist
- Tempo integral
Descrição da empresa
A tribo Plataforma tem como propósito principal fornecer as bases e serviços essenciais para o desenvolvimento e operação de sistemas de software como um conjunto de ferramentas e serviços padronizados para acelerar o desenvolvimento de novas funcionalidades, melhorar a eficiência e garantir a consistência em toda a organização. Somos um time diversificado e espalhado pelo mundo, adoramos desafios e lidamos muito bem com mudanças. Lidar com culturas diferentes faz parte do nosso dia a dia.
A missão da pessoa SRE por aqui é garantir a segurança, confiabilidade, disponibilidade e desempenho da plataforma, dos produtos e dos serviços essenciais, isso inclui a implementação de práticas de segurança, monitoramento de desempenho, solução de problemas e a adoção de boas práticas de engenharia, lidar com ecossistema diverso em tecnologia, se empolgar em aprender e testar tecnologias modernas, trabalhar e evoluir com pessoas do mundo inteiro. Impactar de forma global as soluções digitais do Agro e usar a tecnologia como ferramenta para solução de problemas reais de produtores ao redor do mundo.
Aceita o desafio?
Descrição do emprego
🌿🦾 Bora traduzir em atividades?
- Certificar-se de que os sistemas e serviços em sua área local sejam confiáveis, disponíveis e escaláveis, e atendam ou excedam nossos SLOs e SLAs;
- Trabalhar com a equipe global de SRE para projetar, implementar e operar software de forma confiável, escalável e econômica, além de contribuir para a padronização de práticas, ferramentas e soluções;
- Participar de discussões globais sobre padronização de práticas, ferramentas e soluções e fornecer feedback sobre como melhorá-las;
- Monitorar sistemas e serviços para identificar e resolver problemas antes que eles afetem os usuários;
- Trabalhar na criação e manutenção de ferramentas e automações para facilitar as operações e melhorar a confiabilidade dos sistemas. Isso pode envolver a codificação de scripts, desenvolvimento de ferramentas internas e contribuições para projetos de código aberto;
- Estabelecer e manter sistemas de monitoramento para coletar métricas, registros (logs) e rastreamentos (traces) dos sistemas em produção e utilizar ferramentas de monitoramento para identificar problemas de desempenho, anomalias e tendências que possam afetar a confiabilidade do serviço;
- Desempenhar um papel crucial na gestão de incidentes com respostas rápidas a interrupções, problemas de desempenho ou outras falhas operacionais, investigar as causas raiz e implementar medidas corretivas para evitar recorrências. Trabalhar em planos de resposta a incidentes e na melhoria contínua dos processos de recuperação;
- Analisar o desempenho dos sistemas e fazer previsões de capacidade para garantir que os recursos estejam disponíveis para suportar a demanda esperada. Colaborar com as equipes de desenvolvimento para projetar e implementar estratégias de escalabilidade, como ajuste automático de recursos e adoção de arquiteturas resilientes;
- Definir e aplicar práticas de engenharia de confiabilidade de sistemas (SRE) para melhorar a confiabilidade e a disponibilidade dos sistemas. Isso pode incluir a implementação de testes de estresse, técnicas de redução de falhas, atualizações controladas, lançamentos canários (canary releases) e práticas de gestão de mudanças;
- Atuar como uma ponte entre as equipes de desenvolvimento e operações. Colaborar com engenheiros de software para melhorar a confiabilidade dos sistemas desde a fase de design e também fornecer suporte técnico para resolver problemas operacionais;
- Desenvolver e implementar planos de resposta a incidentes para minimizar o impacto de interrupções.
Qualificações
📎📢 E o que você precisa ter pra fazer isso bem?
- Experiência com gerenciamento de incidentes, incluindo identificação, diagnóstico e resolução de incidentes.
- Entendimento de acordos de nível de serviço (SLAs) e objetivos de nível de serviço (SLOs).
- Familiaridade com ferramentas de monitoramento e alerta, como DataDog, Prometheus, Grafana, Nagios e Splunk;
- Familiaridade com as melhores práticas e padrões globais para SRE;
- Experiência com projeto e implementação de sistemas altamente disponíveis, escaláveis e tolerantes a falhas;
- Experiência com ferramentas de automação como Ansible, Chef, Puppet, Terraform ou similares;
- Experiência com plataformas de conteinerização e orquestração de contêineres, como Docker e Kubernetes;
- Experiência em ferramentas de integração contínua e entrega contínua, como Jenkins, GitLab CI/CD, GitHub Actions ou CircleCI para automatizar o pipeline de desenvolvimento e implantação de software;
- Conhecimentos em linguagens de programação populares como Python, Go, Java, Typescript para desenvolvimento de ferramentas, scripts e automações necessárias para a função de SRE;
- Experiencia em ferramentas como Elasticsearch, Logstash, Kibana (ELK Stack) ou Jaeger para coletar, analisar e visualizar logs e rastreamentos para solução de problemas e análise de desempenho;
- Será um diferencial possuir habilidades de liderança, com a capacidade de orientar e liderar uma equipe de engenheiros em sua área local;
- Experiência em gerenciamento de projetos, com a capacidade de gerenciar vários projetos e prioridades simultaneamente;
- Inglês Avançado;
- Fortes habilidades de resolução de problemas, com a capacidade de pensar criativa e estrategicamente para resolver problemas técnicos complexos.
Informações Adicionais
🍀👀 Além do ecossistema f#d@, o que você ganha com isso?
- Muita atenção à sua saúde física e mental, com plano de saúde, odontológico, acompanhamento psicológico, nutricional e Gympass para você e seus dependentes;
- Cuidado para que você também tenha projetos incríveis fora do trabalho, com desconto corporativo para viagens pessoais, apoio para questões jurídicas e financeiras (EAP), auxílio creche e licença maternidade/paternidade estendida;
- Boost no seu desenvolvimento, via plataformas para desenvolvimento pessoal e técnico, como Alura, Cambly, O'Reilly e Degreed;
- Benefícios de mercado, mas que a gente adora, tipo seguro de vida, vale Alimentação/Refeição e vale transporte;
- Ah, e claro, seu horário é flexível independente da modalidade de trabalho, e se você optar por trabalhar remotamente, temos auxílio home office ($$).
#ColherUmFuturoMelhor.