Expert RSE senior (+5 ans)

  • Temps complet

Description de l'entreprise

Tilencia est une société de conseil spécialisée dans les activités de Cybersécurité et de DevOps.

Notre ADN et nos valeurs :

  • L'humain au centre
  • Détection de talents
  • Suivi, coaching
  • Solutions cousues main

Et surtout prendre du plaisir ;)

Description du poste

Nous recherchons un SRE senior capable de structurer et industrialiser les pratiques SRE au sein de la DSI Digitale et d’accompagner les équipes Produit afin de renforcer la fiabilité et la performance des services Digitaux, tout en augmentant l’autonomie des équipes produits et en réduisant l’incidentologie.

L'équipe SRE, en cours de construction au sein de la DSI Digitale, est composée de 2 SRE et d'un manager.

Elle couvre l'ensemble du périmètre Digital : applications métier, socles backend/frontend, et plateformes Data.

Le prestataire intégrera l'équipe en tant que SRE confirmé à forte composante développement, avec pour priorité l'outillage, l'automatisation et la montée en compétences des équipes produits sur les pratiques SRE - y compris les pratiques émergentes autour de l'IA.

Tâches principales (attendues dès le démarrage)

  • Développer et maintenir des outils d'automatisation SRE : scripts d'exploitation, automatisation des opérations récurrentes, infrastructure as code (Helm, Kustomize, template IaC), intégration dans les pipelines CI/CD (Jenkins / GitLab CI)
  • Améliorer l'observabilité : mise en place et enrichissement de dashboards (Prometheus/Grafana, ELK/Opensearch, APM), définition d'alertes pertinentes, réduction du bruit, suivi de la fiabilité et des performances
  • Réduire la dette opérationnelle : produire une cartographie priorisée des chantiers et les traiter par itérations
  • Accompagner les équipes produits : être un des référents SRE auprès des équipes de développement, co-construire les pratiques (revues de déploiement, readiness checklists, définition des SLO/SLA), aider opérationnellement les équipes dans la mise en place des outils/pratiques, documenter et partager les standards
  • Intégrer des pratiques SRE IA : contribuer à l'outillage IA et identifier les opportunités d'AIOps pour améliorer la fiabilité des systèmes

Tâches secondaires (montée en charge progressive)

  • Contribuer à la gestion des incidents majeurs et aux post-mortems
  • Participer au renforcement de la résilience (tests de reprise, chaos engineering)
  • Contribuer à la définition du framework SLO/SLA et des error budgets
  • Participer au suivi de la capacité et à l'optimisation des coûts AWS

 

Qualifications

Environnement technique :

  • Cloud & infra : AWS (EC2, EKS, S3, RDS…) - bonne maîtrise requise
  • Orchestration : Kubernetes, Docker
  • CI/CD : Jenkins / GitLab CI, Helm
  • Observabilité : Prometheus/Grafana, ELK/Opensearch,
  • Langages : Java ou Python (principal), Bash
  • Messaging : Kafka VCS : Git
  • Pratiques : SRE, DevOps, GitOps, sécurité by design (secrets, IAM, durcissement)
  • Environnement applicatif : Java 17/21 - Quarkus 3, Angular, MySQL 8, Maven/NPM, SonarQube

Compétences requises (= obligatoires) :

  • Expérience significative en production sur des systèmes distribués critiques
  • Solide maîtrise de Java ou Python pour le développement d'outils et d'automatisations SRE
  • Bonnes bases Linux (réseau, process, filesystem, troubleshooting)
  • Expérience concrète des pratiques SRE : métriques, dashboards, alertes, gestion d'incidents, post-mortems, SLO/SLA
  • Maîtrise de Kubernetes et d'AWS (services principaux)
  • Expérience avec une chaîne CI/CD (Jenkins ou GitLab CI)
  • Capacité à collaborer étroitement avec des équipes de développement en contexte agile
  • Capacité à documenter clairement et à accompagner l'adoption des pratiques par des équipes non-SRE
  • Niveau d'anglais opérationnel (lecture/écriture technique)

Informations complémentaires

Compétences facultatives mais appréciées (= clairement un plus) :

  • Expérience ou appétence pour les pratiques SRE appliquées à l'IA (AIOps)
  • Pratiques GitOps (ArgoCD)
  • Expérience en chaos engineering / game days
  • Connaissance des bonnes pratiques de sécurité en production (gestion des secrets, IAM, politiques réseau)
  • Expérience en optimisation des coûts cloud AWS
  • Expérience multi-équipes produit ou multi-périmètres

Qualités humaines recherchées :

  • Forte orientation fiabilité/service, pragmatisme opérationnel
  • Goût pour le développement et l'outillage, pas uniquement pour les pratiques théoriques
  • Esprit d'initiative et autonomie dans un cadre d'équipe en construction
  • Capacité à vulgariser et à embarquer des équipes de développement
  • Curiosité technologique, appétence pour l'amélioration continue et les pratiques SRE émergentes (IA incluse)

 

Avis de confidentialité