Expert RSE senior (+5 ans)

Temps complet

Description de l'entreprise

Tilencia est une société de conseil spécialisée dans les activités de Cybersécurité et de DevOps.

Notre ADN et nos valeurs :

L'humain au centre
Détection de talents
Suivi, coaching
Solutions cousues main

Et surtout prendre du plaisir ;)

Description du poste

Nous recherchons un SRE senior capable de structurer et industrialiser les pratiques SRE au sein de la DSI Digitale et d’accompagner les équipes Produit afin de renforcer la fiabilité et la performance des services Digitaux, tout en augmentant l’autonomie des équipes produits et en réduisant l’incidentologie.

L'équipe SRE, en cours de construction au sein de la DSI Digitale, est composée de 2 SRE et d'un manager.

Elle couvre l'ensemble du périmètre Digital : applications métier, socles backend/frontend, et plateformes Data.

Le prestataire intégrera l'équipe en tant que SRE confirmé à forte composante développement, avec pour priorité l'outillage, l'automatisation et la montée en compétences des équipes produits sur les pratiques SRE - y compris les pratiques émergentes autour de l'IA.

Tâches principales (attendues dès le démarrage)

Développer et maintenir des outils d'automatisation SRE : scripts d'exploitation, automatisation des opérations récurrentes, infrastructure as code (Helm, Kustomize, template IaC), intégration dans les pipelines CI/CD (Jenkins / GitLab CI)
Améliorer l'observabilité : mise en place et enrichissement de dashboards (Prometheus/Grafana, ELK/Opensearch, APM), définition d'alertes pertinentes, réduction du bruit, suivi de la fiabilité et des performances
Réduire la dette opérationnelle : produire une cartographie priorisée des chantiers et les traiter par itérations
Accompagner les équipes produits : être un des référents SRE auprès des équipes de développement, co-construire les pratiques (revues de déploiement, readiness checklists, définition des SLO/SLA), aider opérationnellement les équipes dans la mise en place des outils/pratiques, documenter et partager les standards
Intégrer des pratiques SRE IA : contribuer à l'outillage IA et identifier les opportunités d'AIOps pour améliorer la fiabilité des systèmes

Tâches secondaires (montée en charge progressive)

Contribuer à la gestion des incidents majeurs et aux post-mortems
Participer au renforcement de la résilience (tests de reprise, chaos engineering)
Contribuer à la définition du framework SLO/SLA et des error budgets
Participer au suivi de la capacité et à l'optimisation des coûts AWS

Qualifications

Environnement technique :

Cloud & infra : AWS (EC2, EKS, S3, RDS…) - bonne maîtrise requise
Orchestration : Kubernetes, Docker
CI/CD : Jenkins / GitLab CI, Helm
Observabilité : Prometheus/Grafana, ELK/Opensearch,
Langages : Java ou Python (principal), Bash
Messaging : Kafka VCS : Git
Pratiques : SRE, DevOps, GitOps, sécurité by design (secrets, IAM, durcissement)
Environnement applicatif : Java 17/21 - Quarkus 3, Angular, MySQL 8, Maven/NPM, SonarQube

Compétences requises (= obligatoires) :

Expérience significative en production sur des systèmes distribués critiques
Solide maîtrise de Java ou Python pour le développement d'outils et d'automatisations SRE
Bonnes bases Linux (réseau, process, filesystem, troubleshooting)
Expérience concrète des pratiques SRE : métriques, dashboards, alertes, gestion d'incidents, post-mortems, SLO/SLA
Maîtrise de Kubernetes et d'AWS (services principaux)
Expérience avec une chaîne CI/CD (Jenkins ou GitLab CI)
Capacité à collaborer étroitement avec des équipes de développement en contexte agile
Capacité à documenter clairement et à accompagner l'adoption des pratiques par des équipes non-SRE
Niveau d'anglais opérationnel (lecture/écriture technique)

Informations complémentaires

Compétences facultatives mais appréciées (= clairement un plus) :

Expérience ou appétence pour les pratiques SRE appliquées à l'IA (AIOps)
Pratiques GitOps (ArgoCD)
Expérience en chaos engineering / game days
Connaissance des bonnes pratiques de sécurité en production (gestion des secrets, IAM, politiques réseau)
Expérience en optimisation des coûts cloud AWS
Expérience multi-équipes produit ou multi-périmètres

Qualités humaines recherchées :

Forte orientation fiabilité/service, pragmatisme opérationnel
Goût pour le développement et l'outillage, pas uniquement pour les pratiques théoriques
Esprit d'initiative et autonomie dans un cadre d'équipe en construction
Capacité à vulgariser et à embarquer des équipes de développement
Curiosité technologique, appétence pour l'amélioration continue et les pratiques SRE émergentes (IA incluse)

Je suis intéressé(e)

Avis de confidentialité