SRE Observabilité et Automatisation
- Temps complet
Description de l'entreprise
Depuis 70 ans, notre collectif de 8 000 collaborateurs passionnés accompagnent et réinventent le quotidien des Français. Bien plus qu’un leader de l'électroménager, avec 220 magasins et notre plateforme digitale, nous faisons mieux que vendre : nous rendons service.
Nous nous engageons pour un commerce plus humain, responsable porté par des valeurs fortes : être Pro grâce à nos expertises, Simple en restant accessible, et Sympa en cultivant la bonne humeur !
Plus qu'une enseigne, rejoignez une entreprise où l’on vient pour apprendre, grandir et réussir ensemble. Boulanger : Plaisir partagé !
Description du poste
Dans le cadre du renforcement de nos équipes techniques, nous recherchons un(e) SRE Observabilité afin de contribuer à la fiabilité, la supervision et l’automatisation des opérations IT du groupe.
Intégré(e) à l’équipe Outils de Production, vous participerez à la construction et à l’évolution d’une plateforme d’observabilité et d’automatisation utilisée à l’échelle de l’ensemble du SI Boulanger et des filiales.
L’équipe développe et opère les solutions permettant :
la supervision des infrastructures et applications,
l’automatisation des opérations RUN,
l’orchestration des remédiations automatiques,
l’amélioration continue de la fiabilité des plateformes,
l’industrialisation des pratiques d’exploitation,
l’intégration progressive de mécanismes d’IA dans les opérations IT.
Notre objectif est de faire évoluer les opérations IT vers une approche moderne, automatisée, mesurable et orientée fiabilité, en s’appuyant fortement sur les principes SRE, l’event-driven automation et l’observabilité avancée.
Vos missions principales
Au sein d’une équipe orientée plateforme et engineering, vos responsabilités s’articulent autour des axes suivants :
Observabilité et supervision
Vous participez à la conception et à l’évolution de la plateforme d’observabilité du groupe.
Vous intervenez notamment sur :
la collecte et la centralisation des métriques et logs,
la création et l’optimisation des dashboards,
l’amélioration des règles d’alerting,
l’exploitation des données de monitoring et de logs pour fiabiliser les plateformes,
la standardisation des pratiques d’observabilité.
Vous contribuerez également à faire évoluer l’écosystème vers des pratiques d’observabilité modernes et industrialisées.
Automatisation et industrialisation
Vous participez au développement de mécanismes d’automatisation permettant de fiabiliser et simplifier les opérations IT.
Vous intervenez notamment sur :
l’automatisation des actions RUN et des tâches récurrentes,
le développement de mécanismes de remédiation automatique,
l’industrialisation des déploiements et opérations,
l’intégration d’automatisations event-driven,
l’amélioration continue des outils de production.
Une attention particulière est portée à la réduction des actions manuelles et à l’augmentation de l’efficacité opérationnelle des équipes IT.
Innovation et IA appliquée aux opérations
L’équipe travaille également sur l’intégration progressive de mécanismes d’automatisation intelligente et d’IA appliqués aux opérations IT.
Vous pourrez contribuer à :
l’exploitation intelligente des événements et alertes,
l’amélioration de la qualification des incidents,
l’automatisation avancée des remédiations,
l’optimisation des opérations grâce aux données d’observabilité.
Qualifications
De formation supérieure en informatique, vous disposez d’une expérience en SRE d’au moins 3 ans, observabilité, production engineering ou DevOps.
Nous recherchons avant tout un profil ayant une forte appétence pour :
la fiabilité des systèmes,
l’observabilité moderne,
l’automatisation,
l’amélioration continue,
et les approches engineering appliquées aux opérations IT.
Compétences techniques attendues
Observabilité & monitoring :
bonne maîtrise de Prometheus / Thanos,
expérience de Grafana et Alertmanager,
maîtrise des environnements ELK / Kibana,
utilisation avancée de PromQL et KQL,
Automatisation & scripting :
bonne maîtrise de Python, Bash et Java,
expérience d’Ansible,
capacité à industrialiser et automatiser les opérations IT.
des APIs et intégrations,
des architectures event-driven,
des plateformes cloud et conteneurisées (Azure, Docker, Terraform)
de l’automatisation des opérations,
Kubernetes & plateformes :
expérience significative sur Kubernetes :
déploiement,
maintenance,
scaling,
supervision des clusters.
maîtrise des plateformes cloud et conteneurisées (Azure, Docker, Terraform)
Une expérience autour des approches event-driven, de l’automatisation des remédiations ou des plateformes SRE modernes sera particulièrement appréciée.
Savoir-être :
Esprit d’analyse et approche orientée résolution de problèmes,
Capacité à investiguer des incidents complexes,
Rigueur et sens de la fiabilité,
Forte culture d’amélioration continue,
Curiosité technique et volonté d’industrialiser les opérations,
Capacité à collaborer avec des équipes transverses,
Sens du service et de l’impact métier des plateformes IT.
Mindset Pro, simple et sympa.
Informations complémentaires
Pourquoi nous rejoindre ?
Des enjeux techniques à forte volumétrie et fort impact,
Une équipe orientée engineering et plateforme,
Une culture forte autour de l’automatisation et de la fiabilité,
Des sujets innovants autour de l’observabilité moderne et de l’IA appliquée aux opérations,
Un rôle central dans la transformation des opérations IT d’un groupe leader sur son marché et à dimension internationale.