Site Reliability Engineer / Observability Engineer (Secteur Énergie) H/F
- Temps complet
- Domaine: IA Data
Description de l'entreprise
Qui sommes-nous ?
Rejoindre NEXTON, c'est intégrer une entreprise où convergent l'esprit d'un cabinet de conseil, la créativité d'une agence et la dynamique d'une ESN ! Grâce à notre expertise, nous accompagnons des clients grands comptes et des pure players tels que SNCF, Orange, et BNP Paribas dans leurs stratégies d'évolution et d'innovation digitale.
Fondée en 2011, NEXTON réunit aujourd'hui une équipe de plus de 450 experts spécialisés dans le digital, le design, l'agilité, le produit et le développement. Ensemble, ils créent un écosystème riche en connaissances et en compétences diversifiées.
Description du poste
NEXTON recrute un Site Reliability Engineer / Observability Engineer H/F, en CDI, à Paris !
Ton futur environnement de travail :
Tu interviens sur des environnements cloud complexes et multi-plateformes (AWS, Azure), avec des enjeux élevés de disponibilité, de performance et de continuité de service.
Ton rôle est central : détecter avant l’incident, comprendre pendant, restaurer vite après, et améliorer en continu.
Ici, tu construis des systèmes capables d’absorber les chocs.
Tes missions :
Observabilité & Monitoring
Tu définis et implémentes des mécanismes avancés de monitoring et d’alerting couvrant l’ensemble de la chaîne applicative : front-end, backend, ETL, qualité de données et connectivité.
Tu mets en œuvre des solutions d’observabilité sur AWS, Azure et Google Cloud en exploitant Prometheus, CloudWatch, Azure Monitor, Application Insights, Log Analytics et Google Cloud Observability.
Tu utilises Grafana et PromQL pour concevoir des dashboards exploitables et orientés incident.
Tu participes à l’implémentation d’OpenTelemetry pour standardiser la collecte des métriques, logs et traces.
Résilience & Continuité de Service
Tu contribues à la résilience des applications en implémentant et testant des mécanismes de sauvegarde et de restauration sur les bases de données, data lakes et stockages objets.
Tu maîtrises et exploites les mécanismes natifs de sauvegarde AWS et Azure pour garantir la protection des données.
Tu définis, mets en place et testes des Disaster Recovery Plans, incluant les pipelines de déploiement, les restaurations et les scénarios de reprise.
Chaos Engineering & Resiliency Testing
Tu conçois et implémentes des scénarios de Chaos Engineering sur les environnements de production, afin de tester la robustesse réelle des systèmes.
Tu mets en œuvre des stratégies de resiliency testing pour identifier les points de rupture et renforcer l’architecture.
Gestion des Incidents & AIOps
Tu travailles à l’optimisation de la gestion des incidents pour réduire le MTTR, en améliorant la détection, la notification et l’analyse des incidents.
Tu mets en place des solutions d’AIOps pour renforcer l’observabilité, automatiser l’analyse des dysfonctionnements et améliorer la résolution des pannes.
Tu implémentes et exploites des agents IA capables d’identifier des axes d’amélioration de la fiabilité et de contribuer à la résolution proactive des incidents.
Culture SRE & Collaboration
Tu participes activement à la promotion des bonnes pratiques SRE auprès des squads produit, des projets IT et des équipes data.
Tu contribues à l’amélioration continue de la fiabilité des produits en accompagnant les équipes sur les sujets d’architecture, d’exploitation et de résilience.
Qualifications
Compétences techniques
Tu possèdes un niveau confirmé sur AWS et tu sais exploiter ses services d’observabilité, de sécurité et de résilience.
Tu disposes d’une expertise avancée sur Azure, notamment sur Azure Monitor, KQL, Application Insights, Container Insights et Log Analytics.
Tu maîtrises la programmation en Python et tu l’utilises pour automatiser, analyser et fiabiliser les environnements.
Tu es à l’aise avec l’infrastructure as code et tu utilises Terraform et Ansible pour industrialiser les déploiements.
Tu as une expérience confirmée en resiliency testing et en Chaos Engineering.
Tu maîtrises OpenTelemetry à un niveau avancé pour la collecte et la corrélation des signaux d’observabilité.
Tu utilises Git comme outil central de collaboration et de gestion du code.
Tu maîtrises l’anglais à un niveau professionnel.
Informations complémentaires
Pourquoi choisir NEXTON ?
Nous te proposons des avantages et des opportunités pour enrichir ton expérience professionnelle et personnelle tout au long de l'année :
▶ Des communautés dynamiques pour t'accompagner dans ton parcours.
▶ Des Meet Up pour développer tes compétences.
▶ Des formations pour te réinventer et progresser.
▶ Des événements sportifs et festifs pour t'épanouir.
▶ Un forfait mobilité durable pour faciliter ton quotidien et encourager la mobilité douce.
▶ Un téléphone de dernière génération pour rester connecté.
Prêt à nous rejoindre ? Rencontrons-nous !
NEXTON