Data engineer
- Temps complet
Description de l'entreprise
Inetum est un leader européen des services numériques, avec plus de 27 000 collaborateurs dans 19 pays et un chiffre d’affaires de 2,4 milliards d’euros en 2024. Le Groupe accompagne entreprises et institutions dans leur transformation digitale, alliant performance, innovation et impact sociétal.
Présent au Maroc depuis plus de 20 ans, Inetum Maroc joue un rôle stratégique avec plus de 800 collaborateurs, un centre de services partagés et un FabLab à Casablanca. Avec 50 millions d’euros de chiffre d’affaires en 2024, l'entité se positionne comme un acteur majeur du numérique au niveau local.
S’appuyant sur ses trois lignes de métiers – Inetum Consulting, Inetum Technologies et Inetum Solutions – et des partenariats clés avec Microsoft, SAP et Sage, Inetum Maroc se distingue aussi par l’obtention du label Feel Good 2025, qui valorise son engagement pour le bien-être, l’inclusion et le développement des compétences.
La culture d’entreprise s’ancre dans la Inetum Way, un socle de valeurs fondé sur la proximité, l’agilité, l’innovation et la responsabilité. Rejoindre Inetum, c’est vivre pleinement son impact digital dans un environnement stimulant, humain et durable.
Description du poste
Au sein de l’équipe Data, vous prenez en charge la conception, l’industrialisation et l’optimisation de pipelines de données sur un environnement Big Data (Hadoop/HDFS, Hive, Spark). Vous garantissez la qualité, la traçabilité et la disponibilité des datasets qui alimentent la BI (Power BI) et les besoins analytiques des métiers.
Responsabilités clés
Ingestion & Modélisation
- Intégrer des données depuis plusieurs SGBD (PostgreSQL, SQL Server, MySQL, IBM DB2) et fichiers via Sqoop/ETL.
- Structurer les zones bronze/silver/gold et définir les schémas (Hive).
Traitements distribués
- Développer et optimiser des jobs Spark / PySpark (partitionnement, broadcast, cache, bucketing).
- Écrire des transformations SQL/HiveQL performantes et maintenables.
Orchestration & Production
- Concevoir et maintenir des DAGs Airflow (scheduling, retry, SLA, alerting).
- Industrialiser via GitLab (CI/CD), scripts Shell et bonnes pratiques DevOps Data.
Qualité & Gouvernance
- Mettre en place des contrôles (complétude, unicité, référentiels), tests unitaires/data tests et documentation (catalogue, dictionnaires).
- Assurer la traçabilité (lineage) et la gestion des incidents (RCAs, runbooks).
Valorisation & BI
- Publier des datasets “analytics-ready” et optimiser l’alimentation Power BI (vues matérialisées, agrégations).
- Contribuer au calcul et à la fiabilisation des KPI.
Qualifications
Profil recherché :
- 2 à 4 ans d’expérience en Data Engineering/Big Data, avec réalisations probantes en PySpark/Hive et Airflow.
- Formation Bac+5 (Master Big Data & IA, Ingénierie Data, ou équivalent).
- Aisance sur les SGBD (PostgreSQL, SQL Server, MySQL, IBM DB2) et l’optimisation de requêtes.
- Habitude des environnements Linux et scripting Shell.
- Capacité à documenter, tester et monitorer des pipelines en production.
Stack technique :
- Traitement Big Data : Spark / PySpark, Hive, HDFS (+ MapReduce/Impala appréciés).
- Langages & Data : Python, SQL avancé, Shell (bash).
- Orchestration : Apache Airflow.
- Dataviz/BI : Power BI (dashboards, datasets).
- OS & Outils : Linux (Ubuntu/CentOS), Git/GitLab, CI/CD.
- Plus : Pandas/Numpy pour prototypage, notions MongoDB/HBase.
Compétences comportementales :
- Rigueur et sens de la qualité (tests, revues de code, documentation).
- Esprit d’équipe et communication claire avec les métiers et la BI.
- Autonomie sur l’investigation d’incidents et proactivité d’amélioration continue.
- Orientation résultats : respect des SLA et culture de la performance.