Description du poste
En tant que Data Engineer stagiaire, tu rejoins l’équipe développement de Diagonall pour construire les fondations data qui rendent les projets IA possibles et robustes. Ton rôle est de rendre les données accessibles, fiables, traçables et prêtes pour la production, que ce soit pour de l’analytics, du machine learning ou des systèmes GenAI.
Tu travailleras sur des projets clients réels, avec des exigences fortes de qualité, sécurité et maintenabilité. Ce stage est à temps plein, et peut évoluer vers un CDI si tu délivres fort et que tu prends ownership.
Diagonall est un cabinet de conseil, formation et ingénierie IA. On conçoit des solutions sur mesure avec une gouvernance stricte : vos données, vos règles, votre SI.
Ta mission
Data pipelines et qualité
- Construire et maintenir des pipelines d’ingestion et de transformation (batch, parfois near real time)
- Nettoyer, normaliser, dédupliquer et fiabiliser les datasets
- Mettre en place des contrôles qualité data (tests, validation, alerting)
- Documenter les sources, schémas, règles de transformation, et conventions
Modélisation et exposition
- Modéliser les données pour les usages (analytics, ML, GenAI)
- Concevoir des datasets “consommables” et stables pour les équipes produit et IA
- Exposer les données via tables, vues, APIs ou exports selon les besoins
GenAI et systèmes de retrieval
- Préparer des données pour RAG et recherche (nettoyage, chunking, métadonnées, indexation)
- Mettre en place des stratégies de rafraîchissement et de versioning des corpus
- Collaborer avec les AI engineers sur la performance retrieval (qualité, latence, coût)
Industrialisation
- Participer à la mise en production (orchestration, CI/CD, monitoring, logs)
- Gérer la traçabilité et la sécurité : permissions, accès, anonymisation si nécessaire
- Améliorer la maintenabilité : code propre, structure, runbooks, bonnes pratiques
Ce qu'on recherche
Indispensable
- Bases solides en Python et SQL
- Compréhension claire de ce qu’est un pipeline data propre : reproductible, testable, observable
- Rigueur sur la qualité, la documentation, et le “rendu prêt à l’usage”
- Bon sens d’ingénierie : tu sais prioriser la robustesse plutôt que la magie
Ce qui fera la différence
- Expérience avec un orchestrateur ou équivalent (Airflow ou similaire)
- Confort avec Docker, Git, environnements cloud
- Connaissances sur les architectures data (lake, warehouse, ELT, data contracts)
- Familiarité avec dbt ou une logique de transformations modulaires
- Expérience sur préparation de corpus pour RAG, vectorisation, indexation, métadonnées
Ce poste n’est pas pour toi si
- Tu veux uniquement faire du notebook ou de l’exploration sans contraintes de prod
- Tu n’aimes pas les sujets “plomberie” qui font pourtant gagner en vitesse et en fiabilité
- Tu as du mal avec la rigueur, la documentation, et les tests
- Tu n’aimes pas itérer vite et te faire challenger sur la qualité du rendu
Conditions et évolution
- Stage à temps plein
- Lieu : dans nos bureaux au coeur de Paris
- Télétravail : 1 jour / semaine
- Démarrage : dès que possible
- Évolution : possibilité réelle de bascule en CDI en business development si tu délivres fort
Pour candidater
Envoie
- Ta Lettre de motivation
- Ton CV ou LinkedIn
- 1 à 2 preuves de ton niveau (GitHub, projet data, pipeline, repo, démo)
- Optionnel mais très apprécié : un exemple où tu as amélioré la qualité ou la fiabilité de données, avec ce que tu as mesuré et comment tu as monitoré