Data Ingénieur

Temps Plein - Stage

Dans nos bureaux à Paris

Un stage à temps plein où tu rejoins l’équipe développement de Diagonall pour construire des pipelines et fondations data fiables qui alimentent les projets IA des clients, avec une trajectoire possible vers un CDI si tu délivres fort.

Je postule !

Description du poste

En tant que Data Engineer stagiaire, tu rejoins l’équipe développement de Diagonall pour construire les fondations data qui rendent les projets IA possibles et robustes. Ton rôle est de rendre les données accessibles, fiables, traçables et prêtes pour la production, que ce soit pour de l’analytics, du machine learning ou des systèmes GenAI.

Tu travailleras sur des projets clients réels, avec des exigences fortes de qualité, sécurité et maintenabilité. Ce stage est à temps plein, et peut évoluer vers un CDI si tu délivres fort et que tu prends ownership.

Diagonall est un cabinet de conseil, formation et ingénierie IA. On conçoit des solutions sur mesure avec une gouvernance stricte : vos données, vos règles, votre SI.

‍

Ta mission

Data pipelines et qualité

Construire et maintenir des pipelines d’ingestion et de transformation (batch, parfois near real time)
Nettoyer, normaliser, dédupliquer et fiabiliser les datasets
Mettre en place des contrôles qualité data (tests, validation, alerting)
Documenter les sources, schémas, règles de transformation, et conventions

Modélisation et exposition

Modéliser les données pour les usages (analytics, ML, GenAI)
Concevoir des datasets “consommables” et stables pour les équipes produit et IA
Exposer les données via tables, vues, APIs ou exports selon les besoins

GenAI et systèmes de retrieval

Préparer des données pour RAG et recherche (nettoyage, chunking, métadonnées, indexation)
Mettre en place des stratégies de rafraîchissement et de versioning des corpus
Collaborer avec les AI engineers sur la performance retrieval (qualité, latence, coût)

Industrialisation

Participer à la mise en production (orchestration, CI/CD, monitoring, logs)
Gérer la traçabilité et la sécurité : permissions, accès, anonymisation si nécessaire
Améliorer la maintenabilité : code propre, structure, runbooks, bonnes pratiques

‍

Ce qu'on recherche

Indispensable

Bases solides en Python et SQL
Compréhension claire de ce qu’est un pipeline data propre : reproductible, testable, observable
Rigueur sur la qualité, la documentation, et le “rendu prêt à l’usage”
Bon sens d’ingénierie : tu sais prioriser la robustesse plutôt que la magie

Ce qui fera la différence

Expérience avec un orchestrateur ou équivalent (Airflow ou similaire)
Confort avec Docker, Git, environnements cloud
Connaissances sur les architectures data (lake, warehouse, ELT, data contracts)
Familiarité avec dbt ou une logique de transformations modulaires
Expérience sur préparation de corpus pour RAG, vectorisation, indexation, métadonnées

‍

Ce poste n’est pas pour toi si

Tu veux uniquement faire du notebook ou de l’exploration sans contraintes de prod
Tu n’aimes pas les sujets “plomberie” qui font pourtant gagner en vitesse et en fiabilité
Tu as du mal avec la rigueur, la documentation, et les tests
Tu n’aimes pas itérer vite et te faire challenger sur la qualité du rendu

‍

Conditions et évolution

Stage à temps plein
Lieu : dans nos bureaux au coeur de Paris
Télétravail : 1 jour / semaine
Démarrage : dès que possible
Évolution : possibilité réelle de bascule en CDI en business development si tu délivres fort

Pour candidater

Envoie

Ta Lettre de motivation
Ton CV ou LinkedIn
1 à 2 preuves de ton niveau (GitHub, projet data, pipeline, repo, démo)
Optionnel mais très apprécié : un exemple où tu as amélioré la qualité ou la fiabilité de données, avec ce que tu as mesuré et comment tu as monitoré

‍

Soumettre ma candidature

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.