Data Ingénieur

Temps Plein - Stage

Dans nos bureaux à Paris

Un stage à temps plein où tu rejoins l’équipe développement de Diagonall pour construire des pipelines et fondations data fiables qui alimentent les projets IA des clients, avec une trajectoire possible vers un CDI si tu délivres fort.
Je postule !
Je postule !

Description du poste

En tant que Data Engineer stagiaire, tu rejoins l’équipe développement de Diagonall pour construire les fondations data qui rendent les projets IA possibles et robustes. Ton rôle est de rendre les données accessibles, fiables, traçables et prêtes pour la production, que ce soit pour de l’analytics, du machine learning ou des systèmes GenAI.

Tu travailleras sur des projets clients réels, avec des exigences fortes de qualité, sécurité et maintenabilité. Ce stage est à temps plein, et peut évoluer vers un CDI si tu délivres fort et que tu prends ownership.

Diagonall est un cabinet de conseil, formation et ingénierie IA. On conçoit des solutions sur mesure avec une gouvernance stricte : vos données, vos règles, votre SI.

Ta mission

Data pipelines et qualité

  • Construire et maintenir des pipelines d’ingestion et de transformation (batch, parfois near real time)
  • Nettoyer, normaliser, dédupliquer et fiabiliser les datasets
  • Mettre en place des contrôles qualité data (tests, validation, alerting)
  • Documenter les sources, schémas, règles de transformation, et conventions

Modélisation et exposition

  • Modéliser les données pour les usages (analytics, ML, GenAI)
  • Concevoir des datasets “consommables” et stables pour les équipes produit et IA
  • Exposer les données via tables, vues, APIs ou exports selon les besoins

GenAI et systèmes de retrieval

  • Préparer des données pour RAG et recherche (nettoyage, chunking, métadonnées, indexation)
  • Mettre en place des stratégies de rafraîchissement et de versioning des corpus
  • Collaborer avec les AI engineers sur la performance retrieval (qualité, latence, coût)

Industrialisation

  • Participer à la mise en production (orchestration, CI/CD, monitoring, logs)
  • Gérer la traçabilité et la sécurité : permissions, accès, anonymisation si nécessaire
  • Améliorer la maintenabilité : code propre, structure, runbooks, bonnes pratiques

Ce qu'on recherche

Indispensable

  • Bases solides en Python et SQL
  • Compréhension claire de ce qu’est un pipeline data propre : reproductible, testable, observable
  • Rigueur sur la qualité, la documentation, et le “rendu prêt à l’usage”
  • Bon sens d’ingénierie : tu sais prioriser la robustesse plutôt que la magie

Ce qui fera la différence

  • Expérience avec un orchestrateur ou équivalent (Airflow ou similaire)
  • Confort avec Docker, Git, environnements cloud
  • Connaissances sur les architectures data (lake, warehouse, ELT, data contracts)
  • Familiarité avec dbt ou une logique de transformations modulaires
  • Expérience sur préparation de corpus pour RAG, vectorisation, indexation, métadonnées

Ce poste n’est pas pour toi si

  • Tu veux uniquement faire du notebook ou de l’exploration sans contraintes de prod
  • Tu n’aimes pas les sujets “plomberie” qui font pourtant gagner en vitesse et en fiabilité
  • Tu as du mal avec la rigueur, la documentation, et les tests
  • Tu n’aimes pas itérer vite et te faire challenger sur la qualité du rendu

Conditions et évolution

  • Stage à temps plein
  • Lieu : dans nos bureaux au coeur de Paris
  • Télétravail : 1 jour / semaine
  • Démarrage : dès que possible
  • Évolution : possibilité réelle de bascule en CDI en business development si tu délivres fort

Pour candidater

Envoie

  • Ta Lettre de motivation
  • Ton CV ou LinkedIn
  • 1 à 2 preuves de ton niveau (GitHub, projet data, pipeline, repo, démo)
  • Optionnel mais très apprécié : un exemple où tu as amélioré la qualité ou la fiabilité de données, avec ce que tu as mesuré et comment tu as monitoré

Soumettre ma candidature
Expliquez-nous pourquoi vous voulez nous rejoindre !
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Échanger avec Diagonall

Bonjour 👋
Expliquez-nous rapidement votre besoin IA et nous vous répondons sur WhatsApp.

Démarrer la conversation