STAGE - Assistant(e) Data Scientist - Amélioration de systèmes R.A.G H/F
L'objectif du stage est d'améliorer la plateforme interne de Rerieval Augmented Generation (RAG), appelée CA Generative Search (CAGS) et déjà déployée en production pour de multiples métiers, en participant aux développements de nouvelles fonctionnalités.
Vous serez amené(e) à intervenir sur différentes problématiques :
- Améliorer l'étape de recherche du système,
- Investiguer la problématique de RAG multimodal pour étendre le champ d'application de CAGS,
- Investiguer l'apport du finetuning de LLM afin de spécialiser les modèles génératifs pour certains cas d'usage.
Après avoir réalisé un état de l'art spécifique à chaque axe de travail, vous devrez comparer les différentes pistes d'amélioration afin de sélectionner les plus pertinentes, avant d'intégrer ses travaux à CAGS, conjointement avec un stagiaire travaillant sur les aspects de Data & AI Engineering.
Dans l'objectif de livrer des fonctionnalités intégrables au sein des solutions industrielles en production, les stages se déroulent sous l'encadrement d'experts IA au sein d'une Squad pluridisciplinaire ayant comme référent fonctionnel un chef de projet IA, et selon la méthode Projet du DataLab Groupe qui fait l'objet d'une certification IA de confiance et d'une labélisation RSE.
Les étapes clés du stage sont les suivantes :
- Veille bibliographique sur la problématique
- Sélection et implémentation des approches les plus adaptées à la problématique
- Réalisation d'une étude comparative sur des données internes et externes
- Intégration des développements dans les produits du DataLab Groupe
- Publication scientifique si les travaux aboutissent à de nouvelles approches plus performantes que l'état de l'art.
Vous aurez accès à des environnements d'engineering industriel puissants et à l'état de l'art, en local et dans le cloud.
Les modèles seront évalués sur des données internes (annotées si besoin) ainsi que des données externes (open-data), et seront intégrés dans les produits et services IA en production.
Des interactions avec l'ensemble des équipes data science et engineering et des experts métier du Groupe auront lieu.
Université / Ecole d'ingénieurSpécialisation : Formation Data Science avec une dominante traitement de langage naturel (NLP), deep learning et développement logiciel.