[réf. j32783921] Corrections des données structurées via LLMs et REGEX - EDF
Contexte et objectif du stage
Rejoignez léquipe R&D dEDF et participez à lamélioration de la qualité des données volumineuses.
En intégrant notre équipe, vous aurez lopportunité de contribuer au développement de méthodes innovantes de correction et de fiabilisation des données. Vous travaillerez sur des techniques avancées de traitement automatique du langage naturel (NLP) et de génération de texte à laide de modèles de langage (LLMs, SLMs)
Déroulement du stage :
Le stage vise à proposer des méthodes de correction de données structurées, avec un cas dapplication sur les schémas mécaniques des centrales nucléaires. Il consistera dans le développement dun pipeline de suggestion de corrections potentielles. Les étapes principales du stage seront :
Etat de lart des méthodes de correction des données erronées par génération dexpressions régulières (REGEX)
Implémentation et tests des méthodes suggérées
Comparaison des méthodes à base de RAG et/ou fine-tuning
Développement dun pipeline de corrections des données
Ce stage permettra au stagiaire de prendre connaissance des schémas mécaniques des centrales nucléaires. Il participera aux réunions de clarification avec le client et devra assurer la livraison de son travail dans les délais.
Le stagiaire intégrera le groupe R4F « Fiabilité, IA, Cyber Sécurité, Interopérabilité et résilience des réseaux électriques » du Département SYSTEME à EDF R&D Lab Saclay.
Profil recherché :
Stage de fin détudes ou de césure Bac +4/+5
Étudiant(e) en école dingénieur ou en Master 1 ou 2.
Profil : Machine Learning / Deep Learning / LLMs
Compétences Obligatoires :
- Compétences en Programmation : Bonne maîtrise du langage Python, y compris des bibliothèques telles que Pandas, NumPy, et Matplotlib.
- Data science : Expérience avec les process de Data Science : Traitement des données structurées (csv, json, xml ), analyse et visualisation des données.
- GenAI & NLP : Connaissances des méthodes classiques de traitement du langage naturel et expérience avec les LLM (inférence/prompt engineering/fine-tuning). Maîtrise de la bibliothèque Transformers.
Compétences recommandées :
- Apprentissage automatique : Expérience dentraînement des modèles dIA (réseau des neurones ou modèles de ML classiques), ainsi quune maîtrise de bibliothèques (scikit-learn / pytorch ou tensorflow)
- Gestion de Projet et Outils Collaboratifs : Connaissance des principes de gestion de version avec Git et GitLab
Des expériences avec des systèmes de RAG seront appréciées.
Conditions du stage
Unité daccueil : EDF Lab Saclay Département SYSTEME
7 boulevard Gaspard Monge, 91120 Palaiseau
Durée : 5 à 6 mois à partir de mars/avril 2025
Le stage est rémunéré
Rémunération transport : 50%
Contacts
Ilias ELFRYAKH: ilias.elfryakh @edf.frVille : 7 boulevard Gaspard Monge 91120 PALAISEAU