Identifiant (email, de type exemple@exemple.fr)
Mots clés (ex : Ingénieur aéronautique; Pilote)
Stage – Data Science / NLP –Analyse de corpus massifs H/F
Systèmes d'informations - Développement
Stagiaire
Au sein du groupe Air France-KLM, le département Data, RO & IA a la charge de développer des outils de prévision, d’optimisation et d’analyse de données pour diverses entités du groupe. Ces outils couvrent un large éventail de domaines, tels que le traitement automatique des données textuelles, la maintenance prédictive, la prévision des retards, l'optimisation des plannings de vols et d’agents, ou encore le pricing des billets.
Au sein de ce département, l’équipe NLP-GenAI joue un rôle transverse en traitant toutes les problématiques liées au traitement du langage naturel pour la compagnie. Une grande partie de ses projets porte sur les modèles génératifs.
Rattaché(e) au service Data, OR & AI d’Air France – KLM et sous la responsabilité de votre maître de stage, votre principale mission consistera à développer des algorithmes d’optimisation visant à produire des corrections de plannings en temps réel, qui apporteront une réponse aux aléas de la journée.
Nous pourrons éprouver les différents modèles proposés sur des jeux de données de problèmes réels (planning du personnel au sol, affectation des points de parkings, etc.) et comparer leurs résultats. Enfin les meilleurs pourront être utilisés pour intégrer les outils opérationnels.
Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d'explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels.
Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donné la volumétrie importante de ces corpus, une utilisation directe des LLM n'est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels.
Un autre sujet potentiel durant le stage pourrait être l’optimisation d'un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients.
En intégrant l’équipe, vous aurez également l'opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l'environnement Google Cloud.
Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation
Stack technique : Python, Google Cloud Platform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, PyTorch, Langchain
Convention de stage
Bac + 5 et plus
France, Ile-de-France, Val d'Oise (95)
45 rue de Paris 95747 ROISSY CHARLES DE GAULLE CEDEX
Avec le premier réseau long-courrier au départ de l'Europe, le groupe Air France /KLM est un acteur majeur du transport aérien mondial. Ses principaux métiers sont le transport aérien de passagers, de fret et la maintenance aéronautique.