Ce projet de thèse de doctorat s'inscrit dans le cadre du Programme et Équipements Prioritaires de Recherche (PEPR) français sur la Cybersécurité, projet interdisciplinaire sur la vie privée (iPoP), impliquant plusieurs équipes de recherche françaises travaillant sur la protection des données, provenant d'Inria, d'universités, d'écoles d'ingénieurs et de la CNIL (Commission Nationale de l'Informatique et des Libertés). La thèse est proposée par l'équipe-projet PETSCRAFT, conjointe entre Inria Saclay et l'INSA CVL, qui collaborent étroitement dans cette grande initiative sur la modélisation des concepts de protection de la vie privée et sur la conception et le déploiement de technologies de protection de la vie privée (PETs) explicables et efficaces.
Avantages : Mission confiée
Objectifs de la thèse. Les capacités avancées d'inférence des grands modèles de langage (LLMs) posent une menace significative pour la vie privée des individus en permettant à des tiers d'inférer avec précision certaines caractéristiques personnelles à partir de leurs écrits. Paradoxalement, les LLMs peuvent également être utilisés pour protéger les individus en les aidant à modifier leur production textuelle pour éviter certaines inférences indésirables, ouvrant ainsi la voie à de nouveaux outils. L'objectif ultime de cette thèse est de travailler à la mise au point d'un outil interactif de type chatbot pour la désinfection de texte, afin de répondre à des applications incluant deux qui sont particulièrement étudiées par notre équipe : la production de témoignages dans le contexte de l'intimidation scolaire et du harcèlement au travail, et les retours des participants sur des plateformes participatives.
Certaines difficultés devront être abordées pour la conception et le développement de l'outil envisagé, comme par exemple :
Enfin, un processus de désinfection basé sur les LLMs doit être proposé, limitant la capacité de l'attaquant à faire des inférences tout en maintenant l'utilité du texte. Dans une application de type chatbot, ce processus peut être itératif et interactif.
Feuille de route initiale. Le projet de doctorat commencera par l'analyse des difficultés ci-dessus, la lecture des articles de l'état de l'art qui émergent sur le sujet, ainsi que l'installation de LLMs open source tels que Mistral ou Arctic. La solution visée devra être générique avant de se concentrer sur la spécialisation de la solution d'anonymisation pour l'adapter à différents cas d'utilisation et ensembles de données.
Cas d'utilisation potentiels. Nous nous concentrerons sur deux cas d'utilisation : la déclaration anonyme ou l'anonymisation de certains concepts dans le contexte scolaire, universitaire et professionnel en général. Ce premier cas d'utilisation sera construit avec les partenaires d'Inria dans le cadre des services responsables de l'enquête sur les cas de harcèlement qui traitent des témoignages anonymes et / ou dans le contexte du marché du travail et des recherches d'emploi. Un deuxième cas d'utilisation est le retour d'expérience des utilisateurs sur des plateformes participatives axées sur le bien-être, la nutrition et la santé. Ce cas d'utilisation est encore en émergence et sera détaillé au cours du projet de thèse.
Principales activités