Ce travail se fait dans le contexte d'un laboratoire commun réunissant les équipes de recherche de l'IRISA et de Ouest-France, premier quotidien régional en France. Il s'agit de confronter les techniques les plus récentes en vision par ordinateur aux millions de photographies que possède Ouest-France dans ses archives.
Les archives de Ouest-France contiennent plus de 35 millions de photographies, très diverses, en époque, en contenu, mais très peu exploitées, essentiellement manuellement par des documentalistes. Un premier travail consiste à bien comprendre le fonctionnement interne de divers outils d'analyse automatique fondés sur des architectures neuronales récentes (CNN, Transformers, ...) spécialisées en traitement d'images. Cette compréhension est nécessaire pour prouver que les outils sont aptes à traiter les archives photos dans un contexte où de nombreux défis se posent, de nature applicative mais aussi en lien avec les données et leurs propriétés.
Cette preuve se fondera d'abord sur l'analyse d'un sous-ensemble de la collection d'images, sur laquelle trois tâches seront testées : la capacité des outils modernes à faire de la classification d'images, de la reconnaissance fine d'objets ou de détails, et la reconnaissance de personnes et d'instances. Les défis concernent l'apprentissage de classes à partir de peu d'exemples et la dynamicité de cet apprentissage, la capacité d'identifier toutes les images d'un même sujet (par exemple, un lieu, une peinture, ou une statue) malgré des variations significatives de lumière, de cadrage, ou d'autres conditions de prise de vue, mais aussi malgré les changements dans l'aspect des sujets eux-mêmes au fil du temps.
Globalement, ces travaux vont permettre de créer des liens au sein de vastes collections d'images, facilitant ainsi leur exploration et leur structuration par les conservateurs. Un retour des documentalistes et des journalistes sera central puisqu'ils seront les utilisateurs de ces technologies. Une analyse fine des besoins computationnels sera menée, les ressources en calcul étant limitées.
Cette preuve de fonctionnement permet de guider ensuite des analyses en lien avec des difficultés liées au passage à l'échelle et aux coûts des apprentissages et du requêtage. Suivra un travail sur l'adaptation des processus d'apprentissage et d'inférence à l'impossible connaissance de tous les services et les tâches avals innovants qui viendront exploiter ce corpus visuel (en plus de tâches comme la déduplication, la recommandation, la similarité avec de la diversité, le regroupement dynamique de séries d'images selon divers critères sémantiques : mêmes lieux, mêmes personnages, …), la génération automatique de descriptions ou de mots-clés, la visualisation de ces images. Fondamentalement, le travail évoqué ici devra aborder des questions scientifiques difficiles de représentation d'images, d'apprentissage de métriques.
Le candidat ou la candidate doit :
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16000 chercheurs et plus de 16000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international.