EPIC créé en 1975, l’INA est chargé de conserver, de valoriser et de transmettre le patrimoine audiovisuel français. Premier centre d’archives numérisées au monde avec plus de 3 millions et demi d’heures de télévision et de radio auxquelles s’ajoutent chaque année 800 000 heures au titre du dépôt légal, l’INA compte environ 1 000 salariés.
Dans une démarche d'innovation tournée vers les usages, l'INA valorise ses contenus pour les partager avec le plus grand nombre : sur et pour le grand public, sur et pour les professionnels, à l'INA thèque pour les chercheurs.
Avec plus de 2 400 documentaires et programmes produits depuis 40 ans, l'INA a acquis une expérience et un savoir-faire uniques dans la construction du récit et le traitement visuel des archives.
L’Institut assure la mise en œuvre des missions de collecte, catalogage, numérisation, conservation physique et numérique à des fins d’exploitation des collections audiovisuelles et issues du web médias. Elle porte également les missions de la Recherche ainsi que le développement et l’exploitation des technologies industrialisées par l’INA.
L’INA concentre également des compétences d’expertise, une vocation d’observatoire des médias, au service de l’excellence et de l’innovation. Enfin, l’Institut est l’un des premiers centres de formation initiale et continue aux métiers de l’audiovisuel et des nouveaux médias et s’affirme comme un laboratoire de recherche et d’expérimentation.
Les travaux menés au sein du service de la Recherche de l’INA visent notamment à améliorer les approches numériques permettant d’extraire, d’indexer, de modéliser, de visualiser et de comprendre des connaissances depuis les fonds audiovisuels conservés par l’institut. Ces méthodes numériques sont principalement utilisées pour aider à la documentation des fonds ainsi que dans des travaux transdisciplinaires pour avoir une meilleure connaissance des médias et de la façon dont ils parlent de la société.
Dans le cadre du projet ANR Pantagruel, l’Institut recrute un postdoc spécialisée en TAL (Traitement automatique des langues). Le cadre des travaux proposé est l’analyse de transcriptions de flux audiovisuels dans le cadre de l’évaluation de LLMs. Il s’agit donc de reprendre et adapter des tâches de NLP / SLU au contexte particulier de ces contenus. Les principales tâches sur lesquelles il / elle sera amené à se pencher sont à déterminer parmi les suivantes : segmentation sémantique, détection d’événements médiatiques, extraction de citations, désambiguïsation d'entités nommées, analyse de sentiments, catégorisation, résumé automatique, détection de propos haineux et RAG. Pour ces tâches, il est prévu de mener de bout en bout la création de corpus (train et eval) avec les équipes de l’INA, le développement du code et l’évaluation sur plusieurs modèles de fondation, dont ceux issus du projet Pantagruel. Un accès à notre cluster de calcul ainsi qu’à AdAstra est prévu.
Activités principales
Le profil recherché
Qualifications, diplômes, expérience :
Justifier d'un doctorat en informatique, spécialité : traitement automatique des langues et / ou machine learning, ou parcours professionnel admis en équivalence.
Compétences :