Trois images satellite (Landsat-8) où l'on peut reconnaître des motifs ressemblant aux lettres H, D et R

Soutenance de l'habilitation à diriger des recherches - Nicolas Audebert

Directeur de recherches junior - LASTIG, Université Gustave Eiffel, IGN, ENSG

Maître de conférences en informatique (en détachement) - Cnam, CEDRIC

J'ai le plaisir de vous inviter à ma soutenance d'Habilitation à Diriger des Recherches de l'université Gustave Eiffel, qui se déroulera le 20 mai 2025 à 14h00 au Conservatoire national des arts et métiers à Paris, dans l'amphithéâtre Aimé Laussédat.

La soutenance sera précédée le matin à 11h d'un exposé de David Picard, directeur de recherches de l'École nationale des ponts et chaussées (Laboratoire d'informatique Gaspard Monge).

La soutenance sera suivie d'un pot. Vous pouvez ne venir qu'à celui-ci si vous préférez vous épargner 3h de présentation et de questions/réponses. ;)

Pour fêter cet événement encore plus dignement, j'organise une célébration le vendredi 23 mai au soir, lieu et activité à déterminer selon votre nombre !

L'inscription est préférée mais non obligatoire:

La soutenance aura lieu devant un jury composé de :

Résumé : Deep learning has become ubiquitous in computer vision. Deep models are used to learn representations of images tailored to specific tasks, from image synthesis to semantic segmentation by way of image retrieval. Yet, the representations learned by these models have elusive properties. They are obviously effective for many problems but how far can we push their limits? Can these representations encode several modalities, e.g. text and image, at the same time? Are there semantics encoded in latent representations, and if so, can we explicit them? Can deep models deal with problems more sophisticated than traditional classification, such as tasks where the inputs, the outputs, or both, are unusually structured? This manuscript tries to answer these questions through a collection of works on representation learning for computer vision. The contributions will extend deep learning alongside three directions: multimodal learning, generative models and structured problems. Tackled applications cover problems in Earth Observation, document analysis, image synthesis, point cloud segmentation, content-based retrieval and symbolic music processing.