Matthieu Cord

Spécialiste de la vision par ordinateur

L’enjeu de mes recherches est d’identifier quels outils mathématiques permettent d'établir des ponts entre image et langage, et d’en définir les limites.

Au carrefour des pixels et des équations, Matthieu Cord cultive un monde où la vision humaine rencontre celle des machines. Professeur à Sorbonne Université, spécialiste de la vision par ordinateur et directeur scientifique de Valeo.ai, il navigue entre recherches académiques et applications industrielles pour décoder et réinventer la manière dont les machines perçoivent, comprennent et traduisent le monde visuel.

Matthieu Cord a la simplicité des grands. Derrière ses multiples casquettes, se cache un homme à l’enthousiasme contagieux, qui parle avec la même verve de ses recherches que d’un bon plat qu’il aurait cuisiné, convaincu que la science, comme la cuisine, est une affaire de partage.

En « bon petit Parisien », comme il aime le dire avec malice, Matthieu Cord a suivi un parcours classique pour un jeune scientifique prometteur. Au lycée, il se passionne pour les sciences avant d’entamer une classe préparatoire qui le conduit à Bordeaux, où il intègre une école d’ingénieurs tournée vers l’informatique et l’électronique. C’est lors de son master en traitement d’images que tout bascule. « J’étais fasciné par le fait que des transformations mathématiques étaient capables de révéler des éléments incroyables dans les images. C’est à ce moment-là que j’ai découvert ma vocation pour la recherche, confie-t-il. Quand j’ai compris que les machines pouvaient ‘voir’, ce fut une révélation ». Depuis, Matthieu Cord s’est donné pour mission de percer les mystères des images et de capturer leur essence profonde, là où les pixels rencontrent la sémantique.

Du traitement d'images à la vision par ordinateur

Après un stage au CEA, une thèse sur la télédétection à l’Université de Cergy-Pontoise et un postdoctorat en Belgique, où il approfondit ses connaissances en vision par ordinateur, Matthieu Cord devient maître de conférences à Cergy-Pontoise. C'est à ce moment qu'il formalise son domaine de recherche autour de l'apprentissage statistique appliqué aux images.

Il est ensuite nommé professeur à l’Université Pierre et Marie Curie en 2006 au LIP6 dirigé par Pascal Gallinari, puis nommé à l’Institut universitaire de France en 2008. Il prend la tête de l’équipe de Machine Learning (MLIA) en 2024 désormais installée au cœur de l’Institut des systèmes intelligents et de robotique de Sorbonne Université.

Faire parler les images

Dans les années 2000, les réseaux neuronaux, aujourd’hui au cœur de la révolution technologique, sont jugés dépassés. « À l’époque, tout le monde misait sur les SVM, des algorithmes de classification. Les réseaux de neurones étaient considérés comme ringards », se souvient-il. Pourtant, Matthieu Cord persévère. Il s’intéresse à la recherche d’images par contenu, une discipline émergente qui repose sur l’analyse des formes, couleurs et textures des images, sans passer par les mots-clés, pour en retrouver d’autres similaires. Cette approche, purement visuelle, soulève des questions fondamentales : qu'est-ce que signifie être proches pour deux images ? Qu’est-ce qu’une bonne mesure de similarité sémantique ? etc. Ces interrogations ont guidé une grande partie des recherches du scientifique, l'amenant à explorer les structures sous-jacentes des images et leur relation avec le langage.

Cette quête a naturellement ouvert la voie à une réflexion plus large : comment donner une voix aux images ? Entre 2010 et 2020, le chercheur change de focale. Son objectif : traduire ce que l’image raconte et explorer la façon dont une machine peut comprendre une scène et en produire une description pertinente.

De cette réflexion naissent des projets de captioning (légendage automatique) qui consiste à développer un système, souvent basé sur des réseaux de neurones, pour générer des phrases à partir d’une image. « Ce n’est pas simplement associer un mot à une image, mais produire des paragraphes voire un livre entier, à partir d’une image. Cela représente une avancée majeure dans la compréhension et la traduction des images », explique-t-il.

L’autre domaine qui découle de ces recherches sur l’interaction entre image et langage est le visual question answering, un système de question-réponse appliqué aux images. Le principe est simple : on donne à l’ordinateur une image et une question formulée en langage naturel, comme "Qu’est-ce qu’il y a dans cette pièce ?" ou "Combien y a-t-il de personnes ?". « La complexité réside dans le fait que la machine doit s’adapter à chaque question. Cela signifie que la machine ne se contente pas de décrire l’image de manière générale. Elle doit interpréter le contexte visuel en fonction de la question posée et ajuster sa réponse », souligne le chercheur.

Des applications concrètes dans des domaines multiples

Loin de rester confiné dans son laboratoire, Matthieu Cord a développé une capacité à relier des disciplines qui semblent au premier abord éloignées. Il a participé à de nombreux projets collaboratifs, nationaux ou internationaux, souvent en partenariat avec des équipes académiques et des industriels. Avec le Centre de Recherche et de Restauration des Musées de France, par exemple, il applique ses algorithmes au monde de l’art : retrouver une œuvre à partir d’un fragment d’image, identifier un style artistique ou comparer des copies.
Avec des démographes, il travaille sur les fameuses cartes de Cassini, ces représentations de la France du XVIIIe siècle, qu’il analyse à grande échelle pour mieux comprendre l’évolution des territoires et de la densité des populations.

Aujourd'hui, Matthieu Cord s'intéresse de près aux applications de l'apprentissage automatique dans le domaine de la robotique et de la mobilité.

Un pied dans le monde académique, l’autre dans celui de l’industrie

Au-delà de l’université, ses recherches trouvent également des applications directes dans l’industrie où il tisse des ponts entre innovation et besoins concrets. Parallèlement à son rôle d’enseignant-chercheur, Matthieu Cord est directeur scientifique de Valeo.ai, une équipe de recherche dédiée aux applications concrètes de l’IA dans la conduite autonome chez Valeo. « L’équipe compte environ 30 personnes : 20 chercheurs et une dizaine d’étudiants », précise-t-il.

Divisant son temps entre ses fonctions académiques et industrielles, il a su établir un pont solide entre ces deux mondes : « Ma semaine se partage entre l’entreprise et l’université. Cette flexibilité me permet de rester connecté aux besoins concrets de l’industrie tout en poursuivant mes recherches fondamentales. Par exemple, en entreprise, il est crucial de répondre à des questions concrètes : Qu’est-ce qu’un système performant ? Quelle est la bonne mesure pour l’évaluer ? Ce pragmatisme nourrit mes avancées théoriques, questionne les modèles traditionnels, tandis que la recherche fondamentale permet d’améliorer les outils pratiques. C’est un échange gagnant-gagnant. »

L'avenir : explorer les frontières entre image et langage

Pour Matthieu Cord, l'un des grands défis des prochaines années réside dans la compréhension des interactions entre le visuel et le langage. « Ces deux modalités sont des projections très différentes du monde, deux façons distinctes de percevoir et de représenter la réalité, explique-t-il. Même notre œil n’est pas totalement fidèle à la réalité : il reconstruit, comble des trous, et notre cerveau retravaille ce que nous croyons voir. Le langage, quant à lui, est profondément humain, construit pour interpréter et communiquer notre vision du monde. L’enjeu de mes recherches est d’identifier quels outils mathématiques permettent d'établir des ponts entre image et langage, et d’en définir les limites. Jusqu'où peut-on aller pour modéliser ces interactions ? »

Ces recherches à l’avant-garde de la vision artificielle, il les mène notamment à travers Visa Deep, une chaire qu’il co-dirige au sein de SCAI (Sorbonne Cluster Artificial Intelligence). Son objectif : dépasser les approches traditionnelles de la vision par ordinateur.

Une intrication entre art et science

Son goût pour l’exploration l’amène également à s’investir dans des projets où art et science s’entremêlent. Avec le laboratoire Obvious Research qu’il a monté en partenariat avec le collectif artistique Obvious et le soutien de l’agence nationale pour la recherche et de SCAI, Matthieu Cord explore une nouvelle dimension : la génération vidéo. « Mon idée est de produire des vidéos qui s’affranchissent des contraintes classiques des caméras (lentilles, filtres, etc.) pour créer des contenus proches des rêves, où la cohérence optique et spatiale est moins rigide. Nos rêves, par exemple, ressemblent souvent plus à des œuvres de Chagall qu’à des photographies. » Une façon, pour le chercheur, de rendre le travail intellectuel plus incarné, de lui donner une présence concrète.

Ce laboratoire, qui a donné naissance à une exposition en 2024, reflète une sensibilité artistique qui trouve également écho dans une autre passion du chercheur : la peinture. « Après des années à côtoyer l’abondance des images numériques, cette saturation visuelle a peut-être mis en lumière ce qui fait la force de la peinture : sa matérialité. L’épaisseur du grain, la luminosité, la texture », confie-t-il. Revenue récemment dans sa vie, la peinture est pour lui une source d’inspiration et un rappel que l’art visuel, avec sa vitalité et son intemporalité, reste profondément humain.

Mais c’est dans la cuisine, son autre source d’inspiration, qu’il réussit le mieux à combler ce besoin d’incarnation. « C’est une pratique physique où l’on touche des objets, où l’on est présent à ce que l’on fait, et qui nécessite rigueur, rythme et improvisation », décrit-il. Cette passion va même jusqu’à inspirer ses réflexions technologiques. « À une époque, j’avais développé une appli qui permettait de trouver des recettes à partir de photos de plats. Aujourd’hui, une IA pourrait peut-être deviner ce que j’aime cuisiner ! », sourit-il.