La vision par ordinateur
La vision par ordinateur
  • Recherche

La vision par ordinateur : un domaine de recherche en pleine expansion

Comment les machines ouvrent petit à petit les yeux sur notre monde ? Entretien avec Matthieu Cord

Matthieu Cord

Avec le développement de l’intelligence artificielle (IA), les machines ne sont plus seulement capables de reconnaître les objets et de les localiser, elles peuvent désormais analyser les images et les interpréter. Professeur à l'Institut des systèmes intelligents et de robotique (ISIR) et chercheur au laboratoire valeo.ai, Matthieu Cord nous apporte des clés pour mieux comprendre comment les machines ouvrent petit à petit les yeux sur notre monde.  

Quelles étapes ont jalonné le développement de la vision par ordinateur ?

Matthieu Cord : La vision par ordinateur a commencé dans les années 80 avec la « compréhension géométrique de l'image » qui ne nécessitait aucun apprentissage. La machine devait être capable de donner pour chaque pixel de l’image une information de profondeur de la scène photographiée (premier ou arrière-plan, etc.). Puis, dans les années 90-2000, les chercheurs de vision par ordinateur ont commencé à vouloir reconnaître des formes et des objets pour interpréter le contenu des images. Et c’est là que la rencontre avec l'apprentissage statistique a été décisive. Pour transformer une image de départ en une information sémantique (ce que l’image représente, par exemple), on utilise une fonction mathématique, comportant de nombreux coefficients. Si on change les valeurs de ces coefficients, le résultat change. L’objectif est que la machine apprenne à régler ces paramètres pour que chaque fois qu'on lui présente une image elle identifie correctement son contenu. 

Avec l’apprentissage dit supervisé, la machine s’entraîne sur des millions d’images « étiquetées », c’est-à-dire auxquelles on a préalablement attribué le résultat attendu. On la guide en lui indiquant, pour chaque image, si sa réponse est correcte. Au début, elle se trompe systématiquement. Puis elle apprend de ses erreurs, en ajustant ses paramètres afin d’améliorer ses performances. Au fil des entraînements, le nombre d’erreurs diminue jusqu’à ce que la machine ne se trompe plus, et soit même capable de généraliser son apprentissage à de nouveaux cas. On peut alors l’utiliser pour reconnaître des objets, des visages, etc. 

La vision par ordinateur, qu’est-ce que c’est ? 

À la frontière entre les mathématiques et l’informatique, la vision par ordinateur est une branche de l’intelligence artificielle qui s'intéresse au traitement d’images. Son objectif est d’extraire, à partir de données brutes (images ou vidéos numériques), des informations pertinentes, interprétables et exploitables par un ordinateur ou un robot. 

Quelles sont les dernières avancées dans ce domaine ? 

M. C. : Ces techniques d’apprentissage supervisé sont devenues aujourd’hui extrêmement puissantes et peuvent égaler voire dépasser la vision humaine. Mais elles reposent sur l’utilisation de bases de données étiquetées souvent gigantesques. L’un des champs de recherche actuels est donc de rendre la machine plus autonome dans son apprentissage. C’est que l’on appelle « l’apprentissage non supervisé » : les données sont communiquées à la machine sans avoir besoin de lui fournir de supervision explicite. Des solutions innovantes ont émergé dans ce sens. Pour le moment, elles ne fonctionnent pas aussi bien que l’apprentissage entièrement supervisé, mais elles sont très prometteuses.

Pouvez-vous nous en dire plus sur la chaire de recherche et d'enseignement que vous dirigez ? 

M. C. : Je suis lauréat de la chaire du programme national sur l'IA 2020 intitulée « VISA-DEEP : vers un raisonnement visuel dans l'apprentissage profond ». L’apprentissage profond, deep learning en anglais, s'appuie sur un réseau de neurones artificiels, composé de dizaines voire de centaines de « couches » de neurones (d’où le terme "profond", deep), empilées les unes sur les autres et interdépendantes. Ce réseau constitue un exemple de fonction mathématique évoquée précédemment avec beaucoup de paramètres à apprendre (d’où le terme "apprentissage", learning). Dans la chaire que je dirige, nous cherchons, à l’aide de cette méthode, non plus seulement à ce que la machine reconnaisse ou localise un objet, mais qu’elle opère des mécanismes plus évolués, une forme de raisonnement par rapport aux objets. Par exemple, si la tâche vise non pas juste à détecter les personnes dans une image mais à savoir combien sont assises à côté de la fenêtre, cela implique de détecter les personnes, la fenêtre, mais aussi ce que veut dire « près de », « assis », etc., et donc d’avoir une certaine forme de raisonnement.

Quelles sont les différentes applications de la vision par ordinateur ? 

M. C. : Les applications sont multiples et concernent de nombreux champs de la société. La vision par ordinateur est utilisée par exemple pour le développement de la mobilité autonome (voitures, trains, navettes, drones, etc.), pour les robots dans l’industrie, ou ceux que l’on envoie sur des sites à risque. On s’en sert également dans les domaines de la sécurité et de la défense, notamment à travers la reconnaissance faciale. La vision par ordinateur est aussi très utilisée dans le domaine de la santé.  Elle permet par exemple d’assister les médecins pour un  diagnostic ou lors d’opérations. Au sein de Sorbonne Université, SCAI rassemble et coordonne de nombreuses initiatives interdisciplinaires en IA. J’ai pour ma part une collaboration avec le Pr. Lionel Naccache qui travaille à l’Institut du Cerveau sur des problèmes de neuroimagerie fonctionnelle, et mon collègue Patrick Gallinari dirige une chaire sur le thème IA et climat à l’ISIR
Mais la vision par ordinateur peut aussi être employée dans des contextes ludiques. J’ai, par exemple, développé avec mon équipe une application qui permet, quand on photographie un plat cuisiné avec son smartphone, d’en obtenir automatiquement la recette.

La vision par ordinateur pose des questions éthiques. Comment les prenez-vous en compte dans vos recherches ? 

M. C. : Les IA qu'on fabrique sont façonnées par les données qu’on fournit à la machine. Or la façon dont on les choisit n’est pas neutre. Elle peut être porteuse de biais, qui pour certains posent de graves problèmes lors d’une utilisation non contrôlée ou inappropriée. C’est pourquoi nous avons développé un axe sur la détection des biais et la manière de les prendre en compte. Mon doctorant Corentin Dancette a récemment publié une nouvelle stratégie d'apprentissage qui permet de corriger certains biais. Les questions éthiques qui se posent en lien avec l’IA dépassent largement ce cadre. Mon collègue de l’ISIR, Raja Chatila, porte des actions remarquables sur ces thèmes très variés comme l’autonomie des robots, la reconnaissance faciale, la consommation énergétique des machines, etc. Tous mes doctorants sont très concernés par ces aspects, et je trouve que c’est une bonne chose !