Le stockage des données sur l'ADN : une technologie révolutionnaire
Le stockage des données sur l'ADN : une technologie révolutionnaire
  • Recherche

Le stockage des données sur l'ADN : une technologie révolutionnaire

Interview croisée avec Stéphane Lemaire et Pierre Crozet, spécialistes de biologie moléculaire au laboratoire de biologie computationnelle et quantitative et cofondateurs de la startup Biomemory.

Le stockage des données mondiales est devenu un enjeu crucial pour nos sociétés. Pour y faire face, Stéphane Lemaire et Pierre Crozet, spécialistes de biologie moléculaire au laboratoire de biologie computationnelle et quantitative, développent une technologie innovante : le stockage sur ADN.

À l’occasion d’une conférence de presse exceptionnelle, organisée par, Sorbonne Université, mardi 23 novembre au musée des Archives nationales, l’équipe de recherche a présenté son projet « La Révolution de l’ADN ». Cette preuve de concept a permis d'encoder sur ADN deux textes à forte valeur symbolique et historique, la Déclaration des droits de l’homme et du citoyen de 1789 et la Déclaration des droits de la femme et de la citoyenne d'Olympe de Gouges. Les Archives nationales ont officiellement enregistré le dépôt de ces documents stockés sur ADN, une première mondiale pour une institution publique.

En quoi le stockage des données est-il devenu un enjeu critique majeur du XXIe siècle ?

Stéphane Lemaire : L'ensemble des données mondiales représente aujourd’hui 45 Zetta-octets1  (Zo), soit 45 milliards de milliards de kilo-octets, et passera d’ici trois ans à 175 Zo. Cette augmentation vertigineuse est liée à la transformation numérique de notre société et notamment à l’émergence de l'internet des objets, de l’informatique quantique, des voitures autonomes, de la transformation industrielle et du développement de l’intelligence artificielle. Depuis 2010, nous vivons à crédit, avec une demande de stockage bien supérieure à son offre.

Si les supports actuels voient leurs capacités de stockage progresser, elles n’augmentent pas aussi vite que la production de données. Ces supports classiques, comme les disques durs, les bandes magnétiques ou les Blu-Ray, restent également fragiles, volumineux et énergivores. Il faut, par exemple, les remplacer tous les cinq à sept ans dans les data centers dont la consommation électrique représente à elle seule 2% de la consommation mondiale et l’empreinte carbone dépasse celle de l'aviation civile. Stratégique pour l’économie, la pérennité et la sécurité de nos sociétés, le stockage des données nécessite donc une rupture technologique.

Quelle solution proposez-vous ?

Pierre Crozet : Il existe, depuis quatre milliards d’années, une forme naturelle de stockage des données : l’ADN. Pour stocker l'information génétique, tous les êtres vivants utilisent deux molécules entrelacées constituées de quatre briques : les nucléotides, symbolisées par les lettres A, T, C et G (l'Adénine, la Thymine, la Cytosine et la Guanine).

Nous pensons que le stockage sur ADN est la seule technologie raisonnable envisageable pour remplacer les supports d’archivage actuels. Il se conserve pendant des centaines de milliers d’années sans aucun apport d’énergie, s’il est préservé de l’eau, de l’air et de la lumière. Il est aussi un million de fois plus compact que n’importe quel support classique. Avec une densité de 450 millions de To2  par gramme d’ADN, l’intégralité des données mondiales pourrait tenir dans le volume d’une tablette de chocolat.

Le stockage sur ADN, qu'est-ce que c'est ?

Il s’agit de transformer les données numériques binaires (0 ou 1) en lettres correspondant aux quatre briques de l’ADN (A, T, C, G). La séquence de nucléotides est ensuite synthétisée sur des fragments d’ADN pouvant être conservés sur du papier, dans un tube, une capsule métallique, etc. L’information stockée peut ensuite être lue à l’aide de séquenceurs d'ADN, similaires à ceux utilisés en biologie et en médecine pour séquencer les génomes. Une fois la succession de lettres obtenue, il ne reste qu’à la reconvertir en données binaires, en utilisant le même code que celui ayant servi à l'écriture, pour récupérer l'information numérique.

L’idée d’utiliser l’ADN comme support d’information numérique a été émise dès 1959 par Richard Feynman, lauréat du prix Nobel de physique de 1965. En quoi consiste votre innovation ?

S. L. : La première démonstration significative du stockage sur ADN a été faite à Harvard, en 2012, par Georges Church. Depuis, plusieurs équipes l’ont développé. Mais jusqu’à présent, ce stockage ne se faisait que sur des petites molécules d’environ 200 nucléotides ne constituant qu’un seul brin d’ADN. Ces petits fragments ne sont pas manipulables dans le vivant qui utilise des grandes séquences à deux brins, comme les chromosomes.

Nous avons donc décidé d'aller plus loin en utilisant des techniques de biologie de synthèse3 que nous avons développées dans nos recherches, comme un système permettant de standardiser les briques d’ADN pour les combiner plus facilement. Nous avons choisi de mimer le vivant et d’adapter ses technologies à travers une solution bio-inspirée. Cette solution, que nous avons appelée DNA Drive, consiste à assembler les petits fragments d’ADN qui ont été synthétisés à partir de l’information numérique pour en faire de longues molécules double brin biocompatibles, c’est-à-dire manipulables par des cellules vivantes. Les grandes molécules ainsi obtenues peuvent être intégrées dans une bactérie, qui va dupliquer naturellement l’ADN et les informations qu'il porte. En très peu de temps, il est possible d’obtenir 100 milliards de copies du fichier pour un coût très faible.

Ces molécules d’ADN comportent-elles un risque pour l’environnement ?

P. C. : Les molécules d’ADN sont biosécurisées, c’est-à-dire rendues illisibles pour la vie : l'ADN est crypté afin de ne porter aucune information génétique potentiellement dangereuse pour l’être humain ou pour l’environnement. Il est ensuite extrait de la bactérie et stocké dans une capsule en acier inoxydable. Chaque capsule peut contenir une quantité d'ADN correspondant à 5000 To de données numériques.

Capsules contenant les deux textes encodés sur ADN. Photo : Stéphane Lemaire / CNRS – Sorbonne Université

Capsules contenant les deux textes encodés sur ADN. Photo : Stéphane Lemaire / CNRS – Sorbonne Université

Pour récupérer les données, l’ADN doit être réhydraté et la séquence relue par un séquenceur. L’algorithme que nous avons développé permet de récupérer l'information numérique qui est ensuite décompressée pour retrouver les fichiers d'origine. Notre technologie, DNA Drive, permet d'organiser physiquement les données à la manière d'un disque dur et d'encoder tous les types de fichiers numériques (médias, dossiers, programmes informatiques, etc.).

Comment avez-vous eu l’idée de vous lancer dans un projet d’une telle envergure ?  

S. L. : En 2018, des étudiants de l’association Alma mater ont écrit, dans leur journal, un article sur le stockage sur ADN. Après leur avoir dit que mon équipe pouvait maîtriser ce genre de technologie, ils m'ont mis au défi d’encoder la Déclaration des droits de l'homme et du citoyen. C’était une excellente idée à laquelle j’ai souhaité ajouter la Déclaration des droits de la femme et de la citoyenne d’Olympe de Gouges. Avec Pierre Crozet, nous avons lancé le projet « la révolution de l’ADN » pour encoder ces deux textes fondateurs et obtenir une preuve de concept de l’efficacité de notre technologie.

Il s’agit d’un travail pluridisciplinaire. Quelles ont été vos collaborations ?  

P. C. : Absolument. En plus de la collaboration avec des ingénieurs en bio-informatique, nous avons rencontré des historiens pour savoir quelle version de la Déclaration des droits de la femme et de la citoyenne nous devions encoder. Nous avons ensuite monté un partenariat avec les Archives Nationales pour enregistrer officiellement ces deux textes encodés sur ADN, une première mondiale pour une institution publique. Les capsules contenant les deux textes seront stockées dans l’armoire de fer qui contient les plus précieux documents des Archives nationales, comme le testament de Louis XIV, le journal de Louis XVI ou le manuscrit de la Déclaration des droits de l'homme et du citoyen.

En parallèle, nous avons aussi travaillé avec l’entreprise américaine, Twist Bioscience, qui a synthétisé les fragments d'ADN que nous avons ensuite assemblés et organisés sur des grandes molécules d'ADN. Nous avons amplifié biologiquement ces molécules avant de les extraire et de les purifier. L’entreprise française Imagene s’est occupée, quant à elle, d’encapsuler les molécules d’ADN.

Ce projet a débouché sur une véritable aventure entrepreneuriale, n’est-ce pas ?

S. L. : En 2019, nous avons conçu et breveté la technologie DNA Drive en partenariat avec Sorbonne Université, le CNRS et la Satt Lutech. Puis, en juillet 2021, nous avons fondé notre start-up Biomemory, avec l’entrepreneur Erfane Arwani. Depuis, nous partageons notre temps entre le développement de la société et la poursuite de nos activités académiques. Nous restons avant tout biologistes.

La technologie DNA Drive a été conçue et brevetée grâce à des financements d’amorçage de Sorbonne Université, du CNRS et de la Satt Lutech.

En 2021, nous avons remporté le concours d’innovation I-lab. Ce label permet d’attester de la solidité de notre projet aussi bien sur le plan économique que scientifique. Nous avons notamment été expertisé par l’un des plus grands experts mondiaux du stockage de données sur ADN.

Aujourd’hui, nous continuons d’être soutenus et accompagnés par l’université, le CNRS, la Satt Lutech, mais aussi par des investisseurs extérieurs, dont des acteurs du stockage de données.
Nous continuons à améliorer la technologie DNA Drive grâce la biologie de synthèse. Nous sommes persuadés que cette discipline va changer le monde, comme la chimie de synthèse l’a fait il y a deux siècles.


  1 1021 octets. Il faudrait 2,5 millions d'années pour télécharger un zetta-octet avec une connexion internet fibre optique
  2 Un téraoctet correspond à 1012 octets.
  3 Depuis le XXIe siècle, la synthèse biologique permet de concevoir des systèmes biologiques innovants pour répondre à des questions fondamentales ou créer de nouvelles applications, comme l’a fait la chimie au XXe : biocarburants, biotextiles, bioplastiques, biomatériaux, nouvelles solutions thérapeutiques, stockage d'informations numériques sur ADN, etc.

 

Crédit photographique : Capsules contenant les deux textes encodés sur ADN. Stéphane Lemaire / CNRS – Sorbonne Université

Encapsuler nos données