Le génome humain a été cartographié, mais ce n’est pas le cas des génomes de la plupart des êtres humains – tout du moins, pas encore. Lorsque les génomes individuels seront cartographiés, il y aura toutefois un problème : il n’y a tout simplement pas suffisamment d’espace dans les systèmes informatiques du monde entier pour stocker ces données.

« La simple taille des données génomiques », explique Rafael Feitelberg, directeur général de Geneformics, entreprise située à Petah Tikvah, « est l’un des principaux éléments empêchant les génomes d’être véritablement omniprésents dans le monde. »

Un génome humain séquencé peut représenter 200 à 300 gigaoctets (Go) de données brutes, tandis qu’un génome analysé peut occuper un plein téraoctet (To) d’espace sur un disque. « Si vous voulez créer une banque de gènes, l’ampleur même des données va se révéler vraiment, vraiment prohibitive », ajoute-t-il.

Geneformics « est sur le point d’offrir les outils et les infrastructures pour rendre accessibles les données génomiques par la compression », indique Feitelberg.

L’intérêt de la cartographie génique de l’être humain ne réside pas seulement dans le fait de savoir comment les gènes interagissent en général, mais parce qu’elle permettra, à terme, de pouvoir être appliquée aux individus. Avec un génome cartographié à disposition, par exemple, l’époque de la médecine personnalisée pourrait prospérer. Les médecins pourraient développer des médicaments personnalisés pour les patients, en garantissant que le médicament visera spécifiquement le problème soulevé sans effet secondaire.

Séquence d'ADN décodée. Illustration. (Crédit : Sjef/Domaine public/WikiCommons)

Séquence d’ADN décodée. Illustration. (Crédit : Sjef/Domaine public/WikiCommons)

Geneformics compte dorénavant parmi ses clients deux des plus grandes organisations de séquençage de gènes dans le monde : WuXi NextCode, qui se trouve dans le Massachusetts, et l’Institut de recherche médicale Garvan de Sydney.

L’un des problèmes de la compression de données reste les évènements qui peuvent survenir à la décompression d’un dossier, et de garantir que les données restent fonctionnelles. « La compression de données devrait être quelque chose de véritablement annexe, qui n’entraîne aucune perte et qui est transparent, affirme Feitelberg. Ce qui signifie que dans une perspective de compression et de solution, nous sommes capables de décompresser les données à grande vitesse et de les rendre à travers toutes ces applications sous une forme qui ne tolère aucune perte. Cela doit être l’équivalent, morceau par morceau, du dossier original qui n’a pas été compressé. »

Geneformics est une production de l’Institut Weizmann des sciences, situé à Rehovot, en Israël, et a basé ses activités sur les travaux de compression de données du bio-informaticien de Weizmann, Eran Segal, qui a cofondé l’entreprise en 2014 avec Arik Keshet, directeur actuel de la technologie au sein de Geneformics.

Le financement est venu d’investisseurs, notamment du président de Geneformics Dov Moran, créateur de DiskOnKey, largement cité comme la première clef USB. Moran et deux sociétés de capital-risque privées ont placé environ 2,85 millions de dollars dans Geneformics, selon Crunchbase. L’entreprise a récemment sorti Geneformics D, son premier service informatique uniquement sur cloud.

Son fonctionnement, dit Keshet, le directeur de la technologie, est un secret commercial. « C’est une entreprise jeune, il n’y a vraiment aucune norme de compression pour le moment. Vous ne trouverez pas votre équivalent de JPEG ou de MPEG » en matière de gènes, ajoute-t-il.

« En fait, quand cet espace arrivera à maturation, nous nous attendons à ce que des normes se soient formées. Actuellement, nous avons la technologie et la [propriété intellectuelle], ainsi que la présence sur le marché pour influencer ces normes. »

Ce que peut dire l’entreprise, indique Feitelberg, c’est que l’économie de données peut être importante. « Avec la compression, nous réduirons l’empreinte d’environ 90 %. En plus, avec une hiérarchisation intelligente au niveau granulaire des données génomiques, nous pourrons alors augmenter encore ces économies », poursuit-il.

Avec l’accord passé avec l’Institut Garvan, qui possède l’une des plus importantes bases de données dans le monde, l’entreprise est sur la voie de la réussite internationale.

« Cela a été un partenariat très fructueux. Nous avons pu être en mesure de construire une infrastructure permettant que, s’ils se développeront encore, ils pourront le faire de manière compressée et efficace, ajoute Feitelberg. Notre point de vue est que les chercheurs et les bio-informaticiens ne devraient jamais devoir changer l’analyse qu’ils sont en train de faire en raison de la compression de données. »