Des chercheurs de Profluent Bio, en partenariat avec des instituts académiques internationaux, ont développé OpenCRISPR-1, un système d’édition génétique innovant conçu via des modèles d’intelligence artificielle entraînés sur une immense base de données comprenant plus d’un million d’opérons CRISPR issus de 26 téra bases de génomes et métagénomes. Cette approche tire parti de modèles de langage protéique (protein language models, LMs) qui apprennent les contraintes évolutives et fonctionnelles des protéines pour générer des séquences nouvelles et diversifiées.
Une diversification exceptionnelle des protéines CRISPR-Cas
En affinant ces modèles sur diverses familles CRISPR-Cas, les chercheurs ont généré environ 4 millions de nouvelles séquences protéiques, multipliant par 4,8 la diversité protéique naturelle observée, avec un enrichissement marqué dans les familles Cas9, Cas12a et Cas13. OpenCRISPR-1, issu de cette génération, s’écarte radicalement de SpCas9, avec plus de 400 mutations, tout en conservant sa capacité de ciblage efficace et spécifique du génome humain.
Performance et spécificité démontrées dans les cellules humaines
OpenCRISPR-1 a été testé fonctionnellement dans des cellules HEK293T, révélant une efficacité d’édition comparable ou supérieure à SpCas9 sur plusieurs sites cibles. Il se distingue par une forte réduction (~95%) des effets hors cible, ce qui diminue les risques d’édition non désirée. Cette spécificité accrue a été confirmée via des analyses genome-wide de coupures hors cible (SITE-Seq), montrant que les sites hors cible identifiés pour OpenCRISPR-1 sont un sous-ensemble de ceux connus pour SpCas9, attestant d’un profil de sécurité favorable.
Compatibilité avec l’édition de bases et nouveaux guides ARN conçus
Une mutation responsable d’activités de nickase a permis de fusionner OpenCRISPR-1 avec des déaminases d’adénosine, générant ainsi des éditeurs de bases capables de convertir efficacement des A en G sans induire de cassures doubles brins. Les chercheurs ont par ailleurs développé un modèle génératif pour concevoir des ARN guides (sgRNAs) adaptés aux nouvelles protéines générées, optimisant ainsi l’efficacité d’édition avec plusieurs variantes développées.
Réduction de l’immunogénicité et robuste modélisation structurelle
L’analyse des épitopes immunitaires a montré qu’OpenCRISPR-1 manque des principaux épitopes T spécifiques à SpCas9, suggérant un potentiel immunologique réduit. Des prédictions structurelles par AlphaFold2 ont révélé que les mutations se concentrent majoritairement à la surface solvée, préservant les domaines catalytiques et de liaison essentiels, et intégrant même des insertions susceptibles de stabiliser l’interaction protéine-ADN/ARN.
Vers des éditeurs génomiques sur mesure et plus sûrs
Ce travail illustre que les modèles de langage protéiques permettent de contourner les contraintes évolutives naturelles, produisant des éditeurs génomiques très fonctionnels et sécurisés, adaptés à des besoins biotechnologiques et thérapeutiques variés. La ressource CRISPR–Cas Atlas développée enrichit cette démarche en fournissant une base de données étendue pour la conception de futurs outils, ajustables en fonction de leurs propriétés spécifiques (taille, préférence PAM, température optimale, etc.).
📖À lire dans la revue Nature : Design of highly functional genome editors by modelling CRISPR–Cas sequences, par Ruffolo et al., 2025 – DOI : 10.1038/s41586-025-09298-z